This media is not supported in your browser
VIEW IN TELEGRAM
Вот еще пример работы метода на атрибутах для портрета человека. С волосами поганенько получилось 😅
Go Спарк! Еее.
Telegram
Future Sailors — VR, AR and stuff
Прямое сравнение технологии face tracking.
Effector конечно кирпич 3-е место без обсуждений. А вот Lens и Spark уже не однозначно, но по практики, да и по этому видео, я бы отдал первое место Spark.
1 place: Spark AR Studio (Instagram and Facebook)
2 place:…
Effector конечно кирпич 3-е место без обсуждений. А вот Lens и Spark уже не однозначно, но по практики, да и по этому видео, я бы отдал первое место Spark.
1 place: Spark AR Studio (Instagram and Facebook)
2 place:…
Media is too big
VIEW IN TELEGRAM
Stitch it in Time: GAN-Based Facial Editing of Real Videos
Тут новая статейка вышла, где показывают очень качественное редактирование видео. Статья очень хорошо написана и содержит ссылки на важные работы в области редактирования фото и видео. Рекомендую к прочтению!
Метод коротко: берем натренированный на лицах StyleGAN2, затем вырезаем лица из видео и все сразу пропускаем через энкодер, который проецирует их в пространство StyleGAN. Энкодер переводит близкие кадры в похожие вектора (результат лучше чем при оптимизации каждого вектора отдельно). Далее генератор StyleGAN2 немного файнтюнится, чтобы повысить точность реконструкции на данном видео. После этого вектора смещаются в неком направлении (которое нужно найти заранее), например в котором появляется улыбка. Затем генератор еще раз файнтюнится так, чтобы не было видно переходов на границе, но сохраняя изменения лица (тут используют сегментационную маску). Вырезанные и измененные лица вставляются назад в видео. Вуа-ля!
>> Сайт проекта >> Код скоро
Тут новая статейка вышла, где показывают очень качественное редактирование видео. Статья очень хорошо написана и содержит ссылки на важные работы в области редактирования фото и видео. Рекомендую к прочтению!
Метод коротко: берем натренированный на лицах StyleGAN2, затем вырезаем лица из видео и все сразу пропускаем через энкодер, который проецирует их в пространство StyleGAN. Энкодер переводит близкие кадры в похожие вектора (результат лучше чем при оптимизации каждого вектора отдельно). Далее генератор StyleGAN2 немного файнтюнится, чтобы повысить точность реконструкции на данном видео. После этого вектора смещаются в неком направлении (которое нужно найти заранее), например в котором появляется улыбка. Затем генератор еще раз файнтюнится так, чтобы не было видно переходов на границе, но сохраняя изменения лица (тут используют сегментационную маску). Вырезанные и измененные лица вставляются назад в видео. Вуа-ля!
>> Сайт проекта >> Код скоро
Как много приложений и возможностей открыл StyleGAN. Хотя были ганы и до этого, но именно StyleGAN воистину универсальная и прорывная штука.
С декабря 2018 года, когда его впервые опубликовали на архиве, статья набрала 3.5к цитирований. Бесчисленное множество прилог было построено на StyleGAN 1 и 2 за три года. Вот только StyleGAN3 все ещё не так сильно пошел в массы. Люди боятся теории что ли?
Всё-таки NVIDIA – красавчики.
С декабря 2018 года, когда его впервые опубликовали на архиве, статья набрала 3.5к цитирований. Бесчисленное множество прилог было построено на StyleGAN 1 и 2 за три года. Вот только StyleGAN3 все ещё не так сильно пошел в массы. Люди боятся теории что ли?
Всё-таки NVIDIA – красавчики.
Forwarded from DL in NLP (Vlad Lialin)
Как мне подойти к задаче классфификации/QA/NER/...? В чатах можно часто услышать такие вопросы. И несмотря на обилие туториалов по всем стандартным задачам NLP, я пока что не видел хорошего места, куда можно было бы послать людей, где есть все эти задачки.
Теперь такое место есть! 🤗 Tasks
Вы выбираете задачу, которая вас волнует: классификация, QA, NER, MT, суммаризация, генерация, схожесть текстов
На каждую из них есть короткая лекция, описываются вариации задачи, есть ссылки на датасеты и предобученные модели. Самое главное: есть ссылки на A) хороший ноутбук, который подробно, но доступно описывают как применить условный BERT к этой задаче B ) хорошо задокументированный скрипт, который вы можете легко подогнать под свою задачу.
Кроме этого есть ссылки на релевантные блогпосты, которые могут рассматривать задачу с разных сторон. В общем советую теперь слать людей на 🤗 Tasks.
Теперь такое место есть! 🤗 Tasks
Вы выбираете задачу, которая вас волнует: классификация, QA, NER, MT, суммаризация, генерация, схожесть текстов
На каждую из них есть короткая лекция, описываются вариации задачи, есть ссылки на датасеты и предобученные модели. Самое главное: есть ссылки на A) хороший ноутбук, который подробно, но доступно описывают как применить условный BERT к этой задаче B ) хорошо задокументированный скрипт, который вы можете легко подогнать под свою задачу.
Кроме этого есть ссылки на релевантные блогпосты, которые могут рассматривать задачу с разных сторон. В общем советую теперь слать людей на 🤗 Tasks.
huggingface.co
Tasks - Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Кстати, в Tasks от Hugging Face есть инфа не только о том, как решать стандартные задачи из NLP, но и из Audio и Computer Vision. Все это аккомпанируется подробными примерами, датасетами и готовыми моделями.
https://huggingface.co/tasks
https://huggingface.co/tasks
Forwarded from TechSparks
Инженеры Meta рассказали в блоге компании о AI Research SuperCluster (RSC) — суперкомпьютере для обучения моделей в областях, связываемых с ИИ: работа с естественным языком, распознавание речи и компьютерное зрение.
Вычислительный кластер содержит 760 NVIDIA DGX A100 в качестве вычислительных узлов (6,080 GPU) — с сетевой инфраструктурой на основе NVIDIA Quantum 200 Gb/s InfiniBand. Емкость накопителя — 175 петабайт на Pure Storage FlashArray, кэш — 46 петабайт в Penguin Computing Altus systems. Утверждается, что когда кластер к середине года доведут до полной комплектации и мощности, он станет самым могучим в мире суперкомпьютером для задач в области ИИ.
И, конечно же, заявлено, что этот монстр — начало дороги к построению метавселенной, the next major computing platform — the metaverse, where AI-driven applications and products will play an important role.
https://ai.facebook.com/blog/ai-rsc
Вычислительный кластер содержит 760 NVIDIA DGX A100 в качестве вычислительных узлов (6,080 GPU) — с сетевой инфраструктурой на основе NVIDIA Quantum 200 Gb/s InfiniBand. Емкость накопителя — 175 петабайт на Pure Storage FlashArray, кэш — 46 петабайт в Penguin Computing Altus systems. Утверждается, что когда кластер к середине года доведут до полной комплектации и мощности, он станет самым могучим в мире суперкомпьютером для задач в области ИИ.
И, конечно же, заявлено, что этот монстр — начало дороги к построению метавселенной, the next major computing platform — the metaverse, where AI-driven applications and products will play an important role.
https://ai.facebook.com/blog/ai-rsc
Meta
Introducing the AI Research SuperCluster — Meta’s cutting-edge AI supercomputer for AI research
This media is not supported in your browser
VIEW IN TELEGRAM
Вот вы говорите «Да, зачем эти генеративные модели? От них толку на практике ноль». Может оно и так или нет, но зато какой арт из них получается!
Вот например челик прибабахал к диффузионным моделям возможность генерить псевдо 3D сцены с зумом. Выглядит как полёт внутри фантастической пещеры художника!
Коллаб Disco Diffusion v 4.1 (пока без 3D)
Вот например челик прибабахал к диффузионным моделям возможность генерить псевдо 3D сцены с зумом. Выглядит как полёт внутри фантастической пещеры художника!
Коллаб Disco Diffusion v 4.1 (пока без 3D)
Forwarded from DL in NLP (Vlad Lialin)
Давно не было подборки новостей и интересных блогпостов
1. Text and Code Embeddings in the OpenAI API — теперь можно доставать эмбеддинги текстов через OpenAI API. Эти эмбеддинги сильно обходят SentenceBERT, GPT-3, хорошо работают в нестандартных доменах, например астрономии и вообще взяли кучу SOTA. Подробнее в статье Text and Code Embeddings by Contrastive Pre-Training, сделаем её обзор в ближайшие дни.
1. ε, A Nuisance No More — пост о том, что eps нужен не только для устранения численых ошибок. Например в ADAM высокие eps делают оптимизатор чуть-чуть больше похожим на SGD, что может быть полезно, когда моменты плохо описывают поверхность лосса. В BatchNorm/LayerNorm высокие eps выполняют роль сглаживания компонент вектора. На практике иногда такие высокие значения eps как 1e-3 или даже 1e-1 могут сильно помогать оптимизации и зачастую тюнинг eps полезен.
1. On the Difficulty of Extrapolation with NN Scaling — мы все слышали про scaling laws, однако на практике мало кто умеет их готовить. Просто от увеличения модели в 2 раза, вы можете не получить ожидаемого улучшения качества, тк scaling laws вообще говоря требуют адаптации batch size, lr, других гиперпараметров и в общем случае, размера датасета. Блогпост обсуждает случаи, когда люди слишком сильно надеятся на scaling laws и забывают про эти важные детали.
1. Text and Code Embeddings in the OpenAI API — теперь можно доставать эмбеддинги текстов через OpenAI API. Эти эмбеддинги сильно обходят SentenceBERT, GPT-3, хорошо работают в нестандартных доменах, например астрономии и вообще взяли кучу SOTA. Подробнее в статье Text and Code Embeddings by Contrastive Pre-Training, сделаем её обзор в ближайшие дни.
1. ε, A Nuisance No More — пост о том, что eps нужен не только для устранения численых ошибок. Например в ADAM высокие eps делают оптимизатор чуть-чуть больше похожим на SGD, что может быть полезно, когда моменты плохо описывают поверхность лосса. В BatchNorm/LayerNorm высокие eps выполняют роль сглаживания компонент вектора. На практике иногда такие высокие значения eps как 1e-3 или даже 1e-1 могут сильно помогать оптимизации и зачастую тюнинг eps полезен.
1. On the Difficulty of Extrapolation with NN Scaling — мы все слышали про scaling laws, однако на практике мало кто умеет их готовить. Просто от увеличения модели в 2 раза, вы можете не получить ожидаемого улучшения качества, тк scaling laws вообще говоря требуют адаптации batch size, lr, других гиперпараметров и в общем случае, размера датасета. Блогпост обсуждает случаи, когда люди слишком сильно надеятся на scaling laws и забывают про эти важные детали.
Openai
Introducing text and code embeddings
We are introducing embeddings, a new endpoint in the OpenAI API that makes it easy to perform natural language and code tasks like semantic search, clustering, topic modeling, and classification.
ShiftViT: An Extremely Simple Alternative to Attention Mechanism
Мелкософт говорит, что селф-атеншен больше не нужен в задачах зрения. Предлагают вместо него просто каналы случайно подвигать в плоскости картинки.
Судя по всему, это должно работать быстрее. По результатам точность на Imagenet почти как у трансформеров, чуть-чуть ниже.
Статья | Код
Мелкософт говорит, что селф-атеншен больше не нужен в задачах зрения. Предлагают вместо него просто каналы случайно подвигать в плоскости картинки.
Судя по всему, это должно работать быстрее. По результатам точность на Imagenet почти как у трансформеров, чуть-чуть ниже.
Статья | Код
Помните Copilot? Это та система автодополнения кода от OpenAI, работающая на GPT-3.
Вот еще вам крутой пример ее работы. Умная штучка. Но я не буду нагнетать страх и сулить потерю работы.
Вот еще вам крутой пример ее работы. Умная штучка. Но я не буду нагнетать страх и сулить потерю работы.
Прием заявок на научную премию в области компьютерных наук имени Ильи Сегаловича от Яндекса открыт до 20 марта.
Стать соискателями могут студенты и научные руководители, которые занимаются машинным обучение, компьютерным зрением, информационным поиском, обработкой естественного языка и машинным переводом, распознаванием и синтезом речи. Лауреаты получат 1 миллион рублей, оплачиваемую поездку на научную конференцию по AI и гранты на использование сервисов Яндекса для исследований.
Участие в премии — это отличная возможность вывести свою работу на новый уровень и получить признание экспертов! Регистрация и подробности по ссылке: https://clck.ru/amsYe.
Стать соискателями могут студенты и научные руководители, которые занимаются машинным обучение, компьютерным зрением, информационным поиском, обработкой естественного языка и машинным переводом, распознаванием и синтезом речи. Лауреаты получат 1 миллион рублей, оплачиваемую поездку на научную конференцию по AI и гранты на использование сервисов Яндекса для исследований.
Участие в премии — это отличная возможность вывести свою работу на новый уровень и получить признание экспертов! Регистрация и подробности по ссылке: https://clck.ru/amsYe.
Diffusion models are autoencoders
Тут один ученый из DeepMind написал блогпост, в котором проводит аналогии между диффузионными моделями и автоэнкодерами. Завтра утром буду читать за чашечкой кофе 🤓
Если хотите посмотреть другие мои посты о диффузионных моделях, то вот они:
[0], [1], [2], [3],
Тут один ученый из DeepMind написал блогпост, в котором проводит аналогии между диффузионными моделями и автоэнкодерами. Завтра утром буду читать за чашечкой кофе 🤓
Если хотите посмотреть другие мои посты о диффузионных моделях, то вот они:
[0], [1], [2], [3],
Sander Dieleman
Diffusion models are autoencoders
Diffusion models have become very popular over the last two years. There is an underappreciated link between diffusion models and autoencoders.
This media is not supported in your browser
VIEW IN TELEGRAM
ICON: Implicit Clothed humans Obtained from Normals
Появился новый SOTA метод для реконcтрукции текстурированной 3d модели человека по одному RGB фото. Авторы сего чуда - группа Майкла Блека из Тюбингена.
Сайт: https://icon.is.tue.mpg.de/
Код: https://github.com/yuliangxiu/icon
Появился новый SOTA метод для реконcтрукции текстурированной 3d модели человека по одному RGB фото. Авторы сего чуда - группа Майкла Блека из Тюбингена.
Сайт: https://icon.is.tue.mpg.de/
Код: https://github.com/yuliangxiu/icon
This media is not supported in your browser
VIEW IN TELEGRAM
Вот вам кайфовый арт сгенереный по запросу "Сумеречный стимпанк" с помощью колаба Disco Diffusion. Да, вы и сами можете так, нужны только базовые навыки Python.
Mind-blowing!🤯
Автор картины: derplearning.
Mind-blowing!🤯
Автор картины: derplearning.