эйай ньюз
72.7K subscribers
1.59K photos
855 videos
7 files
1.92K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Архитектура метода из статьи выше. Классификатор С предобучен заранее и его выходы (logits) конкатенируются к вектору W и скармливаются в энкодер.
This media is not supported in your browser
VIEW IN TELEGRAM
Вот еще пример работы метода на атрибутах для портрета человека. С волосами поганенько получилось 😅
Media is too big
VIEW IN TELEGRAM
Stitch it in Time: GAN-Based Facial Editing of Real Videos

Тут новая статейка вышла, где показывают очень качественное редактирование видео. Статья очень хорошо написана и содержит ссылки на важные работы в области редактирования фото и видео. Рекомендую к прочтению!

Метод коротко: берем натренированный на лицах StyleGAN2, затем вырезаем лица из видео и все сразу пропускаем через энкодер, который проецирует их в пространство StyleGAN. Энкодер переводит близкие кадры в похожие вектора (результат лучше чем при оптимизации каждого вектора отдельно). Далее генератор StyleGAN2 немного файнтюнится, чтобы повысить точность реконструкции на данном видео. После этого вектора смещаются в неком направлении (которое нужно найти заранее), например в котором появляется улыбка. Затем генератор еще раз файнтюнится так, чтобы не было видно переходов на границе, но сохраняя изменения лица (тут используют сегментационную маску). Вырезанные и измененные лица вставляются назад в видео. Вуа-ля!

>> Сайт проекта >> Код скоро
А это подробности архитектуры метода из поста выше.
Как много приложений и возможностей открыл StyleGAN. Хотя были ганы и до этого, но именно StyleGAN воистину универсальная и прорывная штука.

С декабря 2018 года, когда его впервые опубликовали на архиве, статья набрала 3.5к цитирований. Бесчисленное множество прилог было построено на StyleGAN 1 и 2 за три года. Вот только StyleGAN3 все ещё не так сильно пошел в массы. Люди боятся теории что ли?

Всё-таки NVIDIA – красавчики.
Forwarded from DL in NLP (Vlad Lialin)
Как мне подойти к задаче классфификации/QA/NER/...? В чатах можно часто услышать такие вопросы. И несмотря на обилие туториалов по всем стандартным задачам NLP, я пока что не видел хорошего места, куда можно было бы послать людей, где есть все эти задачки.

Теперь такое место есть! 🤗 Tasks

Вы выбираете задачу, которая вас волнует: классификация, QA, NER, MT, суммаризация, генерация, схожесть текстов

На каждую из них есть короткая лекция, описываются вариации задачи, есть ссылки на датасеты и предобученные модели. Самое главное: есть ссылки на A) хороший ноутбук, который подробно, но доступно описывают как применить условный BERT к этой задаче B ) хорошо задокументированный скрипт, который вы можете легко подогнать под свою задачу.

Кроме этого есть ссылки на релевантные блогпосты, которые могут рассматривать задачу с разных сторон. В общем советую теперь слать людей на 🤗 Tasks.
​​Кстати, в Tasks от Hugging Face есть инфа не только о том, как решать стандартные задачи из NLP, но и из Audio и Computer Vision. Все это аккомпанируется подробными примерами, датасетами и готовыми моделями.

https://huggingface.co/tasks
Forwarded from TechSparks
Инженеры Meta рассказали в блоге компании о AI Research SuperCluster (RSC) — суперкомпьютере для обучения моделей в областях, связываемых с ИИ: работа с естественным языком, распознавание речи и компьютерное зрение.
Вычислительный кластер содержит 760 NVIDIA DGX A100 в качестве вычислительных узлов (6,080 GPU) — с сетевой инфраструктурой на основе NVIDIA Quantum 200 Gb/s InfiniBand. Емкость накопителя — 175 петабайт на Pure Storage FlashArray, кэш — 46 петабайт в Penguin Computing Altus systems. Утверждается, что когда кластер к середине года доведут до полной комплектации и мощности, он станет самым могучим в мире суперкомпьютером для задач в области ИИ.
И, конечно же, заявлено, что этот монстр — начало дороги к построению метавселенной, the next major computing platform — the metaverse, where AI-driven applications and products will play an important role.
https://ai.facebook.com/blog/ai-rsc
This media is not supported in your browser
VIEW IN TELEGRAM
Вот вы говорите «Да, зачем эти генеративные модели? От них толку на практике ноль». Может оно и так или нет, но зато какой арт из них получается!

Вот например челик прибабахал к диффузионным моделям возможность генерить псевдо 3D сцены с зумом. Выглядит как полёт внутри фантастической пещеры художника!

Коллаб Disco Diffusion v 4.1 (пока без 3D)
​​Молодцы ребята! Офигенный прогресс по сохранению деталей в задачи ресторации старых портретов. Особенно мне нравится автопортрет ван Гога. А у Достоевского, кажется, сетка сделала бороду менее широкой.
Forwarded from DL in NLP (Vlad Lialin)
Давно не было подборки новостей и интересных блогпостов

1. Text and Code Embeddings in the OpenAI API — теперь можно доставать эмбеддинги текстов через OpenAI API. Эти эмбеддинги сильно обходят SentenceBERT, GPT-3, хорошо работают в нестандартных доменах, например астрономии и вообще взяли кучу SOTA. Подробнее в статье Text and Code Embeddings by Contrastive Pre-Training, сделаем её обзор в ближайшие дни.
1. ε, A Nuisance No More — пост о том, что eps нужен не только для устранения численых ошибок. Например в ADAM высокие eps делают оптимизатор чуть-чуть больше похожим на SGD, что может быть полезно, когда моменты плохо описывают поверхность лосса. В BatchNorm/LayerNorm высокие eps выполняют роль сглаживания компонент вектора. На практике иногда такие высокие значения eps как 1e-3 или даже 1e-1 могут сильно помогать оптимизации и зачастую тюнинг eps полезен.
1. On the Difficulty of Extrapolation with NN Scaling — мы все слышали про scaling laws, однако на практике мало кто умеет их готовить. Просто от увеличения модели в 2 раза, вы можете не получить ожидаемого улучшения качества, тк scaling laws вообще говоря требуют адаптации batch size, lr, других гиперпараметров и в общем случае, размера датасета. Блогпост обсуждает случаи, когда люди слишком сильно надеятся на scaling laws и забывают про эти важные детали.
ShiftViT: An Extremely Simple Alternative to Attention Mechanism

Мелкософт говорит, что селф-атеншен больше не нужен в задачах зрения. Предлагают вместо него просто каналы случайно подвигать в плоскости картинки.

Судя по всему, это должно работать быстрее. По результатам точность на Imagenet почти как у трансформеров, чуть-чуть ниже.

Статья | Код
​​Никто:

Каждая статья про ганы:
Помните Copilot? Это та система автодополнения кода от OpenAI, работающая на GPT-3.

Вот еще вам крутой пример ее работы. Умная штучка. Но я не буду нагнетать страх и сулить потерю работы.
Прием заявок на научную премию в области компьютерных наук имени Ильи Сегаловича от Яндекса открыт до 20 марта.

Стать соискателями могут студенты и научные руководители, которые занимаются машинным обучение, компьютерным зрением, информационным поиском, обработкой естественного языка и машинным переводом, распознаванием и синтезом речи. Лауреаты получат 1 миллион рублей, оплачиваемую поездку на научную конференцию по AI и гранты на использование сервисов Яндекса для исследований.

Участие в премии — это отличная возможность вывести свою работу на новый уровень и получить признание экспертов! Регистрация и подробности по ссылке: https://clck.ru/amsYe.
Diffusion models are autoencoders

Тут один ученый из DeepMind написал блогпост, в котором проводит аналогии между диффузионными моделями и автоэнкодерами. Завтра утром буду читать за чашечкой кофе 🤓

Если хотите посмотреть другие мои посты о диффузионных моделях, то вот они:
[0], [1], [2], [3],
This media is not supported in your browser
VIEW IN TELEGRAM
ICON: Implicit Clothed humans Obtained from Normals

Появился новый SOTA метод для реконcтрукции текстурированной 3d модели человека по одному RGB фото. Авторы сего чуда - группа Майкла Блека из Тюбингена.

Сайт: https://icon.is.tue.mpg.de/
Код: https://github.com/yuliangxiu/icon
This media is not supported in your browser
VIEW IN TELEGRAM
Вот вам кайфовый арт сгенереный по запросу "Сумеречный стимпанк" с помощью колаба Disco Diffusion. Да, вы и сами можете так, нужны только базовые навыки Python.

Mind-blowing!🤯

Автор картины: derplearning.