эйай ньюз
73K subscribers
1.61K photos
859 videos
7 files
1.93K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Сбер выложил в открытый доступ увеличенные версии ruCLIP — моделей, которые умеют вычислять «смысловую» близость любого изображения и текста на русском языке. С помощью этих моделей можно классификации новые изображение из ранее невиданых классов без обучения (zero-shot). ruCLIP модели даже превосходят в качестве оригинальной английский CLIP от OpenAI вместе с русско-английским переводчиком на большинстве тестовых датасетов.

Все модельки обучались на 240 млн пар изображение-текст на русском языке на внутреннем датасете от Сбера.

>> Код и веса моделей есть на гитхабе.
This media is not supported in your browser
VIEW IN TELEGRAM
Explaining in Style: Training a GAN to explain a classifier in StyleSpace
Google Research

Статейка, где ученые прикрутили к StyleGAN2 классификатор и заставляют StyleGAN2 генерить картинки в зависимости от заданных лейблов (тогда как оригинальный StyleGAN2 генерит картинки из случайных классов). По факту сделали conditional генерацию (что не ново само по себе, но для StyleGAN2 такого пока никто не публиковал).

Кроме того, авторы представили метод, который автоматиччески находит размерности в стилевом векторе W, которые отвечают за признаки присущие объектам определенного класса. То есть теперь можно подвигать ползунок и поменять фото кота так, чтобы он стал больше похож на собаку.

>> Код >> Сайт проекта
Архитектура метода из статьи выше. Классификатор С предобучен заранее и его выходы (logits) конкатенируются к вектору W и скармливаются в энкодер.
This media is not supported in your browser
VIEW IN TELEGRAM
Вот еще пример работы метода на атрибутах для портрета человека. С волосами поганенько получилось 😅
Media is too big
VIEW IN TELEGRAM
Stitch it in Time: GAN-Based Facial Editing of Real Videos

Тут новая статейка вышла, где показывают очень качественное редактирование видео. Статья очень хорошо написана и содержит ссылки на важные работы в области редактирования фото и видео. Рекомендую к прочтению!

Метод коротко: берем натренированный на лицах StyleGAN2, затем вырезаем лица из видео и все сразу пропускаем через энкодер, который проецирует их в пространство StyleGAN. Энкодер переводит близкие кадры в похожие вектора (результат лучше чем при оптимизации каждого вектора отдельно). Далее генератор StyleGAN2 немного файнтюнится, чтобы повысить точность реконструкции на данном видео. После этого вектора смещаются в неком направлении (которое нужно найти заранее), например в котором появляется улыбка. Затем генератор еще раз файнтюнится так, чтобы не было видно переходов на границе, но сохраняя изменения лица (тут используют сегментационную маску). Вырезанные и измененные лица вставляются назад в видео. Вуа-ля!

>> Сайт проекта >> Код скоро
А это подробности архитектуры метода из поста выше.
Как много приложений и возможностей открыл StyleGAN. Хотя были ганы и до этого, но именно StyleGAN воистину универсальная и прорывная штука.

С декабря 2018 года, когда его впервые опубликовали на архиве, статья набрала 3.5к цитирований. Бесчисленное множество прилог было построено на StyleGAN 1 и 2 за три года. Вот только StyleGAN3 все ещё не так сильно пошел в массы. Люди боятся теории что ли?

Всё-таки NVIDIA – красавчики.
Forwarded from DL in NLP (Vlad Lialin)
Как мне подойти к задаче классфификации/QA/NER/...? В чатах можно часто услышать такие вопросы. И несмотря на обилие туториалов по всем стандартным задачам NLP, я пока что не видел хорошего места, куда можно было бы послать людей, где есть все эти задачки.

Теперь такое место есть! 🤗 Tasks

Вы выбираете задачу, которая вас волнует: классификация, QA, NER, MT, суммаризация, генерация, схожесть текстов

На каждую из них есть короткая лекция, описываются вариации задачи, есть ссылки на датасеты и предобученные модели. Самое главное: есть ссылки на A) хороший ноутбук, который подробно, но доступно описывают как применить условный BERT к этой задаче B ) хорошо задокументированный скрипт, который вы можете легко подогнать под свою задачу.

Кроме этого есть ссылки на релевантные блогпосты, которые могут рассматривать задачу с разных сторон. В общем советую теперь слать людей на 🤗 Tasks.
​​Кстати, в Tasks от Hugging Face есть инфа не только о том, как решать стандартные задачи из NLP, но и из Audio и Computer Vision. Все это аккомпанируется подробными примерами, датасетами и готовыми моделями.

https://huggingface.co/tasks
Forwarded from TechSparks
Инженеры Meta рассказали в блоге компании о AI Research SuperCluster (RSC) — суперкомпьютере для обучения моделей в областях, связываемых с ИИ: работа с естественным языком, распознавание речи и компьютерное зрение.
Вычислительный кластер содержит 760 NVIDIA DGX A100 в качестве вычислительных узлов (6,080 GPU) — с сетевой инфраструктурой на основе NVIDIA Quantum 200 Gb/s InfiniBand. Емкость накопителя — 175 петабайт на Pure Storage FlashArray, кэш — 46 петабайт в Penguin Computing Altus systems. Утверждается, что когда кластер к середине года доведут до полной комплектации и мощности, он станет самым могучим в мире суперкомпьютером для задач в области ИИ.
И, конечно же, заявлено, что этот монстр — начало дороги к построению метавселенной, the next major computing platform — the metaverse, where AI-driven applications and products will play an important role.
https://ai.facebook.com/blog/ai-rsc
This media is not supported in your browser
VIEW IN TELEGRAM
Вот вы говорите «Да, зачем эти генеративные модели? От них толку на практике ноль». Может оно и так или нет, но зато какой арт из них получается!

Вот например челик прибабахал к диффузионным моделям возможность генерить псевдо 3D сцены с зумом. Выглядит как полёт внутри фантастической пещеры художника!

Коллаб Disco Diffusion v 4.1 (пока без 3D)
​​Молодцы ребята! Офигенный прогресс по сохранению деталей в задачи ресторации старых портретов. Особенно мне нравится автопортрет ван Гога. А у Достоевского, кажется, сетка сделала бороду менее широкой.
Forwarded from DL in NLP (Vlad Lialin)
Давно не было подборки новостей и интересных блогпостов

1. Text and Code Embeddings in the OpenAI API — теперь можно доставать эмбеддинги текстов через OpenAI API. Эти эмбеддинги сильно обходят SentenceBERT, GPT-3, хорошо работают в нестандартных доменах, например астрономии и вообще взяли кучу SOTA. Подробнее в статье Text and Code Embeddings by Contrastive Pre-Training, сделаем её обзор в ближайшие дни.
1. ε, A Nuisance No More — пост о том, что eps нужен не только для устранения численых ошибок. Например в ADAM высокие eps делают оптимизатор чуть-чуть больше похожим на SGD, что может быть полезно, когда моменты плохо описывают поверхность лосса. В BatchNorm/LayerNorm высокие eps выполняют роль сглаживания компонент вектора. На практике иногда такие высокие значения eps как 1e-3 или даже 1e-1 могут сильно помогать оптимизации и зачастую тюнинг eps полезен.
1. On the Difficulty of Extrapolation with NN Scaling — мы все слышали про scaling laws, однако на практике мало кто умеет их готовить. Просто от увеличения модели в 2 раза, вы можете не получить ожидаемого улучшения качества, тк scaling laws вообще говоря требуют адаптации batch size, lr, других гиперпараметров и в общем случае, размера датасета. Блогпост обсуждает случаи, когда люди слишком сильно надеятся на scaling laws и забывают про эти важные детали.
ShiftViT: An Extremely Simple Alternative to Attention Mechanism

Мелкософт говорит, что селф-атеншен больше не нужен в задачах зрения. Предлагают вместо него просто каналы случайно подвигать в плоскости картинки.

Судя по всему, это должно работать быстрее. По результатам точность на Imagenet почти как у трансформеров, чуть-чуть ниже.

Статья | Код
​​Никто:

Каждая статья про ганы:
Помните Copilot? Это та система автодополнения кода от OpenAI, работающая на GPT-3.

Вот еще вам крутой пример ее работы. Умная штучка. Но я не буду нагнетать страх и сулить потерю работы.
Прием заявок на научную премию в области компьютерных наук имени Ильи Сегаловича от Яндекса открыт до 20 марта.

Стать соискателями могут студенты и научные руководители, которые занимаются машинным обучение, компьютерным зрением, информационным поиском, обработкой естественного языка и машинным переводом, распознаванием и синтезом речи. Лауреаты получат 1 миллион рублей, оплачиваемую поездку на научную конференцию по AI и гранты на использование сервисов Яндекса для исследований.

Участие в премии — это отличная возможность вывести свою работу на новый уровень и получить признание экспертов! Регистрация и подробности по ссылке: https://clck.ru/amsYe.
Diffusion models are autoencoders

Тут один ученый из DeepMind написал блогпост, в котором проводит аналогии между диффузионными моделями и автоэнкодерами. Завтра утром буду читать за чашечкой кофе 🤓

Если хотите посмотреть другие мои посты о диффузионных моделях, то вот они:
[0], [1], [2], [3],
This media is not supported in your browser
VIEW IN TELEGRAM
ICON: Implicit Clothed humans Obtained from Normals

Появился новый SOTA метод для реконcтрукции текстурированной 3d модели человека по одному RGB фото. Авторы сего чуда - группа Майкла Блека из Тюбингена.

Сайт: https://icon.is.tue.mpg.de/
Код: https://github.com/yuliangxiu/icon