AbstractDL
10.1K subscribers
196 photos
14 videos
238 links
Коротко про классные штуки в CV, NLP и AI 🤷‍♂️
Download Telegram
🔥Embedding Diffusion for Text Generation (by DeepMind)

Наконец у кого-то получилось применить диффузию для генерации текста.

В качестве базовой модели используется оригинальный трансформер, который учится денойзить эмбеддинги токенов (которые взяли из BERT). Дальше эти эмбеддинги отображаются в логиты и таким образом генерируется текст — сразу весь, целиком.

А ещё тут смогли адаптировать метод classifier-free guidance для заполнения больших пропусков внутри текста.

P.S. на картинке процесс текстовой диффузии.

Статья
🔥Draw things: диффузия на iPhone!

Stable Diffusion теперь можно скачать из AppStore! Работает полностью оффлайн и очень быстро.

Сайт, AppStore
Forwarded from эйай ньюз
OneFormer: One Transformer to Rule Universal Image Segmentation

Нам в компьютерном зрении давно нужен такой трансформер, который порешает все задачи за раз. Вот ступенька в этом направлении. OneFormer – это первый трансформер, который умеет решать три разных задачи сегментации : semantic, instance и panoptic segmentation.

Причем, он достигает SOTA на все трёх! Раньше нужно было тренировать три разные сетки для этого, а теперь – всего один OneFormer.

Чтобы указать модели, какую задачу сейчас решать, нужно просто подать нужный токен на вход. Удобненько.

❱❱ Код
❱❱ Arxiv

@ai_newz
MinD-Vis: диффузия для чтения мыслей

Представлена диффузионная модель, которая умеет декодировать то, что видит человек по его мозговой активности (fMRI).

Сначала авторы обучили self-supervised модель для получения универсальных эмбеддингов мозговой активности (одинаковых для разных людей). Далее они взяли предобученную Latent Diffusion и добавили к ней cross-attention на эти мысленные репрезентации. После короткого файнтюна на 1.5к парах картинка-fMRI модель смогла полноценно декодировать то, что видит перед собой человек!

Данные для обучения и код выложены в открытый доступ, веса моделей дают по запросу.

Статья, GitHub, блог
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Galactica general-purpose scientific language model

Meta AI и Paperswithcode зарелизили первую 120B модель, которая обучена на научных текстах (статьи, учебники и тд.).

Сейчас быстро все дипломные работы допишутся🌚.

Galactica умеет генерить много интересного – например, научные тексты, лекции, формулы в Latex, конспекты, и даже Juputer ноутбуки!

Модель полностью в опен-соурсе с весами и кодом.

❱❱ Galactica.org
❱❱ Код и веса

@ai_newz
Kandinsky 2.0: первая мультиязычная диффузия! (by AIRI, SberAI, SberDevices)

Встречайте первую text2image модель для более чем 100 языков! Основано на архитектуре Latent Diffusion + несколько мультиязычных текстовых энкодеров (XLMR-clip, mT5). Код и веса уже доступны!

P.S. Я тоже в этом немного поучаствовал и даже написал статью на хабр 😊

Хабр, HuggingFace, GitHub, демо
Forwarded from Complete AI (Andrey Kuznetsov)
Совсем недавно вышла бета версия библиотеки TorchMultimodal (ссылка), в которой авторы постарались собрать все лучшие техники и фичи обучения SoTA мультизадачных мультимодальных (М2) архитектур:
слои, обработчики для разных модальностей, лосс функции (Contrastive Loss, Codebook слои, Shifted-window Attention, Components for CLIP, Multimodal GPT, Multi Head Attention)
SoTA архитектуры (FLAVA, DETR, …)
скрипты обучения и инференса
примеры использования

Всё это позволит ставить быстрые и удобные эксперименты для обучения М2 моделей.

В довесок авторы сделали интересный пост о распределённом обучении (ссылка), где на примере модели FLAVA (мультимодальный late fusion трансформер) показали, как можно её масштабировать с 350M параметров до 10B. Рассмотрели два ключевых подхода:
1. Distributed Data Parallel - нарезка датасета по воркерам, градиенты синхронизируются ДО обновления весов, по сути вся модель «реплицируется»
2. Fully Sharded Data Parallel - параметры, градиенты и состояния оптимизатора нарезаются (шардируются) по воркерам (а-ля ZeRO-3), перед forward и backward propagation шарды объединяются.

Сравнение производительности (среднее число сэмплов в секунду за исключением первых 100 на warmup) можно оценить на графике.


github
статья про TorchMultimodal
статья про Scaling Multimodal Foundation Models

@complete_ai
ChatGPT — чатбот от OpenAI

В основе лежит GPT-3, затюненная аналогичным instructGPT способом.

Сначала авторы разметили синтетические данные для обучения ранжировщика ответов, а затем использовали его как reward модель для RL алгоритма PPO.

Поболтать с ChatGPT можно уже сейчас на их сайте, она даже понимает русский язык (см картинку). Надеюсь, скоро будет больше подробностей, а сама модель будет доступна хотя бы через API.

P.S. А это точно не GPT-4? Слишком уж круто работает.

блог, demo
Тут прогнали chatGPT через текстовый тест на IQ, и оказалось, что он равен 83. Вероятно, AGI апокалипсис немного откладывается 🤷‍♂️
GPT тайно файнтюнит себя через attention во время инференса (by Microsoft)

Авторы немного поколдовали над формулами этэншна и смогли свести их к SGD — оказалось, что трансформеры сами осуществляют внутри себя градиентный спуск и используют механизм внимания в качестве неявного оптимизатора!

Теперь понятно, почему few-shot learning так круто работает, ведь модели полноценно учат себя пока смотрят на контекст. К тому же эксперименты показали, что активации при файнтюнинге и при few-shot демонстрации примеров обновляются примерно одинаково.

А раз attention ≈ SGD, то почему бы не попробовать добавить в него momentum? И это действительно помогло! Модель стала обучаться быстрее, тестовая перплексия получилась ниже, а few-shot заработал ещё лучше.

Статья
А вы знали, что GPT-3 токенизирует русский язык просто отвратительно? Тут токенов больше чем букв! Я конечно очень люблю byte-level BPE, но не ожидал такой подставы.
This media is not supported in your browser
VIEW IN TELEGRAM
CALM: как простые слова генерировать быстрее (by Google)

Оказывается, можно пропускать часть слоёв трансформера на «простых» словах и ускорять таким образом генерацию текста в ~3 раза!

А если правильно выбрать критерий преждевременной остановки, то качество генерации совсем не падает. Исследователи из гугл предложили 3 таких критерия:
1. Косинус эмбеддингов с двух последовательных слоёв.
2. Разность топ двух значений софтмакса.
3. Обученная линейная регрессия.

P.S. Все эксперименты были для T5, но думаю, что всё без проблем переносится и на GPT.

Статья, GitHub, блог
Forwarded from градиент обреченный (Sergei Averkiev)
🔺 Let's build (chat)GPT

Новое видео от Андрея Карпати. На этот раз с нуля собираем GPT (генеративную языковую модель) в colab'е. Также на пальцах рассказывается, что такое ChatGPT.

Как обычно, все объясняется с самых основ. Причем, если что-то непонятно, то Андрей уже записал и выложил ряд крутых лекций под общим названием "Neural Nets. From zero to hero". Очень полезный образовательный контент.

👉 Видео | nanoGPT | Код из занятия
🤗Illustrated Reinforcement Learning from Human Feedback (RLHF)

Отличный блог-пост от HuggingFace с разбором RL для файнтюна языковых моделей (webGPT, instructGPT, chatGPT).

А ещё, RLHF теперь официально поддерживается в transformers через библиотеку trl!

P.S. Сейчас все побегут учить свою mini-chatGPT в колабе)

Блог, GitHub
This media is not supported in your browser
VIEW IN TELEGRAM
FROMAGe: самый простой способ сделать мультимодального чатбота

Авторам потребовалось всего 24 часа чтобы на 1 GPU обучить это чудо! Идея очень похожа на Flamingo, но ещё проще и не требует больших датасетов.

За основу взяли замороженные ViT и OPT, а чтобы склеить их вместе — добавляют два обучаемых линейных слоя для отображения эмбеддингов (text2image и image2text). Затем визуальные эмбеддинги картинок подаются вместо псевдо-текстовых токенов. Для поиска и вывода картинок добавляется новый спец-токен [RET].

Для обучения используют общедоступный датасет CC3M из пар картинка-текст. В качестве лосса: CrossEntropy по тексту + контрастив лосс для токена [RET] (поиск картинок).

Код и чекпоинты выложены в открытый доступ, прям все 11 мегабайтов весов залиты на гитхаб 😂

P.S. Думаю, что если в GPT-4 добавят поддержку картинок, то это будет именно так.

Статья, GitHub, блог, демо
🔥FlexGen: как запустить OPT-175B на своём ноутбуке

Просто восторг! Самую большую открытую языковую модель теперь можно запустить на одной 16GB GPU и при этом не ждать генерацию целую вечность — скорость 1 токен в секунду!

Причём ускорение и сжатие модели делается очень просто:
model = OptLM(model)

P.S. В их репозитории даже есть пример чатбота на основе OPT-66B

Статья, GitHub
GPT теперь принимает на вход эмбеддинги

Наконец! В transformers добавлена поддержка эмбеддингов в качестве инпута для полноценной генерации в GPT-like моделях.

За последние годы вышло много работ, которые предлагают использовать этот механизм для таких штук как мультимодальный диалог и p-tuning, но приходилось сильно извращаться чтобы совместить эти подходы с генерацией текста. А теперь это можно сделать в одну строчку! Cоединять текст, картинки и звук теперь будет ещё проще!

Поддержка уже есть для GPT-2, GPT-j, BLOOM, BioGPT, но надо будет установить версию 4.27.0.

GitHub
ESDx: Как заставить диффузию забыть порно? (by MIT)

Представлен метод, который позволяет удалять память про концепты, объекты и даже целые стили из диффузионных моделей без последствий для качества генерации.

Авторы предлагают адаптировать идеи classifier guidance для файнтюнинга весов cross-attention в диффузии. Суть метода очень простая — нужно задать текстом концепт (например
«женская грудь») и оценить градиенты для условного и безусловного шага диффузии, а разность этих градиентов использовать в качестве «очищающего» апдейта весов. То есть не нужно ни датасетов, ни дополнительных моделей, только текстовое описание того что надо забыть.

P.S. Теперь ждём когда по решению суда придётся удалять объекты авторского права из обученных моделей 🤷‍♂️

Статья, GitHub, блог
Ждём GPT-4 сегодня?
🔥GPT-4 вышла! И она мультимодальная!

Модель принимает на вход картинки и текст, причём визуальную информацию энкодят как-то очень хитро, ведь GPT-4 понимает даже мелкий pdf шрифт (см картинку).

К сожалению, в статье только общие слова и результаты тестов (на целых 98 страниц), но нет никаких технических деталей — даже количество параметров не дают. Прямо говорят, что не хотят, чтобы кто-то воспроизвёл и выпустил это на волю (safety implications).

Блог, статья, трансляция