Concise Research
1.13K subscribers
242 photos
223 links
Исследования AI глазами исследователя
Автор: @snk4tr Сергей Кастрюлин
Download Telegram
Forwarded from CV Time
Недавно инженеры из Яндекса вместе со Школой анализа данных провели открытый онлайн-интенсив по компьютерному зрению и рассказали о генеративных диффузионных моделях.

Получилась крепкая база для ML`щика — с понятными видеолекциями и практическими разборами.

Делимся этими материалами с вами — на лендинге они удобно сгруппированы по темам. А в карточках наши спикеры рассказывают, чем вам может быть полезна каждая из освещённых тем.

Приятного чтения и увлекательного просмотра!
🔥7👍63❤‍🔥1
Goku: Flow Based Video Generative Foundation Models
[страница проекта, код модели]

Партия выдать одна кошка жена новый техрепорт по text-to-image+video от небезызвестных ByteDance. У ребят не очень получается определиться с тем как называть свою компанию в разных pdf’ках, но чтиво они выдают занятное. Сначала хайпанули на Infinity (рекомендую разбор КПД), теперь решили не отставать от тренда на joint image+video который мы обсуждали выше.

Goku сочетает в себе набор уже известных лучших практик:
Массивные фильтрации данных включая эстетичность и техниеское качество для получения видео и картиночных претрен датасетов с Tarsier2 и InternVL2.0 текстами на 36М и 160М пар соответственно
2B и 8B трансформеры на базе GenTron с full cross attn обученные с Rectified Flow (как в SD3) и FLAN-T5 XL текстовым энкодером. Основной профит от увеличения размера модели - улучшение консистентности и уменьшение дефектности генераций
3D VAE от CogVideoX (да, я тоже впервые про них слышу) с х8 пространственным и х4 темпоральным скейлинг фактором. Как и в случае MovieGen, картинки рассматривают как видео из 1 кадра
Отдельное внимание ByteCheckpoint и оптимизированному пайплайну MegaScale, позволившим достигнуть высокой стабильности и утилизации железа

Само обучение разбивают на стадии по целям и разрешениям:
1️⃣ Сначала выучивают базовую семантику и понимание концептов на картинках
2️⃣ Продолжают претрен в joint image+video режиме
3️⃣ Завершают отдельными файнтюнами на генерацию картинок и видео.

В подготовке данных меня заинтересовал процесс перебаллансировки. Видео данные классифицируют на 9 классов и 86 подклассов. Авторы видят, что клипы включающие позы человека моделировать сложнее всего, поэтому датасет перебалансируют так чтобы классы относящиеся к людям были более представлены. Видео из менее приоритетных классов андерсемплят.

Круто видеть как ByteDance создают свою Open Source инфраструктуру. Бóльшая часть использованных в этой работе составных частей сделана ими же и выложена в открытый доступ.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥105❤‍🔥1👍1
Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model
[код, веса]

Моделей генерации видео становится всё больше, постоянные новые релизы уже вызывают путаницу. Этот тех. репорт мне понравился тем что авторы сделали обзор последних работ в области, после чего продвинулись по самым приоритетным направлениям. В результате получилась самая большая (30В параметров) и, при этом, довольно эффективная open source система. Рассмотрим ключевые элементы системы.

🔜Video-VAE
SOTA модели генерации видео (Hunyuan, CogVideoX, MovieGen) используют VAE с x8 пространственным и х4/х8 темпоральным scaling factor (SF). В целом, про х8 пространственный SF ничего плохого сказать нельзя, это наиболее частый выбор и в картиночной генерации. Если повысить SF, то можно ускорить генерацию и увеличить размер модели-денойзера благодаря уменьшению размера активаций. Это уже было замечено в работе DC AE, который использовался в SANA.

Основная фишка для стабилизации обучения глубокого автоэнкодера - residual connections к энкодере и декодере для “проброса” высокочастотной ближе к ботлнеку. Этот трюк из DC AE используется и здесь для получения VAE с x16 пространственным и x8 темпоральным SF. Обучают в несколько этапов, постепенно увеличивая разрешение и добавляя в конце GAN лосс

🔜Архитектура и обучение
Тексты кодируются двумя энкодерами:
- CLIP-like моделька с ограничением в 77 токенов умная, но не поддерживает длинные последовательности
- Проприетарная LLM с 3D-RoPE для всего что подлиннее

Сам денойзер - это DiT с full cross-attn для эффективности, AdaLN и QK-Norm для стабилизации обучения. Модельку на 30В параметров предобучают несколько месяцев на тысячах H800 на Flow Matching, после чего тюнят с DPO. Примечательно, что реворд модели переобучают несколько раз в ходе одного RLHF цикла по мере “устаревания” их сигнала.

🔜Инфраструктура обучения
Работы по моделями LLaMA задали тренд на включение секций про инфраструктурные навороты, позволяющие собирать и хорошо утилизировать большие GPU кластера. На моей памяти, этот тех. репорт первый в таком роде в области картинок и видео, вопросам инфры посвящено 7 страниц довольно детализированного описания того как достигали 99% uptime обучений в течение нескольких месяцев. Всё описывать не берусь, но особенно мне понравилась часть про автоматическое детектирование и вывод фейлящихся нод из обучения, что устраняет >80% падений и рестартов обучений.

🔜Данные и стратегия обучения
Пайплайн подготовки данных изобилует разного рода фильтрациями и, в целом, напоминает Goku, которую разбирали выше. Выбивается эта работа количеством данных - “2B video-text pairs and 3.8B image-text pairs” 🤯. Обучение же стандартно бьется на несколько стадий, где сначала учатся на лоу рез картинках, потом лоу рез видео и в конце на хай рез видео. Вопросы вызывает то как денойзер после x16 даунскейла 192px видео вообще понимает что там в этом видео происходит 🤔

🔜Discussion
Интересно, что не смотря на крутую инфру и кучу данных, авторы заморочились про компьют эффективность и многие решения (например выбор DiT вместо MMDiT) приняли на основании более высокой эффективности. А еще, не смотря на большой размер модели, данных и компьюта, модель все равно фейлится на комплексных промтах с несколькими концептами и не очень понимает физику сложных процессов (например, последовательные отскоки мяча от пола). Авторы считают прогресс по этим направлениям наиболее насущными в ближайшем будущем.

Работа оч классная, а open source релиз модельки должен двинуть область вперед
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83❤‍🔥1🔥1
Diffusability of Autoencoders

Латентная диффузия (LDM) - доминирующая парадигма генерации картинок и видео. Фреймворк LDM состоит из автоэнкодера (AE), кодирующего картинки или видео в латенты и диффузионного денойзера, который учат эти латенты расшумлять, а после - генерировать.

Большинство работ в контексте LDM посвящены диффузии, однако АЕ - не менее важный компонент системы. Энкодер АЕ задаёт распределение, которое выучит диффузия, а декодер определяет верхний предел качества реконструкции.

В этом посте речь пройдет про распределение латентов: как сделать его таким, чтобы максимизировать качество обученной на нем диффузии? Ниже представлены две одновременно вышедшие работы. Они решают проблему похожим образом, но исходят из разных предпосылок.

Improving the Diffusability of Autoencoders

Интуиция
Авторы используют интуицию о том что диффузия - это спектральная авторегрессия: на ранних шагах генерации модель предсказывает низкие частоты, после чего, обуславливаясь на них, генерирует всё более высокие. При этом, если АЕ продуцирует латенты со слишком большим количеством высоких частот, то это мешает ходу авторегрессии и, как следствие, генерации.

Инструменты анализа
Для оценки количества высоких частот авторы используют discrete cosine transform (DCT). Этот метод позволяет закодировать информацию последовательностью, каждый элемент которой хранит информацию о том сколько блоков картинки (или латента) содержат ту или иную частоту. Результат очень напоминает кодирующую матрицу JPEG, а её линеаризованный вариант - основа для большинства графиков в статье.

Анализ
Используя DCT, авторы показывают что:
🔜Современные картиночные (FluxAE, CMS-AE) и видео (CogVideoX-AE, LTX-
AE
) АЕ делают латенты более высокочастотными чем исходные картинки
🔜Использование KL этому никак не препятствует
🔜Увеличение числа каналов в латентах делает проблему более выраженной

Метод
Авторы считают, что моделям АЕ выгодно амплифицировать высокие частоты в латентах потому что качество их декодирования - ключевой критерий успеха обучения моделей. Для борьбы с этим предлагается простая регуляризация: давайте одновременно с подсчетом L1 и KL делать даунсемплинг (интерполяцию вниз) картинки и добавлять L1 для её реконструкции слагаемым в лосс. Таким образом зафорсится Scale Equivariance, которая будет мешать амплификации высоких частот

Эксперименты
Обучая разноразмерные DiT’ы поверх нескольких АЕ потюненных с регуляризацией, существенно снижаются FID/FDD и выравниваются DCT спектры. Сам тюн занимает всего 10к итераций с bs=32, что реально быстро и не дорого.

EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling

Интуиция
Авторы также замечают, что у современных АЕ отсутствует scale и rotation equivariance, однако их интуиция о том почему это плохо заключается в том что семантически близкие картинки не переводятся в семантически близкие латенты, что усложняет структуру латентного пространства, на которой учится диффузия

Метод
Вместо добавления регуляризационного слагаемого, авторы предлагают всегда учить модель на распределении картинок разного разрешения. Вариативность разрешений также достигается даунсемплиногом исходных картинок с переменным скейлинг фактором. Поскольку в изначальной постановке авторы используют смесь L1 и адверсариального лосса, то заскеленные картинки подаются в оба слагаемых

Эксперименты
Сетап и результаты похожи на описанные в предыдущей статье, хотя значения прироста FID чуть менее громкие. В сапмате интересные визуализации того как после файнтюна латенты становятся более гладкими

▶️ Discuss?
Всегда интересно, когда одновременно выходит несколько работ про примерно одно и то же. Это сильно повышает вероятность того, что в сказанном что-то есть
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥122❤‍🔥1👍1
VaViM and VaVAM: Autonomous Driving through Video Generative Modeling
[код и веса]

Окей, мы научились генерировать видосики, но нужны ли они кому-то кроме Тиктока? Оказывается, агенты-планировщики для автономного вождения можно обуславливать на предсказания следующих кадров, насыщая тем самым perception-to-action pipeline. Повосхищаться тем как это может быть устроено предлагаю на примере тех. репорта от valeo.ai (о которых я тоже слышу первый раз)

Метод
В основе системы лежат две модели:
- VaVAM - авторегрессионная трансформерная моделька покадровой генерации видео. Она обучается первым делом, после чего её предсказания используют в качестве условия для работы следующей модели
- VaViM - трансформерная flow matching моделька, которая предсказывает траекторию движения на основании предшествующих действий с и окружения О. Часть О - это кадры проезда несколькими секундами ранее, а часть - предсказанные с помощью VaVAM

Механизм работы системы представлен на приложенной к посту схеме:
▶️Action Encoder в виде MLP объединяет в себе траекторию на предыдущих шагах, соответствующие команды (поворот направо, поворот налево и тд) и диффузионный timestep t
▶️Action Transformer замешивает полученные эмбединги с увиденными и предсказанными кадрами, используя схему маскирования нарисованную справа
▶️Action Decoder - линейный слой, отображающий эмбеды в итоговую траекторию — набор координат (x, y), соответствующих положению автомобиля

Обучение
VaViM сначала обучают на OpenDV — наибольшем из доступных датасетов с записями проездов машин без какой-либо доп разметки. Затем генеративку тюнят на смеси OpenDV с nuPlan и nuScenes, которые сильно меньше, но содержат доп разметку о действиях и траекториях

Перед обучением использовали mu-P для исследования scaling laws видео модели. Всего за 10k GPU часов авторы подбирают коэффициенты степенной функции для масштабирования архитектуры, данных, LR и BS, с которыми далее проводят все эксперименты

Закончив обучения видео модели, переходят к обучению агента VaViM, используя данные о действиях, окружении и траекториях из nuPlan и nuScenes. Здесь используется ванильный flow matching для предсказания координат траектории движения.

Использование одних и тех же датасетов на финальной стадии обучения обеих моделей позволяет минимизировать сдвиг распределения между ними.

Замеры и результаты
О качестве генерации авторы судят по покадровому FID, что вызывает некоторые вопросы, особенно учитывая схожесть и однообразие последовательных кадров.

Также смотрят на пригодность фичей модели-агента для семантической сегментации. По качеству они все еще проигрывают DINO, но все же выделяют что-то разумное

О качестве вождения агента мне судить трудно, но метрики в табличках, показывают SOTA, чему чет большого смысла не доверять.

В качестве ограничений авторы заявляют склонность больших моделей к оверфиту. Также система не выходит за пределы imitation learning, а это значит, что для её масштабирования все еще нужны горы размеченных данных.

А еще к таким работам всегда возникает вопрос: действительно ли важна в данной системе генеративная компонента? Может быть аккуратное использование self-supervised фичей или дискриминативной авторазметки поверх прошлых кадров. К сожалению, в статье это не исследовалось
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥21
Do generative video models
understand physical principles?

[бенчмарк]

Модели генерации видео с каждым днем становятся все лучше и лучше, при этом, довольно трудно понять насколько эти модели хорошо понимают что они генерируют. Скептики говорят, что генеративки не более чем заучивают примеры из датасетов и делают интерполяцию между ними. Оптимисты напротив уверены, что они способны понять термодинамику, просматривая видосы с ютуба без звука 😬

Нужно сказать, что проблема возникает и в других областях, например генерации картинок, текстов и вообще чего угодно. Мы даже для людей эту задачу решать не научились. Каждый препод задумывается о том поняли ли студенты суть или просто запомнили факты и семплируют их во время экзамена 😭

Один из подходов к решению проблемы — сделать такой тест, который сделает невозможным правильный ответ без понимания общих принципов.

Созданием такого теста (бенчмарка) и методологии его использования описаны в этой работе. Авторы предлагают набор из 396 аккуратно собранных видео длиной 8 сек, покрывающих 66 физических сценариев и принципов от оптики до термодинамики и магнетизма. Фишка бенча в том что состоит не из синтетических видео. Сдвиг распределения между реальными видео и синтетикой вносил много шума в попытки сделать подобное исследование в прошлом

Методология
▶️Для video2video моделей, первые 3 сек видео подаются как условие и дальше модель генерит оставшиеся 5 сек
▶️Для image2video, берётся некоторый опорный кадр, который должен быть достаточно информативен для продолжения видео
▶️В обоих случаях, генерация сопровождается промтом, который описывает происходящее, но не говорит про исход

Пример из бенча
В датасете есть два видео про падение домино, при этом в одном из них между фишками расположена резиновая утка, размер и вес которой очевидно превышает размер и вес доминошек. Объекты выстроены так, что утка должна прервать процесс последовательного падения. Ожидается, что модели, понимающие принципы продолжат видео по-разному.
Примеры видео тут

Замеры
Качество генераций замеряют у 2 video2video (VideoPoet, Lumiere) и 6 image2video (Runway Gen 3, VideoPoet, Lumiere, SDVideo, Pika 1.0, Sora) моделей

Физичность предсказаний оценивают по совпадению генераций с реальными видео автоматически. Метрики основаны на аккуратно подобранных вариациях IoU, которые проверяют, что в ходе видео в нужное время в нужной степени меняются нужные объекты

Дополнительно замеряют реалистичность генераций по тому насколько часто VLM модель ошибается, пытаясь отличить реальное видео от генерации

Выводы
▶️Современные модели, в целом, плохо понимают физику
▶️Video2video модели понимают физику лучше чем image2video
▶️Наиболее реалистично и наименее физично генерирует Sora
▶️Реалистичность генераций и понимание физики антикоррелированны

В целом, авторы верят в то что в будущем удастся понять физику через предсказание следующего кадра
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥91
SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer
[код, веса]

Учить претрены text-to-image диффузии долго и дорого. Авторов SANA такое положение дел не устраивает. В прошлой серии (SANA 1.0) они флексили ускорением инференса ~x20 в разрешении 1024 и принципиальной возможностью генерировать 4k без super resolution моделей. В этот раз большее внимание уделяется эффективности обучения и дальнейшему скейлингу инференса.

Изменения относительно SANA 1.0

1️⃣ Увеличивают денойзер с 1.6B до 4.8В параметров. Обучение большой модели инициализируют с маленькой и экономят на этом 60% компьюта

2️⃣ Денойзер агрессивно прунят после обучения, получая модели в 1.5-2-3 раза меньше чем полная 4.8B модель. Для этого используют технику из Minitron: выкидывают трансформерные блоки, для которых похожесть активаций на входе и выходе выше порога. При этом качество сопоставимо с исходной моделью если сделать короткий (100 итераций) тюнинг. Получается своего рода аналог дистилляции перед продуктизацией модели

3️⃣ Inference-time scaling.
Вместо использования большой модели, на инференсе берут маленькую, делают пачку генераций, а потом отбирают лучшие с помощью VLM. Для этого используют специально дообученную версию NVILA-2B, про которую мы мало что знаем. Пачка большая - 2048 картинок, но они могут себе это позволить благодаря быстрому инференсу

4️⃣ Finetuning
Вместе с моделькой авторы делятся своей 8-bit реализацией оптимизатора CAME. Низкая битность позволяет тюнить 4.8В модель на одной консьюмерской GPU вроде RTX 4090. Для тюнинга предлагается использовать SFT датасет, состоящий из генераций, но больше деталей мы не знаем

Выводы
Фишка SANA 1.0 была в генерациях 4k, причем с достойным качеством. Эта модель про эффективность в разрешения 512 и 1024 и местами мы видим существенную просадку качества.

Высокие скоры GenEval говорят о хорошей релевантности, но генерации слишком дефектны чтобы воспринимать их серьезно. Мне работа интересна:
- Как фреймворк изучения диффузионных претренов
- Как кандидат для on-device геерации
👍82🔥1
The Best of Both Worlds: Integrating Language Models and Diffusion Models
for Video Generation

[кода и весов нет]

Не смотря на все успехи видео генерации, создание длинных роликов все еще остаётся сложной задачей. Основной формат ген видео сейчас - 3-5 секунд в 15/30 FPS, а хочется больше. Кажется логичным для этого использовать комбинацию диффузии с авторегрессией и мы уже разбирали такие работы.

Эта статья отличается своим акцентом на эффективности: кадры сжимают x1400 для получения компактных представлений, после чего последовательность токенов моделируется авторегрессионной моделью и декодируется в “грубые” эмбеды, которые финально доуточняются диффузией. Разберем основные компоненты системы.

1️⃣ Video Semantic Tokenizer
В основе лежит SSL претрен Theia - ViT на 100М параметров. Модель представляющая собой дистилл сразу нескольких качественных репрезентаций (CLIP, DINOv2, SAM), который учится одновременно предсказывать выходы моделей-учителей

Выбирая между SSL эмбедами и непрерывным автоэнкодером, авторы склонились к первому из-за более более качественного кодирования общей семантики в угоду потери детализации

Одним маппингом в Theia эмбеды x1400 сжатия не добиться, поэтому дальше авторы учат VQ-VAE на задачу реконструкции, конкатенируя эмбеды со случайно инициализированными query токенами.

Query токены нужны для того чтобы правильным обрабатывать кадры после группировки на важные и не важные фреймы. Дело в том, что мотивируясь MP4, авторы разделяют кадры на важные/опорные (IFrame) и вторичные (PFrame), которые кодируются как отличие от IFrame. Для того чтобы модель научилась различать IFrame и PFrame, для первых подается 3 токена, а для вторых - 1.

2️⃣ Language Model for Semantic Token Generation
Далее query токены предсказываются авторегрессионно моделькой с LLaMA-подобной архитектурой. Текстовый кондишен кодируют с помощью T5-XXL + по стандарту добавляют доп кондишены на длину видео и количество движения в нём и замешивают в генератор через cross-attn

3️⃣ Diffusion Model for Perceptual Feature Generation
Предсказанные авторегрессионно токены разворачиваются в непрерывные вектора с помощью VQ-VAE и подаются на вход MMDiT денойдеру. Кондишены прокидывают через Control Net, а сама генерация проводится по кусочкам. Результат разворачивают в последовательность кадров с помощью темпорального VAE

Результаты
Авторы целятся в генерацию видео длительностью ~30 сек в 8 FPS. На странице проекта они сравниваниются с OpenSora, FreeNoise и StreamingT2V и показывают, что на их видео выше консистентность больше движения. Учитывая, что нам почти наверняка показывают чери пики, задача генерации длинных видео еще далека от решения. Также чуть смущает количество инженерных наворотов, делающее воспроизведение почти невозможным
👍31🔥1
Как научить LLM генерировать изображения?

Недавние релизы GPT-4o-Image, Aurora и Gemini 2.0 Flash породили много хайпа вокруг универсальных моделей генерации текстов и картинок. Развитие VLM показало, что можно заставить LLM понимать визуальную информацию. Так почему бы не пойти дальше и не научить LLM её генерировать? Для этого важно эффективно передавать, а потом извлекать виз фичи из языковой модели. Ниже я собрал известные на сегодня подходы к тому как это делать

Discretization with Vector Quantization (VQ-VAE/VQ-GAN)
Самая простая и распространенная схема. Изображения кодируются в непрерывные латенты, а затем дискретизируются в визуальные токены из некоторого словаря (кодбука). Визуальные токены подаются в языковую модель наравне с текстовыми. Для генерации, токены декодируются с помощью декодера исходного автоэнкодера

Примеры: мало кто помнит, но первая версия DALL-E была устроена именно так. Позже Google выпустил Parti, а экстремисты сделали Chameleon

Легко масштабируется, минимальные изменения в схеме обучении LLM
Потеря мелких деталей из-за квантизации, размер кодбука ограничивает экспрессивность модели

Vision Encoder with Cross-Modal Alignment
Тоже распространенная схема, широко используется в VLM. Предобученный визуальный энкодер (CLIP, SigLIP, DINO) используют для извлечение эмбединга картинки. Далее эмбединг проецируется в пространство эмбедингов языковой модели с помощью линейного слоя или адаптера. Также информацию можно объединять через cross-attension

Примеры: LLM2CLIP, Flamingo, недавно вышедшая UniFluid
Позволяет использовать качественные визуальные энкодеры, нет потери информации из-за квантизации
Тяжелее напрямую генерировать картинки из-за отсутствия картиночного декодера в явном виде

Hybrid Approaches
Менее распространенная схема, пытающаяся объединить преимущества обеих схем. Изображения одновременно кодируют в дискретные и непрерывные представления, которые сохраняют семантическую инфу и детали соответственно. Непрерывные представления могут использоваться для улучшения понимания картинок на входе (кепшенинг), дискретные - для генерации

Примеры: ILLUME и её недавно вышедшее продолжение ILLUME+

Более гибкая схема, использует преимущества обоих представлений
Сложное устройство, тяжело учить и применять

Какой метод лучше?
Дискретные токены - не естественное представление для концептуально непрерывных данных. С другой стороны, отсутствие хорошего inductive bias может компенсироваться данными и компьютом. В любом случае, нас точно ждёт интересное развитие области в ближайшие месяцы и годы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍93🔥2🤩1
Channel photo updated
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
[ни кода, ни весов]

Выше мы разобрали основные подходы к мультимодальной генерации и предположили, что работа с непрерывными представлениями картинок - наиболее перспективный подход. Авторы данной работы перешли от слов к делу и обучили непрерывный аналог Chameleon

Модель
Авторы обучают линейку трансформеров с LLaMA 2 архитектурой и токенизатором на совместное решение задачи next token prediction и диффузионного расшумления патчей картинок

Помимо основного трансформера нам потребуются:
➡️Непрерывный VAE для получения латентов патчей картинок
➡️Линейный слой или U-Net encoder/decoder для отображения латентов в эмбеды генеративного транформера и обратно

Вся система кроме VAE учится end-to-end на смеси картиночных и текстовых данных общим размеров 2Т токенов. Для выделения картинок используются <BOI>/<EOI> токены, которые переводят авторегрессионную модель в диффузионный режим. Помимо механизма семплирования, перевод режима влияет на аттеншен. Для текстов используется causal attn, для картинок - intra-image attn и, судя по результатам, это очень важная деталь

Результат
➡️Transfusion круче Chameleon во всех постановках, включая text-to-text. Интуиция - непрерывной модели проще даётся text-to-image и больше капасити модели остаётся, например, для text-to-text
➡️Transfusion скейлится круче Chameleon на диапазоне размера моделей от 0.16В до 7В параметров
➡️Использование inductive bias из U-Net помогает даже на таком масштабе. Для отображения в эмбеды стоит использовать его. Усложняет он не сильно (~3.8% от общего числа параметров)
➡️Модель легко дообучается на редактирование изображений используя всего 8к семплов

(Неочевидные) минусы
Очень много форвардов на генерацию изображения: нужно не только сгенерировать картинку по латентным патчам (~256 форвардов на 256х256 картинку), но еще и сделать N шагов диффузионного семплирования всей моделью на каждый патч
Систему учат с нуля на 2Т токенах и это достаточно дорого. Как будет работать в режиме файнтюна в статье не исследовали
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61
Мы с ребятами долетели до Сингапура, а это значит, что астрологи объявили неделю фоток постеров с беглыми разборами

😣 -5 к подготовке постов
👓 +10 к инсайтам и комментариям из первых рук
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3114
ICLR’25 poster session 1

Ниже основные идеи нескольких заинтересовавших меня работ и комментариев от их авторов. Самое ценное для меня - понять интуицию, на которой базируется статья и ограничения, о которых не всегда пишут в тексте

Precise Parameter Localization for Textual Generation in Diffusion Models

С помощью перебора и OCR можно найти cross-attn слои, которые отвечают исключительно за то какой текст нарисован на картинке. После этого можно подавать промт с измененным текстом только в эти cross-attn слои, а исходный промт генерации - во все остальные слои и получать почти идеальное редактирование нарисованного текста

Автор говорит, что стиль текста без изменения контента так менять не получается. Делать это на отдельных головах, а не только на полных слоях - тоже. А еще можно взять ответственные за контент текста слои и только их дообучить, это улучшает качество их генерации, но в реальности не понятно насколько сильно потому что в экспах авторы использовали только шумные публичные данные

A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation

Работа основывается на наблюдении о том, что основная проблема квантизации картинок в том что при кодировании-декодировании теряется слишком много информации. Действительно, классический VQ-VAE для каждого вектора выдаёт некоторый ближайший, часто очень не похожий вектор из кодбука. Предлагает делать residual дискретные токены, то есть стакать пирамидкой по частотам информацию о патчах. Дальше будем делать генерацию авторегрессионным трансформером. Он будет предсказывать все N токенов отвечающие за основной контент кропа картинки + уточнения (residuals) за раз. Это позволяет бустануть качество реконструкции до уровня средненького VAE и не особо потерять в скорости.

Автор говорит, что учить VQ-VAE не особо тяжело. Просто надо много раз реинициализировать и делать заново обучение до тех пор пока не получится автоэнкодер, использующий все элементы кодбука 😂

VILA-U: a Unified Foundation Model Integrating Visual Understanding and Generation

Одна из многих статей по мультимодальной генерации с расширением словаря дискретными токенами картинок. Отличается от предыдущей и многих других статей тем что латенты VQ-VAE «притягиваются» к токенам текстового энкодера contrastive лоссом, что постфактум улучшает качество генерации. Звучит вполне разумно

Но интересна статья не этим, а тем что автор поделился своей интуицией по поводу подобных систем в целом
- Во-первых, использование именно contrastive лосса для объединения картиночного и текстового представлений не обязательно. Даже лучше работает captioning loss, просто они не успели добавить это перед сабмитом
- Во-вторых, они явно ставили своей целью буст качества внутри фреймворка дискретной картиночной генерации. Сам он больше верит в непрерывные представления картинок для этой задачи

Fréchet Wavelet Distance: A Domain-Agnostic Metric for Image Generation

У работы очень понятная мотивация - использование Frechet Distance с любым картиночным энкодером будет иметь баес на train распределение этого энкодера. Для Inception это Imagenet, для DINO другой, но все еще ограниченный набор данных. Детерменированные представлерия такие как вейвлеты, в свою очередь, таким недостатком не обладают, да и считать их быстрее

Автор очень топит за свой подход и явно верит в то что сделал что-то полезное. Код выложен, можно на досуге попробовать, имея ввиду то что метрика будет более чувствительна к высокочастотным деталям. А ещё из-за этого её можно использовать как детектор сгенерированного контента
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍102
Если мотивация вашей работы выгляди не так - даже не зовите меня

ZooProbe: A Data Engine for Evaluating, Exploring, and Evolving Large-scale Training Data for Multimodal LLMs
😁42
ICLR’25 poster session 2

Не все сессии одинаково информативны, но всегда находится что-то любопытное

Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis

Развитие идеи MaskGIT для high rez генерации. Добавляют дополнительный compression модуль после токенизации и усложняют процедуру обучения, развивая её на аж 4 стадии. Последние, ожидаемо, тюнят модель на генерацию в разрешении 1024

В целом, работа инкрементальная. Интересно, что авторы, использующие VQ-VAE от Muse, не видят ограничений со стороны автоэнкодера и атрибутируют текущие пробелы в качестве недообученному генеративному трансформеру. А еще автор сказал, что high quality data на последних стадиях обучения - это прокачанный с huggingface датасет прокачек MidJourney 😂

Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models

Допустим, мы хотим добавлять объекты на реальные изображения. Если взять картинку, инвертировать её диффузионкой в шум (DDIM inversion), а потом просто перегенерировать с новым промтом качество такого редактирования будет низким. Вместо этого возьмем новый шум и будем генерировать из него с промтом - описанием нового объекта. Чтобы обеспечивать связанность новой генерации с исходной картинкой будем делать аттеншен и на её траектории тоже. Для получения идеального баланса где фон остаётся, а новый объект добавляется, нужно взвешивать силу аттеншена между старой и новой траекторией

Автор говорит, что вес не сильно зависит от картинки и каждый раз подбирать его не надо. Если так, то такое редактирование стоит всего х2 от стоимости генерации, что часто приемлемо

Diffusion Attribution Score: Evaluating Training Data Influence in Diffusion Model

Допустим мы хотим найти самые информативные семплы в нашем обучающем text-to-image детасете. Как это сделать? Например, можно было бы обучить одну модель на всех М семплах, другую на М-1 семплах и сравнить качество. Не отличается? Значит семпл бесполезный, выкидываем. Беда в том что провернуть такое для всего датасета - вычислительно неподъемная задача. Вместо этого авторы предлагают аппроксимацию такого процесса, позволяющий оптимизационно получить приближение модели без конкретного семпла.

Обсуждая работу с автором я уже довольно тёр ладошки думая как прилечу и задистиллю претрен данные, а потом понял, что для больших моделей их выражение просто не вычислимо. Чтож, хотя бы поговорили хорошо
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
7😁4👍1
ICLR’25 poster session 3

Хозяйке на заметку, в этот раз добавил пару статей которые интересные, но со спорной практичностью

Boosting Latent Diffusion with Perceptual Objectives

Авторы замечают, что иногда добавление локального шума в латентны автоэнкодера создаёт глобальные искажения в декодированной картинке. Предлагается решать это добавлением perceptual лосса к задаче обучения денойзера. При этом, сам автоэнкодер замораживается, диффузионный лосс остается в латентном пространстве, а perceptual - на последних слоях декодера близко к картинке

По сути, это очередная работа, решающая проблему несоответствия между диффузией и автоэнкодером. Автор согласен, что на большом масштабе проблема скорее всего решится сама собой. Но если хочется быстро и дешего, то почему бы и не потюнить

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

Недавно уже подробно разбирали эту работу. Есть несколько важных дополнений от авторов:
- Можно учить в fine tuning режиме. В работе это не указано, но на практике они пробовали и работает хорошо
- Исходная формулировка лосса важна. Нужно всегда учить на диффузионный лосс вместе с LLM лоссом, иначе сильно просачивается качество text-to-text
- Можно брать MoE претрен для ещё большего увеличения эффективности тюнинга
- По параметром система масштабируется хорошо, все приложения (в том числе диалоговый режим) поддерживаются через сравнительно небольшие доливки данных

Generalization through variance: how noise shapes inductive biases in diffusion models

Теоретическая работа о том почему диффузия обобщается. Почему, хорошо обучившись, модель просто не семплит данные из train датасета? Основной вывод в том то обучая скор функцию мы в общем случае приближаем некоторое матожидаемое представление шумной картинки на шаге t. Более того, вариации дисперсии на разных шагах позволяет моделировать разные плотности вероятности (красивые картиночки с облаками на постере и в статье). Практических выводов не будет, мы просто преисполнились пониманием и можем идти дальше
🔥6👍51