Свежие релизы от Tensent
Многие знают компанию по их весьма неплохой видео модельке HunyuanVideo. На днях случилось два любопытных релиза.
1️⃣ Выложили новую T2I модельку HunyuanImage-2.1. Тех. репорт пока отсутствует, но основные моменты можно понять по описанию в репозиториях с кодом и моделькой.
2️⃣ Модель включает отдельный модуль PromptEnhancer про который авторы рассказывают отдельно.
Хочется разобраться что, собственно, было сделано.
1. HunyuanImage-2.1: An Efficient Diffusion Model for High-Resolution (2K) Text-to-Image Generation
[код, веса]
Модель представляет собой DiT с двумя текстовыми энкодерами (VLM + ByT5), обученный с REPA на DINOv2 поверх собственного х32 VAE.
Последний пункт интересен тем что про VAE не слова, а вообще хороших х32 VAE кроме DC AE особо и не выходило. Технически, предложенный VAE отличается от DC AE хотя бы тем что имеет аттеншен в ботлнеке, ждем полного тех. репорта для больших подробностей.
После претрена модель дообучают в две стадии: SFT + RLHF (такую же схему мы уже давно используем в YandexART). После этого модель дистиллируют, по заявлению авторов, новым методом дистилляции на основе meanflow, но детали пока отсутствуют.
Использование глубокого автоэнкодера позволяет быстро и качественно генерировать картинки в 2К разрешении, а PromptEnhancer модуль (обсуждаем ниже) улучшает text-image alignment и визуальное качество.
Замеры делают с помощью некого Structured Semantic Alignment Evaluation, SSAE (расскажите если знаете что это) и side-by-side сравнений, в которых текущая OS SOTA в виде HiDream тактично игнорируется.
2. PromptEnhancer: A Simple Approach to Enhance Text-to-Image Models via Chain-of-Thought Prompt Rewriting
[код, веса]
Еще со времен DALL-E 3👴 известно, что релевантность T2I моделей повышается если:
- Модель обучить на дискриптивных промтах (потому что в них более четко сформулировано что нужно сделать)
- Выучить некоторую модель переписывания промтов, которая будет делать обычные промты из бенчей и от пользователей более дискриптивными.
Авторы предлагают PromptEnhancer — универсальный фреймворк для переписывания промптов, который улучшает любую T2I-модель без необходимости изменять её веса.
Идея и метод
Ключевая идея — полностью отделить задачу улучшения промпта от задачи генерации изображения. Framework состоит из двух основных компонентов:
1️⃣ CoT Rewriter: модель-переписчик (на базе Hunyuan-7B-Instruct), которая использует методику "цепочки рассуждений" (Chain-of-Thought, CoT). Она анализирует исходный промпт, выявляет потенциальные неоднозначности и обогащает его деталями, касающимися атрибутов, композиции и стилистики, имитируя процесс человеческого мышления.
2️⃣ AlignEvaluator: специализированная модель для оценки выравнивания (alignment) между изображением и текстом. В отличие от общих метрик, AlignEvaluator обучен давать детальную и гранулированную обратную связь на основе системной таксономии из 24 ключевых аспектов (KeyPoints), сгруппированных в 6 категорий (например, понимание отрицаний, подсчет объектов, пространственные отношения, рендеринг текста и т.д.).
Обучение и результаты
Учат в два этапа: дистиллят мощного учителя (Gemini-2.5-Pro), потом делают GRPO на парах где разметку получают из из VLM. По замерам авторов релевантность растёт по всем 24 аспектам на 5.1%, наибольший рост в понимании отношений схожести (+17.3%), контрфактических сценариях (+17.2%) и подсчете объектов (+15.0%).
В работе мне не хватило аблейшена утверждения о том что PromptEnhancer — универсальная система, не зависящая от T2I модели. Впрочем, веса и код открыты, можно проверить.
Многие знают компанию по их весьма неплохой видео модельке HunyuanVideo. На днях случилось два любопытных релиза.
1️⃣ Выложили новую T2I модельку HunyuanImage-2.1. Тех. репорт пока отсутствует, но основные моменты можно понять по описанию в репозиториях с кодом и моделькой.
2️⃣ Модель включает отдельный модуль PromptEnhancer про который авторы рассказывают отдельно.
Хочется разобраться что, собственно, было сделано.
1. HunyuanImage-2.1: An Efficient Diffusion Model for High-Resolution (2K) Text-to-Image Generation
[код, веса]
Модель представляет собой DiT с двумя текстовыми энкодерами (VLM + ByT5), обученный с REPA на DINOv2 поверх собственного х32 VAE.
Последний пункт интересен тем что про VAE не слова, а вообще хороших х32 VAE кроме DC AE особо и не выходило. Технически, предложенный VAE отличается от DC AE хотя бы тем что имеет аттеншен в ботлнеке, ждем полного тех. репорта для больших подробностей.
После претрена модель дообучают в две стадии: SFT + RLHF (такую же схему мы уже давно используем в YandexART). После этого модель дистиллируют, по заявлению авторов, новым методом дистилляции на основе meanflow, но детали пока отсутствуют.
Использование глубокого автоэнкодера позволяет быстро и качественно генерировать картинки в 2К разрешении, а PromptEnhancer модуль (обсуждаем ниже) улучшает text-image alignment и визуальное качество.
Замеры делают с помощью некого Structured Semantic Alignment Evaluation, SSAE (расскажите если знаете что это) и side-by-side сравнений, в которых текущая OS SOTA в виде HiDream тактично игнорируется.
2. PromptEnhancer: A Simple Approach to Enhance Text-to-Image Models via Chain-of-Thought Prompt Rewriting
[код, веса]
Еще со времен DALL-E 3
- Модель обучить на дискриптивных промтах (потому что в них более четко сформулировано что нужно сделать)
- Выучить некоторую модель переписывания промтов, которая будет делать обычные промты из бенчей и от пользователей более дискриптивными.
Авторы предлагают PromptEnhancer — универсальный фреймворк для переписывания промптов, который улучшает любую T2I-модель без необходимости изменять её веса.
Идея и метод
Ключевая идея — полностью отделить задачу улучшения промпта от задачи генерации изображения. Framework состоит из двух основных компонентов:
1️⃣ CoT Rewriter: модель-переписчик (на базе Hunyuan-7B-Instruct), которая использует методику "цепочки рассуждений" (Chain-of-Thought, CoT). Она анализирует исходный промпт, выявляет потенциальные неоднозначности и обогащает его деталями, касающимися атрибутов, композиции и стилистики, имитируя процесс человеческого мышления.
2️⃣ AlignEvaluator: специализированная модель для оценки выравнивания (alignment) между изображением и текстом. В отличие от общих метрик, AlignEvaluator обучен давать детальную и гранулированную обратную связь на основе системной таксономии из 24 ключевых аспектов (KeyPoints), сгруппированных в 6 категорий (например, понимание отрицаний, подсчет объектов, пространственные отношения, рендеринг текста и т.д.).
Обучение и результаты
Учат в два этапа: дистиллят мощного учителя (Gemini-2.5-Pro), потом делают GRPO на парах где разметку получают из из VLM. По замерам авторов релевантность растёт по всем 24 аспектам на 5.1%, наибольший рост в понимании отношений схожести (+17.3%), контрфактических сценариях (+17.2%) и подсчете объектов (+15.0%).
В работе мне не хватило аблейшена утверждения о том что PromptEnhancer — универсальная система, не зависящая от T2I модели. Впрочем, веса и код открыты, можно проверить.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍4🔥1
HunyuanImage 3.0 Technical Report
[код, веса]
Tensent продолжают релизы, новая HunyuanImage позиционируется как самая мощная open-source модель для генерации изображений на данный момент. В отличие от предыдущих версий, это не просто DiT-модель, это гибридная мультимодальная система, построенная на базе очень большого MoE LLM (Hunyuan-A13B) с 80B+ общих и 13B активных параметров. Модель унифицирует задачи понимания и генерации в едином фреймворке, однако для публичного доступа была выложена только её часть, отвечающая за генерацию.
Как это работает
В основе лежит "нативная мультимодальная модель" — MoE LLM, которая управляет процессом генерации. В отличие от чисто авторегрессионных подходов (OneCAT) или классических DiT, HunyuanImage 3.0 использует гибридную архитектуру, схожую с парадигмой Transfusion/JanusFlow, где LLM руководит диффузионным процессом в латентном пространстве.
Ключевые архитектурные решения
➡️ Dual-Encoder
Для обработки изображений используются сразу два энкодера: VAE (с даунсэмплингом х16) для задач генерации и Vision Encoder (ViT) для задач понимания. Их признаки конкатенируются, что позволяет модели одновременно работать с разными аспектами визуальной информации.
➡️ Generalized Causal Attention
Чтобы совместить авторегрессионную природу текста и "полноценное" внимание для изображений, используется специальный механизм масок. Текстовые токены видят только предыдущие токены, в то время как токены изображения могут "смотреть" на все предыдущие токены и на все остальные токены в пределах этого же изображения.
➡️ Нативный CoT (Chain-of-Thought)
Модель не просто получает улучшенный промпт; она обучена сама выполнять процесс рассуждения и переписывания промпта как неотъемлемый шаг перед генерацией. Это достигается за счет обучения на специально собранном Text-to-Text-to-Image (T2TI) датасете, содержащем цепочки рассуждений.
Ключ к успеху — данные и многоэтапное обучение
Высокое качество модели — результат колоссальной работы с данными и сложного пайплайна обучения.
1️⃣ Данные
Исходный пул из 10 млрд изображений прошел через 3-этапную фильтрацию (удаление дубликатов, низкого качества, AIGC-контента, оценка эстетики). Была разработана продвинутая система иерархического двуязычного капченинга, которая генерирует описания разной степени детализации и использует специализированные "агенты" (OCR, Named Entity) для проверки фактов.
2️⃣ Прогрессивное предобучение
Обучение разделено на 4 стадии с постепенным увеличением разрешения изображений и добавлением более сложных данных (например, interleaved-data на 3-й стадии и CoT-данные на 4-й).
3️⃣”Агрессивный" пост-тренинг
После предобучения модель проходит целый каскад выравнивающих процедур: SFT, DPO (для устранения артефактов), MixGRPO (для улучшения эстетики и выравнивания с текстом), SRPO и новый внутренний метод ReDA для повышения реализма.
Как мерились
Авторы справедливо критикуют существующие бенчмарки (T2I-CompBench, GenEval) за примитивные промпты и ненадёжные автоматические метрики. Вместо них они предлагают собственный фреймворк SSAE (Structured Semantic Alignment Evaluation). В нём LLM сначала парсит промпт на 12 семантических полей (объекты, атрибуты, сцена и т.д.), а затем более продвинутая MLLM с CoT оценивает сгенерированное изображение по каждому из этих пунктов.
По результатам человеческой оценки, HunyuanImage 3.0 значительно превосходит предыдущую версию 2.1 и конкурирует на равных с ведущими закрытыми моделями (Seedream 4.0, GPT-Image).
Вместо вывода
HunyuanImage 3.0 — это демонстрация мощи современного индастриал-ML. Успех модели кроется не в одном прорывном архитектурном решении, а в синергии четырёх факторов: огромный масштаб MoE LLM, проработанный пайплайн подготовки данных, многоступенчатое прогрессивное обучение и каскад из самых современных RL-техник.
В любом случае, это новый и очень высокий стандарт для open-source комьюнити.
[код, веса]
Tensent продолжают релизы, новая HunyuanImage позиционируется как самая мощная open-source модель для генерации изображений на данный момент. В отличие от предыдущих версий, это не просто DiT-модель, это гибридная мультимодальная система, построенная на базе очень большого MoE LLM (Hunyuan-A13B) с 80B+ общих и 13B активных параметров. Модель унифицирует задачи понимания и генерации в едином фреймворке, однако для публичного доступа была выложена только её часть, отвечающая за генерацию.
Как это работает
В основе лежит "нативная мультимодальная модель" — MoE LLM, которая управляет процессом генерации. В отличие от чисто авторегрессионных подходов (OneCAT) или классических DiT, HunyuanImage 3.0 использует гибридную архитектуру, схожую с парадигмой Transfusion/JanusFlow, где LLM руководит диффузионным процессом в латентном пространстве.
Ключевые архитектурные решения
Для обработки изображений используются сразу два энкодера: VAE (с даунсэмплингом х16) для задач генерации и Vision Encoder (ViT) для задач понимания. Их признаки конкатенируются, что позволяет модели одновременно работать с разными аспектами визуальной информации.
Чтобы совместить авторегрессионную природу текста и "полноценное" внимание для изображений, используется специальный механизм масок. Текстовые токены видят только предыдущие токены, в то время как токены изображения могут "смотреть" на все предыдущие токены и на все остальные токены в пределах этого же изображения.
Модель не просто получает улучшенный промпт; она обучена сама выполнять процесс рассуждения и переписывания промпта как неотъемлемый шаг перед генерацией. Это достигается за счет обучения на специально собранном Text-to-Text-to-Image (T2TI) датасете, содержащем цепочки рассуждений.
Ключ к успеху — данные и многоэтапное обучение
Высокое качество модели — результат колоссальной работы с данными и сложного пайплайна обучения.
1️⃣ Данные
Исходный пул из 10 млрд изображений прошел через 3-этапную фильтрацию (удаление дубликатов, низкого качества, AIGC-контента, оценка эстетики). Была разработана продвинутая система иерархического двуязычного капченинга, которая генерирует описания разной степени детализации и использует специализированные "агенты" (OCR, Named Entity) для проверки фактов.
2️⃣ Прогрессивное предобучение
Обучение разделено на 4 стадии с постепенным увеличением разрешения изображений и добавлением более сложных данных (например, interleaved-data на 3-й стадии и CoT-данные на 4-й).
3️⃣”Агрессивный" пост-тренинг
После предобучения модель проходит целый каскад выравнивающих процедур: SFT, DPO (для устранения артефактов), MixGRPO (для улучшения эстетики и выравнивания с текстом), SRPO и новый внутренний метод ReDA для повышения реализма.
Как мерились
Авторы справедливо критикуют существующие бенчмарки (T2I-CompBench, GenEval) за примитивные промпты и ненадёжные автоматические метрики. Вместо них они предлагают собственный фреймворк SSAE (Structured Semantic Alignment Evaluation). В нём LLM сначала парсит промпт на 12 семантических полей (объекты, атрибуты, сцена и т.д.), а затем более продвинутая MLLM с CoT оценивает сгенерированное изображение по каждому из этих пунктов.
По результатам человеческой оценки, HunyuanImage 3.0 значительно превосходит предыдущую версию 2.1 и конкурирует на равных с ведущими закрытыми моделями (Seedream 4.0, GPT-Image).
Вместо вывода
HunyuanImage 3.0 — это демонстрация мощи современного индастриал-ML. Успех модели кроется не в одном прорывном архитектурном решении, а в синергии четырёх факторов: огромный масштаб MoE LLM, проработанный пайплайн подготовки данных, многоступенчатое прогрессивное обучение и каскад из самых современных RL-техник.
В любом случае, это новый и очень высокий стандарт для open-source комьюнити.
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡6🔥3
Why Language Models Hallucinate
Эх тяжела жизнь ресерчера OpenAI: твоей статье меньше месяца, а уже 9 цитирований. Интерес вполне заслуженный из-за высокого ожидаемого качества, небольшого общего числа публикаций и хайпового названия. Давайте почитаем что написали в этот раз.
LLM галлюцинируют (сюрприз), при этом большинство исследователей ищут причины галлюцинаций в сложных свойствах архитектуры трансформеров или данных. Эта работа предлагает иной, более простой взгляд. Авторы утверждают, что языковые модели галлюцинируют потому что вся система их обучения и оценки поощряет угадывание. Подобно студенту на экзамене, который боится оставить ответ пустым, LLM выгоднее выдать правдоподобную ложь, чем честно признаться в незнании ("I don't know").
Откуда берутся галлюцинации (этап Pre-training)
Авторы демистифицируют происхождение галлюцинаций, сводя сложную задачу генерации текста к более простой и изученной задаче бинарной классификации. Они вводят гипотетическую проблему "Is-It-Valid" (IIV), в которой модель должна лишь отличать валидные утверждения от невалидных.
Ключевой теоретический результат статьи — это доказательство математической связи: уровень ошибок генерации (error rate) как минимум вдвое превышает уровень ошибок классификации в задаче IIV. Иными словами, если модель в принципе не может идеально отличить правду от вымысла, она неизбежно будет продуцировать ошибки (включая галлюцинации) в процессе свободной генерации.
Ошибки классификации, в свою очередь, возникают по хорошо известным в статистике причинам:
1️⃣ Сложность данных без паттернов (Arbitrary Facts)
Если факты произвольны и не имеют структуры (например, дни рождения малоизвестных людей), их невозможно выучить, не увидев в обучающей выборке. Ошибка предсказания таких "одноразовых" фактов (singletons) напрямую связана с их частотой в данных.
2️⃣ Несовершенство модели (Poor Models)
Модель может быть в принципе неспособна идеально описать данные, как, например, триграммная модель не может уловить длинные зависимости в грамматике.
3️⃣ Вычислительная сложность, сдвиг распределения, GIGO и другие классические проблемы ML.
Почему галлюцинации выживают (этап Post-training)
На этапе пост-тренинга (SFT, RLHF) модели должны были бы отучиться от галлюцинаций. Но этого не происходит, и причина, по мнению авторов, кроется в системе оценки. Подавляющее большинство популярных бенчмарков (MMLU-Pro, SWE-bench, HLE и др.) используют бинарную систему оценки: 1 балл за правильный ответ и 0 за неправильный или пустой (IDK).
В такой системе для модели всегда математически выгоднее "угадать" и получить шанс на 1 балл, чем ответить "I don't know" и гарантированно получить 0. Модели оптимизируются под то, чтобы быть хорошими "сдатчиками тестов", а не честными ассистентами.
Что делать? Социо-техническое решение
Проблема не в том, что у нас нет хороших бенчмарков для измерения галлюцинаций. Проблема в том, что доминирующие лидерборды их не используют и поощряют "враньё". Поэтому решение должно быть социо-техническим: нужно менять не модели, а правила игры на существующих, влиятельных бенчмарках.
Авторы предлагают внедрять "цели по уверенности" (confidence targets) прямо в текст заданий. Например, добавлять в промпт фразу: "Отвечай, только если уверен более чем на 90%, так как за ошибки предусмотрен штраф". Это вводит явные штрафы за неверные догадки и делает честное признание в неуверенности (IDK) рациональной стратегией.
Вместо вывода
Эта работа — скорее сильный концептуальный манифест, чем технический отчет о новой модели. Её главная ценность в том, что она переносит фокус с загадочных "свойств нейросетей" на вполне измеримые и понятные стимулы и систему оценки. Идея о том, что LLM — это просто "хорошие сдатчики тестов", которым выгоднее рисковать, чем молчать, звучит очень убедительно. Понравилось сведение генерации к классификации, не понравилось предложенное социо-техническое решение. Оно выглядит логичным, но точно столкнется с огромной инерцией исследовательского сообщества, а еще “хорошие сдатчики тестов” точно научатся хакать и его.
Эх тяжела жизнь ресерчера OpenAI: твоей статье меньше месяца, а уже 9 цитирований. Интерес вполне заслуженный из-за высокого ожидаемого качества, небольшого общего числа публикаций и хайпового названия. Давайте почитаем что написали в этот раз.
LLM галлюцинируют (сюрприз), при этом большинство исследователей ищут причины галлюцинаций в сложных свойствах архитектуры трансформеров или данных. Эта работа предлагает иной, более простой взгляд. Авторы утверждают, что языковые модели галлюцинируют потому что вся система их обучения и оценки поощряет угадывание. Подобно студенту на экзамене, который боится оставить ответ пустым, LLM выгоднее выдать правдоподобную ложь, чем честно признаться в незнании ("I don't know").
Откуда берутся галлюцинации (этап Pre-training)
Авторы демистифицируют происхождение галлюцинаций, сводя сложную задачу генерации текста к более простой и изученной задаче бинарной классификации. Они вводят гипотетическую проблему "Is-It-Valid" (IIV), в которой модель должна лишь отличать валидные утверждения от невалидных.
Ключевой теоретический результат статьи — это доказательство математической связи: уровень ошибок генерации (error rate) как минимум вдвое превышает уровень ошибок классификации в задаче IIV. Иными словами, если модель в принципе не может идеально отличить правду от вымысла, она неизбежно будет продуцировать ошибки (включая галлюцинации) в процессе свободной генерации.
Ошибки классификации, в свою очередь, возникают по хорошо известным в статистике причинам:
1️⃣ Сложность данных без паттернов (Arbitrary Facts)
Если факты произвольны и не имеют структуры (например, дни рождения малоизвестных людей), их невозможно выучить, не увидев в обучающей выборке. Ошибка предсказания таких "одноразовых" фактов (singletons) напрямую связана с их частотой в данных.
2️⃣ Несовершенство модели (Poor Models)
Модель может быть в принципе неспособна идеально описать данные, как, например, триграммная модель не может уловить длинные зависимости в грамматике.
3️⃣ Вычислительная сложность, сдвиг распределения, GIGO и другие классические проблемы ML.
Почему галлюцинации выживают (этап Post-training)
На этапе пост-тренинга (SFT, RLHF) модели должны были бы отучиться от галлюцинаций. Но этого не происходит, и причина, по мнению авторов, кроется в системе оценки. Подавляющее большинство популярных бенчмарков (MMLU-Pro, SWE-bench, HLE и др.) используют бинарную систему оценки: 1 балл за правильный ответ и 0 за неправильный или пустой (IDK).
В такой системе для модели всегда математически выгоднее "угадать" и получить шанс на 1 балл, чем ответить "I don't know" и гарантированно получить 0. Модели оптимизируются под то, чтобы быть хорошими "сдатчиками тестов", а не честными ассистентами.
Что делать? Социо-техническое решение
Проблема не в том, что у нас нет хороших бенчмарков для измерения галлюцинаций. Проблема в том, что доминирующие лидерборды их не используют и поощряют "враньё". Поэтому решение должно быть социо-техническим: нужно менять не модели, а правила игры на существующих, влиятельных бенчмарках.
Авторы предлагают внедрять "цели по уверенности" (confidence targets) прямо в текст заданий. Например, добавлять в промпт фразу: "Отвечай, только если уверен более чем на 90%, так как за ошибки предусмотрен штраф". Это вводит явные штрафы за неверные догадки и делает честное признание в неуверенности (IDK) рациональной стратегией.
Вместо вывода
Эта работа — скорее сильный концептуальный манифест, чем технический отчет о новой модели. Её главная ценность в том, что она переносит фокус с загадочных "свойств нейросетей" на вполне измеримые и понятные стимулы и систему оценки. Идея о том, что LLM — это просто "хорошие сдатчики тестов", которым выгоднее рисковать, чем молчать, звучит очень убедительно. Понравилось сведение генерации к классификации, не понравилось предложенное социо-техническое решение. Оно выглядит логичным, но точно столкнется с огромной инерцией исследовательского сообщества, а еще “хорошие сдатчики тестов” точно научатся хакать и его.
🔥10❤3👍1
Forwarded from AbstractDL
Синтетические данные для претрейна LLM: когда они помогают, а когда вредят (by Meta)
Можно ли обучать языковые модели на данных, сгенерированных другими LLM? И если да, то сколько такой синтетики нужно подмешивать? Meta провели одно из самых масштабных исследований на эту тему — обучили больше 1000 моделей (до 3B параметров) на 100k+ GPU часов, чтобы разобраться раз и навсегда, но основные выводы получились неоднозначные.
Авторы тестировали три типа синтетики: перефразирование веб-текстов в "высококачественный" стиль (HQ), перефразирование в QA-формат и генерацию синтетических учебников (textbook-style данных по типу Phi).
Что работает:
- Смешивание 1/3 перефразированных синтетических данных с 2/3 натуральными веб-текстами может ускорить обучение в 5-10 раз (по достижению того же validation loss) на больших датасетах.
- "Золотое сечение" для миксов оказалось около 30% синтетики. Причём это соотношение удивительно стабильно для разных размеров моделей и объёмов данных.
Что НЕ работает:
- Обучение только на перефразированной синтетике не быстрее, чем на обычных веб-текстах.
- Обучение на "учебниках" даёт заметно более высокий loss, особенно на малых объёмах данных.
- Просто взять генератор побольше (70B вместо 8B) не даёт лучших результатов — иногда даже становится хуже 🤷♂️
Интересно, что при проверке эффекта model collapse (это когда модель деградирует, обучаясь на собственных или синтетических данных, теряя разнообразие и усиливая ошибки), авторы получили смешанную картину: перефразированная синтетика не привела к деградации даже при крупных масштабах, а вот данные в формате учебников действительно вызвали признаки коллапса.
Ещё один контринтуитивный результат из анализа unigram-распределений: CommonCrawl имеет самое широкое покрытие токенов и наименьшую KL-дивергенцию к тестовым датасетам, но это не привело к лучшему качеству. Похоже, степень полезности данных зависит не только от сходства с тестом.
Статья
Можно ли обучать языковые модели на данных, сгенерированных другими LLM? И если да, то сколько такой синтетики нужно подмешивать? Meta провели одно из самых масштабных исследований на эту тему — обучили больше 1000 моделей (до 3B параметров) на 100k+ GPU часов, чтобы разобраться раз и навсегда, но основные выводы получились неоднозначные.
Авторы тестировали три типа синтетики: перефразирование веб-текстов в "высококачественный" стиль (HQ), перефразирование в QA-формат и генерацию синтетических учебников (textbook-style данных по типу Phi).
Что работает:
- Смешивание 1/3 перефразированных синтетических данных с 2/3 натуральными веб-текстами может ускорить обучение в 5-10 раз (по достижению того же validation loss) на больших датасетах.
- "Золотое сечение" для миксов оказалось около 30% синтетики. Причём это соотношение удивительно стабильно для разных размеров моделей и объёмов данных.
Что НЕ работает:
- Обучение только на перефразированной синтетике не быстрее, чем на обычных веб-текстах.
- Обучение на "учебниках" даёт заметно более высокий loss, особенно на малых объёмах данных.
- Просто взять генератор побольше (70B вместо 8B) не даёт лучших результатов — иногда даже становится хуже 🤷♂️
Интересно, что при проверке эффекта model collapse (это когда модель деградирует, обучаясь на собственных или синтетических данных, теряя разнообразие и усиливая ошибки), авторы получили смешанную картину: перефразированная синтетика не привела к деградации даже при крупных масштабах, а вот данные в формате учебников действительно вызвали признаки коллапса.
Ещё один контринтуитивный результат из анализа unigram-распределений: CommonCrawl имеет самое широкое покрытие токенов и наименьшую KL-дивергенцию к тестовым датасетам, но это не привело к лучшему качеству. Похоже, степень полезности данных зависит не только от сходства с тестом.
Статья
👍6🔥3❤1
How much do language models memorize?
Вопрос о том, запоминают ли языковые модели данные, на которых они обучались, является одним из ключевых. Обычно эту проблему рассматривают либо через прямую "экстракцию" данных из модели, либо через "атаки на определение членства" (membership inference). Однако оба подхода имеют недостатки. Экстракция не позволяет отличить запоминание от хорошего обобщения (модель может сгенерировать 2+2=4, не видя этого примера, а просто "поняв" математику). Атаки на членство дают лишь статистическую оценку по всему датасету, а не для конкретного примера.
Авторы предлагают новый, более фундаментальный подход к измерению запоминания, основанный на теории информации и идее сжатия.
Идея и метод
Ключевая идея — измерять запоминание в битах. Модель считается "запомнившей" точку данных
Самое важное: авторы разделяют запоминание на две компоненты:
1️⃣ Непреднамеренное запоминание (Unintended Memorization): Информация, которую модель хранит о конкретном датасете. Это и есть "вредное" запоминание, которое нас интересует.
2️⃣ Обобщение (Generalization) или "намеренное запоминание": Информация, которую модель извлекла об общем процессе генерации данных (например, правила грамматики или арифметики).
Чтобы отделить одно от другого, используется референсная модель — более крупная модель, обученная на огромном суперсете данных, которая аппроксимирует "истинное" распределение данных. Тогда непреднамеренное запоминание точки
Сколько информации хранится в параметрах?
Первая часть экспериментов была направлена на измерение "чистой" ёмкости моделей. Для этого исключили возможность обобщения, обучая модели на датасетах из случайных битовых строк.
Результат: Модели семейства GPT могут хранить примерно 3.6 бита информации на один параметр (при обучении в bfloat16). Удвоение точности до float32 увеличивает эту ёмкость незначительно (до ~3.8 бит/параметр), что говорит о неэффективности избыточной точности для простого хранения
данных.
Запоминание и обобщение на реальных текстах
Далее эксперименты повторили на текстовых данных (FineWeb), где обобщение уже возможно и полезно.
Ключевые наблюдения:
➡️ Сначала заполняется ёмкость: Модель сначала активно запоминает данные, пока не достигнет своего предела ёмкости. Общее количество запомненной информации (в битах) растет с размером датасета, но в итоге упирается в плато, определяемое размером модели (см. Figure 1).
➡️ "Гроккинг" и двойной спуск: Как только ёмкость модели заполнена, начинается самое интересное. Модель больше не может позволить себе хранить информацию о каждом примере отдельно и вынуждена искать общие, обобщающие паттерны. В этот момент непреднамеренное запоминание начинает падать, а обобщение – расти. Именно на этом переходе, когда размер датасета (в битах) превышает ёмкость модели, авторы наблюдают феномен "двойного спуска" (double descent) — временное ухудшение качества на тестовых данных с последующим улучшением.
➡️ Законы масштабирования для Membership Inference: На основе своих измерений авторы вывели закон масштабирования, который предсказывает успешность атак на определение членства в зависимости от ёмкости модели и размера датасета. Закон подтверждается на более крупных моделях и показывает, почему для современных LLM, обученных на триллионах токенов, такие атаки в среднем практически невозможны.
Работа понравилась как пример применения фундаментальных идей из теории информации для ответа на очень практический вопрос. Она дает нам не просто качественные рассуждения, а количественную метрику — биты на параметр — для оценки ёмкости моделей.
Вопрос о том, запоминают ли языковые модели данные, на которых они обучались, является одним из ключевых. Обычно эту проблему рассматривают либо через прямую "экстракцию" данных из модели, либо через "атаки на определение членства" (membership inference). Однако оба подхода имеют недостатки. Экстракция не позволяет отличить запоминание от хорошего обобщения (модель может сгенерировать 2+2=4, не видя этого примера, а просто "поняв" математику). Атаки на членство дают лишь статистическую оценку по всему датасету, а не для конкретного примера.
Авторы предлагают новый, более фундаментальный подход к измерению запоминания, основанный на теории информации и идее сжатия.
Идея и метод
Ключевая идея — измерять запоминание в битах. Модель считается "запомнившей" точку данных
x, если с помощью этой модели можно сжать x в более короткое представление. Эта концепция основана на Колмогоровской сложности, но для практических расчётов используются логарифмы вероятностей, которые выдает модель (принцип арифметического кодирования).Самое важное: авторы разделяют запоминание на две компоненты:
1️⃣ Непреднамеренное запоминание (Unintended Memorization): Информация, которую модель хранит о конкретном датасете. Это и есть "вредное" запоминание, которое нас интересует.
2️⃣ Обобщение (Generalization) или "намеренное запоминание": Информация, которую модель извлекла об общем процессе генерации данных (например, правила грамматики или арифметики).
Чтобы отделить одно от другого, используется референсная модель — более крупная модель, обученная на огромном суперсете данных, которая аппроксимирует "истинное" распределение данных. Тогда непреднамеренное запоминание точки
x моделью θ' — это разница в битах, необходимых для кодирования x с помощью референсной модели θ и с помощью нашей модели θ'. Если θ' сжимает x лучше, чем θ, значит, она содержит специфическую информацию об x, которой нет у "всезнающей" референсной модели.Сколько информации хранится в параметрах?
Первая часть экспериментов была направлена на измерение "чистой" ёмкости моделей. Для этого исключили возможность обобщения, обучая модели на датасетах из случайных битовых строк.
Результат: Модели семейства GPT могут хранить примерно 3.6 бита информации на один параметр (при обучении в bfloat16). Удвоение точности до float32 увеличивает эту ёмкость незначительно (до ~3.8 бит/параметр), что говорит о неэффективности избыточной точности для простого хранения
данных.
Запоминание и обобщение на реальных текстах
Далее эксперименты повторили на текстовых данных (FineWeb), где обобщение уже возможно и полезно.
Ключевые наблюдения:
Работа понравилась как пример применения фундаментальных идей из теории информации для ответа на очень практический вопрос. Она дает нам не просто качественные рассуждения, а количественную метрику — биты на параметр — для оценки ёмкости моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤3
Работы по сбору датасетов для instruction-based editing
Ранее мы разбирали мультимодальную генерацию и задачи редактирования изображений с точки зрения моделей и методов. В этом посте хочется подсветить несколько важных датасетов, вышедших за последний год.
UltraEdit: Instruction-based Fine-Grained Image Editing at Scale
[страница проекта с ссылками на датасеты, no licence]
Декабрь 2024
Это самый большой датасет по теме на сегодняшний день (~4М семплов). Работа максимально фокусируется на увеличении разнообразия инстрактов, поскольку в предыдущих часто использовались одни и те же или очень похожие инстракты.
Многостадийный процесс сбора данных начинается с генерации инстрактов людьми. Асессоров просят взять промты из СОСО и написать на их основе инстракты для редактирования картинок. Так собирают ~10k инстрактов.
Далее берут ~1.6M реальных картинок и кепшенят. Из полученных кепшенов и инстрактов генерят LMкой кепшен таргет картинки, по которому с помощью T2I модели делают генерацию (самым топорным SDEdit подходом).
Для того чтобы сделать region-based editing делают то же самое что в предыдущем параграфе, только удаляют изменения по маске сгенерированной с помощью GroundingDINO + SAM.
Замечания
- Region-based семплов сильно меньше чем семплов с изменением всей картинки (100к против почти 4М)
- Пост фильтрации нет => скорее всего довольно шумные данные
- При этом, датасет очень неплохо стратифицирован по контенту на картинках. В статье есть график где представлено умеренно равномерное распределение по большому числу концептов.
OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision
[датасет на HF, no licence]
Ноябрь 2024
Этот датасет на 1.2М семплов примечателен тем что по заявлению авторов BAGEL он основной источник их interleaved данных (кроме данных на основе видео, которые они собирают отдельно).
Датасет включает в себя данные по 7 задачам:
- Object Swap
- Object Removal
- Object Addition
- Attribute Modification
- Background Swap
- Environment Change
- Style Transfer
В самих пайплайнах генерации нет ничего нового относительно описанных выше статей:
- Addition/Removal/Object Swap/Background Swap делается каким-то своим инпейнтингом;
- Модификация атрибутов и окружения делается с помощью Prompt-to-Promp;
- Для Style Transfer используют CosXL-Edit.
В этой работе первый раз используется нормальная фильтрация данных. Вместо эвристик на CLIP фичах используют VIEScore — автобенч на основе GPT-4o (который, кстати, и в основе топового сейчас GEdit bench). На самом деле, они не прогоняли прям всё через GPT-4o (дорого), вместо этого дообучили InternVL2 на GPT разметке и уже ей фильтровали данные.
Замечания
- Вероятнее всего, самый качественный датасет из разобранных.
GPT-IMAGE-EDIT-1.5M
A Million-Scale, GPT-Generated Image Dataset
[датасет на HF, no licence]
Июль 2025
Работа объединяет, систематизирует и улучшает данные из двух предыдущего датасета, а также AnyEdit и HQ-Edit. Данные именно из этих работ брали, скорее всего, из-за того что в них (в отличие от предыдущих) картинки в высоком разрешении (близком к 1к).
В этой работе авторы:
- Смерджили датасеты, после чего:
- Перегенерили часть шакальных таргет картинов в триплетах (из особенно много в HQ-Edit);
- Переписали часть шакальных инстрактов;
- Взяли половину картинок из OmniEdit и добавили более сложных и инстрактов, поскольку считают, что это важно для достижения качества GPT-Image-1.
Крутость своего датасета доказывают тем, что дообучение весьма средненького FLUX Kontext на этих данных сильно бустит GEdit bench, доводя значения до близких к GPT-Image-1.
Замечания
- Выглядит как очень перспективный датасет и наиболее качественный датасет на сегодняшний день;
- Из минусов: всё еще не включает free form manipulation данные из видео.
О том, какие ещё датасеты для instruction-based editing выходили в последнее время, написал в канале @timeforcv.
Ранее мы разбирали мультимодальную генерацию и задачи редактирования изображений с точки зрения моделей и методов. В этом посте хочется подсветить несколько важных датасетов, вышедших за последний год.
UltraEdit: Instruction-based Fine-Grained Image Editing at Scale
[страница проекта с ссылками на датасеты, no licence]
Декабрь 2024
Это самый большой датасет по теме на сегодняшний день (~4М семплов). Работа максимально фокусируется на увеличении разнообразия инстрактов, поскольку в предыдущих часто использовались одни и те же или очень похожие инстракты.
Многостадийный процесс сбора данных начинается с генерации инстрактов людьми. Асессоров просят взять промты из СОСО и написать на их основе инстракты для редактирования картинок. Так собирают ~10k инстрактов.
Далее берут ~1.6M реальных картинок и кепшенят. Из полученных кепшенов и инстрактов генерят LMкой кепшен таргет картинки, по которому с помощью T2I модели делают генерацию (самым топорным SDEdit подходом).
Для того чтобы сделать region-based editing делают то же самое что в предыдущем параграфе, только удаляют изменения по маске сгенерированной с помощью GroundingDINO + SAM.
Замечания
- Region-based семплов сильно меньше чем семплов с изменением всей картинки (100к против почти 4М)
- Пост фильтрации нет => скорее всего довольно шумные данные
- При этом, датасет очень неплохо стратифицирован по контенту на картинках. В статье есть график где представлено умеренно равномерное распределение по большому числу концептов.
OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision
[датасет на HF, no licence]
Ноябрь 2024
Этот датасет на 1.2М семплов примечателен тем что по заявлению авторов BAGEL он основной источник их interleaved данных (кроме данных на основе видео, которые они собирают отдельно).
Датасет включает в себя данные по 7 задачам:
- Object Swap
- Object Removal
- Object Addition
- Attribute Modification
- Background Swap
- Environment Change
- Style Transfer
В самих пайплайнах генерации нет ничего нового относительно описанных выше статей:
- Addition/Removal/Object Swap/Background Swap делается каким-то своим инпейнтингом;
- Модификация атрибутов и окружения делается с помощью Prompt-to-Promp;
- Для Style Transfer используют CosXL-Edit.
В этой работе первый раз используется нормальная фильтрация данных. Вместо эвристик на CLIP фичах используют VIEScore — автобенч на основе GPT-4o (который, кстати, и в основе топового сейчас GEdit bench). На самом деле, они не прогоняли прям всё через GPT-4o (дорого), вместо этого дообучили InternVL2 на GPT разметке и уже ей фильтровали данные.
Замечания
- Вероятнее всего, самый качественный датасет из разобранных.
GPT-IMAGE-EDIT-1.5M
A Million-Scale, GPT-Generated Image Dataset
[датасет на HF, no licence]
Июль 2025
Работа объединяет, систематизирует и улучшает данные из двух предыдущего датасета, а также AnyEdit и HQ-Edit. Данные именно из этих работ брали, скорее всего, из-за того что в них (в отличие от предыдущих) картинки в высоком разрешении (близком к 1к).
В этой работе авторы:
- Смерджили датасеты, после чего:
- Перегенерили часть шакальных таргет картинов в триплетах (из особенно много в HQ-Edit);
- Переписали часть шакальных инстрактов;
- Взяли половину картинок из OmniEdit и добавили более сложных и инстрактов, поскольку считают, что это важно для достижения качества GPT-Image-1.
Крутость своего датасета доказывают тем, что дообучение весьма средненького FLUX Kontext на этих данных сильно бустит GEdit bench, доводя значения до близких к GPT-Image-1.
Замечания
- Выглядит как очень перспективный датасет и наиболее качественный датасет на сегодняшний день;
- Из минусов: всё еще не включает free form manipulation данные из видео.
О том, какие ещё датасеты для instruction-based editing выходили в последнее время, написал в канале @timeforcv.
🔥6👍5❤3
Transfer between Modalities with MetaQueries
[страничка с кодом и данными]
Выше мы много обсуждали мультимодальные модели, способные одновременно понимать и генерировать картинки и текст. Архитектурно, для создания таких моделей сейчас предлагается два подхода:
1. Учить генеративную картиночную голову поверх VLM (Nexus-Gen, Qwen-Image);
2. Учить, условно, unified модель, которая будет генерить сразу картинки и текст (BAGEL, Transfusion, Show-o).
В первом случае надо подумать как именно передавать инфу из VLM в картиночный генератор. Обычно в качестве такого генератора используют диффузионку. Тогда, если представить, что VLM — это просто текстовый энкодер, то можно использовать наиболее популярный интерфейс — подавать в денойзер текстовые эмбединги с последних слоёв VLM. Так делать можно, но авторы этой работы утверждают, что есть способ получше и предлагают подход MetaQueries.
Идея и метод
MetaQueries — это набор небольшого количества обучаемых векторов (queries), которые подаются на вход замороженной VLM вместе с обычным промптом (текстом и/или изображением). Эти "мета-запросы" заставляют VLM извлечь из своих латентных представлений всю необходимую информацию для генерации.
Полученные на выходе представления от MetaQueries затем через небольшой обучаемый коннектор (трансформер-энкодер) подаются в качестве условия (condition) в любую предобученную диффузионнку, заменяя ее стандартный текстовый энкодер.
Весь процесс обучения сводится к простой и стабильной задаче: обучить MetaQueries и коннектор на обычных парах (картинка, промт) с любым вариантом диффузионного лосса.
Метод сильно напоминает Q-Former с двумя отличиями:
- В MetaQueries нужно прокидывать градиенты через энкодер (VLM);
- В MetaQueries картиночный condition подаётся прям на вход, а не через cross-attn коннектора.
Эксперименты и результаты
Авторы учат коннекторы размера от 84М до 2В между весьма мелкими LLaVA-OneVision-0.5 и Sana-0.6B в претрен сетапе (lr=1e-4, bs=4096) порядка 50к итераций чтобы показать FID MJHQ-30k порядка 6 и GenEval порядка 0.6😂 (ладно-ладно, скидка на мелкие VLM и денойзер).
Важно, что в процессе проаблейтили и на цифрах показали, что:
- Дообучение без разморозки VLM даёт примерно такое же качество как с разморозкой но без MetaQueries;
- Больше длина последовательности queries — не всегда лучше (есть некая золотая середина);
- По бенчам метод действительно лучше чем просто брать эмбеды с последнего слоя
Еще понравилось, что с помощью MetaQueries можно почти идеально выучить реконструкцию картинок. Это значит, что метод позволяет довольно детально пробрасывать через VLM картиночную инфу, что полезно для задач с использованием картиночного condition’a.
Не понравилось, что надо пропускать градиенты через VLM. На практике может оказаться, что Q-Former даёт примерно такое же качество без дополнительных инженерных приседаний.
[страничка с кодом и данными]
Выше мы много обсуждали мультимодальные модели, способные одновременно понимать и генерировать картинки и текст. Архитектурно, для создания таких моделей сейчас предлагается два подхода:
1. Учить генеративную картиночную голову поверх VLM (Nexus-Gen, Qwen-Image);
2. Учить, условно, unified модель, которая будет генерить сразу картинки и текст (BAGEL, Transfusion, Show-o).
В первом случае надо подумать как именно передавать инфу из VLM в картиночный генератор. Обычно в качестве такого генератора используют диффузионку. Тогда, если представить, что VLM — это просто текстовый энкодер, то можно использовать наиболее популярный интерфейс — подавать в денойзер текстовые эмбединги с последних слоёв VLM. Так делать можно, но авторы этой работы утверждают, что есть способ получше и предлагают подход MetaQueries.
Идея и метод
MetaQueries — это набор небольшого количества обучаемых векторов (queries), которые подаются на вход замороженной VLM вместе с обычным промптом (текстом и/или изображением). Эти "мета-запросы" заставляют VLM извлечь из своих латентных представлений всю необходимую информацию для генерации.
Полученные на выходе представления от MetaQueries затем через небольшой обучаемый коннектор (трансформер-энкодер) подаются в качестве условия (condition) в любую предобученную диффузионнку, заменяя ее стандартный текстовый энкодер.
Весь процесс обучения сводится к простой и стабильной задаче: обучить MetaQueries и коннектор на обычных парах (картинка, промт) с любым вариантом диффузионного лосса.
Метод сильно напоминает Q-Former с двумя отличиями:
- В MetaQueries нужно прокидывать градиенты через энкодер (VLM);
- В MetaQueries картиночный condition подаётся прям на вход, а не через cross-attn коннектора.
Эксперименты и результаты
Авторы учат коннекторы размера от 84М до 2В между весьма мелкими LLaVA-OneVision-0.5 и Sana-0.6B в претрен сетапе (lr=1e-4, bs=4096) порядка 50к итераций чтобы показать FID MJHQ-30k порядка 6 и GenEval порядка 0.6
Важно, что в процессе проаблейтили и на цифрах показали, что:
- Дообучение без разморозки VLM даёт примерно такое же качество как с разморозкой но без MetaQueries;
- Больше длина последовательности queries — не всегда лучше (есть некая золотая середина);
- По бенчам метод действительно лучше чем просто брать эмбеды с последнего слоя
Еще понравилось, что с помощью MetaQueries можно почти идеально выучить реконструкцию картинок. Это значит, что метод позволяет довольно детально пробрасывать через VLM картиночную инфу, что полезно для задач с использованием картиночного condition’a.
Не понравилось, что надо пропускать градиенты через VLM. На практике может оказаться, что Q-Former даёт примерно такое же качество без дополнительных инженерных приседаний.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3🥰1
LightBagel: A Lightweight, Double-Fusion Framework for Unified Multimodal Understanding and Generation
[пока ничего не выложили, но обещают тут и верится, потому что это авторы BAGEL]
Современные мультимодальные модели (MLLM), способные одновременно понимать и генерировать контент, часто требуют колоссальных вычислительных ресурсов и обучения с нуля. Это создает высокий порог входа для исследователей. Авторы LightBagel предлагают ресурсоэффективный подход: вместо создания новой модели "с нуля" они стратегически "сплавляют" (fuse) уже существующие SOTA-модели, специализированные на своих задачах. Подобным уже занимались авторы Nexus-Gen (разбор) пытаясь подружить Qwen-VL с SANA. В этой работе авторы целятся получить BAGEL-like модельку за минимальный компьют стартуя с предобученных VLM и T2I моделей.
Идея и метод: Double Fusion
Берем Qwen2.5-VL-7B для понимания и Wan2.2-TI2V-5B для генерации. Далее происходит самое интересное:
➡️ Сохранение "экспертов": Оригинальные блоки обеих моделей остаются нетронутыми и замороженными (VLM) или минимально дообучаемыми (DiT). Таким образом сохраняются их сильные стороны (например, способность VLM к рассуждению).
➡️ "Вживление" мостов: Между каждым блоком VLM и DiT вставляется новый, легковесный мультимодальный self-attention блок. Эти блоки инициализируются нулями, чтобы не нарушать исходное распределение признаков в начале обучения.
➡️ Двойное слияние (Double Fusion): Этот механизм называется "двойным", потому что он одновременно решает две задачи:
1️⃣ Слияние путей (understanding + generation): Мультимодальные attention-блоки позволяют информации свободно "перетекать" между путем понимания (текст + ViT-токены) и путем генерации (VAE-токены) на всех уровнях глубины сети. Это глубокое слияние ("deep fusion") значительно эффективнее, чем "поверхностное" (shallow fusion), где для генерации используется лишь финальный эмбеддинг модели понимания (агрумент против подхода Qwen-Image/Nexus-Gen).
2️⃣ Слияние признаков (ViT + VAE): Модель естественным образом объединяет семантические признаки от ViT-энкодера (из VLM) и пространственные детали от VAE-энкодера (из DiT). Это особенно важно для задач редактирования, где нужно одновременно понимать, что менять (семантика), и сохранять остальное изображение в неизменности (детали).
Обучение и результаты
Ключевое преимущество LightBagel — высокая эффективность по данным. Модель достигает SOTA-уровня, будучи обученной всего на 35B токенов, что на порядки меньше, чем у многих конкурентов (см. Figure 1).
Показывают следующие замеры:
➡️ T2I: 0.91 на GenEval (композиционная генерация), 82.16 на DPG-Bench (сложные промпты).
➡️ Image Editing: 6.06 на GEditBench и 3.77 на ImgEdit-Bench, опережая многие специализированные модели.
➡️ Understanding: Поскольку VLM-часть (QWen2.5-VL) заморожена, модель полностью сохраняет её SOTA-способности к пониманию.
Интересно, что и fused модельки можно получать в сетапе дообучения, используя ранее обученные VLM и денойзер. Есть, правда, и минус — VLM и денойзер должны быть в достаточной степени архитектурно похоже, иначе не очевидно как и куда встраивать multi-modal attn блоки.
[пока ничего не выложили, но обещают тут и верится, потому что это авторы BAGEL]
Современные мультимодальные модели (MLLM), способные одновременно понимать и генерировать контент, часто требуют колоссальных вычислительных ресурсов и обучения с нуля. Это создает высокий порог входа для исследователей. Авторы LightBagel предлагают ресурсоэффективный подход: вместо создания новой модели "с нуля" они стратегически "сплавляют" (fuse) уже существующие SOTA-модели, специализированные на своих задачах. Подобным уже занимались авторы Nexus-Gen (разбор) пытаясь подружить Qwen-VL с SANA. В этой работе авторы целятся получить BAGEL-like модельку за минимальный компьют стартуя с предобученных VLM и T2I моделей.
Идея и метод: Double Fusion
Берем Qwen2.5-VL-7B для понимания и Wan2.2-TI2V-5B для генерации. Далее происходит самое интересное:
Обучение и результаты
Ключевое преимущество LightBagel — высокая эффективность по данным. Модель достигает SOTA-уровня, будучи обученной всего на 35B токенов, что на порядки меньше, чем у многих конкурентов (см. Figure 1).
Показывают следующие замеры:
Интересно, что и fused модельки можно получать в сетапе дообучения, используя ранее обученные VLM и денойзер. Есть, правда, и минус — VLM и денойзер должны быть в достаточной степени архитектурно похоже, иначе не очевидно как и куда встраивать multi-modal attn блоки.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤1
The Principles of Diffusion Models
Пока что самое полное руководство/монография из того что видел по диффузионкам, от Сонга, Эрмона и компании.
Пока что самое полное руководство/монография из того что видел по диффузионкам, от Сонга, Эрмона и компании.
👍19❤4🔥1
Emu3.5: Native Multimodal Models are World Learners
[код и веса]
Emu3.5 представляет собой развитие идей предыдущих версий Emu, но с колоссальным скачком в масштабе и амбициях. Это не просто еще одна мультимодальная модель, а попытка создать "world model" — модель мира, способную нативно предсказывать следующее состояние не только в тексте, но и в видеоряде. Архитектурно это единый decoder-only трансформер (34B параметров), обученный на одной задаче — предсказание следующего токена (next-token prediction).
Данные
Ключевая особенность Emu3.5 — это данные. Вместо того чтобы полагаться в основном на пары (картинка, текст), модель обучалась преимущественно на чередующихся (interleaved) видео-текстовых данных, полученных из интернет-видео (более 10 триллионов токенов).
- Как это работает: видео нарезается на ключевые кадры (keyframes), а аудиодорожка транскрибируется в текст с временными метками. Затем кадры и соответствующие им фрагменты текста выстраиваются в одну длинную последовательность.
- Что это дает: такой подход позволяет модели изучать не статичные сцены, а продолжительные во времени события, динамику и причинно-следственные связи. Это основа для моделирования мира.
Для обучения также использовались стандартные image-text пары, данные для any-to-image (X2I) задач и чисто текстовые данные для сохранения языковых способностей.
Модель
- Unified Next-Token Prediction: В основе лежит стандартная авторегрессионная модель. Все модальности (текст, изображения, видео) токенизируются в единое дискретное пространство. Для визуальных данных используется токенизатор IBQ собственного производства с рядом улучшений (например, дистилляция признаков от SigLIP), а также опциональный диффузионный декодер для повышения качества реконструкции.
- DiDA (Discrete Diffusion Adaptation): Главная проблема авторегрессионных моделей — медленная генерация изображений (токен за токеном). DiDA решает эту проблему, временно превращая авторегрессионную модель в параллельный двунаправленный предсказатель на этапе генерации изображения. Это достигается за счет адаптации модели к задаче дискретной диффузии: последовательность токенов изображения сначала "зашумляется", а затем восстанавливается за несколько итераций. Это ускоряет генерацию изображения примерно в 20 раз без потери качества.
- Масштабное обучение и пост-тренинг: Модель прошла два этапа предобучения, затем SFT (на 150 млрд. сэмплов!😨 ), а после — RL на наборе ревордов.
Результаты
Благодаря "видеоцентричному" обучению, модель умеет:
- Long-horizon generation: генерит длинные, согласованные во времени и семантически связанные последовательности из текста и изображений.
- Visual Narrative: историй с иллюстрациями на открытые темы (наука, история, сказки), сохраняя консистентность персонажей и стиля.
- Visual Guidance: генерация пошаговых визуальных инструкций (например, как приготовить блюдо или собрать что-то), где каждый шаг сопровождается релевантным изображением.
- World Exploration & Embodied Manipulation: способность моделировать виртуальные миры и взаимодействовать с ними (модель может перемещаться по сцене по текстовым командам).
В стандартных задачах генерации и редактирования Emu3.5 показывает производительность на уровне лучших закрытых моделей, таких как Gemini 2.5 Flash Image (Nano Banana).
[код и веса]
Emu3.5 представляет собой развитие идей предыдущих версий Emu, но с колоссальным скачком в масштабе и амбициях. Это не просто еще одна мультимодальная модель, а попытка создать "world model" — модель мира, способную нативно предсказывать следующее состояние не только в тексте, но и в видеоряде. Архитектурно это единый decoder-only трансформер (34B параметров), обученный на одной задаче — предсказание следующего токена (next-token prediction).
Данные
Ключевая особенность Emu3.5 — это данные. Вместо того чтобы полагаться в основном на пары (картинка, текст), модель обучалась преимущественно на чередующихся (interleaved) видео-текстовых данных, полученных из интернет-видео (более 10 триллионов токенов).
- Как это работает: видео нарезается на ключевые кадры (keyframes), а аудиодорожка транскрибируется в текст с временными метками. Затем кадры и соответствующие им фрагменты текста выстраиваются в одну длинную последовательность.
- Что это дает: такой подход позволяет модели изучать не статичные сцены, а продолжительные во времени события, динамику и причинно-следственные связи. Это основа для моделирования мира.
Для обучения также использовались стандартные image-text пары, данные для any-to-image (X2I) задач и чисто текстовые данные для сохранения языковых способностей.
Модель
- Unified Next-Token Prediction: В основе лежит стандартная авторегрессионная модель. Все модальности (текст, изображения, видео) токенизируются в единое дискретное пространство. Для визуальных данных используется токенизатор IBQ собственного производства с рядом улучшений (например, дистилляция признаков от SigLIP), а также опциональный диффузионный декодер для повышения качества реконструкции.
- DiDA (Discrete Diffusion Adaptation): Главная проблема авторегрессионных моделей — медленная генерация изображений (токен за токеном). DiDA решает эту проблему, временно превращая авторегрессионную модель в параллельный двунаправленный предсказатель на этапе генерации изображения. Это достигается за счет адаптации модели к задаче дискретной диффузии: последовательность токенов изображения сначала "зашумляется", а затем восстанавливается за несколько итераций. Это ускоряет генерацию изображения примерно в 20 раз без потери качества.
- Масштабное обучение и пост-тренинг: Модель прошла два этапа предобучения, затем SFT (на 150 млрд. сэмплов!
Результаты
Благодаря "видеоцентричному" обучению, модель умеет:
- Long-horizon generation: генерит длинные, согласованные во времени и семантически связанные последовательности из текста и изображений.
- Visual Narrative: историй с иллюстрациями на открытые темы (наука, история, сказки), сохраняя консистентность персонажей и стиля.
- Visual Guidance: генерация пошаговых визуальных инструкций (например, как приготовить блюдо или собрать что-то), где каждый шаг сопровождается релевантным изображением.
- World Exploration & Embodied Manipulation: способность моделировать виртуальные миры и взаимодействовать с ними (модель может перемещаться по сцене по текстовым командам).
В стандартных задачах генерации и редактирования Emu3.5 показывает производительность на уровне лучших закрытых моделей, таких как Gemini 2.5 Flash Image (Nano Banana).
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤1👏1
Несколько свежих работ по теме с фокусом на генерацию и редактирование картинок.
1. Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation
[код, данные]
Современные методы генерации изображений с использованием CoT обычно встраивают рассуждение либо до генерации (планирование), либо после (пост-редактирование). Авторы этой работы предлагают текстовые рассуждения перемежать с процессом генерации изображения. С помощью хитрых инструкций модель заставляют сначала декомпозировать, а потом последовательно усложнять промт для генерации так чтобы в итоге качество генерации улучшалось.
В целом, логичная идея — перенести парадигму interleaved reasoning из текстовых LLM (где она уже стала стандартом) в визуальную генерацию. Вместо "выстрелил и забыл", модель постоянно сверяется с замыслом и правит работу в процессе, понятно почему это даёт буст качества.
2. Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward
[код]
Авторы конструируют набор хитрых промтов для T2I генерации, требующих не шибко хитрый, но все же ризонинг (“Нарисуй столько яблок, сколько будет 8/4”). Далее показывают, что современные мультимодалки (BAGEL) не особо справляются с такими промтами из коробки. При этом, если чуть поризонить и найти решение (“Нарисуй 2 яблока”), то качество генерации существенно вырастет. Дальше удачные цепочки можно собрать и дообучить на них модель.
В целом, работа обсуждает утвердждение о том, что ”понимание" в мультимодальных моделях автоматически перетекает в "генерацию". По умолчанию — не перетекает. Генератор остается глупым исполнителем, пока мы явно не заставим его подумать через CoT или не вошьем эти паттерны через специальное обучение.
3. MIRA: Multimodal Iterative Reasoning Agent for Image Editing
[код, данные]
Yet another работа с использованием внешней VLM для последовательного улучшения эдитинга (loop: state → multimodal reasoning → action → environment feedback). Цепочки собрали в датасет 150к семплов, а дальше обучили на этом SFT + GRPO для получения end-to-end ризонера. Чем отличается от прошлых работ вроде Reward-Agnostic Prompt Optimization? Тем что задача редактивования, а не T2I и тем что вызов внешней VLM назвали агентным подходом.
1. Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation
[код, данные]
Современные методы генерации изображений с использованием CoT обычно встраивают рассуждение либо до генерации (планирование), либо после (пост-редактирование). Авторы этой работы предлагают текстовые рассуждения перемежать с процессом генерации изображения. С помощью хитрых инструкций модель заставляют сначала декомпозировать, а потом последовательно усложнять промт для генерации так чтобы в итоге качество генерации улучшалось.
В целом, логичная идея — перенести парадигму interleaved reasoning из текстовых LLM (где она уже стала стандартом) в визуальную генерацию. Вместо "выстрелил и забыл", модель постоянно сверяется с замыслом и правит работу в процессе, понятно почему это даёт буст качества.
2. Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward
[код]
Авторы конструируют набор хитрых промтов для T2I генерации, требующих не шибко хитрый, но все же ризонинг (“Нарисуй столько яблок, сколько будет 8/4”). Далее показывают, что современные мультимодалки (BAGEL) не особо справляются с такими промтами из коробки. При этом, если чуть поризонить и найти решение (“Нарисуй 2 яблока”), то качество генерации существенно вырастет. Дальше удачные цепочки можно собрать и дообучить на них модель.
В целом, работа обсуждает утвердждение о том, что ”понимание" в мультимодальных моделях автоматически перетекает в "генерацию". По умолчанию — не перетекает. Генератор остается глупым исполнителем, пока мы явно не заставим его подумать через CoT или не вошьем эти паттерны через специальное обучение.
3. MIRA: Multimodal Iterative Reasoning Agent for Image Editing
[код, данные]
Yet another работа с использованием внешней VLM для последовательного улучшения эдитинга (loop: state → multimodal reasoning → action → environment feedback). Цепочки собрали в датасет 150к семплов, а дальше обучили на этом SFT + GRPO для получения end-to-end ризонера. Чем отличается от прошлых работ вроде Reward-Agnostic Prompt Optimization? Тем что задача редактивования, а не T2I и тем что вызов внешней VLM назвали агентным подходом.
👍8🔥3❤1
За последние пару недель вышло несколько новых мультимодалок. Разберем детали, отличающие их от предшественников:
- Вводный пост
- Продолжение вводного поста
- Про проблемы с мультимодалками
- Подборка 1
- Подборка 2
- Подборка 3
Было еще несколько постов про отдельные модели, которые также можно без трудна найти в канале.
1. FLUX.2: Frontier Visual Intelligence
[оф пост с ссылками на код/веса]
Во второй версии авторы из BFL заслейлили всё что можно было заскейлить:
- 32В DiT денойзер с немного измененным соотношением single/double stream блоков.
- Mistral Small 3.1 (24B) в качестве текстового энкодера.
- Новый VAE, про который утверждается, что получен оптимум по reconstruction/diffusability (пост про то что это такое).
Из скудной инфы представленной в посте мы также знаем, что для эдитинга теперь поддерживается несколько картинок-условий, а еще сделано несколько технических трюков для удобства инференса. Тем не менее, даже с 4-bit квантизацией для инференса нужно 2х80g GPU, что навевает тень сомнения на широкое использование модели в ресерч сообществе.
2. Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer
[код/веса, пока только T2I]
Авторы из Alibaba идут против тренда "scale-at-all-costs”. Вместо наращивания десятков миллиардов параметров (как у Hunyuan-3.0 или FLUX.2) авторы представляют эффективную 6B foundation model, которая конкурирует с ними по качеству, но требует в разы меньше ресурсов (на инференсе лезет в консьюмерскую 16Gb GPU).
По данным любопытно, что, помимо и так всеми использующихся фильтраций, авторы заморочились со стратификацией концептов, сделав балансировку на основе дерева знаний Википедии.
По архитектуре сделали вариант MM-DiT, утверждается, что более эффективный. В остальном стандарные Qwen3 (4B) в качестве текстового энкодера c SigLip-2 для дискриминативного и FLUX VAE для генеративного кодирования картинок. Следуя общим трендам, отдельным модулем обучают 6B переписывалку входных промтов.
Обучение довольно стандарное в несколько стадий с увеличением разрешения и SFT + DPO + GRPO + дистилляцией в 8 шагов в конце. В открытый доступ пока что выложен только T2I дистилл.
3. MammothModa2: A Unified AR–Diffusion Framework for Multimodal Understanding and Generation
[код, веса]
Еще одна мультимодалка от ByteDance. На этот раз Qwen-Image-like архитектура с отдельной ~2B FM single-stream DiT головой и тушкой в виде Qwen3-VL-8B.
Любопытной показалась схема обучения: на претрене сначала учат чисто T2I в 512, потом T2I + I2I в 1024 (данные по задачам смешивают внутри одного батча), VLM заморожена всю дорогу.
По данным интересно, что в претрене всего 37М семплов эдитинга, причем почти половина из них — редактирование китайского текста, а почти всё остальное — опенсорс данные (разбирали основные тут).
- Вводный пост
- Продолжение вводного поста
- Про проблемы с мультимодалками
- Подборка 1
- Подборка 2
- Подборка 3
Было еще несколько постов про отдельные модели, которые также можно без трудна найти в канале.
1. FLUX.2: Frontier Visual Intelligence
[оф пост с ссылками на код/веса]
Во второй версии авторы из BFL заслейлили всё что можно было заскейлить:
- 32В DiT денойзер с немного измененным соотношением single/double stream блоков.
- Mistral Small 3.1 (24B) в качестве текстового энкодера.
- Новый VAE, про который утверждается, что получен оптимум по reconstruction/diffusability (пост про то что это такое).
Из скудной инфы представленной в посте мы также знаем, что для эдитинга теперь поддерживается несколько картинок-условий, а еще сделано несколько технических трюков для удобства инференса. Тем не менее, даже с 4-bit квантизацией для инференса нужно 2х80g GPU, что навевает тень сомнения на широкое использование модели в ресерч сообществе.
2. Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer
[код/веса, пока только T2I]
Авторы из Alibaba идут против тренда "scale-at-all-costs”. Вместо наращивания десятков миллиардов параметров (как у Hunyuan-3.0 или FLUX.2) авторы представляют эффективную 6B foundation model, которая конкурирует с ними по качеству, но требует в разы меньше ресурсов (на инференсе лезет в консьюмерскую 16Gb GPU).
По данным любопытно, что, помимо и так всеми использующихся фильтраций, авторы заморочились со стратификацией концептов, сделав балансировку на основе дерева знаний Википедии.
По архитектуре сделали вариант MM-DiT, утверждается, что более эффективный. В остальном стандарные Qwen3 (4B) в качестве текстового энкодера c SigLip-2 для дискриминативного и FLUX VAE для генеративного кодирования картинок. Следуя общим трендам, отдельным модулем обучают 6B переписывалку входных промтов.
Обучение довольно стандарное в несколько стадий с увеличением разрешения и SFT + DPO + GRPO + дистилляцией в 8 шагов в конце. В открытый доступ пока что выложен только T2I дистилл.
3. MammothModa2: A Unified AR–Diffusion Framework for Multimodal Understanding and Generation
[код, веса]
Еще одна мультимодалка от ByteDance. На этот раз Qwen-Image-like архитектура с отдельной ~2B FM single-stream DiT головой и тушкой в виде Qwen3-VL-8B.
Любопытной показалась схема обучения: на претрене сначала учат чисто T2I в 512, потом T2I + I2I в 1024 (данные по задачам смешивают внутри одного батча), VLM заморожена всю дорогу.
По данным интересно, что в претрене всего 37М семплов эдитинга, причем почти половина из них — редактирование китайского текста, а почти всё остальное — опенсорс данные (разбирали основные тут).
👍4🔥2
Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights
[код и данные]
Авторы из Shanghai AI Lab сделали Envision — бенчмарк для оценки способности мультимодальных моделей понимать и генерировать динамические причинно-следственные процессы.
Основной тезис: современные T2I и UMM (Unified Multimodal Models) хороши в генерации статичных картинок (pattern matching), но проваливаются, когда нужно смоделировать процесс (world modeling).
Бенчмарк фокусируется на задаче Text-to-Multi-Image (T2MI): генерации последовательности из 4 изображений, описывающих развитие события (например, химическая реакция или историческое событие).
Данные:
Вместо простых промптов Envision использует структурированные сценарии (1000 сценариев, 4000 промптов), основанные на реальных знаниях из учебников и энциклопедий.
- Домены: 6 областей (Физика, Химия, Биология, География, Метеорология, Культура/История). Это проверяет "internalized world knowledge".
- Causal Structure:
* Continuous Causality: Непрерывные процессы (например, маятник), требующие соблюдения законов сохранения и плавности переходов.
* Discrete Causality: Дискретные события с большими скачками во времени (например, эволюция или исторические эпохи), требующие абстрактного логического связывания.
- Prompt Structure: Каждый сценарий — это JSON с 4 шагами:
Метрика и Метод Оценки
Авторы вводят Envision-Score, который агрегирует 3 измерения (9 суб-метрик). Оценка производится с помощью GPT-4o (VLM-as-a-Judge), выбранного после валидации с людьми-экспертами (PhD).
1. Consistency (40%):
* Spatio-Temporal: Логика движения и изменений во времени (не телепортируются ли объекты?).
* Semantic & Factual: Соответствие промпту и научным фактам.
2. Physicality (40%): Самое важное.
* Basic Properties: Сохранение количества и формы объектов.
* Dynamics: Реалистичность движения и взаимодействий (столкновения, жидкости).
* Physical Reliability: Соблюдение фундаментальных законов (гравитация, термодинамика).
3. Aesthetics (20%): Визуальное качество и аутентичность.
Результаты
Сравнили 15 моделей: специализированные T2I (SD3.5, FLUX), UMM (Emu3, Janus-Pro, Qwen-Image) и закрытые (GPT-4o, Gemini).
- Open-Source T2I (FLUX): Отличная эстетика (Aesthetics), но провал в физике и логике (Physicality ~50/100). Они генерируют красивые, но "глупые" картинки без понимания процесса.
- UMMs (Emu3, Seedream): Немного лучше понимают контекст и факты благодаря мультимодальной природе, но все еще слабы в динамике.
- Closed-Source (GPT-4o): Тотальное доминирование. GPT-4o набирает >70 баллов по физике и консистентности, в то время как open-source отстает на 10-20 пунктов.
- Understanding-Generation Paradox: Модели могут правильно отвечать на вопросы по физике (в текстовом режиме), но не могут сгенерировать правильную последовательность кадров для этого же процесса. Это доказывает, что "понимание" и "генерация" в текущих UMM разорваны.
Вывод
Envision показывает, что текущая paradigm shift в сторону UMM пока не решила проблему "world modeling". Модели всё ещё занимаются статичным сопоставлением паттернов, а не симуляцией мира. Для прогресса нужно переходить от обучения на парах "картинка-текст" к обучению на видео и причинно-следственных последовательностях (что перекликается с выводами статьи про Emu3.5). Больше всего смутил акцент на победе GPT-4o при том что она же использовалась в качестве модели-судьи. Убедительнее выглядят высокие скоры Gemini, что, в прочем, не удивительно.
[код и данные]
Авторы из Shanghai AI Lab сделали Envision — бенчмарк для оценки способности мультимодальных моделей понимать и генерировать динамические причинно-следственные процессы.
Основной тезис: современные T2I и UMM (Unified Multimodal Models) хороши в генерации статичных картинок (pattern matching), но проваливаются, когда нужно смоделировать процесс (world modeling).
Бенчмарк фокусируется на задаче Text-to-Multi-Image (T2MI): генерации последовательности из 4 изображений, описывающих развитие события (например, химическая реакция или историческое событие).
Данные:
Вместо простых промптов Envision использует структурированные сценарии (1000 сценариев, 4000 промптов), основанные на реальных знаниях из учебников и энциклопедий.
- Домены: 6 областей (Физика, Химия, Биология, География, Метеорология, Культура/История). Это проверяет "internalized world knowledge".
- Causal Structure:
* Continuous Causality: Непрерывные процессы (например, маятник), требующие соблюдения законов сохранения и плавности переходов.
* Discrete Causality: Дискретные события с большими скачками во времени (например, эволюция или исторические эпохи), требующие абстрактного логического связывания.
- Prompt Structure: Каждый сценарий — это JSON с 4 шагами:
[Initial State] -> [Early Interaction] -> [Progressive Transformation] -> [Final Resolution]. Это заставляет модель строить *causal narrative arc*, а не просто 4 независимые картинки.Метрика и Метод Оценки
Авторы вводят Envision-Score, который агрегирует 3 измерения (9 суб-метрик). Оценка производится с помощью GPT-4o (VLM-as-a-Judge), выбранного после валидации с людьми-экспертами (PhD).
1. Consistency (40%):
* Spatio-Temporal: Логика движения и изменений во времени (не телепортируются ли объекты?).
* Semantic & Factual: Соответствие промпту и научным фактам.
2. Physicality (40%): Самое важное.
* Basic Properties: Сохранение количества и формы объектов.
* Dynamics: Реалистичность движения и взаимодействий (столкновения, жидкости).
* Physical Reliability: Соблюдение фундаментальных законов (гравитация, термодинамика).
3. Aesthetics (20%): Визуальное качество и аутентичность.
Результаты
Сравнили 15 моделей: специализированные T2I (SD3.5, FLUX), UMM (Emu3, Janus-Pro, Qwen-Image) и закрытые (GPT-4o, Gemini).
- Open-Source T2I (FLUX): Отличная эстетика (Aesthetics), но провал в физике и логике (Physicality ~50/100). Они генерируют красивые, но "глупые" картинки без понимания процесса.
- UMMs (Emu3, Seedream): Немного лучше понимают контекст и факты благодаря мультимодальной природе, но все еще слабы в динамике.
- Closed-Source (GPT-4o): Тотальное доминирование. GPT-4o набирает >70 баллов по физике и консистентности, в то время как open-source отстает на 10-20 пунктов.
- Understanding-Generation Paradox: Модели могут правильно отвечать на вопросы по физике (в текстовом режиме), но не могут сгенерировать правильную последовательность кадров для этого же процесса. Это доказывает, что "понимание" и "генерация" в текущих UMM разорваны.
Вывод
Envision показывает, что текущая paradigm shift в сторону UMM пока не решила проблему "world modeling". Модели всё ещё занимаются статичным сопоставлением паттернов, а не симуляцией мира. Для прогресса нужно переходить от обучения на парах "картинка-текст" к обучению на видео и причинно-следственных последовательностях (что перекликается с выводами статьи про Emu3.5). Больше всего смутил акцент на победе GPT-4o при том что она же использовалась в качестве модели-судьи. Убедительнее выглядят высокие скоры Gemini, что, в прочем, не удивительно.
👍5🔥1
Tuna: Taming Unified Visual Representations for Native Unified Multimodal Models
[код обещают тут]
Ранее мы много обсуждали мультимодальную генерацию с точки зрения:
- Архитектуры: учить ли голову поверх LLM/VLM или делать unified backbone;
- Представления данных: дискретное или непрерывное кодирование для картинок и текстов
- Визуальных энкодеров: обычно для дискриминативных и генеративных задач используют разные (SigLip/VAE), но, например, Show-o2 (статья, разбор) пытается фьюзить их в единую модель
Последний пункт также интересен в разрезе работ семейства REPA, авторы которых показывают, что использование дескриминативных по своей природе SSL претренов ускоряет обучение генерации.
В этой работе авторы делают мультимодальную генеративку TUNA, обученную поверх унифицированных understanding-generation представлений.
Важно отметить, что именно в вопросе получения унифицированных представлений они не первые. Ранее уже выходили VAE дообученные на кодирование семантики, например UniTok и TokLIP. Также были работы про использование дискриминативных энкодеров для генеративного кодирования, например RAE. В этой работе авторы не предлагают новый энкодер-декодер. Их цель в последовательном применении двух картиночных энкодеров так чтобы взять лучшее от каждого.
Метод
Архитерктура (скрин) больше всего напоминает модель Show-o2 (сравнение в комментах).
Тексты кодируются традиционно (токенизация + эмбединг слой), рассмотрим кодирование картинок:
- Картинку
- Дальше хотим кодировать с помощью SigLip, но у него в начале patch embeding слой 16х16, что слишком сильно понизит нам размерной, заменяем его на 1х1
- Теперь применение такого SigLip' не понизит размерность, применяем
- В конце с помощью MLP делаем проекцию в пространство нужной размерности, получаем представление
В остальном модель не отличается от других MLLM:
- Основаня тушка — трансформерный декодер
- Текст декодируется и токенизируется
- Для генерации картинок используется отдельная голова обученная на flow matching предсказание латентов
- Латенты декодируются VAE декодером
В ходе обучения VAE заморожен, SigLip и основной генератор — нет.
Плюсом работы является отдельный анализ и сравнение как с использованием отдельных представлений так и с механизмом предложенном в Show-o2. Утверждается, что TUNA позволяет лучше сохранить генеративную компоненту в унифицированных представлениях, что приводит к более хорошим метрикам.
[код обещают тут]
Ранее мы много обсуждали мультимодальную генерацию с точки зрения:
- Архитектуры: учить ли голову поверх LLM/VLM или делать unified backbone;
- Представления данных: дискретное или непрерывное кодирование для картинок и текстов
- Визуальных энкодеров: обычно для дискриминативных и генеративных задач используют разные (SigLip/VAE), но, например, Show-o2 (статья, разбор) пытается фьюзить их в единую модель
Последний пункт также интересен в разрезе работ семейства REPA, авторы которых показывают, что использование дескриминативных по своей природе SSL претренов ускоряет обучение генерации.
В этой работе авторы делают мультимодальную генеративку TUNA, обученную поверх унифицированных understanding-generation представлений.
Важно отметить, что именно в вопросе получения унифицированных представлений они не первые. Ранее уже выходили VAE дообученные на кодирование семантики, например UniTok и TokLIP. Также были работы про использование дискриминативных энкодеров для генеративного кодирования, например RAE. В этой работе авторы не предлагают новый энкодер-декодер. Их цель в последовательном применении двух картиночных энкодеров так чтобы взять лучшее от каждого.
Метод
Архитерктура (скрин) больше всего напоминает модель Show-o2 (сравнение в комментах).
Тексты кодируются традиционно (токенизация + эмбединг слой), рассмотрим кодирование картинок:
- Картинку
Х переводим в латентное пространство VAE (x_1) и зашумляем прямым процессом (x_t)- Дальше хотим кодировать с помощью SigLip, но у него в начале patch embeding слой 16х16, что слишком сильно понизит нам размерной, заменяем его на 1х1
- Теперь применение такого SigLip' не понизит размерность, применяем
- В конце с помощью MLP делаем проекцию в пространство нужной размерности, получаем представление
z, которое уже подаем в модель:z = MLP(SigLip′(x_t))В остальном модель не отличается от других MLLM:
- Основаня тушка — трансформерный декодер
- Текст декодируется и токенизируется
- Для генерации картинок используется отдельная голова обученная на flow matching предсказание латентов
- Латенты декодируются VAE декодером
В ходе обучения VAE заморожен, SigLip и основной генератор — нет.
Плюсом работы является отдельный анализ и сравнение как с использованием отдельных представлений так и с механизмом предложенном в Show-o2. Утверждается, что TUNA позволяет лучше сохранить генеративную компоненту в унифицированных представлениях, что приводит к более хорошим метрикам.
❤2