Concise Research
1.13K subscribers
242 photos
223 links
Исследования AI глазами исследователя
Автор: @snk4tr Сергей Кастрюлин
Download Telegram
Масштабирование и байесы

Для диффузионок и не только

1. Cost-Aware Routing for Efficient Text-To-Image Generation
Авторы говорят, что промты бывают разной сложности. Более сложные промты могут потребовать больше шагов семплирования для получения качественных генераций. Давайте учить классификатор сложности промтов параллельно с диффузионкой. На инференсе подберем число шагов для каждого уровня сложности так чтоб сбалансировать компьют и качество

2. Scaling Inference Time Compute for Diffusion Models
Обычно в диффузии масштабирование компьюта на инференса происходит только за счет подбора числа шагов семплирования, но качество довольно быстро насыщается. Что делать если хочется потратить больше ресурсов для получения топ картинки? Авторы предлагаю помимо прочего перебирать еще и подаваемый для генерации шум (как стартовый, так и промежуточный), а также изучают сами стратегии перебора. Качество генераций валидируют стандартными метриками и VLMкой

3. Scaling Diffusion Transformers Efficiently via μP
Показывают, что стандартный μP обобщается и на диффузионные трансформеры. За счет этого, в среднем, получают единицы процентов буста скорости обучения отмасштабированных моделей. В одном случае (DiT-XL-2) обучение ускоряется в разы. Все замеры на FID-50k

4. Why Does ChatGPT “Delve” So Much? Exploring the Sources of Lexical Overrepresentation in Large Language Models
Тест на внимательность и то читают ли посты до конца ☕️ Чуть мемный анализ того почему языковые модели склонны генерить слова из старого английского. В том что они точно склонны сомнений нет: частота появления в публикациях слов вроде delve, intricate и aligns экспоненциально выросла с появлением LLM. Гипотеза о том что модели учились на старых или очень научных текстах не подтверждается, да и в целом у авторов нет однозначного объяснения. Основное подозрение падает на RLHF, но его трудно подтвердить из-за того что многие детали этого процесса для проприетарных моделей закрыты
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas

Есть такая область — Mechanistic Interpretability, это когда в DL системах находят какую-то проблему и пытаются найти ей объяснение через баги внутри состояний модели (веса, активации, градиенты)

Авторы данной работы решили докопаться до современных VLM по части их неспособности адекватно распознавать отношение между объектами. При просьбе описать происходящее на картинке, модельки часто путают что на чём лежит, какой объект на переднем плане, а какой - на заднем и тд

Для эксперимента провели следующий анализ:
- Берем VLM и просим её описать как один объект расположен односительно другого на картинке (left, behind, etc.)
- С помощью YOLO детектируем область, которая должна отвечать за правильный ответ
- Смотрим насколько локализация аттеншена совпадает с областью из YOLO в случае правильных и не правильных ответов

В процессе авторы обнаруживают, что модель, в основном, ошибается когда неправильно локализует аттеншен. При этом, обнаруживается два сценария ошибок:
- Предсказания имеют высокую уверенность, но аттеншен выходит за рамки целевой области
- Предсказания имеют низкую уверенность, но аттеншен имеет слишком высокую локализацию: модель практически “смотрит в точку”

Чинить оба эти сценария предлагается шатанием температуры:
- В случае высокой уверенности, увеличиваем температуру, помогая модели лучше локализовать предсказания
- В случае низкой уверенности, уменьшаем температуру, помогая ей чуть лучше “посмотреть в окрестности”

Эксперименты проводят над LLaVA 1.5 на датасетах WhatsUp и VSR, которые содержат пары <картинка, текст>. Для генерации вопросов к картинке используют GPT-4o. Также используют синтетические датасеты Control A и Control B. В ходе эксперментов температуру перебирают по сетке с целью максимально поднять точность предсказаний. Метод существенно бустит качество, особенно на синтетике
🔥10👍2
FLUX.1 Kontext: Flow Matching for In-Context Image Generation and Editing in Latent Space

Раньше все хотели картинки генерить, теперь хотят ещё и редактировать, причём, желательно, только по промту, без доп. кондишенов. Несколько недель назад вышел новый FLUX, а несколько дней назад его техрепорт пророс на архив. После того как хайп улёгся, можно присмотреться и попробовать разобраться, что сделали.

Метод
Высокоуровнево это расширение text-to-image модельки на text+image-to-image генерацию, где:
- VAE тот же;
- денойдер примерно тот же (трансформер с FM);
- kontext получают дообучением T2I модели.

Отличительные черты
Высокоуровнево очевидно: авторам близки архитектурно минималистичные решения, и переход к задаче редактирования был сделан чисто за счёт хороших данных.

Если рассматривать чуть детальнее:
- В описании архитектуры нет ControlNet’а и его аналогов. Всё обуславливание на исходную картинку происходит через контекст, то есть конкатенацией входных картиночных токенов.
- Обуславливание через контекст трансформера в сочетании с RoPE позволяет обучать модель сразу на разное количество картинок-условий: от 0 (обычная text-to-image генерация) до N, где N может быть довольно большим в сценарии диалоговых систем.
- Поканальную конкатенацию картинок тоже пробовали — работает хуже.

Дистилляция
Практическое использование 12B денойзеров требует ускорения. Авторы остаются верны ADD, никаких упоминаний альтернативных техник ускорения и дистилляции в документе нет.

Замеры
Как водится, авторам не нравятся существующие бенчмарки, и они делают свой. К сожалению, сам бенч они не выкладывают, только показывают барплоты (красивое).

Из любопытного: у них откуда-то есть значения времени работы всяких авторегрессионных моделей вроде GPT-image. Утверждается, что дистиллированная диффузия работает в ~10 раз быстрее при сопоставимом качестве.
4👍1
Немного техрепортиков

Формат техрепортов становится всё популярнее. Главные его минусы:
- за обилием технических деталей бывает трудно выловить оригинальные идеи;
- авторы не пытаются выделить и системно исследовать одну проблему. Вместо этого могут навалить кучу изменений и дальше живите с этим как хотите.

Ниже несколько интересных и полезных мне примеров.

1.
HiDream-I1: A High-Efficient Image Generative Foundation Model with Sparse Diffusion Transformer
С месяц назад на T2I арене обновилась open source SOTA. Теперь это 17В MoE DiT-like трансформер обученный на FM и DMD для ускорения до 16 шагов семплирования. Помимо переусложненной архитектуры, модель примечательна использованием четырёх текстовых энкодеров. Один из них - Llama 3.1, фичи из которой берутся не только с последнего, но и с промежуточных трансформерных блоков.

Занятно, что такой паттерн использования согласуется с описанным в одновременно вышедшей статье про анализ текстовых энкодеров (статья, разбор). Не известно в этом ли дело, но модель действительно оч неплохо реагирует на все детали пользовательских промтов

2. Show-o2: Improved Native Unified Multimodal Models
Новая мультимодальная генеративка от ByteDance семплирует не только тексты и картинки, но и короткие видео (1-2 сек). Архитектурно используют MAR-like схему с Qwen-2.5-Instruct (1.5B или 7В) тушкой и отдельной FM головой. Обобщение на видео происходит за счет замены VAE на темпоральный от Wan 2.1. Авторы не сравниваются с недавними мультимодальными релизами вроде BAGEL, но в отдельных задачах говорят о SOTA качестве. Например, утверждается, что T2I на уровне SD 3.5 Medium, что можно проверить благодаря открытым весам и коду

3. OmniGen2: Exploration to Advanced Multimodal Generation
Сиквел от авторов первой версии, начинающийся с того что у них не заработало всё то что работает у других:
- MoE в DiT;
- инициализация картиночного генератора LLM весами;
- использование второго (помимо VAE) CLIP-like картиночного энкодера для задач понимания картинок.

В остальном, это MAR-like типичная мультимодалка. По аналогии с Show-o2 выше, её обобщили на генерацию видео за счет темпорального VAE, а еще вместе с моделью релизнули свой бенчмарк для оценки качества in-context генерации.
🔥31
Если ваша генеративная модель училась на всём интернете, рано или поздно вы столкнетесь с тем, что она периодически семплит даркнет 🌚 В LLM проблему решают алайнментом — модель учат не отвечать или уходить от прямого ответа на провокационные темы. Модели генерации картинок не могут не отвечать. Как быть?

1. Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient
GAN снова приходит на помощь. Адверсариальную компоненту можно использовать не только для дистилляции, но и для забывания нежелательных концептов. Учить дискриминатор отличать финальные генерации не удобно из-за Марковости диффузии

Метод:
- Берем уже обученную диффузионку
- Генерим ей некий семпл х
- Зашумляем его прямым процессом до некого t
- Расшумляем, используя промт с проблемными концептами c* и нормальными с
- Учим дискриминатор отличать эти два случая, дотюниваем на этом сигнале диффузионку

2. R.A.C.E. Robust Adversarial Concept Erasure for Secure Text-to-Image Diffusion Model
Идея в том чтобы использовать текстовую инверсию и адверсариальные атаки. Суть в получении текстового эмбединга проблемного концепта и последущем дообучении с GAN лоссом на то чтобы по этому эмбеду получалась не проблемная картинка. Более детальный разбор тут

3. MACE: Mass Concept Erasure in Diffusion Models
Описанные выше методы хорошо работают для удаления нескольких концептов, но могут плохо справляться, когда их количество увеличивается до десятков и сотен. Авторы этой работы замечают, что отвечающие за нежелательные концепты слова часто встречаются вместе. Исправить генерации по этим сочетаниям можно шатанием cross attn

Суть метода в том чтобы по набору промтов с проблемными концептами дообучить матрицу проекций W_k так, чтобы замаппить ключи (keys) аттеншена проблемных концептов или даже категорий концептов в любые не проблемные категории. Помимо этого авторы показывают, что дообучение можно делать с помощью нескольких LoRA, которые далее можно некоторым образом мерджить для удобства работы

4. Set You Straight: Auto-Steering Denoising Trajectories to Sidestep Unwanted Concepts
Другая известная проблема concept erasure — методы портят качество генерации в целом. Авторы этой работы предполагают, что проблема в том что мы учимся менять всю траекторию семплирования из маргинального распределения для проблемных концептов, что может иногда приводить нас в моды с субоптимальным качеством.

Предлагается простой фикс: давайте при больших занчениях шума не мешать модели делать свое дело. Вместо этого, будем тюнить её на то чтобы траектория менялась только в точках t < t’. В качестве fine-tuning objective можно использовать, например, описанный выше MACE
🔥12👍1😁1
Vision-Language-Vision Auto-Encoder: Scalable Knowledge Distillation from Diffusion Models
[код/веса]

Есть такая задача — ускорять обучение мультимодальных моделей. В области T2I/T2V генерации сейчас хайпует REPA и её бесчисленные вариации, суть которых в том чтобы во время обучения алайнить фичи диффузии с фичами ранее обученной качественной модельки вроде DINOv2.

В моей системе координат эта работа попадает в ту же категорию, только в контексте VLM. Вместо того чтобы учить I2T с нуля, давайте сначала научим модель выдавать такие эмбеды, по которым можно хорошо сгенерировать картинку. Предполагается, что если эмбеды достаточно информативны для генерации качественной картинки, то и для генерации текстового описания картинок они тоже сгодятся.

Tl;DR метода
Учим vision-language-vision (VLV) автоэнкодер который кодирует картинки в текстовые эмбеды так, чтобы потом декодер (диффузионка) мог их декодировать в картинку. Потом вместо диффузионного декодера подставляем LM, чуть тюним и получаем SOTA кепшенер.

Эксперименты
Первая стадия (обучение VLV) варится на 40M сабсете дофильтрованного LAION-aes. Это вполне ок потому что на этой стадии нам нужны только качественные картинки для обучения в self-supervised режиме.

На второй стадии используем 6M синтетических image-text пар сгенеренных Gemini-2.0 Flash.

Обучение инициализируют Florence-2 карточным энкодером, SDv2.1 диффузионным декодером (странный выбор) и Qwen-2.5 разного размера в LM части на второй стадии. Первая стадия обучается порядка 1к GPU часов, вторая — не известно, но суммарный бюджет получается скромный.

Что получилось
Основной результат — качество image captioning на уровне GPT-4o (превосходит Qwen-2.5 VL). Об остальных результатах трудно судить: картинки как-то генерятся, few-shot VQA как-то делается.

Для меня эта работа, в первую очередь, показатель того что “можно еще и так” + некоторый альтернативный источник мультимодальных эмбедингов.

Открытые вопросы
Вторая стадия обучения делается на синтетике из Gemini. Это может сильно увеличивать эффективность I2T обучения само по себе. Не хватает ablation этого фактора и влияния первой стадии обучения.

В сапмате есть секция про то что первая стадия обучения помогает. Если её скипнуть, то качество сильно хуже, но не понятно что было бы если бы мы сделали обычный VLM претрен и потом провели предложенный на второй стадии тюнинг.
🔥6
Тексты для T2I претрена

Тема актуальная потому что сильно влияет на качество. Статей по ней мало потому что аблейтить дорого. Казалось бы, не жили нормально, нечего и начинать. Но за последний месяц, как манна небесная, на нас снезошли аж две работы по теме, которые хочется обсудить.

Важно напомнить, что естественные кепшены (прикартиночные тексты из интернета) уже давно мало кто воспринимает всерьез из-за их низкого среднего качества. Иными словами, вопроса кепшенить ли картинки для обучения не стоит. Тем не менее, в том как именно это делать есть много нюансов.

1. Structured Captions Improve Prompt Adherence in Text-to-Image Models
Авторы этой работы исходят из предположения, что ключ к хорошим кепшенам — наличие в них строгой структуры:
- Всегда 4 предложения на картинку;
- Каждое предложение имеет свой фокус: объект, локация, эстетика, настройки камеры;
- Порядок предложений тоже задан и всегда одинаков.

Для верификации гипотезы дообучают PixArt на пофильтрованном сабсете LAION размера 19М, кепшены для которых делают двух видов: с заданным порядком как выше и без него. Последующие генерации верифицируют с помощью вопросом VQA модели о том находится ли некий объект на изображении. Из большего числа правильных ответов делают вывод, что структурированные кепшены полезны.

2. How to Train your Text-to-Image Model: Evaluating Design Choices for Synthetic Training Captions
Авторов этой работы больше интересует длина и разнообразие кепшенов. Важно, для своих экспериментов они кепшенят сабсет LAION-aesthetics, при этом в качестве бейзлайна для проверки некоторых гипотез используют оригинальные прикартиночные тексты (оч слабый бейзлайн).

Из странностей отмечу SDv1.1 в качестве стартового чекпоинта для дообучения моделей. Мне кажется, это вообще первый на моей памяти случай такого выбора.

Итак, что выяснили авторы: длинные и очень подробные кепшены не всегда хороши. Если использовать только их, может проседать разнообразие и эстетичность генераций. Частично это можно чинить уменьшением температуры семплирования либо увеличением вариативности кепшенов.

Есть и другие минорные и более очевидные наблюдения. Например, кепшены должны быть вариативны внутри каждой эпохи обучения. Также понятно, что через кепшены можно вносить в модель всякие байесы.
👍51
Между статьями ниже нет связи. Просто почитал, отобрал, делюсь с вами.

1. Reward-Agnostic Prompt Optimization for Text-to-Image Diffusion Models
В SANA 1.5 и и недавней работе с CVPR (статья, #2 в посте) inference-time compute для диффузии масштабировали топорно: делали много генераций по одному промту с разными сидами, лучшую генерацию выбирали с помощью VLM.

Метод очень дорогой потому что переборный: все кандидаты генерируются параллельно, в конце выбирается лучшая картинка. В этой работе предлагается делать примерно то же самое, но итеративно:
- Начинаем с пользовательского промта и генерации по нему
- LLM №1 генерит несколько промтов-модификаций для потенциального улучшения генерации, генерим по ним картинки
- VLM №2 валидирует: выставляет скоры каждой генерации
- Подаём все варианты + их скоры в LLM №1 через in-context learning, просим сделать еще несколько кандидатов.

Явной оптимизации нет, качество сильно зависит от выбранных моделей, SOTA по LLMGrader на Lexica и DiffusionDB

2. Finding Dori: Memorization in Text-to-Image Diffusion Models Is Less Local Than Assumed
Выше обсуждали пачку методов по удалению знаний из генеративок (пост). Все они так или иначе полагаются на предположении о локальности памяти: похожие по семантике концепты описываются векторами расположенными эмбедингов. Если предположение верно — локальное забывание должно решать все проблемы.

Авторы показывают, что это не так: с помощью простейшей адверсариал атаки можно получить большое по норме изменение ветора, такое что восстановится исходных концепт. Фикс простой как и в случае первых статей по адверсальными атакам — адверсальное обучение (не путать с обучением GAN).

3. Enhancing Reward Models for High-quality Image Generation: Beyond Text-Image Alignment
Для оценки качества T2I моделей часто используют модели вроде CLIP, которые смотрят на соответствие картинки и текста. С ними много проблем, но авторы фокусируюся на одной: чем выше детализация генерации, тем, как правило, ниже CLIP Score или его аналоги.

Причина такого поведения кроется в контрастив лоссе. Он заставляет энкодеры извлекать минимум информации, требуемый для сопоставления картинок и текстов. Из-за этого получается, что чем картинка более общая (простая), тем проще будет ей сматчиться с текстом, а значит тем выше будет скор.

Решение предлагается простое и кмк чуть костыльное. В обычном контрастив обучении используется бинарная оценка соответствия картинки и текста для любых пар картинка-промт. Тут авторы:
1. Делают датасет с промтами разной детализированности
2. Вводят категории соответствия (матчится с подробным промтом, общим промтом или вообще не матчится)
3. Делают пороговый лосс, значение которого зависит не только от факта совпадения, но и его точности на основе п. 2.

Мысль прикольная и по построению это должно работать, можно проверить (код, модель), но хотелось бы, конечно, чтоб в будущем нашлось более элегантное решение.
🔥4👍2
Step1X-Edit: A Practical Framework for General Image Editing
[моделька + код, отдельно GEdit бенч]

Недавние обновления моделей GPT-4o и Gemini привнесли функциональность редактирования изображений на основе пользовательских инстрактов. В академической среде тоже выпускали подобные модели (AnyEdit, OmniEdit), но они по качеству отстают от проприетарных.

Авторы этой работы стремятся уменьшить разрыв между академией и индустрией, предлагая полный набор необходимых компонентов: модель, схему сбора данных, методику замера.

Данные
Проблема задачи редактирования в том что это не одна задача, а несколько. Из-за этого первым делом нужно провести категоризацию всех задач и только потом приступить к сбору данных.

Авторы выделили 11 категорий на основе парсинга интернета. У них получилось, что наиболее частые запросы: добавление, удаление, замена и перемещение объектов, а также всяческие стилизации.

Далее для каждой категории генерится синтетика на основе некоторых исходных картинок и инстрактов, которые получаются хитрым многостадийным промторгом VLM’ки. Для каждой категории пайплайн генерации свой и включает несколько моделей. Например, задачи удаления и добавления объекта сводятся к инпейнтингу, поэтому пайплайн состоит из сегментации SAM2 и инпейнта Flux-Fill.

К сожалению, сам датасет не выложили, только код его подготовки.

Модель
Подход авторов очень похож на вышедший на днях Qwen-Image (подробный разбор в КПД): замороженный Qwen-VL в качестве энкодера + трансформерный денойзер. Основная разница в архитектуре: тут DiT против MMDiT в Qwen-Image. Интересно, что в других работах, например Nexus-Gen (разбор) VLM размораживают и как эффективнее пока не ясно.

Замеры
Для замера собирают и фильтруют промты по всем 11 категориям, отбирают 606 лучших, балансируют категории на свое усмотрение, проводят анонимизацию лиц. Из спорного — большое количество промтов на модификацию текста + использование китайского нужно не всем 🌚

Результаты
Уверенно обходят AnyEdit и OmniEdit, приближаются к проприетарным моделям, причем не только на своем, но и на ImgEdit-Full + Complex-Edit бенчмарках. Мне не хватило сравнения с BAGEL, Nexus-Gen и другими вышедшими в последнее время мультимодалками. Скорее всего, авторы из не рассматривали просто потому что учили editing-only модель и считают такое сравнение не совсем честным.
2
Нужно больше золота мультимодалок

Создание и изучение моделей, способных генерировать и картинки и текст набирает обороты. Ниже несколько недавних работ по теме.

1. Qwen-Image Technical Report
Новая моделька от ByteDance представляет собой Qwen-VL с дополнительно обученной диффузионной головой (подробный разбор в КПД). Из особенностей:
- Огромный RF MMDiT денойзер (20В, куда так гнать)
- Генерацию текстов даже не доучивали, хорошее качество получили за счет того что просто заморозили исходную VLM
- Много заморачивались с систематизацией и стратификацией данных, но самые интересные подробности опущены

Для себя отмечаю работу в первую очередь как пруф того что можно получать хорошее T2I и editing качество не размораживая image understanding часть. Из минусов — долгое время генерации и отсутствие в публичном доступе весов editing модели (временно?)

2. Skywork UniPic: Unified Autoregressive Modeling for
Visual Understanding and Generation

Техрепорт от Сингапурского стартапчика. Буквально взяли и дообучили модельку на базе MAR-huge, в которую вошли:
- Qwen2.5-1.5B-Instruct
- SigLIP2-so400m
- denoising MLP

Получили компактную мультимодалку. Подход идейно ни чем не отличается ни от исходного MAR ни от Qwen-Image разве что в отличие от последнего understanding часть размораживается. Порадовал GenEval 0.86, что больше даже чем у BAGEL и GPT-4o 😐

Если вы не поняли где тут новелти, его тут нет. Просто тех. репорт для полноты картины.


3. Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents
Мультимодальные генеративки сейчас представляют собой либо VLM с авторегрессором прямо дообученным на генерацию картинок (Transfusion/BAGEL), либо с отдельной диффузионной головой (MAR, Qwen-Image). Во втором случае авторегрессор продуцирует 1D последовательность картиночных эмбедов, которые далее денойзятся в картинку.

Авторы этой работы преобразуют 1D последовательно в 2D, добавляя процессу больше inductive bias’а (частично сохраняется семантическое отношение между регионами картинки). По заверениям авторов, их модификация существенно ускоряет обучение. Ждём появления большого числа подобных трюков с ростом популярности мультимодалок.
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Visual Autoregressive Modeling for Instruction-Guided Image Editing
[код, модель]

В последнее время большое распространение получила задача instruction-based editing. Она выгодно отличается от других задач редактирования тем что не требует отдельного, сложного в получения кондишена (маски, картины глубины и т.д.). Но за возможность просто написать промт и получить результат приходится платить: редактирование трудно сделать локальным, а именно заставить модель совсем не изменять не целевые регионы изображения.

Решать проблему предлагается с помощью авторегрессии потому что, в отличие от диффузии, регионы картинки генерируются чуть более независимо.

Вспомним, что в классической авторегрессии визуальные токены генерируются в одном, фиксированном разрешении. Вместо этого VAR предлагает кодировать картинку по масштабам:
- Первый токен — это картинка в низком разрешении, например 32х32
- Второй и последующие — это добавки (residuals) к интерполированной до более высокого разрешения версии картинки (64х64, 128х128 и т.д.).

Метод
Предлагается использовать VAE для задачи редактирования. Для этого нужно решить только один вопрос: как правильно кондишениться на исходную картинку. Если использовать полноразмерное изображение, то это:
- Вносит дополнительные вычислительные затраты
- Вносит resolution mismatch: генерации первых, низких разрешений должно обуславливаться на картинку в высоком разрешении, что точно не оптимально.

Авторы проанализировали влияние resolution mismatch и увидели, что проблема наиболее выражена на первом attention слое. Поэтому перед ним добавляется дополнительный блок Scale-Aligned Reference (SAR), в котором используется уменьшенная версия изображения. В остальном VAREdit — это VAR с нимимальными техническими изменениями.

Эксперименты
Обучение VAREdit инициализируют с весов Infinity — вышедшей вслед за VAR, отмасштабированной версии модели в той же парадигме. Модель в двух размерах (2.2В и 8.4В) учат с прогрессивным увеличением разрешения картинок на смеси датасетов SEED-Data-Edit и ImgEdit. Замеряются на EMU-Edit и PIE-Bench, предусмотрительно опуская GEdit Bench, естественно показывают SOTA.

Вместо вывода
Внимательный читатель мог заметить, что переход от классической авторегрессии к VAR убирает изначальный аргумент перехода к авторегрессии, а именно меньшую зависимость между соседними частями изображения (в отличие от диффузии). Учитывая прагматичный взгляд на диффузию как спектральную авторегрессию (эффективность которого показали в Switti), качество моделей вряд ли объясняется предложенным методом обучения.

Хочется надеяться, что в методе действительно есть что-то полезное и результаты обусловлены не только слабыми бейзлайнами и отсутствием самого современного бенчмарка.
👍1
Parallel Scaling Law for Language Models
[код/веса]

Традиционно, большие языковые модели масштабируют двумя способами: либо увеличивая число параметров (parameter scaling), что требует огромных затрат памяти, либо увеличивая объём вычислений на этапе инференса, например, генерируя длинные цепочки рассуждений (inference-time scaling), что сильно бьёт по задержке (latency).

Авторы предлагают третий, более эффективный с точки зрения инференса, путь: параллельное масштабирование (parallel scaling, PS). Идея заключается в увеличении параллельных вычислений как во время обучения, так и во время инференса, при этом повторно используя уже существующие параметры модели.

Идея

Источником вдохновения послужил метод Classifier-Free Guidance (CFG), широко используемый в диффузионных моделях. Авторы выдвигают гипотезу, что эффективность CFG кроется не в эвристических правилах, а в простом удвоении вычислений.

Метод ParScale
формализует и обобщает эту идею:

1️⃣ Входной текст x преобразуется в P различных версий с помощью P разных обучаемых префиксов (prefix tuning).
2️⃣ Все P версий параллельно пропускаются через одну и ту же модель-трансформер.
3️⃣ Полученные P выходов (распределений вероятностей для следующего токена) динамически агрегируются в один финальный выход с помощью небольшого обучаемого MLP.

Таким образом, вместо увеличения размера модели, мы увеличиваем "ширину" вычислений, многократно используя её веса.

Закон масштабирования и эксперименты

Ключевой вклад работы — новый закон масштабирования, который объединяет число параметров N и количество параллельных потоков P. Эмпирически была выведена формула:


Loss ≈ A / (N · (k log P + 1))^α + E


Из неё следует, что увеличение параллельных вычислений в P раз эквивалентно увеличению числа параметров в O(log P) раз. Причём коэффициент k, отражающий пользу от параллелизации, оказался выше для задач, требующих рассуждений (программирование), чем для задач на общие знания, что подтверждает гипотезу о том, что вычисления в большей степени влияют на "решательные" способности модели, а параметры — на "запоминающие".

Практическая ценность:

➡️ Эффективность инференса: PS значительно превосходит масштабирование параметров. Например, 1.6B модель с P=8 достигает той же производительности, что и значительно более крупная модель, но требует в 22 раза меньшего увеличения памяти и в 6 раз меньшего увеличения задержки.
➡️ Эффективность обучения: чтобы снизить затраты на обучение (P раз больше FLOPs), предложена двухэтапная стратегия: сначала модель обучается стандартно на большом объёме данных (1T токенов), а затем дообучается с использованием PS на малом объёме (20B токенов).
➡️ Динамическое масштабирование: Метод можно применить к уже существующим предобученным моделям (например, Qwen-2.5). Достаточно дообучить только небольшие компоненты PS (префиксы и агрегатор), заморозив основную модель. Это открывает возможность гибко менять P на этапе инференса, балансируя между производительностью и затратами под конкретную задачу.

Вместо вывода

Идея, безусловно, элегантная и крайне прагматичная. Вместо погони за триллионами параметров авторы предлагают более разумно использовать имеющиеся ресурсы. Возможность "динамической" мощности модели на лету выглядит особенно привлекательно для практического развёртывания.

Однако остаются вопросы. В отличие от CFG, где входы семантически различны (с условием и без), в PS используются абстрактные обучаемые префиксы. Остаётся не до конца ясным, что именно они выучивают — создают ли они действительно разные "взгляды" на задачу или просто действуют как своеобразный ансамбль-регуляризатор.

Кроме того, логарифмическая зависимость O(log P) намекает на быстрое затухание эффекта. Эксперименты проводились до P=8. Интересно, есть ли смысл идти дальше, к P=16 или P=32, или там уже наступает полное насыщение? Тем не менее, работа предлагает очень свежий и трезвый взгляд на законы масштабирования и, вероятно, задаёт новый вектор для создания более эффективных LLM.
👍61
Draw-In-Mind: Learning Precise Image Editing via Chain-of-Thought Imagination
[код, данные и веса обещают тут]

Yet another генеративка, обученная одновременно на T2I и instruction-based editing, уже не должна никого удивлять. Тем не менее, коллектив Сингапурских академиков и ресерчера из TikTok (не путать с танцующими под музыку блогерами) решили найти свою нишу в эффективности и компактности.

Это важно, потому что последние предложенные в этом классе модели были довольно крупными:
- BAGEL: 2x7B Qwen + image encoder
- NexusGen: 7B Qwen-VL + 10B Flux.1
- Qwen-Image: 7B Qwen-VL + 20B denoiser

Метод
В этой работе предлагается к 7B Qwen-VL прикрутить SANA1.5-1.6B через небольшой адаптер (2-х слойный MLP). По заветам Qwen-Image, VLM часть остаётся замороженной в то время как адаптер и денойзер полностью размораживаются и дообучаются на задачи генерации и эдитинга.

Данные
Вместе с моделью авторы предлагают свои T2I и editing датасеты:
- DIM-T2I представляет собой 14М не фильтрованных по внешней привлекательности семплов с длинными дескриптивными кепшенами.
- DIM-EDIT - 233k триплетов, примечательных тем что инстракты представляют собой chain-of-thoughts (CoT) цепочки.

Последний пункт хочется обсудить отдельно. Авторы отмечают, что обычно инстракты в editing датасетах слишком простые и короткие, а потому для хорошего качества генеративной модели хорошо бы сначала порассуждать или додумать конкретику относительно запроса пользователя. Делая инстракты сразу в виде CoT эта необходимость снимается, задача упрощается, качество растёт.

*Запишем тут карандашиком, что есть риск доменного сдвига, когда пользователи будут писать свои двух/трёх-словные, супер не определённые инстракты.

Эксперименты
Модель учится в две стадии:
- Первая стадия обучения эдитинга проводится на датасете UltraEdit, который большой, но относительно шумный (содержит много шакальной синты из сравнительно старых и слабых моделей).
- Вторая стадия — дообучение на небольшом, но более качественно DIM-EDIT с CoT инстрактами.

На первых шагах обучения денойзер оставляют замороженным и проучивают с небольшим LR в течение 1 эпохи только коннектор. Оставшееся обучение продолжают уже с размороженным денойзером и более агрессивным LR.

Результаты
Радуют хорошие результаты бенчей и потенциальная высокая эффективность модели. Огорчает почти наверняка шакальное на практике качество генерации из-за известных проблем дефектности моделей семейства SANA (расплата за высокую скорость, достигаемую глубоким автоэнкодером DC AE). В статье всего одна куцая плиточка с картинками, что как бы намекает.
👍51
OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation
[код и веса есть]

Существующие на сегодняшний день мультимодальные системы строятся по модульному принципу: отдельные модели для понимания (understanding), генерации и редактирования изображений. Современные "объединённые" (unified) модели часто наследуют эту сложность, используя внешние компоненты, такие как ViT для кодирования изображений или отдельные визуальные токенизаторы.

Авторы утверждают, что истинное объединение требует более фундаментального подхода. Они предлагают OneCAT — модель, построенную на чистой decoder-only архитектуре, которая унифицирует задачи понимания, генерации и редактирования без каких-либо внешних компонентов на этапе инференса.

Метод

Ключевая идея — отказаться от отдельного энкодера для изображений. Вместо этого OneCAT использует простую и легковесную Patch Embedding свертку, чтобы "нарезать" изображение на патчи и превратить их в непрерывные (continuous) визуальные токены. Эти токены подаются напрямую в LLM (на базе Qwen2.5) вместе с текстовыми токенами.

Внутри трансформерных блоков используется Mixture-of-Experts (MoE) с тремя FFN-экспертами:

➡️ Text FFN: для обработки текстовых токенов.
➡️ Visual Understanding FFN: для обработки непрерывных визуальных токенов (из Patch Embedding).
➡️ Visual Generation FFN: для обработки дискретных визуальных токенов, которые генерируются моделью.

Такая архитектура позволяет:

1️⃣ Реализовать раннее слияние (early fusion) модальностей, так как визуальные и текстовые токены обрабатываются вместе с первых слоёв.
2️⃣ Унифицировать задачи: для понимания и редактирования (подачи референсного изображения) используется один и тот же слой Patch Embedding.
3️⃣ Ускорить инференс: отсутствие ViT-энкодера снижает время обработки, особенно для изображений высокого разрешения.

Для генерации изображений используется подход Next-Scale Prediction (NSP), аналогичный VAR/Infinity/Switty. Модель авторегрессионно предсказывает дискретные визуальные токены иерархически — от низкого разрешения к высокому. Чтобы улучшить этот процесс, в Visual Generation FFN был добавлен Scale-Aware Adapter (SAA) — набор LoRA-подобных модулей, каждый из которых специализируется на своем масштабе (разрешении) генерируемых токенов.

Обучение и эксперименты

Обучение проходит в три этапа:
1️⃣ Предварительное обучение экспертов: Поскольку Und. FFN инициализируется из текстового FFN и не имеет "зрительного опыта", для его обучения используется дистилляция знаний. Создаётся "учитель" (InterViT + Qwen2.5), и OneCAT учится имитировать его скрытые состояния. Параллельно обучается Gen. FFN на задачах T2I. Основные веса LLM заморожены.
2️⃣ Промежуточное обучение (Mid-Training): Размораживаются все веса, модель обучается на смешанном наборе задач (понимание, генерация, редактирование, текст), вводятся SAA-модули и динамическое разрешение изображений.
3️⃣ SFT (Supervised Fine-Tuning): Дообучение на высококачественных инструктивных данных для улучшения следования инструкциям и качества генерации.

OneCAT показывает SOTA-результаты среди открытых "unified" моделей, особенно в задачах редактирования и генерации по сложным инструкциям. Модель быстрая: до 10 раз быстрее генерирует изображения (по сравнению с диффузионным BAGEL).

Вместо вывода

Нельзя не отметить, что "чистота" архитектуры на этапе инференса достигается за счёт усложнения процесса обучения. Дистилляция с помощью внешнего "учителя" на первом этапе — это, по сути, перенос сложности с инференса на обучение. Возникает вопрос: что именно выучивает Patch Embedding и Und. FFN? Являются ли они полноценной заменой ViT, или же они просто научились эффективно "компилировать" визуальную информацию в формат, понятный конкретному "учителю"?

Также важно, что не смотря на отказ от VAE для кодирования (encode) входных картинок, авторы продолжают использовать multi-scale VAE для декодирования (decode) результатов. Известно, что учить такие VAE тяжело, а качество реконструкции с их помощью накладывает существенные ограничения на верхний предел качества генераций.
👍31
Свежие релизы от Tensent

Многие знают компанию по их весьма неплохой видео модельке HunyuanVideo. На днях случилось два любопытных релиза.

1️⃣ Выложили новую T2I модельку HunyuanImage-2.1. Тех. репорт пока отсутствует, но основные моменты можно понять по описанию в репозиториях с кодом и моделькой.
2️⃣ Модель включает отдельный модуль PromptEnhancer про который авторы рассказывают отдельно.

Хочется разобраться что, собственно, было сделано.

1. HunyuanImage-2.1: An Efficient Diffusion Model for High-Resolution (2K) Text-to-Image Generation​
[код, веса]

Модель представляет собой DiT с двумя текстовыми энкодерами (VLM + ByT5), обученный с REPA на DINOv2 поверх собственного х32 VAE.

Последний пункт интересен тем что про VAE не слова, а вообще хороших х32 VAE кроме DC AE особо и не выходило. Технически, предложенный VAE отличается от DC AE хотя бы тем что имеет аттеншен в ботлнеке, ждем полного тех. репорта для больших подробностей.

После претрена модель дообучают в две стадии: SFT + RLHF (такую же схему мы уже давно используем в YandexART). После этого модель дистиллируют, по заявлению авторов, новым методом дистилляции на основе meanflow, но детали пока отсутствуют.

Использование глубокого автоэнкодера позволяет быстро и качественно генерировать картинки в 2К разрешении, а PromptEnhancer модуль (обсуждаем ниже) улучшает text-image alignment и визуальное качество.

Замеры делают с помощью некого Structured Semantic Alignment Evaluation, SSAE (расскажите если знаете что это) и side-by-side сравнений, в которых текущая OS SOTA в виде HiDream тактично игнорируется.

2. PromptEnhancer: A Simple Approach to Enhance Text-to-Image Models via Chain-of-Thought Prompt Rewriting
[код, веса]

Еще со времен DALL-E 3 👴 известно, что релевантность T2I моделей повышается если:
- Модель обучить на дискриптивных промтах (потому что в них более четко сформулировано что нужно сделать)
- Выучить некоторую модель переписывания промтов, которая будет делать обычные промты из бенчей и от пользователей более дискриптивными.

Авторы предлагают PromptEnhancer — универсальный фреймворк для переписывания промптов, который улучшает любую T2I-модель без необходимости изменять её веса.

Идея и метод

Ключевая идея — полностью отделить задачу улучшения промпта от задачи генерации изображения. Framework состоит из двух основных компонентов:

1️⃣ CoT Rewriter: модель-переписчик (на базе Hunyuan-7B-Instruct), которая использует методику "цепочки рассуждений" (Chain-of-Thought, CoT). Она анализирует исходный промпт, выявляет потенциальные неоднозначности и обогащает его деталями, касающимися атрибутов, композиции и стилистики, имитируя процесс человеческого мышления.
2️⃣ AlignEvaluator: специализированная модель для оценки выравнивания (alignment) между изображением и текстом. В отличие от общих метрик, AlignEvaluator обучен давать детальную и гранулированную обратную связь на основе системной таксономии из 24 ключевых аспектов (KeyPoints), сгруппированных в 6 категорий (например, понимание отрицаний, подсчет объектов, пространственные отношения, рендеринг текста и т.д.).

Обучение и результаты

Учат в два этапа: дистиллят мощного учителя (Gemini-2.5-Pro), потом делают GRPO на парах где разметку получают из из VLM. По замерам авторов релевантность растёт по всем 24 аспектам на 5.1%, наибольший рост в понимании отношений схожести (+17.3%), контрфактических сценариях (+17.2%) и подсчете объектов (+15.0%).

В работе мне не хватило аблейшена утверждения о том что PromptEnhancer — универсальная система, не зависящая от T2I модели. Впрочем, веса и код открыты, можно проверить.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍4🔥1
HunyuanImage 3.0 Technical Report
[код, веса]

Tensent продолжают релизы, новая HunyuanImage позиционируется как самая мощная open-source модель для генерации изображений на данный момент. В отличие от предыдущих версий, это не просто DiT-модель, это гибридная мультимодальная система, построенная на базе очень большого MoE LLM (Hunyuan-A13B) с 80B+ общих и 13B активных параметров. Модель унифицирует задачи понимания и генерации в едином фреймворке, однако для публичного доступа была выложена только её часть, отвечающая за генерацию.

Как это работает

В основе лежит "нативная мультимодальная модель" — MoE LLM, которая управляет процессом генерации. В отличие от чисто авторегрессионных подходов (OneCAT) или классических DiT, HunyuanImage 3.0 использует гибридную архитектуру, схожую с парадигмой Transfusion/JanusFlow, где LLM руководит диффузионным процессом в латентном пространстве.

Ключевые архитектурные решения

➡️Dual-Encoder
Для обработки изображений используются сразу два энкодера: VAE (с даунсэмплингом х16) для задач генерации и Vision Encoder (ViT) для задач понимания. Их признаки конкатенируются, что позволяет модели одновременно работать с разными аспектами визуальной информации.

➡️Generalized Causal Attention
Чтобы совместить авторегрессионную природу текста и "полноценное" внимание для изображений, используется специальный механизм масок. Текстовые токены видят только предыдущие токены, в то время как токены изображения могут "смотреть" на все предыдущие токены и на все остальные токены в пределах этого же изображения.

➡️Нативный CoT (Chain-of-Thought)
Модель не просто получает улучшенный промпт; она обучена сама выполнять процесс рассуждения и переписывания промпта как неотъемлемый шаг перед генерацией. Это достигается за счет обучения на специально собранном Text-to-Text-to-Image (T2TI) датасете, содержащем цепочки рассуждений.

Ключ к успеху — данные и многоэтапное обучение

Высокое качество модели — результат колоссальной работы с данными и сложного пайплайна обучения.

1️⃣ Данные
Исходный пул из 10 млрд изображений прошел через 3-этапную фильтрацию (удаление дубликатов, низкого качества, AIGC-контента, оценка эстетики). Была разработана продвинутая система иерархического двуязычного капченинга, которая генерирует описания разной степени детализации и использует специализированные "агенты" (OCR, Named Entity) для проверки фактов.

2️⃣ Прогрессивное предобучение
Обучение разделено на 4 стадии с постепенным увеличением разрешения изображений и добавлением более сложных данных (например, interleaved-data на 3-й стадии и CoT-данные на 4-й).

3️⃣”Агрессивный" пост-тренинг
После предобучения модель проходит целый каскад выравнивающих процедур: SFT, DPO (для устранения артефактов), MixGRPO (для улучшения эстетики и выравнивания с текстом), SRPO и новый внутренний метод ReDA для повышения реализма.

Как мерились

Авторы справедливо критикуют существующие бенчмарки (T2I-CompBench, GenEval) за примитивные промпты и ненадёжные автоматические метрики. Вместо них они предлагают собственный фреймворк SSAE (Structured Semantic Alignment Evaluation). В нём LLM сначала парсит промпт на 12 семантических полей (объекты, атрибуты, сцена и т.д.), а затем более продвинутая MLLM с CoT оценивает сгенерированное изображение по каждому из этих пунктов.

По результатам человеческой оценки, HunyuanImage 3.0 значительно превосходит предыдущую версию 2.1 и конкурирует на равных с ведущими закрытыми моделями (Seedream 4.0, GPT-Image).

Вместо вывода

HunyuanImage 3.0 — это демонстрация мощи современного индастриал-ML. Успех модели кроется не в одном прорывном архитектурном решении, а в синергии четырёх факторов: огромный масштаб MoE LLM, проработанный пайплайн подготовки данных, многоступенчатое прогрессивное обучение и каскад из самых современных RL-техник.

В любом случае, это новый и очень высокий стандарт для open-source комьюнити.
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡6🔥3
Why Language Models Hallucinate

Эх тяжела жизнь ресерчера OpenAI: твоей статье меньше месяца, а уже 9 цитирований. Интерес вполне заслуженный из-за высокого ожидаемого качества, небольшого общего числа публикаций и хайпового названия. Давайте почитаем что написали в этот раз.

LLM галлюцинируют (сюрприз), при этом большинство исследователей ищут причины галлюцинаций в сложных свойствах архитектуры трансформеров или данных. Эта работа предлагает иной, более простой взгляд. Авторы утверждают, что языковые модели галлюцинируют потому что вся система их обучения и оценки поощряет угадывание. Подобно студенту на экзамене, который боится оставить ответ пустым, LLM выгоднее выдать правдоподобную ложь, чем честно признаться в незнании ("I don't know").

Откуда берутся галлюцинации (этап Pre-training)

Авторы демистифицируют происхождение галлюцинаций, сводя сложную задачу генерации текста к более простой и изученной задаче бинарной классификации. Они вводят гипотетическую проблему "Is-It-Valid" (IIV), в которой модель должна лишь отличать валидные утверждения от невалидных.

Ключевой теоретический результат статьи — это доказательство математической связи: уровень ошибок генерации (error rate) как минимум вдвое превышает уровень ошибок классификации в задаче IIV. Иными словами, если модель в принципе не может идеально отличить правду от вымысла, она неизбежно будет продуцировать ошибки (включая галлюцинации) в процессе свободной генерации.

Ошибки классификации, в свою очередь, возникают по хорошо известным в статистике причинам:

1️⃣ Сложность данных без паттернов (Arbitrary Facts)
Если факты произвольны и не имеют структуры (например, дни рождения малоизвестных людей), их невозможно выучить, не увидев в обучающей выборке. Ошибка предсказания таких "одноразовых" фактов (singletons) напрямую связана с их частотой в данных.

2️⃣ Несовершенство модели (Poor Models)
Модель может быть в принципе неспособна идеально описать данные, как, например, триграммная модель не может уловить длинные зависимости в грамматике.

3️⃣ Вычислительная сложность, сдвиг распределения, GIGO и другие классические проблемы ML.

Почему галлюцинации выживают (этап Post-training)

На этапе пост-тренинга (SFT, RLHF) модели должны были бы отучиться от галлюцинаций. Но этого не происходит, и причина, по мнению авторов, кроется в системе оценки. Подавляющее большинство популярных бенчмарков (MMLU-Pro, SWE-bench, HLE и др.) используют бинарную систему оценки: 1 балл за правильный ответ и 0 за неправильный или пустой (IDK).

В такой системе для модели всегда математически выгоднее "угадать" и получить шанс на 1 балл, чем ответить "I don't know" и гарантированно получить 0. Модели оптимизируются под то, чтобы быть хорошими "сдатчиками тестов", а не честными ассистентами.

Что делать? Социо-техническое решение

Проблема не в том, что у нас нет хороших бенчмарков для измерения галлюцинаций. Проблема в том, что доминирующие лидерборды их не используют и поощряют "враньё". Поэтому решение должно быть социо-техническим: нужно менять не модели, а правила игры на существующих, влиятельных бенчмарках.

Авторы предлагают внедрять "цели по уверенности" (confidence targets) прямо в текст заданий. Например, добавлять в промпт фразу: "Отвечай, только если уверен более чем на 90%, так как за ошибки предусмотрен штраф". Это вводит явные штрафы за неверные догадки и делает честное признание в неуверенности (IDK) рациональной стратегией.

Вместо вывода

Эта работа — скорее сильный концептуальный манифест, чем технический отчет о новой модели. Её главная ценность в том, что она переносит фокус с загадочных "свойств нейросетей" на вполне измеримые и понятные стимулы и систему оценки. Идея о том, что LLM — это просто "хорошие сдатчики тестов", которым выгоднее рисковать, чем молчать, звучит очень убедительно. Понравилось сведение генерации к классификации, не понравилось предложенное социо-техническое решение. Оно выглядит логичным, но точно столкнется с огромной инерцией исследовательского сообщества, а еще “хорошие сдатчики тестов” точно научатся хакать и его.
🔥103👍1
Forwarded from AbstractDL
Синтетические данные для претрейна LLM: когда они помогают, а когда вредят (by Meta)

Можно ли обучать языковые модели на данных, сгенерированных другими LLM? И если да, то сколько такой синтетики нужно подмешивать? Meta провели одно из самых масштабных исследований на эту тему — обучили больше 1000 моделей (до 3B параметров) на 100k+ GPU часов, чтобы разобраться раз и навсегда, но основные выводы получились неоднозначные.

Авторы тестировали три типа синтетики: перефразирование веб-текстов в "высококачественный" стиль (HQ), перефразирование в QA-формат и генерацию синтетических учебников (textbook-style данных по типу Phi).

Что работает:
- Смешивание 1/3 перефразированных синтетических данных с 2/3 натуральными веб-текстами может ускорить обучение в 5-10 раз (по достижению того же validation loss) на больших датасетах.
- "Золотое сечение" для миксов оказалось около 30% синтетики. Причём это соотношение удивительно стабильно для разных размеров моделей и объёмов данных.

Что НЕ работает:
- Обучение только на перефразированной синтетике не быстрее, чем на обычных веб-текстах.
- Обучение на "учебниках" даёт заметно более высокий loss, особенно на малых объёмах данных.
- Просто взять генератор побольше (70B вместо 8B) не даёт лучших результатов — иногда даже становится хуже 🤷‍♂️

Интересно, что при проверке эффекта model collapse (это когда модель деградирует, обучаясь на собственных или синтетических данных, теряя разнообразие и усиливая ошибки), авторы получили смешанную картину: перефразированная синтетика не привела к деградации даже при крупных масштабах, а вот данные в формате учебников действительно вызвали признаки коллапса.

Ещё один контринтуитивный результат из анализа unigram-распределений: CommonCrawl имеет самое широкое покрытие токенов и наименьшую KL-дивергенцию к тестовым датасетам, но это не привело к лучшему качеству. Похоже, степень полезности данных зависит не только от сходства с тестом.

Статья
👍6🔥31
How much do language models memorize?

Вопрос о том, запоминают ли языковые модели данные, на которых они обучались, является одним из ключевых. Обычно эту проблему рассматривают либо через прямую "экстракцию" данных из модели, либо через "атаки на определение членства" (membership inference). Однако оба подхода имеют недостатки. Экстракция не позволяет отличить запоминание от хорошего обобщения (модель может сгенерировать 2+2=4, не видя этого примера, а просто "поняв" математику). Атаки на членство дают лишь статистическую оценку по всему датасету, а не для конкретного примера.

Авторы предлагают новый, более фундаментальный подход к измерению запоминания, основанный на теории информации и идее сжатия.

Идея и метод

Ключевая идея — измерять запоминание в битах. Модель считается "запомнившей" точку данных x, если с помощью этой модели можно сжать x в более короткое представление. Эта концепция основана на Колмогоровской сложности, но для практических расчётов используются логарифмы вероятностей, которые выдает модель (принцип арифметического кодирования).

Самое важное: авторы разделяют запоминание на две компоненты:

1️⃣ Непреднамеренное запоминание (Unintended Memorization): Информация, которую модель хранит о конкретном датасете. Это и есть "вредное" запоминание, которое нас интересует.
2️⃣ Обобщение (Generalization) или "намеренное запоминание": Информация, которую модель извлекла об общем процессе генерации данных (например, правила грамматики или арифметики).

Чтобы отделить одно от другого, используется референсная модель — более крупная модель, обученная на огромном суперсете данных, которая аппроксимирует "истинное" распределение данных. Тогда непреднамеренное запоминание точки x моделью θ' — это разница в битах, необходимых для кодирования x с помощью референсной модели θ и с помощью нашей модели θ'. Если θ' сжимает x лучше, чем θ, значит, она содержит специфическую информацию об x, которой нет у "всезнающей" референсной модели.

Сколько информации хранится в параметрах?

Первая часть экспериментов была направлена на измерение "чистой" ёмкости моделей. Для этого исключили возможность обобщения, обучая модели на датасетах из случайных битовых строк.

Результат: Модели семейства GPT могут хранить примерно 3.6 бита информации на один параметр (при обучении в bfloat16). Удвоение точности до float32 увеличивает эту ёмкость незначительно (до ~3.8 бит/параметр), что говорит о неэффективности избыточной точности для простого хранения
данных.

Запоминание и обобщение на реальных текстах

Далее эксперименты повторили на текстовых данных (FineWeb), где обобщение уже возможно и полезно.

Ключевые наблюдения:

➡️Сначала заполняется ёмкость: Модель сначала активно запоминает данные, пока не достигнет своего предела ёмкости. Общее количество запомненной информации (в битах) растет с размером датасета, но в итоге упирается в плато, определяемое размером модели (см. Figure 1).

➡️"Гроккинг" и двойной спуск: Как только ёмкость модели заполнена, начинается самое интересное. Модель больше не может позволить себе хранить информацию о каждом примере отдельно и вынуждена искать общие, обобщающие паттерны. В этот момент непреднамеренное запоминание начинает падать, а обобщение – расти. Именно на этом переходе, когда размер датасета (в битах) превышает ёмкость модели, авторы наблюдают феномен "двойного спуска" (double descent) — временное ухудшение качества на тестовых данных с последующим улучшением.

➡️Законы масштабирования для Membership Inference: На основе своих измерений авторы вывели закон масштабирования, который предсказывает успешность атак на определение членства в зависимости от ёмкости модели и размера датасета. Закон подтверждается на более крупных моделях и показывает, почему для современных LLM, обученных на триллионах токенов, такие атаки в среднем практически невозможны.

Работа понравилась как пример применения фундаментальных идей из теории информации для ответа на очень практический вопрос. Она дает нам не просто качественные рассуждения, а количественную метрику — биты на параметр — для оценки ёмкости моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥103