Какое направление будет активнее всего развиваться в 2026 году?
Anonymous Poll
29%
Агентность
16%
Мультимодальность
7%
Image/Video генеративные модели
11%
Edge Inference / Small Models
11%
Приложения AI в бизнесе
11%
Приложения AI в науке
16%
Приложения AI в робототехнике
Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space
[Статья] [Кода нет]
Введение
Моделирование естественного языка через фиксированные токены, полученные через BPE или иной процедурой, не ругал только ленивый.
Инференс предсказания одного токены требует фиксированного количества вычислений, при том что сами токены обладают очень разной смысловой нагрузкой и предсказуемостью.
Ранее уже были сделаны попытки отойти от привычной парадигмы - Byte Latent Transformer , COCONUT и Large Concept Model (LCM). Однако и у этих подходов есть ограничения. COCONUT, использующий непрерывные эмбеды, не транслируется естественным образом в естественный язык, а SONAR эмбеддинги полагаются на предопределенный человек метод разбиения на предложения.
В этой же статье предлагают динамическое разбиение с автоматическим слиянием токенов.
[Статья] [Кода нет]
Введение
Моделирование естественного языка через фиксированные токены, полученные через BPE или иной процедурой, не ругал только ленивый.
Инференс предсказания одного токены требует фиксированного количества вычислений, при том что сами токены обладают очень разной смысловой нагрузкой и предсказуемостью.
Ранее уже были сделаны попытки отойти от привычной парадигмы - Byte Latent Transformer , COCONUT и Large Concept Model (LCM). Однако и у этих подходов есть ограничения. COCONUT, использующий непрерывные эмбеды, не транслируется естественным образом в естественный язык, а SONAR эмбеддинги полагаются на предопределенный человек метод разбиения на предложения.
В этой же статье предлагают динамическое разбиение с автоматическим слиянием токенов.
🔥5
🔬 Метод
За основу берут метод из H-Net, но моделируют на уровне токенов, а не бит.
Dynamic Large Concept Model (DLCM) работает следующим образом:
1️⃣ Токенизируем текст каким-то токенизатором
2️⃣ Прогоняем текст через некий энкодер
3️⃣ Затем считаем похожесть (косинусное расстояние) между прошлой query и текущим ключом. Если расстояние больше заданного порога, то начинаем следующий токен, иначе сливаем текущий токен с тем что есть. Получаем таким образом укороченную последовательность.
4️⃣ Прогоняем эту укороченную последовательность через основную модель.
5️⃣ Декодируем обратно в исходное пространство токенов через cross-attention на исходную последовательность токенов.
При обучении задается желаемое сжатие R (сколько в среднем исходных токенов сжимаются в латентный токен). Для поддержания целевой степени сжатия добавляется вспомогательный лосс, который способствует тому, чтобы в среднем R токенов сливалось в один токен.
На обучении разбиение на токены сэмплируют из распределения Бернулли для exploration, на инференсе разбивают по порогу 0.5.
Из деталей реализации стоит отметить следующее. Так как при подаче батча с фиксированной длиной исходных токенов число латентных может разниться, в данной работе реплицируют их на этапе обучения. Flex Attention с паддингами выглядит естественным решением, но оказывается, что это работает медленнее (в 1.4-1.7 раз), чем Flash Attention c репликацией.
🧪 Эксперименты
Метод валидируют, обучая семейство моделей Llama-like архитектуры, используя токенизатор DeepSeek.
Для подбора оптимальных гипепараметров используют \muP параметризацию, как для энкодера, так и основной модели. Параметры настраивают на маленькой 87M модели и масштабируют на большие.
Кроме того, в данной статье предлагают scaling law лосса в зависимости от степени сжатия R, и доли параметров, приходящихся на энкодер P. Оказывается, что R=4 более менее оптимальный выбор с точки зрения соотношения качество/скорость.
Для оценки качества берут выборку из 12 бенчмарков из lm-eval-harness. DLCM дает прирост почти на всех бенчах и в среднем 2-3% качества по сравнению с стандартной токенизацией. Основной прирост на задачах, требующих reasoning,
Глобальная регуляризация (приведение среднего сжатия к R) лучше, чем на уровне отдельного предложения.
💡 Выводы
Неплохой результат с очевидной практической пользой - солидной экономией вычислений за счет более коротких последовательностей. Интересно, будет ли данное направление дальше развиваться и увидим ли мы SOTA-level LLM c отходом от стандартной токенизации?
За основу берут метод из H-Net, но моделируют на уровне токенов, а не бит.
Dynamic Large Concept Model (DLCM) работает следующим образом:
1️⃣ Токенизируем текст каким-то токенизатором
2️⃣ Прогоняем текст через некий энкодер
3️⃣ Затем считаем похожесть (косинусное расстояние) между прошлой query и текущим ключом. Если расстояние больше заданного порога, то начинаем следующий токен, иначе сливаем текущий токен с тем что есть. Получаем таким образом укороченную последовательность.
4️⃣ Прогоняем эту укороченную последовательность через основную модель.
5️⃣ Декодируем обратно в исходное пространство токенов через cross-attention на исходную последовательность токенов.
При обучении задается желаемое сжатие R (сколько в среднем исходных токенов сжимаются в латентный токен). Для поддержания целевой степени сжатия добавляется вспомогательный лосс, который способствует тому, чтобы в среднем R токенов сливалось в один токен.
На обучении разбиение на токены сэмплируют из распределения Бернулли для exploration, на инференсе разбивают по порогу 0.5.
Из деталей реализации стоит отметить следующее. Так как при подаче батча с фиксированной длиной исходных токенов число латентных может разниться, в данной работе реплицируют их на этапе обучения. Flex Attention с паддингами выглядит естественным решением, но оказывается, что это работает медленнее (в 1.4-1.7 раз), чем Flash Attention c репликацией.
🧪 Эксперименты
Метод валидируют, обучая семейство моделей Llama-like архитектуры, используя токенизатор DeepSeek.
Для подбора оптимальных гипепараметров используют \muP параметризацию, как для энкодера, так и основной модели. Параметры настраивают на маленькой 87M модели и масштабируют на большие.
Кроме того, в данной статье предлагают scaling law лосса в зависимости от степени сжатия R, и доли параметров, приходящихся на энкодер P. Оказывается, что R=4 более менее оптимальный выбор с точки зрения соотношения качество/скорость.
Для оценки качества берут выборку из 12 бенчмарков из lm-eval-harness. DLCM дает прирост почти на всех бенчах и в среднем 2-3% качества по сравнению с стандартной токенизацией. Основной прирост на задачах, требующих reasoning,
Глобальная регуляризация (приведение среднего сжатия к R) лучше, чем на уровне отдельного предложения.
💡 Выводы
Неплохой результат с очевидной практической пользой - солидной экономией вычислений за счет более коротких последовательностей. Интересно, будет ли данное направление дальше развиваться и увидим ли мы SOTA-level LLM c отходом от стандартной токенизации?
👍7🙏2🔥1
Интересный блогпост на лицехватс 🤗 про оптимизацию FP4 кернела под MoE.
Он содержит в себе детальный анализ работы кернелов и отпимизаций в разных фреймворках (vLLM, SGLang, FlashInfer).
Он содержит в себе детальный анализ работы кернелов и отпимизаций в разных фреймворках (vLLM, SGLang, FlashInfer).
😁3
Forwarded from Love. Death. Transformers.
А теперь ещё и на hf самое подробное сравнение особенностей инференса Moe в vllm и sglang
https://huggingface.co/blog/apsys/blackwell-nvfp4-comparison
https://huggingface.co/blog/apsys/blackwell-nvfp4-comparison
huggingface.co
TFLOPS Gap: Why FP4 MoE Kernel Engineering Matters on Blackwell
A Blog post by Konstantin on Hugging Face
NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation
[Статья][Репозиторий без кода]
Некоторое время назад был предложен VAR - авторегрессионная модель, генерирующая за один проход не один токен, а целое разрешение. Оригинальная модель выдавала неплохое качество на class-conditional генерации ImageNet, а затем вышли text-to-image модель Infinity и Switti. Однако составить серьезную конкуренцию диффузионным моделям данному направлению не удалось.
И в данной работе делают новый заход, причем конечная модель умеет не только в text-to-image, но еще и эдитинг.
[Статья][Репозиторий без кода]
Некоторое время назад был предложен VAR - авторегрессионная модель, генерирующая за один проход не один токен, а целое разрешение. Оригинальная модель выдавала неплохое качество на class-conditional генерации ImageNet, а затем вышли text-to-image модель Infinity и Switti. Однако составить серьезную конкуренцию диффузионным моделям данному направлению не удалось.
И в данной работе делают новый заход, причем конечная модель умеет не только в text-to-image, но еще и эдитинг.
👍3
🔬 Метод
🏘 Архитектура
📌 За основу берут подход VAR с TokenFlow токенизатором. Однако в последовательностях изображения могут входить теперь как желаемый выход, так и условие.
📌 Модель инициализируется из Qwen-2.5-VL-7B. Визуальные токены из кодбука добавляются в словарь. Пробовали раздельные головы для языка и зрения, но одна голова оказалась не хуже.
📌 Multiscale 3D RoPE. Координаты для текста реплицируются вдоль всех осей, для зрения нормализуют на размер изображения.
📌 В лоссе масштабируют на размер карты признаков, чтобы учесть разное количество токенов на разных уровнях.
📌 Сэмплирование из распределения с некоторой температурой на обучении вместо кодирования к ближайшему кодовому слову для устойчивости к шуму.
👨🏫 Стадии обучения
📌 Обучают суммарно на 6Т токенов.
📌 На первой стадии делают короткий alignment на 256px, где учат только коннектор и выходной слой.
📌 Затем обучают последовательно на разрешениях 256, 512, 1024.
📌 Потом делают SFT на данных более высокого качества.
📌 На финальной стадии гоняют GRPO, адаптированный к VAR. Градиенты пробрасываются только через 8 (из 10?) скейлов низкого разрешения.
Ко всему прочему обучают диффузионный декодер (а-ля refiner) для улучшения сэмплов, полученных из VAR.
🧪 Эксперименты
Модель выдает довольно хорошие метрики. Метрики на GenEval/DPG (что бы это ни значило) на уровне GPT-Image 1 и Qwen-Image.
На ImgEdit выдает около SOTA.
CoT-reasoning дает хороший профит по сравнению с генерацией без ризонинга. На черрипиках показывают, что модель выкручивается в спорных ситуациях.
💡 Выводы
Неплохой заход со стороны scalewise генерации. Но чтобы оценить по достоинству, требуется, чтобы community могло поиграться и сопоставить с тем что есть. Сможет ли оно догнать уровень SOTA-диффузии - время покажет.
🏘 Архитектура
📌 За основу берут подход VAR с TokenFlow токенизатором. Однако в последовательностях изображения могут входить теперь как желаемый выход, так и условие.
📌 Модель инициализируется из Qwen-2.5-VL-7B. Визуальные токены из кодбука добавляются в словарь. Пробовали раздельные головы для языка и зрения, но одна голова оказалась не хуже.
📌 Multiscale 3D RoPE. Координаты для текста реплицируются вдоль всех осей, для зрения нормализуют на размер изображения.
📌 В лоссе масштабируют на размер карты признаков, чтобы учесть разное количество токенов на разных уровнях.
📌 Сэмплирование из распределения с некоторой температурой на обучении вместо кодирования к ближайшему кодовому слову для устойчивости к шуму.
👨🏫 Стадии обучения
📌 Обучают суммарно на 6Т токенов.
📌 На первой стадии делают короткий alignment на 256px, где учат только коннектор и выходной слой.
📌 Затем обучают последовательно на разрешениях 256, 512, 1024.
📌 Потом делают SFT на данных более высокого качества.
📌 На финальной стадии гоняют GRPO, адаптированный к VAR. Градиенты пробрасываются только через 8 (из 10?) скейлов низкого разрешения.
Ко всему прочему обучают диффузионный декодер (а-ля refiner) для улучшения сэмплов, полученных из VAR.
🧪 Эксперименты
Модель выдает довольно хорошие метрики. Метрики на GenEval/DPG (что бы это ни значило) на уровне GPT-Image 1 и Qwen-Image.
На ImgEdit выдает около SOTA.
CoT-reasoning дает хороший профит по сравнению с генерацией без ризонинга. На черрипиках показывают, что модель выкручивается в спорных ситуациях.
💡 Выводы
Неплохой заход со стороны scalewise генерации. Но чтобы оценить по достоинству, требуется, чтобы community могло поиграться и сопоставить с тем что есть. Сможет ли оно догнать уровень SOTA-диффузии - время покажет.
GLM-Image: Auto-regressive for Dense-knowledge and High-fidelity Image Generation
[Модель][Блог]
z-ai (наши 🐘) выпустили гибридную авторегрессионную картиночную модель с диффузионным декодером.
Авторегрессия обучается с инициализации 9B VLMкой, и учат 7B диффузионный трансформер.
Низкие частоты отвечающие за общую семантику генерятся авторегрессией, а диффузия дополняет высокие частоты.
Как утверждается, оно умеет довольно хорошо в lettering, на уровне SOTA.
[Модель][Блог]
z-ai (наши 🐘) выпустили гибридную авторегрессионную картиночную модель с диффузионным декодером.
Авторегрессия обучается с инициализации 9B VLMкой, и учат 7B диффузионный трансформер.
Низкие частоты отвечающие за общую семантику генерятся авторегрессией, а диффузия дополняет высокие частоты.
Как утверждается, оно умеет довольно хорошо в lettering, на уровне SOTA.
huggingface.co
zai-org/GLM-Image · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥15💩4🖕2❤1👍1🍌1
SnapGen++: Unleashing Diffusion Transformers for Efficient
High-Fidelity Image Generation on Edge Devices
[Статья][Без кода]
Введение
От диффузии хочется чтобы она генерила качественно и быстро, а в идеале еще и не на очень мощном железе. За последнее время вышло много моделей хорошего качества - Qwen-Image, Z-Image, FLUX-2, но все это ни разу ни про генерацию на мобилках 📱.
Ребята из SnapChat призадумались и произвели на свет диффузионку, способную выдавать достойное качество генерации на смартфонах.
High-Fidelity Image Generation on Edge Devices
[Статья][Без кода]
Введение
От диффузии хочется чтобы она генерила качественно и быстро, а в идеале еще и не на очень мощном железе. За последнее время вышло много моделей хорошего качества - Qwen-Image, Z-Image, FLUX-2, но все это ни разу ни про генерацию на мобилках 📱.
Ребята из SnapChat призадумались и произвели на свет диффузионку, способную выдавать достойное качество генерации на смартфонах.
👍4🔥2
🔬 Метод
🏘 Архитектура
За основу берут DiT из PixArt-α, но с рядом особенностей и модификаций:
📌 В качестве бейзлайна берут модель на 400М с MultiQueryAttention и уменьшенными FFN-ами. (не понял зачем MQA, если не используются KV-кэши)
Архитектуру DiT-a превращают в песочные часы. После нескольких блоков делают downsampling x2 по каждой из осей, и гоняют карты признаков меньшего размера, а затем ближе к концу снова повышают разрешение добавляя skip-connections как в UNet.
📌 Чтобы удешевить attention на высоком разрешении, делают следующее:
1) Сверткой сжимают ключи и значения
2) Attention не глобальный, а блочный, друг на друга внимаются только соседние токены в пределах блока.
📌Затем еще добавляют skip-connections в middle-block (после downsampling), увеличивают ffn на высоком разрешении и подбирают количество блоков до сжатия и после разжатия.
Архитектурный ablation проводят на ImageNet на основе валидационного лосса, а затем переносят на text-2-image модель.
Кроме того, учат не одну модель за раз, а суперсеть 🕸, включащую в себя подсети для работы на разных устройствах:
👶 Самую маленькую на 0.3B параметров, чтобы гонять на не high-end андроидах.
👦 Чуть побольше на 0.4B, для более high-end.
💪 И самую большую и сильную на 1.6B, для быстрого инференса на GPU.
На обучении все подсети сэмплируются из подсети и обучаются на flow-matching loss. Подсети еще дистиллируют на всей суперсети для лучшей сходимости и качества.
Кроме того, еще добавляют дистилляцию на выходы учителя (Qwen-Image), причем дистиллируют не только скорость, но и последнее скрытое состояние.
Чтобы ускорить генерацию, прибегают к DMD2, к которому дополнительно довешивают дистилляционный лосс на выход большого учителя. И таким образом удается генерить неплохо в 4 шага.
🧪 Эксперименты
Учат подсеть на 1.6B параметров с двумя подсетями. В качестве текстовых энкодеров берут TinyClip и Gemma3-4b-it.
Сначала преобучают на разрешении 256, а потом переходят на 1024.
0.4B моделька при инференсе в 4 шага отрабатывает на 16-ом айфоне на 1.7c.
По user study меньшая модель чуть лучше SANA-1.6M и чуть хуже SD3M, а большая на 1.6B параметров как FLUX-1-dev.
На автобенчах (DPG/GenEval) тоже неплохо.
💡 Выводы
Выглядит как достойная инженерная работа по заведению диффузии на мобилках. Не NanoBanana, конечно, но вполне себе пригодно.
🏘 Архитектура
За основу берут DiT из PixArt-α, но с рядом особенностей и модификаций:
📌 В качестве бейзлайна берут модель на 400М с MultiQueryAttention и уменьшенными FFN-ами. (не понял зачем MQA, если не используются KV-кэши)
Архитектуру DiT-a превращают в песочные часы. После нескольких блоков делают downsampling x2 по каждой из осей, и гоняют карты признаков меньшего размера, а затем ближе к концу снова повышают разрешение добавляя skip-connections как в UNet.
📌 Чтобы удешевить attention на высоком разрешении, делают следующее:
1) Сверткой сжимают ключи и значения
2) Attention не глобальный, а блочный, друг на друга внимаются только соседние токены в пределах блока.
📌Затем еще добавляют skip-connections в middle-block (после downsampling), увеличивают ffn на высоком разрешении и подбирают количество блоков до сжатия и после разжатия.
Архитектурный ablation проводят на ImageNet на основе валидационного лосса, а затем переносят на text-2-image модель.
Кроме того, учат не одну модель за раз, а суперсеть 🕸, включащую в себя подсети для работы на разных устройствах:
👶 Самую маленькую на 0.3B параметров, чтобы гонять на не high-end андроидах.
👦 Чуть побольше на 0.4B, для более high-end.
💪 И самую большую и сильную на 1.6B, для быстрого инференса на GPU.
На обучении все подсети сэмплируются из подсети и обучаются на flow-matching loss. Подсети еще дистиллируют на всей суперсети для лучшей сходимости и качества.
Кроме того, еще добавляют дистилляцию на выходы учителя (Qwen-Image), причем дистиллируют не только скорость, но и последнее скрытое состояние.
Чтобы ускорить генерацию, прибегают к DMD2, к которому дополнительно довешивают дистилляционный лосс на выход большого учителя. И таким образом удается генерить неплохо в 4 шага.
🧪 Эксперименты
Учат подсеть на 1.6B параметров с двумя подсетями. В качестве текстовых энкодеров берут TinyClip и Gemma3-4b-it.
Сначала преобучают на разрешении 256, а потом переходят на 1024.
0.4B моделька при инференсе в 4 шага отрабатывает на 16-ом айфоне на 1.7c.
По user study меньшая модель чуть лучше SANA-1.6M и чуть хуже SD3M, а большая на 1.6B параметров как FLUX-1-dev.
На автобенчах (DPG/GenEval) тоже неплохо.
💡 Выводы
Выглядит как достойная инженерная работа по заведению диффузии на мобилках. Не NanoBanana, конечно, но вполне себе пригодно.
👍3❤1
К разговору о компактных диффузионнках.
Black Forest Lab выпустили меньшие версии FLUX2 с суффиксом [klein]
👶 9B модель с Qwen-3-8B текстовым энкодером
👶 4B модель с Qwen-3-4B текстовым энкодером
Обещают инференс за 0.5 сек.
Кроме того, выпустили FP8 и NVFP4 версии моделей.
Black Forest Lab выпустили меньшие версии FLUX2 с суффиксом [klein]
👶 9B модель с Qwen-3-8B текстовым энкодером
👶 4B модель с Qwen-3-4B текстовым энкодером
Обещают инференс за 0.5 сек.
Кроме того, выпустили FP8 и NVFP4 версии моделей.
👍8🔥3
Тут в соцсети Х обнаружили забавную утечку на MMLU-Pro.
Правильный ответ во многих примерах имеет лишний отступ. Если отгадывать ответ на основе отступа, то получается прирост на 10-15% по сравнению с случайным угадыванием на срезах по математике/физике/химии.
SOTA качество так не выбить, но умение моделей пользоваться этой утечкой ведет к статзначимой разнице в качестве.
Правильный ответ во многих примерах имеет лишний отступ. Если отгадывать ответ на основе отступа, то получается прирост на 10-15% по сравнению с случайным угадыванием на срезах по математике/физике/химии.
SOTA качество так не выбить, но умение моделей пользоваться этой утечкой ведет к статзначимой разнице в качестве.
X (formerly Twitter)
Eric W. Tramel (@fujikanaeda) on X
The presence of a leading whitespace leaks the correct choice selection in the MMLU-Pro benchmark. Am I missing something? Seems to impact Chemistry, Physics, and Math.
HF Issue in reply.
HF Issue in reply.
😁30❤4🌚3
Отличный разбор от некоего Jia-Bin Huang (звучит как персонаж из звездных войн) статьи mHC: Manifold-Constrained Hyper-Connections от DeepSeek 🐋 с визуализациями, сделанными в manim.
❤7
KVzap: Fast, Adaptive, and Faithful KV Cache Pruning
[Статья][Репозиторий]
Увесистые 🏋️ KV-кэши, линейно растущие с длиной последовательности, являются основной причиной дороговизны инференса языковых моделей.
Человечество придумало разнообразные техники сжатия KV-кэшей - прунинг токенов, квантизацию в низкую битность, низкоранговые проекции, но идеального решения с точки зрения качества/производительности/удобства интеграции не было найдено.
В данной статье исследователи предлагают новый метод сжатия KV-кэшей посредством выбрасывания наименее информативных токенов, выдающий state-of-the-art баланс между качеством 🥇 и скоростью 🏃.
[Статья][Репозиторий]
Увесистые 🏋️ KV-кэши, линейно растущие с длиной последовательности, являются основной причиной дороговизны инференса языковых моделей.
Человечество придумало разнообразные техники сжатия KV-кэшей - прунинг токенов, квантизацию в низкую битность, низкоранговые проекции, но идеального решения с точки зрения качества/производительности/удобства интеграции не было найдено.
В данной статье исследователи предлагают новый метод сжатия KV-кэшей посредством выбрасывания наименее информативных токенов, выдающий state-of-the-art баланс между качеством 🥇 и скоростью 🏃.
❤6
🔬 Метод
В качестве отправной точки берут метод KVZip, который дублирует входной промпт следующим образом
И на основе внимания отбирает наиболее важные пары ключей и значений. Данный метод хорош с точки зрения качества, но требует двух проходов по сети, и годится только для сжатия префикса.
Авторы предлагают модификацию KVZip+, которая дополнительно еще учитывает тот факт, что внимание домножается на value и выходную проекцию O - тем самым получая более точную оценку на важность данного токена.
Конечный метод KVZap предлагает обучать небольшую нейросеть (линеный слой или MLP) предсказывать оценку из KVZip+ и использовать ее для выбрасывания токенов. Предсказание стоит заметно меньше, чем выгрузка большого KV-кэша на каждом шаге генерации. На инференсе задается некий порог важности, выше которого токен принимается, а ниже выбрасывается.
Для обучения предсказателей собирают выборку из 1.2M пар hidden / метрика из датасета Nemoton-CC. Кроме того для гарантированного сохранения ближайших токенов сохраняют всегда 128 последних токенов.
🧪 Эксперименты
Метод валидируют на Qwen3-8B, Llama-3.1-8B-Instruct, and Qwen3-32.
Качество оценивают на бенчах длинного контекста - RULER/LongBench и AIME25 (ризонинг с длинным контекстом).
По квадратичной ошибке двуслойная MLP всегда лучше линейного слоя, и превосходство имеет место в большинстве случаев и на бенчах, кроме Llama.
KVZap по качеству равен или чуть хуже KVZip, но опережает заметно, все остальные бейзлайны.
В ablation показывают, что фиксированный порог лучше, чем topk pruning, потому что разные тексты могут иметь разную информационную нагрузку. Скользящее окно важно для хорошего качества.
В итоге удается достичь сжатия в 2-4 раза без просадки в качестве.
💡 Выводы
Выглядит как вполне рабочий и сравнительно легко применимый на практике подход с небольшим пост обучением. Из бейзлайнов не хватает очень похожего по смыслу и мотивации AutoJudge, где важность токенов определяется на основе конечной задачи. В то же время, данный подход, по всей видимости, более обобщаем на другие задачи.
В качестве отправной точки берут метод KVZip, который дублирует входной промпт следующим образом
user: <prompt>
Repeat the previous context exactly.
assistant: <prompt>И на основе внимания отбирает наиболее важные пары ключей и значений. Данный метод хорош с точки зрения качества, но требует двух проходов по сети, и годится только для сжатия префикса.
Авторы предлагают модификацию KVZip+, которая дополнительно еще учитывает тот факт, что внимание домножается на value и выходную проекцию O - тем самым получая более точную оценку на важность данного токена.
Конечный метод KVZap предлагает обучать небольшую нейросеть (линеный слой или MLP) предсказывать оценку из KVZip+ и использовать ее для выбрасывания токенов. Предсказание стоит заметно меньше, чем выгрузка большого KV-кэша на каждом шаге генерации. На инференсе задается некий порог важности, выше которого токен принимается, а ниже выбрасывается.
Для обучения предсказателей собирают выборку из 1.2M пар hidden / метрика из датасета Nemoton-CC. Кроме того для гарантированного сохранения ближайших токенов сохраняют всегда 128 последних токенов.
🧪 Эксперименты
Метод валидируют на Qwen3-8B, Llama-3.1-8B-Instruct, and Qwen3-32.
Качество оценивают на бенчах длинного контекста - RULER/LongBench и AIME25 (ризонинг с длинным контекстом).
По квадратичной ошибке двуслойная MLP всегда лучше линейного слоя, и превосходство имеет место в большинстве случаев и на бенчах, кроме Llama.
KVZap по качеству равен или чуть хуже KVZip, но опережает заметно, все остальные бейзлайны.
В ablation показывают, что фиксированный порог лучше, чем topk pruning, потому что разные тексты могут иметь разную информационную нагрузку. Скользящее окно важно для хорошего качества.
В итоге удается достичь сжатия в 2-4 раза без просадки в качестве.
💡 Выводы
Выглядит как вполне рабочий и сравнительно легко применимый на практике подход с небольшим пост обучением. Из бейзлайнов не хватает очень похожего по смыслу и мотивации AutoJudge, где важность токенов определяется на основе конечной задачи. В то же время, данный подход, по всей видимости, более обобщаем на другие задачи.
❤3👍3
На GPU Mode недавно вышла 3-х часовая лекция про RL, Агентов и фреймворк для создания и работы со средами OpenEnv.
Выступают рассказчики из unsloth, лицехватс и разработчики торча.
Довольно содержательно и познавательно. В частности, разбираются характерные нюансы и проблемы обучения с подкреплением.
Выступают рассказчики из unsloth, лицехватс и разработчики торча.
Довольно содержательно и познавательно. В частности, разбираются характерные нюансы и проблемы обучения с подкреплением.
❤16👍5
Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders
[Статья] [Код]
Введение
RAE (Represenation Auto Encoders) ранее неплохо себя показали в качестве альтернативы VAE в задаче Class Conditional генерации.
Однако валидации на масштабе и для задачи text-2-image не было. Поэтому вопрос о масштабируемости парадигмы оставался открытым.
И вот коллектив оригинальных авторов + ЛеКун выпустили продолжение с экспериментами на t2i.
[Статья] [Код]
Введение
RAE (Represenation Auto Encoders) ранее неплохо себя показали в качестве альтернативы VAE в задаче Class Conditional генерации.
Однако валидации на масштабе и для задачи text-2-image не было. Поэтому вопрос о масштабируемости парадигмы оставался открытым.
И вот коллектив оригинальных авторов + ЛеКун выпустили продолжение с экспериментами на t2i.
🔬 Метод
Напомним, что RAE кодирует одновременно высокочастотную информацию, необходимую для реконструкции и сематническую. RAE инициализуется неким семантическим энкодером (SigLIP/WebSSL) и дообучается на реконструкцию + дополнительные лоссы.
В данной работе рассматривают в качестве базовых тушек SigLIP2/WebSSL и обучают RAE на реконструкцию + LPIPS + Грам лосс + адверсариальный лосс. Удается добиться качества реконструкции между SDXL VAE и FLUX VAE. Для реконструкции текстов (внезапно) важно долить текстовых данных.
Используют MetaQuery в архитектуре - последовательность обучаемых токенов той же длины, что и выход RAE (256 токенов для изображений 224x224).
Для оригинального RAE для лучших результатов было важно зашумлять латенты и делать широкую DDТ голову. Для T2I оказывается, что данные изменения не дают особого прироста если учить достаточно долго достаточно большие модели.
А вот сдвиг расписания (flow shift) остается довольно важным.
🧪 Эксперименты
Обучение состоит из двух стадий - претрейна на большом количестве данных и файнтьюне на более качественных данных.
Данные собирают частично из открытых датасетов, частично генерят синтетику. Лучше работает смесь таких и таких данных, чем большее количество примеров из одного распределения.
Основная масса экспериментов проводится на 1.5B Квене в качестве текстового энкодера и 2.4B диффузионной модели.
RAE сходится значительно быстрее к тем же метрикам (в 4 раза по GenEval, в 4.6 раз по DPG Bench) и выходят на лучшее качество при заданном бюджете.
Дальнейший скейлинг модели по размеру не приводит к значительному улучшению качества (вероятно, потому что упираются в данные).
Интересной фичой подхода с RAE является способность оценивать свои генерации, тем самым делая возможным test-time scaling по типу Best-of-N.
💡 Выводы
Годная валидация подхода, но дабы окончательно убедиться в
эффективности, наверное, потребуются модели околосотового качества.
Напомним, что RAE кодирует одновременно высокочастотную информацию, необходимую для реконструкции и сематническую. RAE инициализуется неким семантическим энкодером (SigLIP/WebSSL) и дообучается на реконструкцию + дополнительные лоссы.
В данной работе рассматривают в качестве базовых тушек SigLIP2/WebSSL и обучают RAE на реконструкцию + LPIPS + Грам лосс + адверсариальный лосс. Удается добиться качества реконструкции между SDXL VAE и FLUX VAE. Для реконструкции текстов (внезапно) важно долить текстовых данных.
Используют MetaQuery в архитектуре - последовательность обучаемых токенов той же длины, что и выход RAE (256 токенов для изображений 224x224).
Для оригинального RAE для лучших результатов было важно зашумлять латенты и делать широкую DDТ голову. Для T2I оказывается, что данные изменения не дают особого прироста если учить достаточно долго достаточно большие модели.
А вот сдвиг расписания (flow shift) остается довольно важным.
🧪 Эксперименты
Обучение состоит из двух стадий - претрейна на большом количестве данных и файнтьюне на более качественных данных.
Данные собирают частично из открытых датасетов, частично генерят синтетику. Лучше работает смесь таких и таких данных, чем большее количество примеров из одного распределения.
Основная масса экспериментов проводится на 1.5B Квене в качестве текстового энкодера и 2.4B диффузионной модели.
RAE сходится значительно быстрее к тем же метрикам (в 4 раза по GenEval, в 4.6 раз по DPG Bench) и выходят на лучшее качество при заданном бюджете.
Дальнейший скейлинг модели по размеру не приводит к значительному улучшению качества (вероятно, потому что упираются в данные).
Интересной фичой подхода с RAE является способность оценивать свои генерации, тем самым делая возможным test-time scaling по типу Best-of-N.
💡 Выводы
Годная валидация подхода, но дабы окончательно убедиться в
эффективности, наверное, потребуются модели околосотового качества.
✍1👍1🔥1