Less is More: Recursive Reasoning with Tiny Networks
Alexia Jolicoeur-Martineau
https://arxiv.org/abs/2510.04871
https://github.com/SamsungSAILMontreal/TinyRecursiveModels
И статью, и этот разбор есть смысл читать после того, как вы уже прочитали про HRM, потому что вся статья построена как систематический разбор HRM
Также постоянно следует помнить, что сравнение HRM/TRM с традиционными LLM во многом ущербно, это модели совсем разных классов
LLM - довольно общие модели, обученные на всём интернете на задачах продолжения текста, включая сложные файнтюны на чат, инструкции, решение различных задач по математике и прочим дисциплинам и т.д.
То, что при этом они способны _ещё_ и решать судоку, лабиринты, тесты ARC-AGI - на самом деле довольно удивительно
Все современные LLM это трансформер-декодеры (есть гибриды с SSM, но здесь это не важно)
HRM/TRM -- это трансформер-энкодер (как BERT), он не продолжает никакую последовательность токен за токеном, он обрабатывает все токены сразу и генерит новую последовательность той же длины, что и входная
HRM/TRM (в отличие от BERT, тоже обученного примерно на всём интернете) обучается только на одну конкретную задачу из списка, ни про какую универсальность здесь речи пока нет
Так что все восторженные посты в духе, что вот появилась модель в миллион раз меньшая по размеру и бьющая лучшие топовые LLM и скоро всем им кранты, дотацентры не нужны и прочее - надо делить на тот же миллион, многие из авторов вообще не разобрались, что сделано
  
  Alexia Jolicoeur-Martineau
https://arxiv.org/abs/2510.04871
https://github.com/SamsungSAILMontreal/TinyRecursiveModels
HRM продемонстрировала интересный результат с малым размером модели, при этом последующий анализ от организаторов ARC-AGI показал, что в первую очередь на результат влияет последовательное улучшение ответа (deep supervision), а рекурсия в H и L модулях добавляет не очень много
Новая работа про TRM (Tiny Recursive Model) ставит под сомнение необходимость всей этой сложности и исповедует философию — «меньше значит больше»
Новая модель TRM содержит 5M-19M параметров (есть нюансы), против 27M у HRM
И статью, и этот разбор есть смысл читать после того, как вы уже прочитали про HRM, потому что вся статья построена как систематический разбор HRM
Также постоянно следует помнить, что сравнение HRM/TRM с традиционными LLM во многом ущербно, это модели совсем разных классов
LLM - довольно общие модели, обученные на всём интернете на задачах продолжения текста, включая сложные файнтюны на чат, инструкции, решение различных задач по математике и прочим дисциплинам и т.д.
То, что при этом они способны _ещё_ и решать судоку, лабиринты, тесты ARC-AGI - на самом деле довольно удивительно
Все современные LLM это трансформер-декодеры (есть гибриды с SSM, но здесь это не важно)
HRM/TRM -- это трансформер-энкодер (как BERT), он не продолжает никакую последовательность токен за токеном, он обрабатывает все токены сразу и генерит новую последовательность той же длины, что и входная
HRM/TRM (в отличие от BERT, тоже обученного примерно на всём интернете) обучается только на одну конкретную задачу из списка, ни про какую универсальность здесь речи пока нет
Так что все восторженные посты в духе, что вот появилась модель в миллион раз меньшая по размеру и бьющая лучшие топовые LLM и скоро всем им кранты, дотацентры не нужны и прочее - надо делить на тот же миллион, многие из авторов вообще не разобрались, что сделано
arXiv.org
  
  Less is More: Recursive Reasoning with Tiny Networks
  Hierarchical Reasoning Model (HRM) is a novel approach using two small neural networks recursing at different frequencies. This biologically inspired method beats Large Language models (LLMs) on...
  Шифр Цезаря, один из старейших и простейших методов шифрования информации: 
Кстати, именно эта идея — что ключ может меняться — и стала основой одного очень важного шифра в истории человечества: шифра Виженера
В нём сдвиг каждой буквы определяется ключевым словом
  
  Каждая буква заменяется на другую, сдвинутую на фиксированное число позиций в алфавите
Это фиксированное число называется ключом шифра
В нашем случае ключ равен -9, то есть Я переходит в И, и так далее
Если вам вдруг придётся расшифровывать подобное сообщение на английском, то сразу делимся сайтом!
Ещё один похожий шифр называется Атбаш
Он пришёл из древнего иврита: в нём первая буква алфавита заменялась на последнюю, вторая — на предпоследнюю, и так далее
То есть в русском алфавите А превращается в Я, Б — в Ю, В — в Э и так далее
В полиалфавитных (в отличие от моноалфавитных, где каждая буква меняется по одному и тому же правилу) шифрах правила меняются для каждого символа
Позиционно-полиалфавитным — сдвиг зависит от позиции буквы в слове
А именно: первая сдвигается на 1, вторая — на 2, третья — на 3 и так далее
Кстати, именно эта идея — что ключ может меняться — и стала основой одного очень важного шифра в истории человечества: шифра Виженера
В нём сдвиг каждой буквы определяется ключевым словом
raw.org
  
  Caesar Cipher Decoder & Encoder Tool
  Encrypt and decrypt text using this Caesar Cipher tool. Select a key or let the tool auto-guess it for decryption. Learn more about the Caesar Cipher algorithm.
  В предварительном отчёте Wiley за 2025 год, посвящённом влиянию технологий на науку, опубликованы свежие данные об отношении учёных к искусственному интеллекту 
Один из наиболее неожиданных результатов — уровень доверия к Ml среди исследователей снизился по сравнению с 2024 годом, несмотря на существенный прогресс в развитии технологий
В 2024 году 51 % учёных высказывали тревогу по поводу возможности «галлюцинаций» — ситуации, когда языковые модели выдают выдуманные факты за истину
В 2025 году эта доля выросла до 64 %
Это происходит даже на фоне того, что уровень использования Ml в научных исследованиях увеличился с 45 % до 62 %
Также отмечен рост обеспокоенности вопросами безопасности и конфиденциальности — соответствующий показатель подскочил на 11 % по сравнению с предыдущим годом
Наряду с этим усилились сомнения в прозрачности и этичности искусственного интеллекта
  
  
  
  
  
  Один из наиболее неожиданных результатов — уровень доверия к Ml среди исследователей снизился по сравнению с 2024 годом, несмотря на существенный прогресс в развитии технологий
В 2024 году 51 % учёных высказывали тревогу по поводу возможности «галлюцинаций» — ситуации, когда языковые модели выдают выдуманные факты за истину
В 2025 году эта доля выросла до 64 %
Это происходит даже на фоне того, что уровень использования Ml в научных исследованиях увеличился с 45 % до 62 %
Также отмечен рост обеспокоенности вопросами безопасности и конфиденциальности — соответствующий показатель подскочил на 11 % по сравнению с предыдущим годом
Наряду с этим усилились сомнения в прозрачности и этичности искусственного интеллекта
DeepSeek выпустили новую модель
DeepSeek-OCR — это Ml-модель, которая извлекает текст из документов, изображений и PDF-файлов
Главное отличие от привычных OCR-систем: модель не просто "читает" текст, а понимает структуру документа и может работать с разными форматами вывода
Интересный концепт в статье — имитация человеческой памяти
Модель может сжимать старые части документа сильнее, чем новые, подобно тому, как мы помним недавние события детально, а далёкие — размыто
Ключевые возможности:
1. Модель предлагает 6 режимов работы — от экономичного Tiny (64 визуальных токена) до мощного Gundam-M (1853 токена)
2. Обучена на 30.000.000 страниц документов на 100+ языках
Основной фокус — китайский и английский (25.000.000 страниц), но работает и с другими языками
Модель состоит из DeepEncoder и DeepSeek-3B-MoE декодер
Инфраструктура:
- Python 3.12.9, CUDA 11.8, PyTorch 2.6.0
- Поддержка vLLM для высокопроизводительной обработки (~2500 токенов/сек на A100-40G для PDF)
- Доступна через Hugging Face Transformers
Практические сценарии использования:
1. Обработка архивов
2. Автоматизация документооборота
3. Мультиязычная поддержка
4. Научные исследования — распознавание формул, таблиц, диаграмм из публикаций
  DeepSeek-OCR — это Ml-модель, которая извлекает текст из документов, изображений и PDF-файлов
Главное отличие от привычных OCR-систем: модель не просто "читает" текст, а понимает структуру документа и может работать с разными форматами вывода
Интересный концепт в статье — имитация человеческой памяти
Модель может сжимать старые части документа сильнее, чем новые, подобно тому, как мы помним недавние события детально, а далёкие — размыто
Ключевые возможности:
1. Модель предлагает 6 режимов работы — от экономичного Tiny (64 визуальных токена) до мощного Gundam-M (1853 токена)
2. Обучена на 30.000.000 страниц документов на 100+ языках
Основной фокус — китайский и английский (25.000.000 страниц), но работает и с другими языками
Модель состоит из DeepEncoder и DeepSeek-3B-MoE декодер
Инфраструктура:
- Python 3.12.9, CUDA 11.8, PyTorch 2.6.0
- Поддержка vLLM для высокопроизводительной обработки (~2500 токенов/сек на A100-40G для PDF)
- Доступна через Hugging Face Transformers
Практические сценарии использования:
1. Обработка архивов
2. Автоматизация документооборота
3. Мультиязычная поддержка
4. Научные исследования — распознавание формул, таблиц, диаграмм из публикаций
Anthropic представили Claude для научных исследований
Команда создала новые инструменты для Claude в сфере науки о жизни:
1. Прямые подключения к научным базам — PubMed, Benchling, Synapse.org, 10x Genomics
Можно искать статьи, работать с лабораторными данными и анализировать геномы через обычный диалог с моделью
2. Agent Skills — готовые скрипты для типовых задач
Например, есть набор для контроля качества RNA-seq данных
Можно делать свои
Доступно через Claude.com и AWS Marketplace. Google Cloud — скоро
Для академических лабораторий есть программа с бесплатными API-кредитами
Кто уже использует:
- Sanofi, AbbVie, Novo Nordisk
- Broad Institute и Stanford тестируют для биоинформатики
10x Genomics встроили в свои инструменты для анализа одноклеточных данных
  
  Команда создала новые инструменты для Claude в сфере науки о жизни:
1. Прямые подключения к научным базам — PubMed, Benchling, Synapse.org, 10x Genomics
Можно искать статьи, работать с лабораторными данными и анализировать геномы через обычный диалог с моделью
2. Agent Skills — готовые скрипты для типовых задач
Например, есть набор для контроля качества RNA-seq данных
Можно делать свои
Доступно через Claude.com и AWS Marketplace. Google Cloud — скоро
Для академических лабораторий есть программа с бесплатными API-кредитами
Кто уже использует:
- Sanofi, AbbVie, Novo Nordisk
- Broad Institute и Stanford тестируют для биоинформатики
10x Genomics встроили в свои инструменты для анализа одноклеточных данных
Telegram
  
  All about AI, Web 3.0, BCI
  Anthropic launched Claude for Life Sciences to support the entire life sciences process from early discovery through translation and commercialization, with Claude Sonnet 4.5 showing improved performance on protocol understanding and bioinformatics tasks…
  К вопросу о важности символики для развития математики 
Вот у Бомбелли (16_й век) записано число √(7 + √14)
И это был уже прорыв в переходе от словесной к символьной записи математических выражений
Вот у Бомбелли (16_й век) записано число √(7 + √14)
И это был уже прорыв в переходе от словесной к символьной записи математических выражений
🔥1
  Google опубликовала статью о квантовом алгоритме Quantum Echoes на процессоре Willow
Другие работы Google в этом направлении тут
Команда сейчас измерила распространение информации в квантовой системе (OTOC²) на 65-105 кубитах
Эксперимент длился 2.1 часа на Willow против 3.2 года на суперкомпьютере Frontier, что значит в 13.000 раз быстрее
Интересный факт, эксперимент на 40 кубитах занял 3 часа точного расчёта на облаке Google и 6 дней симуляции на NVIDIA H100 для достижения той же точности методом Monte Carlo
Впервые результат можно воспроизвести на другом квантовом компьютере
Также показали определение параметров квантовых систем
Но как пишут сами авторы - это была игрушечная задача
До практики далеко — нужны миллионы кубитов, пока их только 105
  Другие работы Google в этом направлении тут
Команда сейчас измерила распространение информации в квантовой системе (OTOC²) на 65-105 кубитах
Эксперимент длился 2.1 часа на Willow против 3.2 года на суперкомпьютере Frontier, что значит в 13.000 раз быстрее
Интересный факт, эксперимент на 40 кубитах занял 3 часа точного расчёта на облаке Google и 6 дней симуляции на NVIDIA H100 для достижения той же точности методом Monte Carlo
Впервые результат можно воспроизвести на другом квантовом компьютере
Также показали определение параметров квантовых систем
Но как пишут сами авторы - это была игрушечная задача
До практики далеко — нужны миллионы кубитов, пока их только 105
«Господа, — сказал он — Предлагаю вам самим отправиться и измерить эту будку
Вы увидите, что длина прилавка составляет 149 сантиметров, то есть одну стомиллиардную долю расстояния между Землей и Солнцем. Высота его задней стенки, разделенная на ширину окошка, дает нам 176/56, то есть 3,14
Высота фасада составляет девятнадцать дециметров, то есть равна количеству лет древнегреческого лунного цикла
Сумма высот двух передних ребер и двух задних ребер подсчитывается так: 190х2+176х2=732, это дата победы при Пуатье
Толщина прилавка составляет 3,10
сантиметров, а ширина наличника окна — 8,8 сантиметров
Заменяя целые числа соответствующими литерами алфавита, мы получим C10H8, то есть формулу нафталина
— Фантастика, — сказал я — Сами мерили?
— Нет, — ответил Алье — Но один подобный киоск был измерен неким Жан–Пьером Аданом
Воображаю, что все цветочные киоски должны строиться более или менее одинаково
С цифрами вообще можно делать что угодно"
Forwarded from НИИ Антропогенеза (ARI)
Mayo Clinic - объявила о 6-й когорте из 11 Ml -стартапов в своей программе акселерации
Фокус этого года - психиатрия/нейро, онкология и CareOps(операционная эффективность)
Клинический фокус смещается в сложные области:
• психическое здоровье и неврология
• онкология вместо более зрелых областей вроде радиологии
3 стартапа по профилактике:
MyAtlas: AI + носимые устройства для предотвращения кризисов психического здоровья
Kanjo: Ранняя персонализированная помощь при ADHD и аутизме
PromedAI: Домашний AI-скрининг для общей профилактики
2 стартапа в тераностике (диагностика + лечение):
MedLink Global: AI-психиатрия для диагностики и персонализированного лечения
Bowhead Health: Предсказание геномных мутаций рака на основе изображений
  Фокус этого года - психиатрия/нейро, онкология и CareOps(операционная эффективность)
Клинический фокус смещается в сложные области:
• психическое здоровье и неврология
• онкология вместо более зрелых областей вроде радиологии
3 стартапа по профилактике:
MyAtlas: AI + носимые устройства для предотвращения кризисов психического здоровья
Kanjo: Ранняя персонализированная помощь при ADHD и аутизме
PromedAI: Домашний AI-скрининг для общей профилактики
2 стартапа в тераностике (диагностика + лечение):
MedLink Global: AI-психиатрия для диагностики и персонализированного лечения
Bowhead Health: Предсказание геномных мутаций рака на основе изображений
Planned Diffusion: гибридный подход к преодолению барьера между скоростью и качеством в LLM
https://arxiv.org/abs/2510.18087
https://arxiviq.substack.com/p/planned-diffusion
В статье представлен "Planned Diffusion" — новый гибридный фреймворк для генерации текста, который объединяет сильные стороны авторегрессионных (AR) и диффузионных моделей в единой архитектуре
Метод работает в два этапа: сначала он использует AR-процесс для последовательной генерации высокоуровневого «плана», который определяет семантическую структуру и разбивает вывод на условно независимые фрагменты текста
Затем он выполняет этот план, генерируя содержимое для всех определённых фрагментов одновременно с помощью параллельного дискретного диффузионного процесса
Подход напрямую бросает вызов фундаментальному компромиссу между скоростью генерации и качеством вывода в больших языковых моделях
Рассматривая генерацию текста как задачу динамического параллельного планирования, Planned Diffusion значительно сокращает последовательный критический путь, достигая ускорения от 1.27x до 1.81x по сравнению со стандартной AR-генерацией на бенчмарке AlpacaEval https://github.com/tatsu-lab/alpaca_eval при минимальном снижении качества
Это расширяет границу Парето в координатах «скорость-качество» и предлагает практичный и масштабируемый путь к более быстрым и эффективным LLM без накладных расходов, связанных с системами из нескольких моделей, такими как спекулятивное декодирование https://arxiv.org/abs/2211.17192
В мире больших языковых моделей (LLM) существует фундаментальное противоречие между скоростью инференса и качеством вывода
Авторегрессионные (AR) модели, генерирующие текст токен за токеном, долгое время задавали стандарт качества и связности
Однако их последовательная природа создаёт неотъемлемый барьер для быстродействия
С другой стороны, диффузионные модели спроектированы для параллелизма, но им часто требуется множество итеративных шагов, чтобы достичь качества AR-аналогов, что сводит на нет их преимущество в скорости
Это ставит исследователей и практиков перед сложным выбором
Статья "Planned Diffusion" предлагает новый фреймворк, который переосмысливает эту проблему
Авторы утверждают, что структура зависимостей в тексте зависит от контекста
Например, ответ, содержащий маркированный список, имеет семантически независимые части, которые можно генерировать одновременно
Используя это наблюдение, они разработали гибридную архитектуру, которая элегантно сочетает в себе сильные стороны обеих парадигм
Сначала планирование, затем параллельная диффузия
Planned Diffusion работает путём разделения генерации текста на два отдельных этапа, выполняемых одной унифицированной моделью
Авторегрессионное планирование:
Процесс начинается с последовательного, авторегрессионного этапа, на котором модель генерирует высокоуровневый план выполнения
Этот план — не конечный текст, а набор структурных управляющих тегов, которые очерчивают структуру ответа
Параллельная диффузия: Затем план преобразуется в каркас из маск-токенов, который модель «заполняет» одновременно с помощью дискретного диффузионного процесса
Каждый запланированный фрагмент текста параллельно очищается от шума (denoising), что резко сокращает количество последовательных прогонов модели, необходимых для генерации полного ответа
  
  https://arxiv.org/abs/2510.18087
https://arxiviq.substack.com/p/planned-diffusion
В статье представлен "Planned Diffusion" — новый гибридный фреймворк для генерации текста, который объединяет сильные стороны авторегрессионных (AR) и диффузионных моделей в единой архитектуре
Метод работает в два этапа: сначала он использует AR-процесс для последовательной генерации высокоуровневого «плана», который определяет семантическую структуру и разбивает вывод на условно независимые фрагменты текста
Затем он выполняет этот план, генерируя содержимое для всех определённых фрагментов одновременно с помощью параллельного дискретного диффузионного процесса
Подход напрямую бросает вызов фундаментальному компромиссу между скоростью генерации и качеством вывода в больших языковых моделях
Рассматривая генерацию текста как задачу динамического параллельного планирования, Planned Diffusion значительно сокращает последовательный критический путь, достигая ускорения от 1.27x до 1.81x по сравнению со стандартной AR-генерацией на бенчмарке AlpacaEval https://github.com/tatsu-lab/alpaca_eval при минимальном снижении качества
Это расширяет границу Парето в координатах «скорость-качество» и предлагает практичный и масштабируемый путь к более быстрым и эффективным LLM без накладных расходов, связанных с системами из нескольких моделей, такими как спекулятивное декодирование https://arxiv.org/abs/2211.17192
В мире больших языковых моделей (LLM) существует фундаментальное противоречие между скоростью инференса и качеством вывода
Авторегрессионные (AR) модели, генерирующие текст токен за токеном, долгое время задавали стандарт качества и связности
Однако их последовательная природа создаёт неотъемлемый барьер для быстродействия
С другой стороны, диффузионные модели спроектированы для параллелизма, но им часто требуется множество итеративных шагов, чтобы достичь качества AR-аналогов, что сводит на нет их преимущество в скорости
Это ставит исследователей и практиков перед сложным выбором
Статья "Planned Diffusion" предлагает новый фреймворк, который переосмысливает эту проблему
Авторы утверждают, что структура зависимостей в тексте зависит от контекста
Например, ответ, содержащий маркированный список, имеет семантически независимые части, которые можно генерировать одновременно
Используя это наблюдение, они разработали гибридную архитектуру, которая элегантно сочетает в себе сильные стороны обеих парадигм
Сначала планирование, затем параллельная диффузия
Planned Diffusion работает путём разделения генерации текста на два отдельных этапа, выполняемых одной унифицированной моделью
Авторегрессионное планирование:
Процесс начинается с последовательного, авторегрессионного этапа, на котором модель генерирует высокоуровневый план выполнения
Этот план — не конечный текст, а набор структурных управляющих тегов, которые очерчивают структуру ответа
Параллельная диффузия: Затем план преобразуется в каркас из маск-токенов, который модель «заполняет» одновременно с помощью дискретного диффузионного процесса
Каждый запланированный фрагмент текста параллельно очищается от шума (denoising), что резко сокращает количество последовательных прогонов модели, необходимых для генерации полного ответа
arXiv.org
  
  Planned Diffusion
  A central challenge in large language model inference is the trade-off between generation speed and output quality. Autoregressive models produce high-quality text but generate tokens...
  
  Ml
Planned Diffusion: гибридный подход к преодолению барьера между скоростью и качеством в LLM  https://arxiv.org/abs/2510.18087 https://arxiviq.substack.com/p/planned-diffusion  В статье представлен "Planned Diffusion" — новый гибридный фреймворк для генерации…
Этот гибридный процесс основан на формальной вероятностной факторизации 
Механизм, позволяющий одной модели плавно переключаться между последовательным планированием и параллельной генерацией, кроется в её кастомной маске внимания
На этапе планирования модель использует стандартную каузальную маску, где каждый токен может обращать внимание только на предыдущие — отличительная черта авторегрессионных моделей
Однако как только начинается этап диффузии, маска трансформируется
Внутри каждого независимого
При этом сами фрагменты маскируются друг от друга, обеспечивая условную независимость, необходимую для параллельной генерации
Эта единая динамическая маска является ключевой архитектурной инновацией, которая позволяет одному набору весов освоить две фундаментально разные парадигмы генерации
Результаты экспериментов: расширяя границу Парето
Авторы зафайнтюнили Dream-7B-Base https://arxiv.org/abs/2508.15487, базовую модель, которая сначала предобучена авторегрессионно, а затем дополнительно предобучена с диффузионной objective
Они оценили Planned Diffusion на бенчмарке AlpacaEval https://github.com/tatsu-lab/alpaca_eval, сравнив его с сильными AR и диффузионными бейзлайнами
Результаты демонстрируют новый компромисс между скоростью и качеством
* Скорость и качество: Относительно сильного авторегрессионного бейзлайна, который набрал 50.0 % побед с контролем длины (length-controlled win rate, LCWR), стандартная модель Planned Diffusion (PD) достигла 44.6 % LCWR (падение на 5.4 процентных пункта) при ускорении в 1.81 раза
Особенно интересный вариант, Planned Diffusion with Dense Attention (PD-DA), заменяет неэффективное блочно-разреженное внимание на плотное, которое лучше оптимизировано для GPU
Этот дружественный к железу компромисс позволил получить 49.2 % LCWR (падение всего на 0.8 процентных пункта), сохранив при этом ускорение в 1.27 раза
* Сокращение критического пути:
Ускорение в основном достигается за счёт более короткого критического пути — количества необходимых последовательных шагов
Эксперименты показывают, что средний путь декодирования у AR-модели в 2.8 раза длиннее, чем у Planned Diffusion, при этом реальное ускорение (1.81x) ниже этой цифры
Разрыв между этим теоретическим сокращением и фактическим ускорением объясняется компромиссом с KV-кэшированием. На AR-этапе токены легко кэшируются
В то же время двунаправленное внимание на этапе диффузии означает, что представление токена зависит от будущих токенов в его фрагменте, что не позволяет кэшировать его до завершения всего фрагмента и приводит к большему объёму вычислений на каждом шаге
* Масштабируемость: Интересное наблюдение заключается в том, что, хотя производительность AR-бейзлайна выходит на плато с увеличением числа эпох обучения, качество обоих вариантов PD продолжает расти
Это говорит о том, что гибридные архитектуры, такие как Planned Diffusion, могут лучше масштабироваться с будущим ростом вычислительных мощностей и объёмов данных
* Настраиваемый инференс: Фреймворк обеспечивает тонкий контроль над компромиссом между скоростью и качеством во время инференса с помощью простых runtime-параметров, таких как «step ratio» (r) и «confidence threshold» (τ), что позволяет одной модели обслуживать различные требования к задержкам
Сильные стороны, ограничения и будущее влияние
Сильная сторона этой работы — в элегантном решении давней проблемы
Создав единую гибридную модель, авторы избегают сложностей систем с несколькими моделями (например, спекулятивного декодирования, https://arxiv.org/abs/2211.17192), достигая при этом лучшего компромисса в производительности
  
  Механизм, позволяющий одной модели плавно переключаться между последовательным планированием и параллельной генерацией, кроется в её кастомной маске внимания
На этапе планирования модель использует стандартную каузальную маску, где каждый токен может обращать внимание только на предыдущие — отличительная черта авторегрессионных моделей
Однако как только начинается этап диффузии, маска трансформируется
Внутри каждого независимого
<async>-фрагмента токены используют двунаправленное внимание, что позволяет им видеть все остальные токены в том же фрагменте При этом сами фрагменты маскируются друг от друга, обеспечивая условную независимость, необходимую для параллельной генерации
Эта единая динамическая маска является ключевой архитектурной инновацией, которая позволяет одному набору весов освоить две фундаментально разные парадигмы генерации
Результаты экспериментов: расширяя границу Парето
Авторы зафайнтюнили Dream-7B-Base https://arxiv.org/abs/2508.15487, базовую модель, которая сначала предобучена авторегрессионно, а затем дополнительно предобучена с диффузионной objective
Они оценили Planned Diffusion на бенчмарке AlpacaEval https://github.com/tatsu-lab/alpaca_eval, сравнив его с сильными AR и диффузионными бейзлайнами
Результаты демонстрируют новый компромисс между скоростью и качеством
* Скорость и качество: Относительно сильного авторегрессионного бейзлайна, который набрал 50.0 % побед с контролем длины (length-controlled win rate, LCWR), стандартная модель Planned Diffusion (PD) достигла 44.6 % LCWR (падение на 5.4 процентных пункта) при ускорении в 1.81 раза
Особенно интересный вариант, Planned Diffusion with Dense Attention (PD-DA), заменяет неэффективное блочно-разреженное внимание на плотное, которое лучше оптимизировано для GPU
Этот дружественный к железу компромисс позволил получить 49.2 % LCWR (падение всего на 0.8 процентных пункта), сохранив при этом ускорение в 1.27 раза
* Сокращение критического пути:
Ускорение в основном достигается за счёт более короткого критического пути — количества необходимых последовательных шагов
Эксперименты показывают, что средний путь декодирования у AR-модели в 2.8 раза длиннее, чем у Planned Diffusion, при этом реальное ускорение (1.81x) ниже этой цифры
Разрыв между этим теоретическим сокращением и фактическим ускорением объясняется компромиссом с KV-кэшированием. На AR-этапе токены легко кэшируются
В то же время двунаправленное внимание на этапе диффузии означает, что представление токена зависит от будущих токенов в его фрагменте, что не позволяет кэшировать его до завершения всего фрагмента и приводит к большему объёму вычислений на каждом шаге
* Масштабируемость: Интересное наблюдение заключается в том, что, хотя производительность AR-бейзлайна выходит на плато с увеличением числа эпох обучения, качество обоих вариантов PD продолжает расти
Это говорит о том, что гибридные архитектуры, такие как Planned Diffusion, могут лучше масштабироваться с будущим ростом вычислительных мощностей и объёмов данных
* Настраиваемый инференс: Фреймворк обеспечивает тонкий контроль над компромиссом между скоростью и качеством во время инференса с помощью простых runtime-параметров, таких как «step ratio» (r) и «confidence threshold» (τ), что позволяет одной модели обслуживать различные требования к задержкам
Сильные стороны, ограничения и будущее влияние
Сильная сторона этой работы — в элегантном решении давней проблемы
Создав единую гибридную модель, авторы избегают сложностей систем с несколькими моделями (например, спекулятивного декодирования, https://arxiv.org/abs/2211.17192), достигая при этом лучшего компромисса в производительности
arXiv.org
  
  Dream 7B: Diffusion Large Language Models
  We introduce Dream 7B, the most powerful open diffusion large language model to date. Unlike autoregressive (AR) models that generate tokens sequentially, Dream 7B employs discrete diffusion...
  Однако у подхода есть и ограничения 
Фактическое ускорение меньше теоретического сокращения критического пути; этот разрыв объясняется более тяжёлыми вычислениями на каждом шаге и меньшим переиспользованием KV-кэша на этапе диффузии
Кроме того, для достижения максимального ускорения всё же приходится немного жертвовать качеством по сравнению с лучшим AR-бейзлайном
Тем не менее Planned Diffusion — это заметный шаг вперёд
Работа подтверждает идею рассмотрения генерации текста как задачи динамического планирования и предоставляет надёжный фреймворк для структурированного параллелизма
Авторы отмечают, что их метод дополняет другие техники ускорения диффузии, которые можно было бы интегрировать для достижения ещё большего прироста производительности
Planned Diffusion — это не просто ещё одна точка на границе «скорость-качество»; работа предлагает новую архитектурную парадигму для Ml
Вместо того чтобы быть жёстко авторегрессионными или параллельными, будущие модели могли бы действовать как динамические планировщики, анализируя семантическую структуру задачи и решая, как сгенерировать ответ наиболее эффективно
Эта работа подводит к мысли, что будущее генерации текста может быть не чисто последовательным или параллельным, а гибким, интеллектуальным гибридом обоих подходов — моделью, которая действительно «думает», прежде чем писать
Фактическое ускорение меньше теоретического сокращения критического пути; этот разрыв объясняется более тяжёлыми вычислениями на каждом шаге и меньшим переиспользованием KV-кэша на этапе диффузии
Кроме того, для достижения максимального ускорения всё же приходится немного жертвовать качеством по сравнению с лучшим AR-бейзлайном
Тем не менее Planned Diffusion — это заметный шаг вперёд
Работа подтверждает идею рассмотрения генерации текста как задачи динамического планирования и предоставляет надёжный фреймворк для структурированного параллелизма
Авторы отмечают, что их метод дополняет другие техники ускорения диффузии, которые можно было бы интегрировать для достижения ещё большего прироста производительности
Planned Diffusion — это не просто ещё одна точка на границе «скорость-качество»; работа предлагает новую архитектурную парадигму для Ml
Вместо того чтобы быть жёстко авторегрессионными или параллельными, будущие модели могли бы действовать как динамические планировщики, анализируя семантическую структуру задачи и решая, как сгенерировать ответ наиболее эффективно
Эта работа подводит к мысли, что будущее генерации текста может быть не чисто последовательным или параллельным, а гибким, интеллектуальным гибридом обоих подходов — моделью, которая действительно «думает», прежде чем писать
В цифровом мире почти не осталось места угловатым пикселям 
Шрифты, иконки, анимация и даже виртуальные модели автомобилей — всё это состоит из плавных и элегантных линий
Эту эстетику подарили нам два французских инженера и один русский математик
Их идеи создали один из главных инструментов компьютерной графики, где за каждой изящной линией стоит элегантная математическая модель
Всё началось в середине XX в., когда инженер Пьер Безье из компании Renault столкнулся с практической проблемой: как быстро и точно описать сложные криволинейные поверхности автомобильных кузовов?
Ручное вычерчивание по лекалам было медленным, неточным и плохо поддавалось автоматизации
Нужен был способ, позволяющий гибко управлять формой кривой с помощью всего нескольких точек
Решение пришло в виде геометрического алгоритма, который позже назовут алгоритмом де Кастельжо (по имени инженера из компании Citroën)
Его суть проста: берём набор контрольных точек, соединяем их отрезками, затем движемся вдоль этих отрезков с постоянной скоростью, отмечая промежуточные точки
Соединяем эти новые точки, повторяем процесс и продолжаем, пока не останется только одна точка
Путь, который описывает эта точка, и есть кривая Безье
При этом только первая и последняя контрольные точки лежат на самой кривой; остальные действуют как кукловоды-невидимки, притягивая к себе кривую и задавая её форму
Эта геометрическая интуиция была блестящей
Но чтобы она стала надёжным инструментом, требовалось строгое математическое обоснование
И оно уже существовало, пусть и в совершенно ином контексте
Ещё в 1912 г. русский математик Сергей Натанович Бернштейн, работая над доказательством теоремы Вейерштрасса об аппроксимации, ввёл специальное семейство многочленов
Сегодня они известны как базис Бернштейна
Для степени n этот базис состоит из n+1 функций вида
Bᵢₙ(t) = Cₙⁱ · tⁱ · (1–t)ⁿ⁻ⁱ, t ∈ [0;1]
Например, для кубической кривой у нас есть 4 полинома:
B₀₃(t) = (1–t)³,
B₁₃(t) = 3 t (1–t)²,
B₂₃(t) = 3 t² (1–t),
B₃₃(t) = t³
Каждый полином определяет долю влияния своей точки в каждый момент
Алгоритм де Кастельжо наглядно представляет вычисление P(t) = Σ Bᵢₙ(t) · Pᵢ
Таким образом, кривая Безье — это взвешенная сумма контрольных точек, в которой базис Бернштейна выступает в роли весов
Именно эти «веса» наделяют кривые Безье свойствами, необходимыми для современного дизайна
Во-первых, сумма всех базисных полиномов Бернштейна для любого t всегда равна единице
Это гарантирует аффинную инвариантность: как бы вы ни перемещали, вращали или масштабировали контрольные точки, кривая будет предсказуемо следовать за ними, не требуя пересчёта
Во-вторых, все полиномы Бернштейна неотрицательны на [0; 1]
В сочетании с разбиением единицы это гарантирует, что кривая всегда остаётся внутри выпуклой оболочки своих контрольных точек
В-третьих, базис Бернштейна обладает свойством уменьшения вариации: кривая не может колебаться сильнее, чем её контрольный многоугольник
Даже при резком перемещении одной точки кривая реагирует сглаженно — без неожиданных петель и резких скачков
Наконец, базис симметричен: поменяйте порядок контрольных точек местами, и вы получите ту же кривую, пройденную в обратном направлении
Так практическая задача из автомобильной промышленности нашла своё идеальное математическое воплощение
Сегодня кривые Безье присутствуют в каждом шрифте, каждом логотипе, каждой анимации
За их кажущейся простотой скрывается мощная структура, зародившаяся в начале XX в. и по-настоящему осознанная лишь тогда, когда мир начал рисовать не мелом на доске, а курсором на экране
В следующий раз, перетаскивая управляющую точку в графическом редакторе, вспомните о полиномах Бернштейна — математическом механизме, который тихо и незаметно превращает ваши действия с точками в плавные и гладкие кривые
  Шрифты, иконки, анимация и даже виртуальные модели автомобилей — всё это состоит из плавных и элегантных линий
Эту эстетику подарили нам два французских инженера и один русский математик
Их идеи создали один из главных инструментов компьютерной графики, где за каждой изящной линией стоит элегантная математическая модель
Всё началось в середине XX в., когда инженер Пьер Безье из компании Renault столкнулся с практической проблемой: как быстро и точно описать сложные криволинейные поверхности автомобильных кузовов?
Ручное вычерчивание по лекалам было медленным, неточным и плохо поддавалось автоматизации
Нужен был способ, позволяющий гибко управлять формой кривой с помощью всего нескольких точек
Решение пришло в виде геометрического алгоритма, который позже назовут алгоритмом де Кастельжо (по имени инженера из компании Citroën)
Его суть проста: берём набор контрольных точек, соединяем их отрезками, затем движемся вдоль этих отрезков с постоянной скоростью, отмечая промежуточные точки
Соединяем эти новые точки, повторяем процесс и продолжаем, пока не останется только одна точка
Путь, который описывает эта точка, и есть кривая Безье
При этом только первая и последняя контрольные точки лежат на самой кривой; остальные действуют как кукловоды-невидимки, притягивая к себе кривую и задавая её форму
Эта геометрическая интуиция была блестящей
Но чтобы она стала надёжным инструментом, требовалось строгое математическое обоснование
И оно уже существовало, пусть и в совершенно ином контексте
Ещё в 1912 г. русский математик Сергей Натанович Бернштейн, работая над доказательством теоремы Вейерштрасса об аппроксимации, ввёл специальное семейство многочленов
Сегодня они известны как базис Бернштейна
Для степени n этот базис состоит из n+1 функций вида
Bᵢₙ(t) = Cₙⁱ · tⁱ · (1–t)ⁿ⁻ⁱ, t ∈ [0;1]
Например, для кубической кривой у нас есть 4 полинома:
B₀₃(t) = (1–t)³,
B₁₃(t) = 3 t (1–t)²,
B₂₃(t) = 3 t² (1–t),
B₃₃(t) = t³
Каждый полином определяет долю влияния своей точки в каждый момент
Алгоритм де Кастельжо наглядно представляет вычисление P(t) = Σ Bᵢₙ(t) · Pᵢ
Таким образом, кривая Безье — это взвешенная сумма контрольных точек, в которой базис Бернштейна выступает в роли весов
Именно эти «веса» наделяют кривые Безье свойствами, необходимыми для современного дизайна
Во-первых, сумма всех базисных полиномов Бернштейна для любого t всегда равна единице
Это гарантирует аффинную инвариантность: как бы вы ни перемещали, вращали или масштабировали контрольные точки, кривая будет предсказуемо следовать за ними, не требуя пересчёта
Во-вторых, все полиномы Бернштейна неотрицательны на [0; 1]
В сочетании с разбиением единицы это гарантирует, что кривая всегда остаётся внутри выпуклой оболочки своих контрольных точек
В-третьих, базис Бернштейна обладает свойством уменьшения вариации: кривая не может колебаться сильнее, чем её контрольный многоугольник
Даже при резком перемещении одной точки кривая реагирует сглаженно — без неожиданных петель и резких скачков
Наконец, базис симметричен: поменяйте порядок контрольных точек местами, и вы получите ту же кривую, пройденную в обратном направлении
Так практическая задача из автомобильной промышленности нашла своё идеальное математическое воплощение
Сегодня кривые Безье присутствуют в каждом шрифте, каждом логотипе, каждой анимации
За их кажущейся простотой скрывается мощная структура, зародившаяся в начале XX в. и по-настоящему осознанная лишь тогда, когда мир начал рисовать не мелом на доске, а курсором на экране
В следующий раз, перетаскивая управляющую точку в графическом редакторе, вспомните о полиномах Бернштейна — математическом механизме, который тихо и незаметно превращает ваши действия с точками в плавные и гладкие кривые