94 subscribers
45 photos
5 videos
26 files
264 links
Machine learning
Download Telegram
Ml
Planned Diffusion: гибридный подход к преодолению барьера между скоростью и качеством в LLM https://arxiv.org/abs/2510.18087 https://arxiviq.substack.com/p/planned-diffusion В статье представлен "Planned Diffusion" — новый гибридный фреймворк для генерации…
Этот гибридный процесс основан на формальной вероятностной факторизации

Механизм, позволяющий одной модели плавно переключаться между последовательным планированием и параллельной генерацией, кроется в её кастомной маске внимания
На этапе планирования модель использует стандартную каузальную маску, где каждый токен может обращать внимание только на предыдущие — отличительная черта авторегрессионных моделей

Однако как только начинается этап диффузии, маска трансформируется

Внутри каждого независимого
<async>-фрагмента токены используют двунаправленное внимание, что позволяет им видеть все остальные токены в том же фрагменте
При этом сами фрагменты маскируются друг от друга, обеспечивая условную независимость, необходимую для параллельной генерации

Эта единая динамическая маска является ключевой архитектурной инновацией, которая позволяет одному набору весов освоить две фундаментально разные парадигмы генерации

Результаты экспериментов: расширяя границу Парето

Авторы зафайнтюнили Dream-7B-Base
https://arxiv.org/abs/2508.15487, базовую модель, которая сначала предобучена авторегрессионно, а затем дополнительно предобучена с диффузионной objective

Они оценили Planned Diffusion на бенчмарке AlpacaEval
https://github.com/tatsu-lab/alpaca_eval, сравнив его с сильными AR и диффузионными бейзлайнами
Результаты демонстрируют новый компромисс между скоростью и качеством

* Скорость и качество: Относительно сильного авторегрессионного бейзлайна, который набрал 50.0 % побед с контролем длины (length-controlled win rate, LCWR), стандартная модель Planned Diffusion (PD) достигла 44.6 % LCWR (падение на 5.4 процентных пункта) при ускорении в 1.81 раза

Особенно интересный вариант, Planned Diffusion with Dense Attention (PD-DA), заменяет неэффективное блочно-разреженное внимание на плотное, которое лучше оптимизировано для GPU
Этот дружественный к железу компромисс позволил получить 49.2 % LCWR (падение всего на 0.8 процентных пункта), сохранив при этом ускорение в 1.27 раза

* Сокращение критического пути:
Ускорение в основном достигается за счёт более короткого критического пути — количества необходимых последовательных шагов
Эксперименты показывают, что средний путь декодирования у AR-модели в 2.8 раза длиннее, чем у Planned Diffusion, при этом реальное ускорение (1.81x) ниже этой цифры
Разрыв между этим теоретическим сокращением и фактическим ускорением объясняется компромиссом с KV-кэшированием. На AR-этапе токены легко кэшируются
В то же время двунаправленное внимание на этапе диффузии означает, что представление токена зависит от будущих токенов в его фрагменте, что не позволяет кэшировать его до завершения всего фрагмента и приводит к большему объёму вычислений на каждом шаге

* Масштабируемость: Интересное наблюдение заключается в том, что, хотя производительность AR-бейзлайна выходит на плато с увеличением числа эпох обучения, качество обоих вариантов PD продолжает расти
Это говорит о том, что гибридные архитектуры, такие как Planned Diffusion, могут лучше масштабироваться с будущим ростом вычислительных мощностей и объёмов данных

* Настраиваемый инференс: Фреймворк обеспечивает тонкий контроль над компромиссом между скоростью и качеством во время инференса с помощью простых runtime-параметров, таких как «step ratio» (r) и «confidence threshold» (τ), что позволяет одной модели обслуживать различные требования к задержкам

Сильные стороны, ограничения и будущее влияние

Сильная сторона этой работы — в элегантном решении давней проблемы

Создав единую гибридную модель, авторы избегают сложностей систем с несколькими моделями (например, спекулятивного декодирования,
https://arxiv.org/abs/2211.17192), достигая при этом лучшего компромисса в производительности
Однако у подхода есть и ограничения

Фактическое ускорение меньше теоретического сокращения критического пути; этот разрыв объясняется более тяжёлыми вычислениями на каждом шаге и меньшим переиспользованием KV-кэша на этапе диффузии

Кроме того, для достижения максимального ускорения всё же приходится немного жертвовать качеством по сравнению с лучшим AR-бейзлайном

Тем не менее Planned Diffusion — это заметный шаг вперёд

Работа подтверждает идею рассмотрения генерации текста как задачи динамического планирования и предоставляет надёжный фреймворк для структурированного параллелизма

Авторы отмечают, что их метод дополняет другие техники ускорения диффузии, которые можно было бы интегрировать для достижения ещё большего прироста производительности

Planned Diffusion — это не просто ещё одна точка на границе «скорость-качество»; работа предлагает новую архитектурную парадигму для Ml

Вместо того чтобы быть жёстко авторегрессионными или параллельными, будущие модели могли бы действовать как динамические планировщики, анализируя семантическую структуру задачи и решая, как сгенерировать ответ наиболее эффективно

Эта работа подводит к мысли, что будущее генерации текста может быть не чисто последовательным или параллельным, а гибким, интеллектуальным гибридом обоих подходов — моделью, которая действительно «думает», прежде чем писать
В цифровом мире почти не осталось места угловатым пикселям
Шрифты, иконки, анимация и даже виртуальные модели автомобилей — всё это состоит из плавных и элегантных линий

Эту эстетику подарили нам два французских инженера и один русский математик
Их идеи создали один из главных инструментов компьютерной графики, где за каждой изящной линией стоит элегантная математическая модель

Всё началось в середине XX в., когда инженер Пьер Безье из компании Renault столкнулся с практической проблемой: как быстро и точно описать сложные криволинейные поверхности автомобильных кузовов?

Ручное вычерчивание по лекалам было медленным, неточным и плохо поддавалось автоматизации

Нужен был способ, позволяющий гибко управлять формой кривой с помощью всего нескольких точек

Решение пришло в виде геометрического алгоритма, который позже назовут алгоритмом де Кастельжо (по имени инженера из компании Citroën)

Его суть проста: берём набор контрольных точек, соединяем их отрезками, затем движемся вдоль этих отрезков с постоянной скоростью, отмечая промежуточные точки

Соединяем эти новые точки, повторяем процесс и продолжаем, пока не останется только одна точка

Путь, который описывает эта точка, и есть кривая Безье

При этом только первая и последняя контрольные точки лежат на самой кривой; остальные действуют как кукловоды-невидимки, притягивая к себе кривую и задавая её форму
Эта геометрическая интуиция была блестящей
Но чтобы она стала надёжным инструментом, требовалось строгое математическое обоснование
И оно уже существовало, пусть и в совершенно ином контексте

Ещё в 1912 г. русский математик Сергей Натанович Бернштейн, работая над доказательством теоремы Вейерштрасса об аппроксимации, ввёл специальное семейство многочленов
Сегодня они известны как базис Бернштейна

Для степени n этот базис состоит из n+1 функций вида
Bᵢₙ(t) = Cₙⁱ · tⁱ · (1–t)ⁿ⁻ⁱ, t ∈ [0;1]
Например, для кубической кривой у нас есть 4 полинома:
B₀₃(t) = (1–t)³,
B₁₃(t) = 3 t (1–t)²,
B₂₃(t) = 3 t² (1–t),
B₃₃(t) = t³
Каждый полином определяет долю влияния своей точки в каждый момент
Алгоритм де Кастельжо наглядно представляет вычисление P(t) = Σ Bᵢₙ(t) · Pᵢ

Таким образом, кривая Безье — это взвешенная сумма контрольных точек, в которой базис Бернштейна выступает в роли весов

Именно эти «веса» наделяют кривые Безье свойствами, необходимыми для современного дизайна

Во-первых, сумма всех базисных полиномов Бернштейна для любого t всегда равна единице
Это гарантирует аффинную инвариантность: как бы вы ни перемещали, вращали или масштабировали контрольные точки, кривая будет предсказуемо следовать за ними, не требуя пересчёта

Во-вторых, все полиномы Бернштейна неотрицательны на [0; 1]
В сочетании с разбиением единицы это гарантирует, что кривая всегда остаётся внутри выпуклой оболочки своих контрольных точек

В-третьих, базис Бернштейна обладает свойством уменьшения вариации: кривая не может колебаться сильнее, чем её контрольный многоугольник

Даже при резком перемещении одной точки кривая реагирует сглаженно — без неожиданных петель и резких скачков

Наконец, базис симметричен: поменяйте порядок контрольных точек местами, и вы получите ту же кривую, пройденную в обратном направлении

Так практическая задача из автомобильной промышленности нашла своё идеальное математическое воплощение

Сегодня кривые Безье присутствуют в каждом шрифте, каждом логотипе, каждой анимации

За их кажущейся простотой скрывается мощная структура, зародившаяся в начале XX в. и по-настоящему осознанная лишь тогда, когда мир начал рисовать не мелом на доске, а курсором на экране

В следующий раз, перетаскивая управляющую точку в графическом редакторе, вспомните о полиномах Бернштейна — математическом механизме, который тихо и незаметно превращает ваши действия с точками в плавные и гладкие кривые
Математика полезна тем, что она трудна
К вопросу о важности символики для развития математики

Вот у Бомбелли (16_й век) записано число √(7 + √14)

И это был уже прорыв в переходе от словесной к символьной записи математических выражений
В Nature вышла работа команды, в которой они разработали подход, где мета-сеть учится генерировать правила обновления для RL-агентов

Вместо того, чтобы жёстко прописывать формулы, как в классических методах, система:

- Собирает опыт от популяции агентов в сотнях разных сред
- Обучает мета-сеть, которая производит правила обновления параметров агентов
- Оптимизирует мета-параметры так, чтобы максимизировать долгосрочные награды

Система сама решает, что предсказывать

Полученный алгоритм назвали DiscoRL (Discovered Reinforcement Learning)
Его уже протестировали:

Atari (57 игр): DiscoRL показал SOTA результаты, превзойдя Rainbow DQN, PPO и другие классические методы по медианной награде

Обобщение на новые задачи: Без дополнительного обучения алгоритм достиг сильных результатов на ProcGen, показал конкурентные результаты на DMLab, NetHack, Crafter и Sokoban

Масштабирование: Увеличение разнообразия обучающих сред (с 57 до 103) улучшило обобщение
Система не переобучается на узкий набор задач

Обнаруженные предсказания ведут себя не как классические value-функции
Они "активируются" (резко растут) перед значимыми событиями — большими наградами или изменениями политики
Это emergent behavior, который не был заложен изначально

Для исследований: Меньше времени на ручное проектирование алгоритмов, больше фокуса на разнообразии данных и архитектуре мета-сети

Для практики: Потенциально более адаптивные алгоритмы для робототехники, игр, оптимизации
Если правила обучения подстраиваются под распределение задач, это может ускорить применение RL в новых доменах

Это шаг к рекурсивному самоулучшению — системы, которые учатся учиться
Аналогия с биологией: как эволюция создала способность к обучению у животных, так здесь алгоритм "эволюционирует" через опыт популяции агентов


Ограничения:
1. Обучение требует сотен млн шагов по средам с популяцией агентов
2. Пока подход протестирован на off-policy RL с replay buffer. Как он работает в on-policy настройках или в continuous control задачах — открытый вопрос
3. Все эксперименты в симуляторах (Atari, ProcGen и т.д.)
Перенос на физических роботов или реальные системы пока не продемонстрирован
4. Хотя авторы анализируют поведение предсказаний, понять, почему конкретное правило обновления работает, сложнее, чем с явными формулами классических методов
Hidden attractors in dynamical systems_IJBC_2013.pdf
16.2 MB
Особо отзывается тезис о нелинейных системах контроллинга

Хотя выравнивать для этого между собой базисы Айзермана и Кальмана я бы не стал (они основаны на слишком уж различающихся, даже отчасти противопоставляемых друг другу, посылках)

Тем более, что применение таких регуляторных контурах к управлению аттракторного пространства динамических систем в работе постулирован, а не рассмотрен
Но это не критично…

Сам же аттракторный залог, тем более с отсылкой к классике Рабиновича, неплох и вполне уместен
Единственное, чего в работе (по крайней мере - в её опубликованной версии) из концептуально важного не использовано - это полевая модель аттрактивности

А ведь для общественно-социальных феноменов такая аналитика в аналитике весьма значима…
Хорошо бы добавить вероятностный тензор

Есть и другие шероховатости

Скажем, использованная в работе осцилляционная модель Даффинга - не единственная (да и не лучшая) из возможных к применению; а её связка с бифуркацией Неймарка вообще выглядит шаманством

Императив различения самовозбуждаемых и скрытых аттракторов для весьма спорен; хотя как модельный подход для того, чтобы съесть слона кусачками - приемлем

Но не хватает — прикладной окрашенности; и, в первую очередь, в отношении источников данных для конфигурирования вычислительных моделей на основе предложенных аналитических посылок

Всё дело в процессе

Сильная претензия на потенциал серьёзной предиктивной платформы

Можно рассчитывать на известный успех и развитие в качестве базы для экспертного процессинга
Markovian Thinker открывает путь к линейным по времени рассуждениям для LLM

https://arxiv.org/abs/2510.06557
https://arxiviq.substack.com/p/the-markovian-thinker
https://github.com/McGill-NLP/the-markovian-thinker
https://huggingface.co/McGill-NLP/the-markovian-thinker

Статья представляет «марковское мышление» (Markovian Thinking) — новую парадигму для обучения LLM, способных к рассуждениям, с помощью обучения с подкреплением (RL)

Эта парадигма реализуется через среду «Delethink», которая преобразует процесс рассуждений в последовательность «чанков» (кусков) фиксированного размера
На границе каждого чанка среда сбрасывает контекст, сохраняя лишь короткий, выученный моделью текстовый фрагмент — «марковское состояние» — для продолжения мыслительного процесса

RL-политика обучается записывать в этот фрагмент достаточно информации, чтобы обеспечить плавное продолжение рассуждений

Такой подход отделяет общую длину рассуждений от активного размера контекста модели, коренным образом меняя масштабирование вычислений
Он превращает непомерные квадратичные вычислительные затраты (O(N²)) и линейный рост памяти стандартного RL-подхода с длинными цепочками рассуждений (Long-Chain-of-Thought, LongCoT) в линейные вычисления и константную память относительно длины рассуждений

Это делает экономически целесообразным обучение LLM на очень длинных слепках рассуждений

Более того, модели, обученные с помощью Delethink, демонстрируют лучшее масштабирование во время инференса, продолжая улучшаться далеко за пределами своего тренировочного бюджета, в то время как производительность моделей LongCoT выходит на плато. Работа также показывает, что современные LLM уже обладают скрытыми марковскими способностями в режиме zero-shot, что является отличной отправной точкой для этого высокоэффективного режима обучения

В статье показано, что мы можем эффективно обучать стандартные трансформеры «мыслить порциями», достигая линейного масштабирования по времени и высокой производительности

Предлагая ясный путь для выхода из «квадратичной тюрьмы» self-attention, «The Markovian Thinker» закладывает практическую основу для будущего, в котором модели смогут рассуждать на миллионах токенов, решая задачи такого масштаба и сложности, которые мы сегодня можем только вообразить
Ml
Markovian Thinker открывает путь к линейным по времени рассуждениям для LLM https://arxiv.org/abs/2510.06557 https://arxiviq.substack.com/p/the-markovian-thinker https://github.com/McGill-NLP/the-markovian-thinker https://huggingface.co/McGill-NLP/the-markovian…
Как делать долгие цепочки рассуждений, не растягивая контекст, а постоянно его сбрасывая и храня небольшое состояние

Авторы предлагают новую парадигму под названием марковское мышление (Markovian Thinking), в которой политика рассуждает, основываясь только на состоянии постоянного размера, независимо от общей длины рассуждений

Эта концепция воплощена в жизнь через Delethink, новую RL-среду
Название намекает на то, что модель продолжает работу, удалив предыдущий контекст

Delethink работает, сегментируя цепочку рассуждений на последовательность чанков фиксированного размера

Внутри каждого чанка (например, 8.000 токенов) модель генерирует текст авторегрессионно, как обычно
Ключевое нововведение происходит на границе чанков:

Сброс контекста: Среда полностью сбрасывает контекст, удаляя предыдущие токены рассуждений

Перенос состояния: Для следующего чанка конструируется новый промпт, состоящий из исходного запроса и короткого текстового фрагмента фиксированного размера из конца предыдущего чанка

Этот фрагмент служит выученным, ограниченным по размеру марковским состоянием
Про мультивекторную алгебру, с минималистично аксиоматических позиций

В практическом смысле: очень геометрично, и можно изучать как устроены движения в пространстве

В алгебраическом смысле, очень доходчиво объясняется почему иногда удобно складывать плоскости и вообще подпространства

Это хороший пример алгебры Клиффорда

Про этот сюжет можно почитать например в
Кострикине-Манине
OpenAI к сентябрю 2026 представит Ml-ученого, создает AI Cloud Platform для разработчиков

Компактное Ml-устройство для повседневного использования человеком, выйдет в 2026 году
«Это устройство, которое эволюционирует с пользователем»

Облачная экосистема для разработчиков, похожую на AWS, но под Ml-модели и compute

Вложено $1.400.000.000.000 в дата-центры
Планы: 1 ГВт новых фабрик в неделю
Цель в $7.000.000.000.000 на инфраструктуру


Автоматизация научных исследований:
сентябрь 2026 — первый автоматизированный Ml-исследователь-стажёр
• март 2028 — полностью автономный Ml-исследователь, способный вести науку без человека

• cентябрь 2026 гигантский скачок в качестве благодаря продолжающемуся масштабированию Deep Learning

Стоимость моделей упала в среднем в 40 раз; тренд 40× в год сохраняется

OpenAI позиционирует себя как лабораторию, продуктовую компанию и инфраструктурного гиганта одновременно
Всё ради одного: ускорить путь к superintelligence менее чем за 10 лет
Adobe представила Ml-ассистента на своей платформе Firefly, для создания контента и управления каналами в соцсетях

Система, получившая название Project Moonlight, анализирует контент пользователя в соцсетях и историю проектов в Creative Cloud для дальнейшей генерации персонализированных изображений, видео и постов, соответствующих его стилю и тону общения

Во первых, он использует контекстно-зависимый креативный интеллект, подключаясь к библиотекам Creative Cloud и аккаунтам в соцсетях, чтобы понимать визуальный стиль и предпочтения пользователя

Во-вторых, поддерживает создание контента в виде идеи, высказанной в диалоге с Ml, сразу преобразуя его в готовые медиаформаты, и в-третьих, предлагает аналитику и стратегии роста каналов в соцсетях, позволяя выявлять тренды и формировать контент-планы, направленные на развитие аудитории и укрепление креативного бренда

https://www.theverge.com/news/807457/adobe-ai-agent-project-moonlight
Фейнмановские лекции по физике.zip
33.9 MB
Несмотря на все старания Фейнмана сделать материал доступным, это очень плотный и сложный курс
Человеку без базовой подготовки по математике и физике (на уровне старших классов физмат-школы или 1-2 курса вуза) будет тяжело

Лекции были прочитаны в 1960-х годах
С тех пор физика ушла далеко вперед (например, в области физики элементарных частиц, космологии)
Хотя фундамент остался неизменным, современному читателю важно это учитывать

Книжная серия. Курс общей физики [2007-2020] Иродов, Покровский

Сборник задач по общему курсу физики [3 книги] [1998-2000]

Курс общей физики в 5 томах [2021] Савельев И.В.

Наука. Величайшие теории [50 выпусков] + Спец. выпуск

Курс теоретической физики [2 тома] [1972] А. С. Компанеец

Не даст легких ответов, но научит задавать правильные вопросы и искать на них ответы

Это инвестиция в ваше мышление
Безусловная классика, не имеющая аналогов по глубине и стилю изложения

Глубина понимания, а не просто знание
Ричард Фейнман был известен своей способностью видеть сердце проблемы, отбрасывая всё лишнее
Он не дает готовых формул и алгоритмов решения задач
Вместо этого он показывает, как физики мыслят, как они приходят к тем или иным выводам, строят модели и проверяют их
Вы учитесь не «чему», а «как»

Уникальный педагогический подход
Фейнман мастерски начинает с простых, интуитивно понятных вещей (часто с бытовых примеров), а затем шаг за шагом подводит к сложнейшим концепциям
Его объяснения полны аналогий, мысленных экспериментов и ярких метафор, которые врезаются в память
Знаменитая лекция о законе сохранения энергии, начинающаяся с детской игрушки, — тому подтверждение

Фундаментальность и целостность картины мира
Лекции не являются сборником разрозненных фактов
Фейнман выстраивает единую, логичную структуру физики, от Ньютоновской механики до квантовой электродинамики
Он постоянно показывает связи между разными разделами, демонстрируя, что физика — это не набор отдельных курсов, а единая наука о фундаментальных законах

Честность и отсутствие догм
Фейнман не скрывает сложностей и «неудобных» мест в физике
Он прямо говорит о том, что наука еще не все знает, где есть пробелы в понимании и какие вопросы остаются открытыми
Эта интеллектуальная честность заразительна и мотивирует на собственные размышления

Блестящий стиль изложения
Текст сохранил живую, разговорную интонацию Фейнмана

Это делает даже самый сложный материал увлекательным

Для кого эти лекции:

— Для студентов 1-3 курсов физико-математических и инженерных специальностей — как основное или дополнительное чтение для формирования глубокого понимания
— Для преподавателей физики — как неиссякаемый источник вдохновения, идей и блестящих объяснений
— Для любознательных людей с хорошей технической подготовкой (инженеров, программистов), которые хотят понять, «как устроен этот мир» на фундаментальном уровне
— Для всех, кто ценит красоту научной мысли и хочет насладиться интеллектуальным стилем