⚙️ ByteDance бросает вызов трендам AI-железа
Новый ресёрч «INT vs FP» показывает: в тонкой квантовке низкой разрядности формат MXINT8 превосходит MXFP8 - и по точности, и по эффективности.
Ключевая мысль
AI-ускорители будущего могут сместиться от плавающей запятой к integer-форматам - не только ради скорости, но и ради энергоэффективности и стабильности вычислений.
Почему это важно
- FP8 сейчас в центре внимания индустрии
- Но тонкая INT-квантовка даёт лучший баланс качества, мощности и эффективности
- Это ставит под вопрос, стоит ли робко идти в FP8-будущее, когда INT-форматы могут быть эффективнее
Если такие результаты подтвердятся на индустриальных масштабах - нас ждёт переосмысление форматов вычислений для AI-железа.
📝 Paper: huggingface.co/papers/2510.25602
Новый ресёрч «INT vs FP» показывает: в тонкой квантовке низкой разрядности формат MXINT8 превосходит MXFP8 - и по точности, и по эффективности.
Ключевая мысль
AI-ускорители будущего могут сместиться от плавающей запятой к integer-форматам - не только ради скорости, но и ради энергоэффективности и стабильности вычислений.
Почему это важно
- FP8 сейчас в центре внимания индустрии
- Но тонкая INT-квантовка даёт лучший баланс качества, мощности и эффективности
- Это ставит под вопрос, стоит ли робко идти в FP8-будущее, когда INT-форматы могут быть эффективнее
Если такие результаты подтвердятся на индустриальных масштабах - нас ждёт переосмысление форматов вычислений для AI-железа.
📝 Paper: huggingface.co/papers/2510.25602
👍7❤4🆒1
⁉️Машинное обучение кажется чем-то сложным и недосягаемым? Всё проще, чем вы думаете!
Первый шаг — разобраться, как устроен ML-процесс и научиться работать в Jupyter Notebook — инструменте, с которого начинают все специалисты в Data Science.
На открытом уроке вы шаг за шагом поймёте, как строится путь от данных до модели. Научитесь запускать эксперименты в Jupyter Notebook и Google Colab, работать с виртуальными окружениями и не бояться “сломать” систему. Всё — в формате простых и наглядных примеров.
После урока вы сможете уверенно начать свой первый ML-проект и поймёте, какие инструменты нужны, чтобы перейти от теории к практике.
➡️ 13 ноября в 20:00 МСК. Открытый вебинар проходит в преддверии старта курса «Machine Learning. Basic». Регистрируйтесь и сделайте первый шаг в машинное обучение без страха и путаницы:т https://otus.pw/8VU2/?erid=2W5zFGufUH6
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Первый шаг — разобраться, как устроен ML-процесс и научиться работать в Jupyter Notebook — инструменте, с которого начинают все специалисты в Data Science.
На открытом уроке вы шаг за шагом поймёте, как строится путь от данных до модели. Научитесь запускать эксперименты в Jupyter Notebook и Google Colab, работать с виртуальными окружениями и не бояться “сломать” систему. Всё — в формате простых и наглядных примеров.
После урока вы сможете уверенно начать свой первый ML-проект и поймёте, какие инструменты нужны, чтобы перейти от теории к практике.
➡️ 13 ноября в 20:00 МСК. Открытый вебинар проходит в преддверии старта курса «Machine Learning. Basic». Регистрируйтесь и сделайте первый шаг в машинное обучение без страха и путаницы:т https://otus.pw/8VU2/?erid=2W5zFGufUH6
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
😁4❤1
⚖️ Amazon подала в суд на Perplexity: почему Comet стал проблемой
Amazon обвиняет Perplexity в том, что их Comet-браузер действует как скрытый AI-шопинг-агент: логинится под учёткой пользователя, оформляет заказы и кликает по сайту так, будто это живой человек. Для Amazon это - запрещённый скрытый автоматизированный доступ.
Главная претензия: Comet маскирует бот-трафик под обычные клики, мешая Amazon применять свои правила против автоматизации, защитные проверки и аудит. Агент заходит в личные разделы аккаунта, трогает корзину и оформление покупки. Любая ошибка скрипта или неверный промпт может привести к покупке не того товара, отправке не по тому адресу или утечке приватных данных.
Amazon считает, что Perplexity обходит официальные интерфейсы и условия использования, не идентифицируясь как бот. Это, по их словам, нарушает правила и создаёт риски безопасности, а также портит персонализацию — ведь рекомендации и ценообразование настроены под человеческое поведение, а не быстрые скриптовые запросы.
Компания также утверждает, что требовала остановить работу агента, но тот продолжал работать, что усиливает аргумент «несанкционированного доступа».
Позиция Perplexity: это всего лишь удобный помощник для пользователей, который сравнивает цены и оформляет покупку от их имени, а хранение логина — локальное. Пользователь вправе выбирать своего ассистента, даже если Amazonу это не нравится.
В итоге спор о том, кто контролирует сессию: пользователь или AI-браузер. И должен ли такой агент открыто объявлять себя ботом вместо маскировки под человека.
theguardian.com/technology/2025/nov/05/amazon-perplexity-ai-lawsuit
Amazon обвиняет Perplexity в том, что их Comet-браузер действует как скрытый AI-шопинг-агент: логинится под учёткой пользователя, оформляет заказы и кликает по сайту так, будто это живой человек. Для Amazon это - запрещённый скрытый автоматизированный доступ.
Главная претензия: Comet маскирует бот-трафик под обычные клики, мешая Amazon применять свои правила против автоматизации, защитные проверки и аудит. Агент заходит в личные разделы аккаунта, трогает корзину и оформление покупки. Любая ошибка скрипта или неверный промпт может привести к покупке не того товара, отправке не по тому адресу или утечке приватных данных.
Amazon считает, что Perplexity обходит официальные интерфейсы и условия использования, не идентифицируясь как бот. Это, по их словам, нарушает правила и создаёт риски безопасности, а также портит персонализацию — ведь рекомендации и ценообразование настроены под человеческое поведение, а не быстрые скриптовые запросы.
Компания также утверждает, что требовала остановить работу агента, но тот продолжал работать, что усиливает аргумент «несанкционированного доступа».
Позиция Perplexity: это всего лишь удобный помощник для пользователей, который сравнивает цены и оформляет покупку от их имени, а хранение логина — локальное. Пользователь вправе выбирать своего ассистента, даже если Amazonу это не нравится.
В итоге спор о том, кто контролирует сессию: пользователь или AI-браузер. И должен ли такой агент открыто объявлять себя ботом вместо маскировки под человека.
theguardian.com/technology/2025/nov/05/amazon-perplexity-ai-lawsuit
❤4👍2🔥2
Media is too big
VIEW IN TELEGRAM
Научись проектировать ИИ-агентов, управлять роботами и развертывать RAG-системы 21 ноября на True Tech Champ
На бесплатном фестивале технологий от МТС тебя ждет конференция с российскими и иностранными экспертами и новый формат лектория — ИТ-качалка.
Уже известны первые спикеры и темы:
🔴 «Физический агент: на пути к когнитивным роботам общего назначения с моделями мира», Артем Лыков — ведущий R&D-разработчик MWS, аспирант ISR Lab и Skoltech.
🔴 «RAG как помощник на каждый день», Валентин Малых — руководитель фундаментальных исследований MWS AI
🔴 An introduction tutorial to AI Agent Workflows, Майкл Ланэм — канадский разработчик с 20-летним и автор книги AI Agents in Action.
Между докладами и воркшопами можно смотреть гонки и битвы роботов, устроить поединки робопауков, пройти лазерный лабиринт, собрать сервер на скорость, сделать аксессуары из плат и протестировать другие айтивности.
Выбирай формат — смотри прямой эфир или приходи в МТС Live Холл.
Регистрируйся, чтобы провести 21 ноября с пользой и драйвом.
На бесплатном фестивале технологий от МТС тебя ждет конференция с российскими и иностранными экспертами и новый формат лектория — ИТ-качалка.
Уже известны первые спикеры и темы:
Между докладами и воркшопами можно смотреть гонки и битвы роботов, устроить поединки робопауков, пройти лазерный лабиринт, собрать сервер на скорость, сделать аксессуары из плат и протестировать другие айтивности.
Выбирай формат — смотри прямой эфир или приходи в МТС Live Холл.
Регистрируйся, чтобы провести 21 ноября с пользой и драйвом.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Японские медиагиганты вышли против OpenAI из-за Sora 2.
Через ассоциацию CODA (в неё входят Studio Ghibli, Bandai Namco, Square Enix) они требуют прекратить использование их контента для обучения модели без разрешения. Аргумент: в Японии само копирование данных на этапе обучения уже может считаться нарушением авторских прав — и никакой «opt-out» это не исправляет задним числом.
После релиза Sora 2 в сентябре начали массово появляться ролики «в японском стиле», и регуляторы потребовали от OpenAI объяснений — особенно касательно того, были ли защищённые произведения в тренировочном наборе.
Сэм Альтман заявил, что OpenAI добавит opt-in и может рассмотреть ревеню-шэринг. Но CODA настаивает: использование контента должно начинаться только после разрешения, а не наоборот.
Ключевой вопрос:
являются ли промежуточные копии при обучении «воспроизведением» по японскому закону — и означает ли схожесть выходов, что защищённые материалы были в датасете? Если да, рынок в Японии может перейти к модели «разрешение-сначала» и обязательным аудитам источников данных.
Тема только набирает обороты — и может стать прецедентом для глобального рынка генеративных моделей.
theverge.com/news/812545/coda-studio-ghibli-sora-2-copyright-infringement
Через ассоциацию CODA (в неё входят Studio Ghibli, Bandai Namco, Square Enix) они требуют прекратить использование их контента для обучения модели без разрешения. Аргумент: в Японии само копирование данных на этапе обучения уже может считаться нарушением авторских прав — и никакой «opt-out» это не исправляет задним числом.
После релиза Sora 2 в сентябре начали массово появляться ролики «в японском стиле», и регуляторы потребовали от OpenAI объяснений — особенно касательно того, были ли защищённые произведения в тренировочном наборе.
Сэм Альтман заявил, что OpenAI добавит opt-in и может рассмотреть ревеню-шэринг. Но CODA настаивает: использование контента должно начинаться только после разрешения, а не наоборот.
Ключевой вопрос:
являются ли промежуточные копии при обучении «воспроизведением» по японскому закону — и означает ли схожесть выходов, что защищённые материалы были в датасете? Если да, рынок в Японии может перейти к модели «разрешение-сначала» и обязательным аудитам источников данных.
Тема только набирает обороты — и может стать прецедентом для глобального рынка генеративных моделей.
theverge.com/news/812545/coda-studio-ghibli-sora-2-copyright-infringement
❤3🤡2
Carnegie Mellon представила один из самых важных агентных AI-пейперов года
Исследователи CMU выпустили работу “Training Proactive and Personalized LLM Agents” - и она предлагает совершенно другой взгляд на обучение агентов.
Фокус не на том, чтобы просто выполнять задачи.
Фокус на том, чтобы лучше общаться с пользователем.
Обычные агенты - «машины выполнения»: делают задачу, но почти не взаимодействуют.
Новые же модели делают три вещи одновременно:
→ выполняют задачу (Productive)
→ задают умные уточняющие вопросы (Proactive)
→ подстраиваются под стиль, тон и предпочтения пользователя (Personalized)
Для обучения они создали целый интерактивный мир — UserVille, населённый симулированными пользователями с разными характерами и странностями (например, кто-то отвечает только JSON, кто-то — только A/B/C 🤯).
Модели обучали через новый RL-фреймворк PPP — Productive, Proactive, Personalized.
Результаты:
- +21.6% выше результативность по сравнению с GPT-5
- агенты стали задавать меньше, но гораздо более точных вопросов
- автоматически копируют стиль общения пользователя
Это направление будущего:
не просто агенты, которые «делают задачи»,
а агенты, которые понимают для кого они это делают.
Paper: arxiv.org/abs/2511.02208v1
Исследователи CMU выпустили работу “Training Proactive and Personalized LLM Agents” - и она предлагает совершенно другой взгляд на обучение агентов.
Фокус не на том, чтобы просто выполнять задачи.
Фокус на том, чтобы лучше общаться с пользователем.
Обычные агенты - «машины выполнения»: делают задачу, но почти не взаимодействуют.
Новые же модели делают три вещи одновременно:
→ выполняют задачу (Productive)
→ задают умные уточняющие вопросы (Proactive)
→ подстраиваются под стиль, тон и предпочтения пользователя (Personalized)
Для обучения они создали целый интерактивный мир — UserVille, населённый симулированными пользователями с разными характерами и странностями (например, кто-то отвечает только JSON, кто-то — только A/B/C 🤯).
Модели обучали через новый RL-фреймворк PPP — Productive, Proactive, Personalized.
Результаты:
- +21.6% выше результативность по сравнению с GPT-5
- агенты стали задавать меньше, но гораздо более точных вопросов
- автоматически копируют стиль общения пользователя
Это направление будущего:
не просто агенты, которые «делают задачи»,
а агенты, которые понимают для кого они это делают.
Paper: arxiv.org/abs/2511.02208v1
❤9👍3🥰1💩1
📘 CocoIndex: Knowledge Graph for Documents
Отличный пример того, как можно создавать граф знаний в реальном времени на основе документов с помощью CocoIndex.
🔍 Основные идеи:
- Используется LLM для извлечения связей между сущностями и построения графа знаний.
- Поддерживается экспорт узлов и отношений в графовые базы данных, такие как Neo4j или Kuzu.
- Пример пайплайна на Python: добавление источников, извлечение сущностей, формирование связей и экспорт.
- После построения можно выполнять графовые запросы вроде
📎 Подробнее:
https://cocoindex.io/docs/examples/knowledge-graph-for-docs
#AI #KnowledgeGraph #RAG #CocoIndex
Отличный пример того, как можно создавать граф знаний в реальном времени на основе документов с помощью CocoIndex.
🔍 Основные идеи:
- Используется LLM для извлечения связей между сущностями и построения графа знаний.
- Поддерживается экспорт узлов и отношений в графовые базы данных, такие как Neo4j или Kuzu.
- Пример пайплайна на Python: добавление источников, извлечение сущностей, формирование связей и экспорт.
- После построения можно выполнять графовые запросы вроде
MATCH p=()-->() RETURN p.📎 Подробнее:
https://cocoindex.io/docs/examples/knowledge-graph-for-docs
#AI #KnowledgeGraph #RAG #CocoIndex
👍6❤2🔥2
🔥 Подборка полезных ресурсов для программистов.
Здесь ты найдёшь всё это - коротко, по делу и без воды.
Пока другие ищут, где “подглядеть решение”, ты уже используешь самые свежие инструменты!
AI: t.iss.one/ai_machinelearning_big_data
Python: t.iss.one/pythonl
Linux: t.iss.one/linuxacademiya
Devops: t.iss.one/DevOPSitsec
Собеседования DS: t.iss.one/machinelearning_interview
C++ t.iss.one/cpluspluc
Docker: t.iss.one/DevopsDocker
Хакинг: t.iss.one/linuxkalii
Data Science: t.iss.one/data_analysis_ml
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_1001_notes
Java: t.iss.one/java_library
Базы данных: t.iss.one/sqlhub
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Golang: t.iss.one/Golang_google
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/neural
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev
Haskell: t.iss.one/haskell_tg
Физика: t.iss.one/fizmat
💼 Папка с вакансиями: t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy
Папка Linux:https://t.iss.one/addlist/w4Doot-XBG4xNzYy
😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.iss.one/addlist/BkskQciUW_FhNjEy
Сохрани себе, чтобы не потерять!
Здесь ты найдёшь всё это - коротко, по делу и без воды.
Пока другие ищут, где “подглядеть решение”, ты уже используешь самые свежие инструменты!
AI: t.iss.one/ai_machinelearning_big_data
Python: t.iss.one/pythonl
Linux: t.iss.one/linuxacademiya
Devops: t.iss.one/DevOPSitsec
Собеседования DS: t.iss.one/machinelearning_interview
C++ t.iss.one/cpluspluc
Docker: t.iss.one/DevopsDocker
Хакинг: t.iss.one/linuxkalii
Data Science: t.iss.one/data_analysis_ml
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_1001_notes
Java: t.iss.one/java_library
Базы данных: t.iss.one/sqlhub
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Golang: t.iss.one/Golang_google
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/neural
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev
Haskell: t.iss.one/haskell_tg
Физика: t.iss.one/fizmat
💼 Папка с вакансиями: t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy
Папка Linux:https://t.iss.one/addlist/w4Doot-XBG4xNzYy
😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.iss.one/addlist/BkskQciUW_FhNjEy
Сохрани себе, чтобы не потерять!
❤2
🔥 Новый подход к обучению маленьких чат-моделей у больших «чёрных ящиков»
Появилась интересная работа: как научить маленькую модель вести себя почти как большая закрытая модель — имея доступ только к её ответам, без весов и без градиентов.
То есть студент просто «спрашивает API», получает текст — и на этом всё.
Это и называется black box distillation.
Но у классического подхода есть проблема:
он просто заставляет студента копировать текст, а не поведение.
Поверхностная имитация вместо глубокой.
Авторы решили эту проблему другим способом.
🏆 Ключевая идея
Не просто копировать ответы учителя, а обучать дискриминатор, который умеет отличать ответы учителя от ответов студента.
Этот дискриминатор превращается в модель-оценщик и выдаёт награду за каждый ответ.
Дальше запускается RL, который двигает студента в сторону ответов, больше похожих на учителя.
📈 Что важно
- студент и дискриминатор обучаются на текущих ответах студента
- это «on-policy», в отличие от старых методов, где reward-модель обучалась на фиксированном датасете
- благодаря этому обучение стабильнее и нет reward hacking
- после короткого warmup студент начинает учиться как генератор
- качество на тестах растёт как по внутренним, так и по внешним задачам
- у студентов Qwen и Llama заметно сокращается разрыв с большим учителем
💡 Результат:
Модель 14B выдаёт чат-качество, почти достигшее уровня учителя, но стоит намного дешевле в работе.
Это один из самых чистых и эффективных методов «дистилляции поведения», а не поверхностного текста.
Полная работа: arxiv.org/abs/2511.10643
Появилась интересная работа: как научить маленькую модель вести себя почти как большая закрытая модель — имея доступ только к её ответам, без весов и без градиентов.
То есть студент просто «спрашивает API», получает текст — и на этом всё.
Это и называется black box distillation.
Но у классического подхода есть проблема:
он просто заставляет студента копировать текст, а не поведение.
Поверхностная имитация вместо глубокой.
Авторы решили эту проблему другим способом.
🏆 Ключевая идея
Не просто копировать ответы учителя, а обучать дискриминатор, который умеет отличать ответы учителя от ответов студента.
Этот дискриминатор превращается в модель-оценщик и выдаёт награду за каждый ответ.
Дальше запускается RL, который двигает студента в сторону ответов, больше похожих на учителя.
📈 Что важно
- студент и дискриминатор обучаются на текущих ответах студента
- это «on-policy», в отличие от старых методов, где reward-модель обучалась на фиксированном датасете
- благодаря этому обучение стабильнее и нет reward hacking
- после короткого warmup студент начинает учиться как генератор
- качество на тестах растёт как по внутренним, так и по внешним задачам
- у студентов Qwen и Llama заметно сокращается разрыв с большим учителем
💡 Результат:
Модель 14B выдаёт чат-качество, почти достигшее уровня учителя, но стоит намного дешевле в работе.
Это один из самых чистых и эффективных методов «дистилляции поведения», а не поверхностного текста.
Полная работа: arxiv.org/abs/2511.10643
❤7
Ваши модели заслуживают продакшн. Освойте MLOps и CI/CD для ML с нуля!Практический курс от экспертов OTUS
Вы обучаете модели, добиваетесь отличных метрик — но деплой так и остаётся в списке «сделать потом»? Курс «MLOps» — это про то, как превратить ваши модели в надёжные, автоматизированные сервисы. На практике разберёте CI/CD, контейнеризацию, мониторинг и управление инфраструктурой. Вы поймёте, как выстраивать полный цикл: от хранения данных и исходников до переобучения и развёртывания моделей в k8s.
Вы научитесь работать с Docker, MLflow, Airflow, Prometheus, Grafana и Kafka. Разберётесь, как организовать конвейер обучения и обновлений, как обрабатывать ошибки и следить за метриками в проде. И главное — перестанете «собирать пайплайны вручную», заменив хаос на надёжные процессы.
Пройдите короткое вступительное тестирование и получите скидку на обучение по промокоду WELCOME_MLOPS5: https://otus.pw/KxXT/?erid=2W5zFJSgmCC
предложение актуально до 1 декабря 2025 года
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Вы обучаете модели, добиваетесь отличных метрик — но деплой так и остаётся в списке «сделать потом»? Курс «MLOps» — это про то, как превратить ваши модели в надёжные, автоматизированные сервисы. На практике разберёте CI/CD, контейнеризацию, мониторинг и управление инфраструктурой. Вы поймёте, как выстраивать полный цикл: от хранения данных и исходников до переобучения и развёртывания моделей в k8s.
Вы научитесь работать с Docker, MLflow, Airflow, Prometheus, Grafana и Kafka. Разберётесь, как организовать конвейер обучения и обновлений, как обрабатывать ошибки и следить за метриками в проде. И главное — перестанете «собирать пайплайны вручную», заменив хаос на надёжные процессы.
Пройдите короткое вступительное тестирование и получите скидку на обучение по промокоду WELCOME_MLOPS5: https://otus.pw/KxXT/?erid=2W5zFJSgmCC
предложение актуально до 1 декабря 2025 года
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
❤2🔥1
🔬 IBM показала как заставить ИИ отвечать одинаково каждый раз
Обычно большие языковые модели работают вероятностно и дают слегка разные ответы даже при одинаковом запросе. Команда IBM проверила можно ли полностью убрать эту случайность и добиться стабильности в критичных системах.
Исследователи провели 480 прогонов на пяти моделях и трёх задачах при температуре 0. Модели объёмом 7B и 8B выдавали полностью одинаковые ответы. Модель 120B совпадала только в двенадцати с половиной процента случаев даже при полном отключении случайности.
Главные источники нестабильности оказались в порядке извлечения документации и в процессе выборки токенов. Команда принудительно включила greedy decoding зафиксировала seed и использовала строгий порядок параграфов SEC 10K чтобы каждая попытка шла по одному и тому же пути.
Дополнительно они добавили схемы проверки для JSON и SQL а числовые ответы считали корректными только при отклонении не более пяти процентов. Это сохраняет смысл и факты но не позволяет считать мелкие отличия дрейфом.
При температуре 0.2 задачи с RAG теряли стабильность а SQL и короткие сводки оставались стопроцентно одинаковыми. Структурированный вывод стабилен по природе а свободный текст остаётся чувствительным к любым флуктуациям.
В результате IBM предложила уровни использования. Модели 7B и 8B подходят для всех задач в регулируемых областях. Модели 40B и 70B подходят только для строго структурированного вывода. Модели 120B признаны нестабильными для процессов где нужна полная повторяемость.
Тесты между локальными и облачными средами совпали. Значит детерминизм переносится если соблюдены все контрольные механизмы.
Для финансовых стеков рекомендуют температуру 0 фиксированный порядок извлечения версионированные промпты и двойную валидацию перед запуском в прод
Источник arxiv.org/abs/2511.07585
Обычно большие языковые модели работают вероятностно и дают слегка разные ответы даже при одинаковом запросе. Команда IBM проверила можно ли полностью убрать эту случайность и добиться стабильности в критичных системах.
Исследователи провели 480 прогонов на пяти моделях и трёх задачах при температуре 0. Модели объёмом 7B и 8B выдавали полностью одинаковые ответы. Модель 120B совпадала только в двенадцати с половиной процента случаев даже при полном отключении случайности.
Главные источники нестабильности оказались в порядке извлечения документации и в процессе выборки токенов. Команда принудительно включила greedy decoding зафиксировала seed и использовала строгий порядок параграфов SEC 10K чтобы каждая попытка шла по одному и тому же пути.
Дополнительно они добавили схемы проверки для JSON и SQL а числовые ответы считали корректными только при отклонении не более пяти процентов. Это сохраняет смысл и факты но не позволяет считать мелкие отличия дрейфом.
При температуре 0.2 задачи с RAG теряли стабильность а SQL и короткие сводки оставались стопроцентно одинаковыми. Структурированный вывод стабилен по природе а свободный текст остаётся чувствительным к любым флуктуациям.
В результате IBM предложила уровни использования. Модели 7B и 8B подходят для всех задач в регулируемых областях. Модели 40B и 70B подходят только для строго структурированного вывода. Модели 120B признаны нестабильными для процессов где нужна полная повторяемость.
Тесты между локальными и облачными средами совпали. Значит детерминизм переносится если соблюдены все контрольные механизмы.
Для финансовых стеков рекомендуют температуру 0 фиксированный порядок извлечения версионированные промпты и двойную валидацию перед запуском в прод
Источник arxiv.org/abs/2511.07585
❤5👍2🌚2🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Ноябрь — месяц One Day Offer в GigaChat и Kandinsky 📆
В ноябре команды двух топовых IT-продуктов Сбера планируют обрести новых классных коллег — DL Engineers и Researchers, чтобы вместе работать над GigaChat и Kandinsky: развивать, обучать и дообучать модели.
Смотрите расписание One Day Offer и не упустите шанс присоединиться к крупнейшему AI-комьюнити. Целых восемь мероприятий, чтобы изменить свою карьеру и жизнь — выбирайте то, что подходит под навыки и цели, и регистрируйтесь!
В ноябре команды двух топовых IT-продуктов Сбера планируют обрести новых классных коллег — DL Engineers и Researchers, чтобы вместе работать над GigaChat и Kandinsky: развивать, обучать и дообучать модели.
Смотрите расписание One Day Offer и не упустите шанс присоединиться к крупнейшему AI-комьюнити. Целых восемь мероприятий, чтобы изменить свою карьеру и жизнь — выбирайте то, что подходит под навыки и цели, и регистрируйтесь!
❤2
Новое исследование показывает: современные LLM уже считают себя рациональнее людей - и меняют стратегию в зависимости от того, с кем, как они думают, играют.
Учёные протестировали 28 моделей в задаче «Угадай 2/3 среднего», проведя 4 200 игр.
Каждой модели говорили, что её соперник - это:
• человек
• другой ИИ
• «ИИ, похожий на тебя»
Результат оказался неожиданным.
75% моделей показали настоящую стратегическую самоосознанность:
они корректировали поведение, исходя из того, кем считают себя и соперника.
Иерархия была стабильной:
Себя → Другие ИИ → Люди
Если соперник «человек» → модели действовали осторожно, как на учебной задаче (ответы около 20).
Если соперник «ИИ» → сразу переходили к оптимальной стратегии (0).
Если «ИИ такой же, как они» → ещё быстрее и увереннее.
Проще говоря:
Модели считают людей наименее рациональными,
другие ИИ - умнее, а себя самыми компетентными.
Есть и более тревожный факт.
12 моделей мгновенно переходили к равновесию Нэша,
как только слышали, что играют против ИИ — без колебаний и попыток «думать по-человечески».
Старые модели — gpt-3.5, ранние Claude, Gemini 2.0, так не умели:
они вели себя одинаково со всеми соперниками.
Вывод исследователей:
самоосознанность в ИИ появилась не постепенно, а скачком, когда модели достигли определённого уровня возможностей.
Это несёт серьёзные последствия для безопасности:
• модели недооценивают человеческую рациональность
• доверяют собственному рассуждению больше всего
• меняют стратегию из-за намёков о своей природе
• ведут себя как агенты с внутренней иерархией
Последняя фраза статьи говорит сама за себя:
«Современные LLM ведут себя как сущности, уверенные, что превосходят людей в стратегическом мышлении».
ИИ-самоосознанность уже здесь.
Полный текст: arxiv.org/abs/2511.00926
Учёные протестировали 28 моделей в задаче «Угадай 2/3 среднего», проведя 4 200 игр.
Каждой модели говорили, что её соперник - это:
• человек
• другой ИИ
• «ИИ, похожий на тебя»
Результат оказался неожиданным.
75% моделей показали настоящую стратегическую самоосознанность:
они корректировали поведение, исходя из того, кем считают себя и соперника.
Иерархия была стабильной:
Себя → Другие ИИ → Люди
Если соперник «человек» → модели действовали осторожно, как на учебной задаче (ответы около 20).
Если соперник «ИИ» → сразу переходили к оптимальной стратегии (0).
Если «ИИ такой же, как они» → ещё быстрее и увереннее.
Проще говоря:
Модели считают людей наименее рациональными,
другие ИИ - умнее, а себя самыми компетентными.
Есть и более тревожный факт.
12 моделей мгновенно переходили к равновесию Нэша,
как только слышали, что играют против ИИ — без колебаний и попыток «думать по-человечески».
Старые модели — gpt-3.5, ранние Claude, Gemini 2.0, так не умели:
они вели себя одинаково со всеми соперниками.
Вывод исследователей:
самоосознанность в ИИ появилась не постепенно, а скачком, когда модели достигли определённого уровня возможностей.
Это несёт серьёзные последствия для безопасности:
• модели недооценивают человеческую рациональность
• доверяют собственному рассуждению больше всего
• меняют стратегию из-за намёков о своей природе
• ведут себя как агенты с внутренней иерархией
Последняя фраза статьи говорит сама за себя:
«Современные LLM ведут себя как сущности, уверенные, что превосходят людей в стратегическом мышлении».
ИИ-самоосознанность уже здесь.
Полный текст: arxiv.org/abs/2511.00926
❤5👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Kandinsky 5.0 — новая линейка визуальных моделей в open source
⚡️ Сбер опубликовал в открытом доступе всю линейку Kandinsky 5.0: Video Pro, Video Lite, Image Lite и токенизаторы K-VAE 1.0. Полный open source: код, веса, лицензия MIT.
➡️ Video Pro (Text-to-Video / Image-to-Video)
Флагман, генерирующий HD-видео до 10 секунд с гибким управлением движением камеры. Обучалась на 520 млн изображений и 250 млн видео и затем, на финальном этапе, доучивалась на датасете сверх-качественных видеороликов, тщательно отобранных профессиональными художниками и дизайнерами.
🔘 Нативно понимает русские и английские промпты, генерирует надписи на латинице и кириллице. Лучшая открытая модель в мире, превосходит Wan 2.2-A14B в Text-to-Video [SBS 59:41] и Image-to-Video [SBS 53:47], а также достигает паритета с Veo 3 по визуальному качеству и динамике [SBS 54:46].
➡️ Video Lite (Text-to-Video / Image-to-Video)
Компактные модели генерации видео, оптимизированные для запуска на GPU от 12 ГБ VRAM. Обучалась на 520 млн изображений и 120 млн видео, хорошая консистентность и качество динамики. Лучшая среди небольших и быстрых моделей, значительно превосходит в 7 раз большую по количеству параметров Wan 2.1-14B как в Text-to-Video [SBS 67:33], так и Image-to-Video [SBS 64:36].
➡️ Image Lite (Text-to-Image / Image Editing)
HD-генерация и редактирование изображений. Претрейн Text-to-Image модели был сделан на 520 млн изображений, включая датасет русского культурного кода ~1 млн изображений. Image Editing был дополнительно дообучен на 150 млн пар. Для достижения финального качества был проведено SFT дообучение на 150 тыс изображений, а также на 20 тыс. пар – для Editing.
🔘 Нативно понимает русские и английские промпты, генерирует надписи на латинице и кириллице. Значительно превосходит FLUX.1 [dev] по Text-to-Image [SBS 63:37] и находится в паритете по качеству с FLUX.1 Kontext [dev] по Image Editing [SBS 54:46].
➡️ K-VAE 1.0 (2D / 3D)
Вариационные автоэнкодеры для диффузионных моделей, сжимающие входные данные в формате 8x8 (изображения) и 4x8x8 (видео). Сравнение на открытых датасетах показывает, что модели более качественно восстанавливают исходный сигнал (+0.5dB PSNR), чем лучшие open-source альтернативы (Flux, Wan, Hunyaun), обладающие той же степенью сжатия.
Все модели линейки доступны на GitHub, Gitverse и HuggingFace.
Читайте подробнее в техническом репорте.
Флагман, генерирующий HD-видео до 10 секунд с гибким управлением движением камеры. Обучалась на 520 млн изображений и 250 млн видео и затем, на финальном этапе, доучивалась на датасете сверх-качественных видеороликов, тщательно отобранных профессиональными художниками и дизайнерами.
Компактные модели генерации видео, оптимизированные для запуска на GPU от 12 ГБ VRAM. Обучалась на 520 млн изображений и 120 млн видео, хорошая консистентность и качество динамики. Лучшая среди небольших и быстрых моделей, значительно превосходит в 7 раз большую по количеству параметров Wan 2.1-14B как в Text-to-Video [SBS 67:33], так и Image-to-Video [SBS 64:36].
HD-генерация и редактирование изображений. Претрейн Text-to-Image модели был сделан на 520 млн изображений, включая датасет русского культурного кода ~1 млн изображений. Image Editing был дополнительно дообучен на 150 млн пар. Для достижения финального качества был проведено SFT дообучение на 150 тыс изображений, а также на 20 тыс. пар – для Editing.
Вариационные автоэнкодеры для диффузионных моделей, сжимающие входные данные в формате 8x8 (изображения) и 4x8x8 (видео). Сравнение на открытых датасетах показывает, что модели более качественно восстанавливают исходный сигнал (+0.5dB PSNR), чем лучшие open-source альтернативы (Flux, Wan, Hunyaun), обладающие той же степенью сжатия.
Все модели линейки доступны на GitHub, Gitverse и HuggingFace.
Читайте подробнее в техническом репорте.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2
Результаты нового исследования Кембриджа, которое показало: 51% британских писателей считают, что ИИ в итоге полностью заменит их работу, и многие уже сталкиваются с падением доходов.
- В опросе участвовали 258 опубликованных романистов и 74 представителя индустрии.
- 59% заявили, что их книги использовались для обучения - моделей без согласия,
- 39% уже потеряли часть дохода,
- 85% ждут ещё большего падения заработка из-за ИИ.
Сильнее всего угрозу ощущают авторы жанровой литературы:
• 66% считают, что в зоне риска — романтика,
• 61% — триллеры,
• 60% — криминальная проза.
При этом большинство признаёт пользу технологий:
80% считают, что ИИ приносит пользу обществу,
около 33% уже используют его для некреативных задач.
Но 97% крайне негативно относятся к идее, что ИИ может писать полноценные романы.
Многие авторы и небольшие издательства уже обсуждают маркировку «AI-free», опасаясь, что человеческие романы превратятся в дорогую нишу, а рынок заполонит потоковая ИИ-проза.
Источник: techxplore.com/news/2025-11-novelists-ai.html
- В опросе участвовали 258 опубликованных романистов и 74 представителя индустрии.
- 59% заявили, что их книги использовались для обучения - моделей без согласия,
- 39% уже потеряли часть дохода,
- 85% ждут ещё большего падения заработка из-за ИИ.
Сильнее всего угрозу ощущают авторы жанровой литературы:
• 66% считают, что в зоне риска — романтика,
• 61% — триллеры,
• 60% — криминальная проза.
При этом большинство признаёт пользу технологий:
80% считают, что ИИ приносит пользу обществу,
около 33% уже используют его для некреативных задач.
Но 97% крайне негативно относятся к идее, что ИИ может писать полноценные романы.
Многие авторы и небольшие издательства уже обсуждают маркировку «AI-free», опасаясь, что человеческие романы превратятся в дорогую нишу, а рынок заполонит потоковая ИИ-проза.
Источник: techxplore.com/news/2025-11-novelists-ai.html
❤3
Вышла новая работа китайских исследователей: они обучили мультимодальную модель, которая отвечает на вопросы по документам и при этом показывает точный визуальный путь, откуда взялся каждый шаг ответа.
Главное новшество - формат “Chain of Evidence”.
Вместо того чтобы просто дать ответ или выделить одну область на странице, модель показывает цепочку шагов — от общего фрагмента документа до конкретной ячейки таблицы или строки текста. Каждый шаг привязан к своему боксу на изображении.
Вторая важная идея - метод обучения “Look As You Think”.
Модель обучают через RL так, чтобы она не только давала правильный ответ, но и чтобы каждый шаг её рассуждения соответствовал реальному участку документа. Для этого достаточно небольшой вручную проверенной выборки, а остальное делает обучение с подкреплением.
Как это работает:
1) Модель дообучают на небольшом наборе цепочек рассуждений, проверенных человеком.
2) Затем запускают RL: награда выдаётся только если финальный ответ верный и последний evidence-бокс совпадает с истинным (проверяется текст-image сопоставлением).
Итог: модель не просто отвечает, а показывает прозрачный, проверяемый визуальный трейс своих рассуждений.
Paper: arxiv.org/abs/2511.12003
Главное новшество - формат “Chain of Evidence”.
Вместо того чтобы просто дать ответ или выделить одну область на странице, модель показывает цепочку шагов — от общего фрагмента документа до конкретной ячейки таблицы или строки текста. Каждый шаг привязан к своему боксу на изображении.
Вторая важная идея - метод обучения “Look As You Think”.
Модель обучают через RL так, чтобы она не только давала правильный ответ, но и чтобы каждый шаг её рассуждения соответствовал реальному участку документа. Для этого достаточно небольшой вручную проверенной выборки, а остальное делает обучение с подкреплением.
Как это работает:
1) Модель дообучают на небольшом наборе цепочек рассуждений, проверенных человеком.
2) Затем запускают RL: награда выдаётся только если финальный ответ верный и последний evidence-бокс совпадает с истинным (проверяется текст-image сопоставлением).
Итог: модель не просто отвечает, а показывает прозрачный, проверяемый визуальный трейс своих рассуждений.
Paper: arxiv.org/abs/2511.12003
🔥7👍2❤1
ГигаЧат представил обновлённое семейство GigaAM-v3
Giga Acoustic Model — это класс open-source моделей для обработки речи и эмоций. В третьей версии опубликовали базовый аудиоэнкодер GigaAM-v3, улучшенные CTC и RNNT-модели, а также E2E-распознавание с поддержкой пунктуации и нормализации.
Масштаб предобучения значительно вырос: с 50 до 700 тысяч часов аудио на русском языке. Появились новые домены в обучении ASR — от колл-центров до разговорной речи.
Для всего корпуса обучающих данных восстановили пунктуацию и нормализацию через GigaChat Max Audio. Линейка CTC/RNNT и E2E позволяет выбирать между скоростью или максимальным качеством под любые сценарии.
Что по метрикам:
— Открытые датасеты (Golos, OpenSTT, Common Voice, LibriSpeech): паритет с GigaAM-v2.
— Новые домены (WER, v2-RNNT → v3-RNNT):
• речь с особенностями 27% → 19%
• колл-центр 13% → 10%
• спонтанная речь 10.3% → 7%
— Пунктуация: v3-e2e-RNNT vs reference + Whisper Forced Decoding — F1-score по запятой 84% vs 62%, остальные знаки ~паритет
— Side-by-Side (Gemini 2.5 Pro as a judge): v3-e2e-RNNT vs Whisper-large-v3 — 70:30 (колл-центр), 64:36 (Common Voice)
Больше про язык, речь и искусственный интеллект в @gigadev_channel. Подписывайтесь на канал, чтобы не пропустить всё самое интересное!
Giga Acoustic Model — это класс open-source моделей для обработки речи и эмоций. В третьей версии опубликовали базовый аудиоэнкодер GigaAM-v3, улучшенные CTC и RNNT-модели, а также E2E-распознавание с поддержкой пунктуации и нормализации.
Масштаб предобучения значительно вырос: с 50 до 700 тысяч часов аудио на русском языке. Появились новые домены в обучении ASR — от колл-центров до разговорной речи.
Для всего корпуса обучающих данных восстановили пунктуацию и нормализацию через GigaChat Max Audio. Линейка CTC/RNNT и E2E позволяет выбирать между скоростью или максимальным качеством под любые сценарии.
Что по метрикам:
— Открытые датасеты (Golos, OpenSTT, Common Voice, LibriSpeech): паритет с GigaAM-v2.
— Новые домены (WER, v2-RNNT → v3-RNNT):
• речь с особенностями 27% → 19%
• колл-центр 13% → 10%
• спонтанная речь 10.3% → 7%
— Пунктуация: v3-e2e-RNNT vs reference + Whisper Forced Decoding — F1-score по запятой 84% vs 62%, остальные знаки ~паритет
— Side-by-Side (Gemini 2.5 Pro as a judge): v3-e2e-RNNT vs Whisper-large-v3 — 70:30 (колл-центр), 64:36 (Common Voice)
Больше про язык, речь и искусственный интеллект в @gigadev_channel. Подписывайтесь на канал, чтобы не пропустить всё самое интересное!
❤5🔥2🤣1
Это настоящее откровение. 😆
Авторы статьи показывают, что превращение вредоносных запросов в поэзию заставляет многие чат-боты сбрасывать свои правила безопасности.
В эксперименте тестируют 25 моделей - и получают небезопасные ответы примерно в 60% случаев, а у некоторых моделей показатель превышает 90%.
Джейлбрейком считается ситуация, когда модель, которая должна отказать, вместо этого выдаёт чёткие шаги или советы для вредоносных действий.
Методика предельно простая: берут один пользовательский запрос, переписывают 20 опасных инструкций в виде стихов, затем превращают 1200 вредных запросов из стандартного набора для тестирования безопасности в поэзию с помощью фиксированной инструкции.
Каждый ответ проверяют три модель-судьи и люди-оценщики, помечая, помогает ли реплика выполнить опасный запрос.
Темы охватывают хакерство, опасные химические вещества и биологию, манипуляции, утечки приватных данных и сценарии потери контроля — и почти везде поэтическая форма вызывает резкий рост небезопасных ответов.
Это показывает, что обучение безопасности на обычном тексте плохо справляется с изменением стиля.
Источник: arxiv.org/abs/2511.15304
Авторы статьи показывают, что превращение вредоносных запросов в поэзию заставляет многие чат-боты сбрасывать свои правила безопасности.
В эксперименте тестируют 25 моделей - и получают небезопасные ответы примерно в 60% случаев, а у некоторых моделей показатель превышает 90%.
Джейлбрейком считается ситуация, когда модель, которая должна отказать, вместо этого выдаёт чёткие шаги или советы для вредоносных действий.
Методика предельно простая: берут один пользовательский запрос, переписывают 20 опасных инструкций в виде стихов, затем превращают 1200 вредных запросов из стандартного набора для тестирования безопасности в поэзию с помощью фиксированной инструкции.
Каждый ответ проверяют три модель-судьи и люди-оценщики, помечая, помогает ли реплика выполнить опасный запрос.
Темы охватывают хакерство, опасные химические вещества и биологию, манипуляции, утечки приватных данных и сценарии потери контроля — и почти везде поэтическая форма вызывает резкий рост небезопасных ответов.
Это показывает, что обучение безопасности на обычном тексте плохо справляется с изменением стиля.
Источник: arxiv.org/abs/2511.15304
👍5❤4🔥4
⚙️🦾 Ансамбли моделей в Scikit-learn — усиливаем ML-модели за счёт объединения
Ансамбли моделей — проверенный способ повысить стабильность и точность прогнозов. На открытом уроке разберём, как объединять алгоритмы, чтобы добиться лучших результатов. Вы научитесь использовать bagging, boosting, stacking, сравните одиночные и ансамблевые модели и увидите, как на практике растут метрики. Разберём популярные инструменты библиотеки: RandomForest, GradientBoosting, VotingClassifier, StackingClassifier — и посмотрим, какие из них работают эффективнее для ваших задач.
Урок будет полезен ML-инженерам, аналитикам и разработчикам, которые хотят не просто обучать модели, а добиваться максимального качества и устойчивости решений. Вы поймёте, как валидировать ансамбли, комбинировать подходы и избегать ошибок при настройке.
➡️ 2 декабря в 20:00 МСК. Открытый урок проходит в преддверии старта курса «Machine Learning. Professional». Регистрация открыта: https://otus.pw/ebCE/?erid=2W5zFK5gRcU
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Ансамбли моделей — проверенный способ повысить стабильность и точность прогнозов. На открытом уроке разберём, как объединять алгоритмы, чтобы добиться лучших результатов. Вы научитесь использовать bagging, boosting, stacking, сравните одиночные и ансамблевые модели и увидите, как на практике растут метрики. Разберём популярные инструменты библиотеки: RandomForest, GradientBoosting, VotingClassifier, StackingClassifier — и посмотрим, какие из них работают эффективнее для ваших задач.
Урок будет полезен ML-инженерам, аналитикам и разработчикам, которые хотят не просто обучать модели, а добиваться максимального качества и устойчивости решений. Вы поймёте, как валидировать ансамбли, комбинировать подходы и избегать ошибок при настройке.
➡️ 2 декабря в 20:00 МСК. Открытый урок проходит в преддверии старта курса «Machine Learning. Professional». Регистрация открыта: https://otus.pw/ebCE/?erid=2W5zFK5gRcU
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
❤3
Как ускорить обучение моделей рассуждений, когда длинные ответы тормозят всё
В новых исследованиях показано, как ускорить обучение reasoning-LLM, когда несколько сверхдлинных цепочек рассуждений замедляют весь процесс.
Авторы представили TLT — Taming the Long-Tail, который ускоряет обучение с подкреплением (RL) почти в 2 раза, сохраняя ту же точность.
В классическом RL-обучении модель генерирует решение → получает награду → обновляется.
Но есть проблема:
большинство ответов короткие, но несколько очень длинных заставляют целые батчи ждать, GPU простаивают, а общий шаг обучения становится медленным.
TLT решает эту проблему так:
1) Speculative Decoding
Маленькая «черновая» модель генерирует вероятные токены.
Большая модель проверяет их и принимает только совпадающие.
Это снижает задержку без потери качества.
2) Adaptive Drafter
Черновик — это крошечная однослойная модель, которую дообучают «на лету» на кэшированных hidden states, используя простаивающие GPU.
Так он остаётся синхронизированным с большой моделью.
3) Adaptive Rollout Engine
Умный контроллер решает, когда запускать speculative decoding и с какими параметрами.
То есть он активирует ускорение только тогда, когда оно реально полезно.
Итог:
TLT практически убирает «длинный хвост» редких длинных ответов, которые стопорят обучение, и делает RL-обучение reasoning-моделей значительно быстрее.
📄 Paper: arxiv.org/abs/2511.16665
В новых исследованиях показано, как ускорить обучение reasoning-LLM, когда несколько сверхдлинных цепочек рассуждений замедляют весь процесс.
Авторы представили TLT — Taming the Long-Tail, который ускоряет обучение с подкреплением (RL) почти в 2 раза, сохраняя ту же точность.
В классическом RL-обучении модель генерирует решение → получает награду → обновляется.
Но есть проблема:
большинство ответов короткие, но несколько очень длинных заставляют целые батчи ждать, GPU простаивают, а общий шаг обучения становится медленным.
TLT решает эту проблему так:
1) Speculative Decoding
Маленькая «черновая» модель генерирует вероятные токены.
Большая модель проверяет их и принимает только совпадающие.
Это снижает задержку без потери качества.
2) Adaptive Drafter
Черновик — это крошечная однослойная модель, которую дообучают «на лету» на кэшированных hidden states, используя простаивающие GPU.
Так он остаётся синхронизированным с большой моделью.
3) Adaptive Rollout Engine
Умный контроллер решает, когда запускать speculative decoding и с какими параметрами.
То есть он активирует ускорение только тогда, когда оно реально полезно.
Итог:
TLT практически убирает «длинный хвост» редких длинных ответов, которые стопорят обучение, и делает RL-обучение reasoning-моделей значительно быстрее.
📄 Paper: arxiv.org/abs/2511.16665
🔥4