🧠 Почему у моделей пропадает «рандомность» во время RL-обучения - и как это чинится
Новая работа разбирает, почему у моделей во время RL для reasoning рушится энтропия (то есть исчезает разнообразие ответов) - и что с этим делать.
Главные выводы:
- 📉 Хорошего набора в ~600 задач хватает, чтобы догнать обучение на 17 000.
Ключ - разнообразие, а не размер датасета.
- 🎯 Reward сужает модель.
При обучении она начинает повторять несколько самых “прибыльных” токенов → энтропия падает → исследование ухудшается.
- 🔄 Меньше энтропии → меньше разнообразия, но измеренная энтропия по промптам почти не коррелирует с точностью.
- ⚙️ Адаптивный энтропийный регуляризатор удерживает «случайность» на целевом уровне, при этом точность продолжает расти.
- 🧪 Off-policy обновления усиливают коллапс, поднимают reward и ломают обобщение — классический overfitting.
- 🧩 Низкое разнообразие данных ускоряет коллапс, но маленький *разнообразный* датасет иногда работает так же хорошо, как полный.
- 🔧 Клиппинг и reweighting позитивных advantage-токенов (например, Progressive Advantage Reweighting) помогают управлять энтропией и борот
arxiv.org/abs/2511.05993
Новая работа разбирает, почему у моделей во время RL для reasoning рушится энтропия (то есть исчезает разнообразие ответов) - и что с этим делать.
Главные выводы:
- 📉 Хорошего набора в ~600 задач хватает, чтобы догнать обучение на 17 000.
Ключ - разнообразие, а не размер датасета.
- 🎯 Reward сужает модель.
При обучении она начинает повторять несколько самых “прибыльных” токенов → энтропия падает → исследование ухудшается.
- 🔄 Меньше энтропии → меньше разнообразия, но измеренная энтропия по промптам почти не коррелирует с точностью.
- ⚙️ Адаптивный энтропийный регуляризатор удерживает «случайность» на целевом уровне, при этом точность продолжает расти.
- 🧪 Off-policy обновления усиливают коллапс, поднимают reward и ломают обобщение — классический overfitting.
- 🧩 Низкое разнообразие данных ускоряет коллапс, но маленький *разнообразный* датасет иногда работает так же хорошо, как полный.
- 🔧 Клиппинг и reweighting позитивных advantage-токенов (например, Progressive Advantage Reweighting) помогают управлять энтропией и борот
arxiv.org/abs/2511.05993
👍14❤4
За 2,5 часа прокачаем маркетинг с нейросетями
Технари, проходите мимо — здесь эфир для ребят из маркетинга.
25 ноября приходите на онлайн-интенсив по AI. Вас ждет:
📈 Кейс-стади. COFIX, CDEK, Звук и Gulliver расскажут, как оптимизировали маркетинг с ML и LLM. С результатами в цифрах!
Например, Cofix ускорил обработку клиентских отзывов в 7000 раз. А Gulliver удвоил CTR товарных карточек на маркетплейсах.
👨🏫 Воркшоп по промптингу. Эксперты в прямом эфире помогут сегментировать клиентов, персонализировать рассылки и рекламу с ChatGPT.
📅 25 ноября, 11:00–13:30 мск
💻 Онлайн, бесплатно
Зарегистрироваться
Реклама. ООО «Майндбокс», ИНН: 7713688880, erid: 2W5zFGW2iDn
Технари, проходите мимо — здесь эфир для ребят из маркетинга.
25 ноября приходите на онлайн-интенсив по AI. Вас ждет:
📈 Кейс-стади. COFIX, CDEK, Звук и Gulliver расскажут, как оптимизировали маркетинг с ML и LLM. С результатами в цифрах!
Например, Cofix ускорил обработку клиентских отзывов в 7000 раз. А Gulliver удвоил CTR товарных карточек на маркетплейсах.
👨🏫 Воркшоп по промптингу. Эксперты в прямом эфире помогут сегментировать клиентов, персонализировать рассылки и рекламу с ChatGPT.
📅 25 ноября, 11:00–13:30 мск
💻 Онлайн, бесплатно
Зарегистрироваться
Реклама. ООО «Майндбокс», ИНН: 7713688880, erid: 2W5zFGW2iDn
❤4😁4
🤖 Как объединить десятки экспертных моделей в одну универсальную- без дообучения и утечки данных?
Исследователи из CAS, HKISI-CAS, Sun Yat-sen и Peking представили новый подход: RobustMerge — метод бес-тренировочного, параметро-эффективного объединения моделей.
Проблема:
Каждая экспертная модель умеет своё — одна для OCR, другая для зрения, третья для диалога, четвёртая для кода.
Но как собрать их в одно универсальное MLLM так, чтобы:
- не было утечки данных
- не пришлось обучать всё заново
- не потерялась точность
- модель не развалилась из-за конфликтующих весов
🧠 Что делает RobustMerge
Метод сохраняет *direction robustness* - устойчивость направлений веса — с помощью двух ключевых техник:
- low-rank analysis — выделяет главное направление знаний
- cross-task normalization — нормализует вклад разных задач так, чтобы одна модель не «забивала» другую
Итог:
Разные специализированные модели становятся одним универсальным MLLM, который продолжает хорошо работать по всем направлениям и даже улучшает обобщение.
🚀 Почему это важно
Это решает главную боль индустрии: как собрать десятки экспертов в единую систему без огромных затрат на переобучение и без риска смешать приватные данные.
🔬 Подробности
Paper: arxiv.org/abs/2502.17159
Code: github.com/AuroraZengfh/RobustMerge
Исследователи из CAS, HKISI-CAS, Sun Yat-sen и Peking представили новый подход: RobustMerge — метод бес-тренировочного, параметро-эффективного объединения моделей.
Проблема:
Каждая экспертная модель умеет своё — одна для OCR, другая для зрения, третья для диалога, четвёртая для кода.
Но как собрать их в одно универсальное MLLM так, чтобы:
- не было утечки данных
- не пришлось обучать всё заново
- не потерялась точность
- модель не развалилась из-за конфликтующих весов
🧠 Что делает RobustMerge
Метод сохраняет *direction robustness* - устойчивость направлений веса — с помощью двух ключевых техник:
- low-rank analysis — выделяет главное направление знаний
- cross-task normalization — нормализует вклад разных задач так, чтобы одна модель не «забивала» другую
Итог:
Разные специализированные модели становятся одним универсальным MLLM, который продолжает хорошо работать по всем направлениям и даже улучшает обобщение.
🚀 Почему это важно
Это решает главную боль индустрии: как собрать десятки экспертов в единую систему без огромных затрат на переобучение и без риска смешать приватные данные.
🔬 Подробности
Paper: arxiv.org/abs/2502.17159
Code: github.com/AuroraZengfh/RobustMerge
👍11❤6🆒3
Как обучить свою первую ML-модель — и не утонуть в теории?
Машинное обучение звучит сложно — пока вы не попробуете на практике. 24 ноября в 18:00 МСК на открытом уроке вы обучите модель для задачи классификации прямо во время занятия.
Разберём:
– как работает алгоритм дерева решений;
– как решать задачи классификации на Python;
– что нужно, чтобы перейти от экспериментов к реальной работе с ML.
Вы шаг за шагом создадите первую модель, увидите, как она принимает решения, и поймёте, как из простого кода рождается интеллект.
➡️ Открытый урок проходит в преддверии старта курса «Machine Learning. Basic». Регистрируйтесь — начните путь в Data Science с практики, а не с теории:
https://otus.pw/2np3/?erid=2W5zFJegj1J
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Машинное обучение звучит сложно — пока вы не попробуете на практике. 24 ноября в 18:00 МСК на открытом уроке вы обучите модель для задачи классификации прямо во время занятия.
Разберём:
– как работает алгоритм дерева решений;
– как решать задачи классификации на Python;
– что нужно, чтобы перейти от экспериментов к реальной работе с ML.
Вы шаг за шагом создадите первую модель, увидите, как она принимает решения, и поймёте, как из простого кода рождается интеллект.
➡️ Открытый урок проходит в преддверии старта курса «Machine Learning. Basic». Регистрируйтесь — начните путь в Data Science с практики, а не с теории:
https://otus.pw/2np3/?erid=2W5zFJegj1J
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🤣3🔥1
🚀 Uni-MoE-2.0-Omni - новый прорыв в омнимодальных моделях
Эта модель поднимает планку: от мультимодальности к полноценному омнимодальному пониманию и генерации: речь, текст, изображения, видео, аудио-видео взаимодействия.
✨ Главное нововведение
Разработчики показали, как эволюционно превратить обычные плотные LLM в эффективные MoE-модели, способные работать со всеми модальностями одновременно.
🧠 Архитектура
1️⃣ Omnimodality 3D RoPE + Dynamic Capacity MoE
- Унифицирует выравнивание речи, текста, изображений и видео в пространственно-временных измерениях
- Динамически распределяет вычисления в зависимости от сложности задачи
2️⃣ Глубоко слитый мультимодальный encoder-decoder
- Любые комбинации входных и выходных модальностей
- Настоящее омнимодальное взаимодействие и генерация
🛠️ Тренировка
1️⃣ Прогрессивная стратегия обучения
Cross-modal alignment → Warm-up экспертов → MoE + RL → Генеративное обучение
- Масштабирует плотные LLM в MoE-модели
- Всего 75B токенов
- Стабильная сходимость, особенно на RL
2️⃣ Языковая основа для задач понимания и генерации
- Все задачи сводятся к языковой генерации
- Пробивает барьеры между модальностями
🎨 Возможности
✔ Генерация и взаимодействие через речь
✔ Генерация и редактирование изображений
✔ Понимание изображений и видео
✔ Аудиовизуальное рассуждение
✔ 10+ мультимодальных задач
🔥 Результаты
Модель превзошла Qwen2.5-Omni (1.2T токенов) в 50+ из 76 задач, имея всего 75B токенов:
- Видео-понимание: +5%
- Омнимодальное понимание: +7%
- Speech QA: +4.3%
- Обработка изображений: +7%
🌍 Open Source
Model: https://huggingface.co/collections/HIT-TMG/lychee-uni-moe-20
Code: https://github.com/HITsz-TMG/Uni-MoE/tree/master/Uni-MoE-2
Homepage: https://idealistxy.github.io/Uni-MoE-v2.github.io/
Эта модель поднимает планку: от мультимодальности к полноценному омнимодальному пониманию и генерации: речь, текст, изображения, видео, аудио-видео взаимодействия.
✨ Главное нововведение
Разработчики показали, как эволюционно превратить обычные плотные LLM в эффективные MoE-модели, способные работать со всеми модальностями одновременно.
🧠 Архитектура
1️⃣ Omnimodality 3D RoPE + Dynamic Capacity MoE
- Унифицирует выравнивание речи, текста, изображений и видео в пространственно-временных измерениях
- Динамически распределяет вычисления в зависимости от сложности задачи
2️⃣ Глубоко слитый мультимодальный encoder-decoder
- Любые комбинации входных и выходных модальностей
- Настоящее омнимодальное взаимодействие и генерация
🛠️ Тренировка
1️⃣ Прогрессивная стратегия обучения
Cross-modal alignment → Warm-up экспертов → MoE + RL → Генеративное обучение
- Масштабирует плотные LLM в MoE-модели
- Всего 75B токенов
- Стабильная сходимость, особенно на RL
2️⃣ Языковая основа для задач понимания и генерации
- Все задачи сводятся к языковой генерации
- Пробивает барьеры между модальностями
🎨 Возможности
✔ Генерация и взаимодействие через речь
✔ Генерация и редактирование изображений
✔ Понимание изображений и видео
✔ Аудиовизуальное рассуждение
✔ 10+ мультимодальных задач
🔥 Результаты
Модель превзошла Qwen2.5-Omni (1.2T токенов) в 50+ из 76 задач, имея всего 75B токенов:
- Видео-понимание: +5%
- Омнимодальное понимание: +7%
- Speech QA: +4.3%
- Обработка изображений: +7%
🌍 Open Source
Model: https://huggingface.co/collections/HIT-TMG/lychee-uni-moe-20
Code: https://github.com/HITsz-TMG/Uni-MoE/tree/master/Uni-MoE-2
Homepage: https://idealistxy.github.io/Uni-MoE-v2.github.io/
❤10👍5
⚡️ Вышел подробный гайд по Gemini 3 - новой флагманской модели Google DeepMind, которая в ряде задач уже опережает другие топовые решения.
Внутри разбор возможностей модели, примеры создания реальных приложений, рекомендации по настройке промтов и системных режимов.
Добавлены готовые сниппеты на Python и JS - копируй и сразу запускай. Осваиваем автоматизацию и перенос рутины на Gemini 3 по ссылке.
https://ai.google.dev/gemini-api/docs/gemini-3?thinking=high&hl=ru
Внутри разбор возможностей модели, примеры создания реальных приложений, рекомендации по настройке промтов и системных режимов.
Добавлены готовые сниппеты на Python и JS - копируй и сразу запускай. Осваиваем автоматизацию и перенос рутины на Gemini 3 по ссылке.
https://ai.google.dev/gemini-api/docs/gemini-3?thinking=high&hl=ru
❤5👍3🥰1
Media is too big
VIEW IN TELEGRAM
Успей зарегистрироваться на масштабный ИТ-фест от МТС 🔥
21 ноября на True Tech Champ тебя ждет насыщенный день со зрелищной битвой роботов, нетворкингом и прокачкой навыков.
В программе:
📝 Доклады о ИИ-технологиях. Специалисты MWS AI, Skoltech, Яндекса и Unitree Robotics расскажут о трансформерах для управления автомобилями, работе с RAG-системами и физическими агентами.
📝 Воркшоп по работе с ИИ-агентами от канадского разработчика и автора книги AI Agents in Action Майкла Ланэма.
📝 Воркшоп по разработке игр с помощью AI плагина MWS DevTools Agent.
🛻 Шоу-битва роботов. Камеры от первого лица, профессиональные комментаторы создадут вайб больших видов спорта. На огромных экранах МТС Live Холл ты увидишь, как роботы будут проходить 3 уровня препятствий: запутанные лабиринты, офф-роад маршруты, парящие платформы — и сразятся в битве на выживание.
◻️ 20+ площадок с активностями. Попробуй родео и оседлай механического быка, пройди лазерный лабиринт, как настоящий спецагент, выведи на ринг своего робопаука и протестируй другие ИТ-челленджи.
🔴 В завершение дня — афтепати со звездным хедлайнером.
Фестиваль бесплатный, он пройдет 21 ноября в Москве и онлайн.
Смотри подробную программу на сайте и регистрируйся — количество мест ограничено.
21 ноября на True Tech Champ тебя ждет насыщенный день со зрелищной битвой роботов, нетворкингом и прокачкой навыков.
В программе:
Фестиваль бесплатный, он пройдет 21 ноября в Москве и онлайн.
Смотри подробную программу на сайте и регистрируйся — количество мест ограничено.
Please open Telegram to view this post
VIEW IN TELEGRAM
😐3❤🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Создание видео с LongCat-Video
LongCat-Video — это мощная модель генерации видео с 13.6 миллиарда параметров, способная выполнять задачи *Text-to-Video*, *Image-to-Video* и *Video-Continuation*. Она обеспечивает высокое качество и эффективность, особенно в создании длинных видео без потери качества.
🚀 Основные моменты:
- Унифицированная архитектура для различных задач генерации видео.
- Способность генерировать видео длительностью в минуты.
- Эффективный процесс генерации с высоким разрешением.
- Сравнимые результаты с ведущими коммерческими решениями.
📌 GitHub: https://github.com/meituan-longcat/LongCat-Video
#python
LongCat-Video — это мощная модель генерации видео с 13.6 миллиарда параметров, способная выполнять задачи *Text-to-Video*, *Image-to-Video* и *Video-Continuation*. Она обеспечивает высокое качество и эффективность, особенно в создании длинных видео без потери качества.
🚀 Основные моменты:
- Унифицированная архитектура для различных задач генерации видео.
- Способность генерировать видео длительностью в минуты.
- Эффективный процесс генерации с высоким разрешением.
- Сравнимые результаты с ведущими коммерческими решениями.
📌 GitHub: https://github.com/meituan-longcat/LongCat-Video
#python
🔥4👍2❤1🥱1
This media is not supported in your browser
VIEW IN TELEGRAM
Конференция AI Driver & RecSys Темы — пространство, где наука и бизнес встречаются, чтобы обсудить будущее рекомендаций ⚡️
28 ноября пройдёт конференция о том, как создаются и развиваются современные рекомендательные системы.
На площадке Сбера соберутся эксперты топовых российских IT-компаний и вузов, чтобы обсудить новые исследования, открытые датасеты и практические решения, которые меняют подход к персонализации.
Это возможность за один день познакомиться с ключевыми трендами RecSys, пообщаться со специалистами и вдохновиться идеями, формирующими будущее рекомендаций.
Присоединяйтесь к профессиональному сообществу 28 ноября в 10:00 — регистрация по ссылке!
28 ноября пройдёт конференция о том, как создаются и развиваются современные рекомендательные системы.
На площадке Сбера соберутся эксперты топовых российских IT-компаний и вузов, чтобы обсудить новые исследования, открытые датасеты и практические решения, которые меняют подход к персонализации.
Это возможность за один день познакомиться с ключевыми трендами RecSys, пообщаться со специалистами и вдохновиться идеями, формирующими будущее рекомендаций.
Присоединяйтесь к профессиональному сообществу 28 ноября в 10:00 — регистрация по ссылке!
❤3⚡1👍1🔥1
🤖 AITradeGame - Симулятор торговли с ИИ
AITradeGame - это открытый симулятор торговли, который позволяет пользователям тестировать стратегии с использованием ИИ. Доступны как локальная версия с полной конфиденциальностью, так и онлайн-версия с интерактивными функциями и таблицами лидеров.
🚀Основные моменты:
- Поддержка различных ИИ моделей, включая OpenAI и Claude.
- Локальное хранилище данных без облачного отслеживания.
- Интерактивные таблицы лидеров для соревнований с другими пользователями.
- Удобный интерфейс и возможность настройки торговых параметров.
📌 GitHub: https://github.com/chadyi/AITradeGame
AITradeGame - это открытый симулятор торговли, который позволяет пользователям тестировать стратегии с использованием ИИ. Доступны как локальная версия с полной конфиденциальностью, так и онлайн-версия с интерактивными функциями и таблицами лидеров.
🚀Основные моменты:
- Поддержка различных ИИ моделей, включая OpenAI и Claude.
- Локальное хранилище данных без облачного отслеживания.
- Интерактивные таблицы лидеров для соревнований с другими пользователями.
- Удобный интерфейс и возможность настройки торговых параметров.
📌 GitHub: https://github.com/chadyi/AITradeGame
👍9