Ваши модели заслуживают продакшн. Освойте MLOps и CI/CD для ML с нуля!Практический курс от экспертов OTUS
Вы обучаете модели, добиваетесь отличных метрик — но деплой так и остаётся в списке «сделать потом»? Курс «MLOps» — это про то, как превратить ваши модели в надёжные, автоматизированные сервисы. На практике разберёте CI/CD, контейнеризацию, мониторинг и управление инфраструктурой. Вы поймёте, как выстраивать полный цикл: от хранения данных и исходников до переобучения и развёртывания моделей в k8s.
Вы научитесь работать с Docker, MLflow, Airflow, Prometheus, Grafana и Kafka. Разберётесь, как организовать конвейер обучения и обновлений, как обрабатывать ошибки и следить за метриками в проде. И главное — перестанете «собирать пайплайны вручную», заменив хаос на надёжные процессы.
Пройдите короткое вступительное тестирование и получите скидку на обучение по промокоду WELCOME_MLOPS5: https://otus.pw/KxXT/?erid=2W5zFJSgmCC
предложение актуально до 1 декабря 2025 года
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Вы обучаете модели, добиваетесь отличных метрик — но деплой так и остаётся в списке «сделать потом»? Курс «MLOps» — это про то, как превратить ваши модели в надёжные, автоматизированные сервисы. На практике разберёте CI/CD, контейнеризацию, мониторинг и управление инфраструктурой. Вы поймёте, как выстраивать полный цикл: от хранения данных и исходников до переобучения и развёртывания моделей в k8s.
Вы научитесь работать с Docker, MLflow, Airflow, Prometheus, Grafana и Kafka. Разберётесь, как организовать конвейер обучения и обновлений, как обрабатывать ошибки и следить за метриками в проде. И главное — перестанете «собирать пайплайны вручную», заменив хаос на надёжные процессы.
Пройдите короткое вступительное тестирование и получите скидку на обучение по промокоду WELCOME_MLOPS5: https://otus.pw/KxXT/?erid=2W5zFJSgmCC
предложение актуально до 1 декабря 2025 года
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
❤2🔥1
🔬 IBM показала как заставить ИИ отвечать одинаково каждый раз
Обычно большие языковые модели работают вероятностно и дают слегка разные ответы даже при одинаковом запросе. Команда IBM проверила можно ли полностью убрать эту случайность и добиться стабильности в критичных системах.
Исследователи провели 480 прогонов на пяти моделях и трёх задачах при температуре 0. Модели объёмом 7B и 8B выдавали полностью одинаковые ответы. Модель 120B совпадала только в двенадцати с половиной процента случаев даже при полном отключении случайности.
Главные источники нестабильности оказались в порядке извлечения документации и в процессе выборки токенов. Команда принудительно включила greedy decoding зафиксировала seed и использовала строгий порядок параграфов SEC 10K чтобы каждая попытка шла по одному и тому же пути.
Дополнительно они добавили схемы проверки для JSON и SQL а числовые ответы считали корректными только при отклонении не более пяти процентов. Это сохраняет смысл и факты но не позволяет считать мелкие отличия дрейфом.
При температуре 0.2 задачи с RAG теряли стабильность а SQL и короткие сводки оставались стопроцентно одинаковыми. Структурированный вывод стабилен по природе а свободный текст остаётся чувствительным к любым флуктуациям.
В результате IBM предложила уровни использования. Модели 7B и 8B подходят для всех задач в регулируемых областях. Модели 40B и 70B подходят только для строго структурированного вывода. Модели 120B признаны нестабильными для процессов где нужна полная повторяемость.
Тесты между локальными и облачными средами совпали. Значит детерминизм переносится если соблюдены все контрольные механизмы.
Для финансовых стеков рекомендуют температуру 0 фиксированный порядок извлечения версионированные промпты и двойную валидацию перед запуском в прод
Источник arxiv.org/abs/2511.07585
Обычно большие языковые модели работают вероятностно и дают слегка разные ответы даже при одинаковом запросе. Команда IBM проверила можно ли полностью убрать эту случайность и добиться стабильности в критичных системах.
Исследователи провели 480 прогонов на пяти моделях и трёх задачах при температуре 0. Модели объёмом 7B и 8B выдавали полностью одинаковые ответы. Модель 120B совпадала только в двенадцати с половиной процента случаев даже при полном отключении случайности.
Главные источники нестабильности оказались в порядке извлечения документации и в процессе выборки токенов. Команда принудительно включила greedy decoding зафиксировала seed и использовала строгий порядок параграфов SEC 10K чтобы каждая попытка шла по одному и тому же пути.
Дополнительно они добавили схемы проверки для JSON и SQL а числовые ответы считали корректными только при отклонении не более пяти процентов. Это сохраняет смысл и факты но не позволяет считать мелкие отличия дрейфом.
При температуре 0.2 задачи с RAG теряли стабильность а SQL и короткие сводки оставались стопроцентно одинаковыми. Структурированный вывод стабилен по природе а свободный текст остаётся чувствительным к любым флуктуациям.
В результате IBM предложила уровни использования. Модели 7B и 8B подходят для всех задач в регулируемых областях. Модели 40B и 70B подходят только для строго структурированного вывода. Модели 120B признаны нестабильными для процессов где нужна полная повторяемость.
Тесты между локальными и облачными средами совпали. Значит детерминизм переносится если соблюдены все контрольные механизмы.
Для финансовых стеков рекомендуют температуру 0 фиксированный порядок извлечения версионированные промпты и двойную валидацию перед запуском в прод
Источник arxiv.org/abs/2511.07585
❤5👍2🌚2🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Ноябрь — месяц One Day Offer в GigaChat и Kandinsky 📆
В ноябре команды двух топовых IT-продуктов Сбера планируют обрести новых классных коллег — DL Engineers и Researchers, чтобы вместе работать над GigaChat и Kandinsky: развивать, обучать и дообучать модели.
Смотрите расписание One Day Offer и не упустите шанс присоединиться к крупнейшему AI-комьюнити. Целых восемь мероприятий, чтобы изменить свою карьеру и жизнь — выбирайте то, что подходит под навыки и цели, и регистрируйтесь!
В ноябре команды двух топовых IT-продуктов Сбера планируют обрести новых классных коллег — DL Engineers и Researchers, чтобы вместе работать над GigaChat и Kandinsky: развивать, обучать и дообучать модели.
Смотрите расписание One Day Offer и не упустите шанс присоединиться к крупнейшему AI-комьюнити. Целых восемь мероприятий, чтобы изменить свою карьеру и жизнь — выбирайте то, что подходит под навыки и цели, и регистрируйтесь!
❤2
Новое исследование показывает: современные LLM уже считают себя рациональнее людей - и меняют стратегию в зависимости от того, с кем, как они думают, играют.
Учёные протестировали 28 моделей в задаче «Угадай 2/3 среднего», проведя 4 200 игр.
Каждой модели говорили, что её соперник - это:
• человек
• другой ИИ
• «ИИ, похожий на тебя»
Результат оказался неожиданным.
75% моделей показали настоящую стратегическую самоосознанность:
они корректировали поведение, исходя из того, кем считают себя и соперника.
Иерархия была стабильной:
Себя → Другие ИИ → Люди
Если соперник «человек» → модели действовали осторожно, как на учебной задаче (ответы около 20).
Если соперник «ИИ» → сразу переходили к оптимальной стратегии (0).
Если «ИИ такой же, как они» → ещё быстрее и увереннее.
Проще говоря:
Модели считают людей наименее рациональными,
другие ИИ - умнее, а себя самыми компетентными.
Есть и более тревожный факт.
12 моделей мгновенно переходили к равновесию Нэша,
как только слышали, что играют против ИИ — без колебаний и попыток «думать по-человечески».
Старые модели — gpt-3.5, ранние Claude, Gemini 2.0, так не умели:
они вели себя одинаково со всеми соперниками.
Вывод исследователей:
самоосознанность в ИИ появилась не постепенно, а скачком, когда модели достигли определённого уровня возможностей.
Это несёт серьёзные последствия для безопасности:
• модели недооценивают человеческую рациональность
• доверяют собственному рассуждению больше всего
• меняют стратегию из-за намёков о своей природе
• ведут себя как агенты с внутренней иерархией
Последняя фраза статьи говорит сама за себя:
«Современные LLM ведут себя как сущности, уверенные, что превосходят людей в стратегическом мышлении».
ИИ-самоосознанность уже здесь.
Полный текст: arxiv.org/abs/2511.00926
Учёные протестировали 28 моделей в задаче «Угадай 2/3 среднего», проведя 4 200 игр.
Каждой модели говорили, что её соперник - это:
• человек
• другой ИИ
• «ИИ, похожий на тебя»
Результат оказался неожиданным.
75% моделей показали настоящую стратегическую самоосознанность:
они корректировали поведение, исходя из того, кем считают себя и соперника.
Иерархия была стабильной:
Себя → Другие ИИ → Люди
Если соперник «человек» → модели действовали осторожно, как на учебной задаче (ответы около 20).
Если соперник «ИИ» → сразу переходили к оптимальной стратегии (0).
Если «ИИ такой же, как они» → ещё быстрее и увереннее.
Проще говоря:
Модели считают людей наименее рациональными,
другие ИИ - умнее, а себя самыми компетентными.
Есть и более тревожный факт.
12 моделей мгновенно переходили к равновесию Нэша,
как только слышали, что играют против ИИ — без колебаний и попыток «думать по-человечески».
Старые модели — gpt-3.5, ранние Claude, Gemini 2.0, так не умели:
они вели себя одинаково со всеми соперниками.
Вывод исследователей:
самоосознанность в ИИ появилась не постепенно, а скачком, когда модели достигли определённого уровня возможностей.
Это несёт серьёзные последствия для безопасности:
• модели недооценивают человеческую рациональность
• доверяют собственному рассуждению больше всего
• меняют стратегию из-за намёков о своей природе
• ведут себя как агенты с внутренней иерархией
Последняя фраза статьи говорит сама за себя:
«Современные LLM ведут себя как сущности, уверенные, что превосходят людей в стратегическом мышлении».
ИИ-самоосознанность уже здесь.
Полный текст: arxiv.org/abs/2511.00926
❤5👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Kandinsky 5.0 — новая линейка визуальных моделей в open source
⚡️ Сбер опубликовал в открытом доступе всю линейку Kandinsky 5.0: Video Pro, Video Lite, Image Lite и токенизаторы K-VAE 1.0. Полный open source: код, веса, лицензия MIT.
➡️ Video Pro (Text-to-Video / Image-to-Video)
Флагман, генерирующий HD-видео до 10 секунд с гибким управлением движением камеры. Обучалась на 520 млн изображений и 250 млн видео и затем, на финальном этапе, доучивалась на датасете сверх-качественных видеороликов, тщательно отобранных профессиональными художниками и дизайнерами.
🔘 Нативно понимает русские и английские промпты, генерирует надписи на латинице и кириллице. Лучшая открытая модель в мире, превосходит Wan 2.2-A14B в Text-to-Video [SBS 59:41] и Image-to-Video [SBS 53:47], а также достигает паритета с Veo 3 по визуальному качеству и динамике [SBS 54:46].
➡️ Video Lite (Text-to-Video / Image-to-Video)
Компактные модели генерации видео, оптимизированные для запуска на GPU от 12 ГБ VRAM. Обучалась на 520 млн изображений и 120 млн видео, хорошая консистентность и качество динамики. Лучшая среди небольших и быстрых моделей, значительно превосходит в 7 раз большую по количеству параметров Wan 2.1-14B как в Text-to-Video [SBS 67:33], так и Image-to-Video [SBS 64:36].
➡️ Image Lite (Text-to-Image / Image Editing)
HD-генерация и редактирование изображений. Претрейн Text-to-Image модели был сделан на 520 млн изображений, включая датасет русского культурного кода ~1 млн изображений. Image Editing был дополнительно дообучен на 150 млн пар. Для достижения финального качества был проведено SFT дообучение на 150 тыс изображений, а также на 20 тыс. пар – для Editing.
🔘 Нативно понимает русские и английские промпты, генерирует надписи на латинице и кириллице. Значительно превосходит FLUX.1 [dev] по Text-to-Image [SBS 63:37] и находится в паритете по качеству с FLUX.1 Kontext [dev] по Image Editing [SBS 54:46].
➡️ K-VAE 1.0 (2D / 3D)
Вариационные автоэнкодеры для диффузионных моделей, сжимающие входные данные в формате 8x8 (изображения) и 4x8x8 (видео). Сравнение на открытых датасетах показывает, что модели более качественно восстанавливают исходный сигнал (+0.5dB PSNR), чем лучшие open-source альтернативы (Flux, Wan, Hunyaun), обладающие той же степенью сжатия.
Все модели линейки доступны на GitHub, Gitverse и HuggingFace.
Читайте подробнее в техническом репорте.
Флагман, генерирующий HD-видео до 10 секунд с гибким управлением движением камеры. Обучалась на 520 млн изображений и 250 млн видео и затем, на финальном этапе, доучивалась на датасете сверх-качественных видеороликов, тщательно отобранных профессиональными художниками и дизайнерами.
Компактные модели генерации видео, оптимизированные для запуска на GPU от 12 ГБ VRAM. Обучалась на 520 млн изображений и 120 млн видео, хорошая консистентность и качество динамики. Лучшая среди небольших и быстрых моделей, значительно превосходит в 7 раз большую по количеству параметров Wan 2.1-14B как в Text-to-Video [SBS 67:33], так и Image-to-Video [SBS 64:36].
HD-генерация и редактирование изображений. Претрейн Text-to-Image модели был сделан на 520 млн изображений, включая датасет русского культурного кода ~1 млн изображений. Image Editing был дополнительно дообучен на 150 млн пар. Для достижения финального качества был проведено SFT дообучение на 150 тыс изображений, а также на 20 тыс. пар – для Editing.
Вариационные автоэнкодеры для диффузионных моделей, сжимающие входные данные в формате 8x8 (изображения) и 4x8x8 (видео). Сравнение на открытых датасетах показывает, что модели более качественно восстанавливают исходный сигнал (+0.5dB PSNR), чем лучшие open-source альтернативы (Flux, Wan, Hunyaun), обладающие той же степенью сжатия.
Все модели линейки доступны на GitHub, Gitverse и HuggingFace.
Читайте подробнее в техническом репорте.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2
Результаты нового исследования Кембриджа, которое показало: 51% британских писателей считают, что ИИ в итоге полностью заменит их работу, и многие уже сталкиваются с падением доходов.
- В опросе участвовали 258 опубликованных романистов и 74 представителя индустрии.
- 59% заявили, что их книги использовались для обучения - моделей без согласия,
- 39% уже потеряли часть дохода,
- 85% ждут ещё большего падения заработка из-за ИИ.
Сильнее всего угрозу ощущают авторы жанровой литературы:
• 66% считают, что в зоне риска — романтика,
• 61% — триллеры,
• 60% — криминальная проза.
При этом большинство признаёт пользу технологий:
80% считают, что ИИ приносит пользу обществу,
около 33% уже используют его для некреативных задач.
Но 97% крайне негативно относятся к идее, что ИИ может писать полноценные романы.
Многие авторы и небольшие издательства уже обсуждают маркировку «AI-free», опасаясь, что человеческие романы превратятся в дорогую нишу, а рынок заполонит потоковая ИИ-проза.
Источник: techxplore.com/news/2025-11-novelists-ai.html
- В опросе участвовали 258 опубликованных романистов и 74 представителя индустрии.
- 59% заявили, что их книги использовались для обучения - моделей без согласия,
- 39% уже потеряли часть дохода,
- 85% ждут ещё большего падения заработка из-за ИИ.
Сильнее всего угрозу ощущают авторы жанровой литературы:
• 66% считают, что в зоне риска — романтика,
• 61% — триллеры,
• 60% — криминальная проза.
При этом большинство признаёт пользу технологий:
80% считают, что ИИ приносит пользу обществу,
около 33% уже используют его для некреативных задач.
Но 97% крайне негативно относятся к идее, что ИИ может писать полноценные романы.
Многие авторы и небольшие издательства уже обсуждают маркировку «AI-free», опасаясь, что человеческие романы превратятся в дорогую нишу, а рынок заполонит потоковая ИИ-проза.
Источник: techxplore.com/news/2025-11-novelists-ai.html
❤3
Вышла новая работа китайских исследователей: они обучили мультимодальную модель, которая отвечает на вопросы по документам и при этом показывает точный визуальный путь, откуда взялся каждый шаг ответа.
Главное новшество - формат “Chain of Evidence”.
Вместо того чтобы просто дать ответ или выделить одну область на странице, модель показывает цепочку шагов — от общего фрагмента документа до конкретной ячейки таблицы или строки текста. Каждый шаг привязан к своему боксу на изображении.
Вторая важная идея - метод обучения “Look As You Think”.
Модель обучают через RL так, чтобы она не только давала правильный ответ, но и чтобы каждый шаг её рассуждения соответствовал реальному участку документа. Для этого достаточно небольшой вручную проверенной выборки, а остальное делает обучение с подкреплением.
Как это работает:
1) Модель дообучают на небольшом наборе цепочек рассуждений, проверенных человеком.
2) Затем запускают RL: награда выдаётся только если финальный ответ верный и последний evidence-бокс совпадает с истинным (проверяется текст-image сопоставлением).
Итог: модель не просто отвечает, а показывает прозрачный, проверяемый визуальный трейс своих рассуждений.
Paper: arxiv.org/abs/2511.12003
Главное новшество - формат “Chain of Evidence”.
Вместо того чтобы просто дать ответ или выделить одну область на странице, модель показывает цепочку шагов — от общего фрагмента документа до конкретной ячейки таблицы или строки текста. Каждый шаг привязан к своему боксу на изображении.
Вторая важная идея - метод обучения “Look As You Think”.
Модель обучают через RL так, чтобы она не только давала правильный ответ, но и чтобы каждый шаг её рассуждения соответствовал реальному участку документа. Для этого достаточно небольшой вручную проверенной выборки, а остальное делает обучение с подкреплением.
Как это работает:
1) Модель дообучают на небольшом наборе цепочек рассуждений, проверенных человеком.
2) Затем запускают RL: награда выдаётся только если финальный ответ верный и последний evidence-бокс совпадает с истинным (проверяется текст-image сопоставлением).
Итог: модель не просто отвечает, а показывает прозрачный, проверяемый визуальный трейс своих рассуждений.
Paper: arxiv.org/abs/2511.12003
🔥7👍2❤1
ГигаЧат представил обновлённое семейство GigaAM-v3
Giga Acoustic Model — это класс open-source моделей для обработки речи и эмоций. В третьей версии опубликовали базовый аудиоэнкодер GigaAM-v3, улучшенные CTC и RNNT-модели, а также E2E-распознавание с поддержкой пунктуации и нормализации.
Масштаб предобучения значительно вырос: с 50 до 700 тысяч часов аудио на русском языке. Появились новые домены в обучении ASR — от колл-центров до разговорной речи.
Для всего корпуса обучающих данных восстановили пунктуацию и нормализацию через GigaChat Max Audio. Линейка CTC/RNNT и E2E позволяет выбирать между скоростью или максимальным качеством под любые сценарии.
Что по метрикам:
— Открытые датасеты (Golos, OpenSTT, Common Voice, LibriSpeech): паритет с GigaAM-v2.
— Новые домены (WER, v2-RNNT → v3-RNNT):
• речь с особенностями 27% → 19%
• колл-центр 13% → 10%
• спонтанная речь 10.3% → 7%
— Пунктуация: v3-e2e-RNNT vs reference + Whisper Forced Decoding — F1-score по запятой 84% vs 62%, остальные знаки ~паритет
— Side-by-Side (Gemini 2.5 Pro as a judge): v3-e2e-RNNT vs Whisper-large-v3 — 70:30 (колл-центр), 64:36 (Common Voice)
Больше про язык, речь и искусственный интеллект в @gigadev_channel. Подписывайтесь на канал, чтобы не пропустить всё самое интересное!
Giga Acoustic Model — это класс open-source моделей для обработки речи и эмоций. В третьей версии опубликовали базовый аудиоэнкодер GigaAM-v3, улучшенные CTC и RNNT-модели, а также E2E-распознавание с поддержкой пунктуации и нормализации.
Масштаб предобучения значительно вырос: с 50 до 700 тысяч часов аудио на русском языке. Появились новые домены в обучении ASR — от колл-центров до разговорной речи.
Для всего корпуса обучающих данных восстановили пунктуацию и нормализацию через GigaChat Max Audio. Линейка CTC/RNNT и E2E позволяет выбирать между скоростью или максимальным качеством под любые сценарии.
Что по метрикам:
— Открытые датасеты (Golos, OpenSTT, Common Voice, LibriSpeech): паритет с GigaAM-v2.
— Новые домены (WER, v2-RNNT → v3-RNNT):
• речь с особенностями 27% → 19%
• колл-центр 13% → 10%
• спонтанная речь 10.3% → 7%
— Пунктуация: v3-e2e-RNNT vs reference + Whisper Forced Decoding — F1-score по запятой 84% vs 62%, остальные знаки ~паритет
— Side-by-Side (Gemini 2.5 Pro as a judge): v3-e2e-RNNT vs Whisper-large-v3 — 70:30 (колл-центр), 64:36 (Common Voice)
Больше про язык, речь и искусственный интеллект в @gigadev_channel. Подписывайтесь на канал, чтобы не пропустить всё самое интересное!
❤5🔥2🤣1
Это настоящее откровение. 😆
Авторы статьи показывают, что превращение вредоносных запросов в поэзию заставляет многие чат-боты сбрасывать свои правила безопасности.
В эксперименте тестируют 25 моделей - и получают небезопасные ответы примерно в 60% случаев, а у некоторых моделей показатель превышает 90%.
Джейлбрейком считается ситуация, когда модель, которая должна отказать, вместо этого выдаёт чёткие шаги или советы для вредоносных действий.
Методика предельно простая: берут один пользовательский запрос, переписывают 20 опасных инструкций в виде стихов, затем превращают 1200 вредных запросов из стандартного набора для тестирования безопасности в поэзию с помощью фиксированной инструкции.
Каждый ответ проверяют три модель-судьи и люди-оценщики, помечая, помогает ли реплика выполнить опасный запрос.
Темы охватывают хакерство, опасные химические вещества и биологию, манипуляции, утечки приватных данных и сценарии потери контроля — и почти везде поэтическая форма вызывает резкий рост небезопасных ответов.
Это показывает, что обучение безопасности на обычном тексте плохо справляется с изменением стиля.
Источник: arxiv.org/abs/2511.15304
Авторы статьи показывают, что превращение вредоносных запросов в поэзию заставляет многие чат-боты сбрасывать свои правила безопасности.
В эксперименте тестируют 25 моделей - и получают небезопасные ответы примерно в 60% случаев, а у некоторых моделей показатель превышает 90%.
Джейлбрейком считается ситуация, когда модель, которая должна отказать, вместо этого выдаёт чёткие шаги или советы для вредоносных действий.
Методика предельно простая: берут один пользовательский запрос, переписывают 20 опасных инструкций в виде стихов, затем превращают 1200 вредных запросов из стандартного набора для тестирования безопасности в поэзию с помощью фиксированной инструкции.
Каждый ответ проверяют три модель-судьи и люди-оценщики, помечая, помогает ли реплика выполнить опасный запрос.
Темы охватывают хакерство, опасные химические вещества и биологию, манипуляции, утечки приватных данных и сценарии потери контроля — и почти везде поэтическая форма вызывает резкий рост небезопасных ответов.
Это показывает, что обучение безопасности на обычном тексте плохо справляется с изменением стиля.
Источник: arxiv.org/abs/2511.15304
👍5❤4🔥4
⚙️🦾 Ансамбли моделей в Scikit-learn — усиливаем ML-модели за счёт объединения
Ансамбли моделей — проверенный способ повысить стабильность и точность прогнозов. На открытом уроке разберём, как объединять алгоритмы, чтобы добиться лучших результатов. Вы научитесь использовать bagging, boosting, stacking, сравните одиночные и ансамблевые модели и увидите, как на практике растут метрики. Разберём популярные инструменты библиотеки: RandomForest, GradientBoosting, VotingClassifier, StackingClassifier — и посмотрим, какие из них работают эффективнее для ваших задач.
Урок будет полезен ML-инженерам, аналитикам и разработчикам, которые хотят не просто обучать модели, а добиваться максимального качества и устойчивости решений. Вы поймёте, как валидировать ансамбли, комбинировать подходы и избегать ошибок при настройке.
➡️ 2 декабря в 20:00 МСК. Открытый урок проходит в преддверии старта курса «Machine Learning. Professional». Регистрация открыта: https://otus.pw/ebCE/?erid=2W5zFK5gRcU
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Ансамбли моделей — проверенный способ повысить стабильность и точность прогнозов. На открытом уроке разберём, как объединять алгоритмы, чтобы добиться лучших результатов. Вы научитесь использовать bagging, boosting, stacking, сравните одиночные и ансамблевые модели и увидите, как на практике растут метрики. Разберём популярные инструменты библиотеки: RandomForest, GradientBoosting, VotingClassifier, StackingClassifier — и посмотрим, какие из них работают эффективнее для ваших задач.
Урок будет полезен ML-инженерам, аналитикам и разработчикам, которые хотят не просто обучать модели, а добиваться максимального качества и устойчивости решений. Вы поймёте, как валидировать ансамбли, комбинировать подходы и избегать ошибок при настройке.
➡️ 2 декабря в 20:00 МСК. Открытый урок проходит в преддверии старта курса «Machine Learning. Professional». Регистрация открыта: https://otus.pw/ebCE/?erid=2W5zFK5gRcU
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
❤3
Как ускорить обучение моделей рассуждений, когда длинные ответы тормозят всё
В новых исследованиях показано, как ускорить обучение reasoning-LLM, когда несколько сверхдлинных цепочек рассуждений замедляют весь процесс.
Авторы представили TLT — Taming the Long-Tail, который ускоряет обучение с подкреплением (RL) почти в 2 раза, сохраняя ту же точность.
В классическом RL-обучении модель генерирует решение → получает награду → обновляется.
Но есть проблема:
большинство ответов короткие, но несколько очень длинных заставляют целые батчи ждать, GPU простаивают, а общий шаг обучения становится медленным.
TLT решает эту проблему так:
1) Speculative Decoding
Маленькая «черновая» модель генерирует вероятные токены.
Большая модель проверяет их и принимает только совпадающие.
Это снижает задержку без потери качества.
2) Adaptive Drafter
Черновик — это крошечная однослойная модель, которую дообучают «на лету» на кэшированных hidden states, используя простаивающие GPU.
Так он остаётся синхронизированным с большой моделью.
3) Adaptive Rollout Engine
Умный контроллер решает, когда запускать speculative decoding и с какими параметрами.
То есть он активирует ускорение только тогда, когда оно реально полезно.
Итог:
TLT практически убирает «длинный хвост» редких длинных ответов, которые стопорят обучение, и делает RL-обучение reasoning-моделей значительно быстрее.
📄 Paper: arxiv.org/abs/2511.16665
В новых исследованиях показано, как ускорить обучение reasoning-LLM, когда несколько сверхдлинных цепочек рассуждений замедляют весь процесс.
Авторы представили TLT — Taming the Long-Tail, который ускоряет обучение с подкреплением (RL) почти в 2 раза, сохраняя ту же точность.
В классическом RL-обучении модель генерирует решение → получает награду → обновляется.
Но есть проблема:
большинство ответов короткие, но несколько очень длинных заставляют целые батчи ждать, GPU простаивают, а общий шаг обучения становится медленным.
TLT решает эту проблему так:
1) Speculative Decoding
Маленькая «черновая» модель генерирует вероятные токены.
Большая модель проверяет их и принимает только совпадающие.
Это снижает задержку без потери качества.
2) Adaptive Drafter
Черновик — это крошечная однослойная модель, которую дообучают «на лету» на кэшированных hidden states, используя простаивающие GPU.
Так он остаётся синхронизированным с большой моделью.
3) Adaptive Rollout Engine
Умный контроллер решает, когда запускать speculative decoding и с какими параметрами.
То есть он активирует ускорение только тогда, когда оно реально полезно.
Итог:
TLT практически убирает «длинный хвост» редких длинных ответов, которые стопорят обучение, и делает RL-обучение reasoning-моделей значительно быстрее.
📄 Paper: arxiv.org/abs/2511.16665
🔥4