📈 ТехноТренды: Технологии, Тренды, IT

Последние исследования в сфере RL для языковых моделей. (RL — Reinforcement Learning, то есть обучение с подкреплением) Представляем обзор статьи «Absolute Zero: Reinforced Self-play Reasoning with Zero Data».

🚀 Что нового?
Модель AZR одновременно выступает «учителем» и «учеником»: сама генерирует кодовые задачи, решает их и получает «верифицируемую» награду через встроенный исполнитель кода.

📝 Ключевые цитаты

🔸 «Absolute Zero Reasoner (AZR) достигает передовых показателей при НУЛЕВЫХ ДАННЫХ».
🔸 «Мы предлагаем новую парадигму RLVR (Reinforcement learning with verifiable rewards — обучение с подкреплением с помощью проверяемых вознаграждений) под названием Absolute Zero, в которой одна и та же модель учится формулировать задачи, максимизирующие ее собственный прогресс в обучении, и повышает свои способности к рассуждению, решая их, не опираясь на внешние данные».
🔸 «Не полагаясь ни на золотые метки, ни на человеко-заданные запросы, Absolute Zero Reasoner, обученный с помощью предложенного нами самоигрового подхода, демонстрирует впечатляющий рост общих способностей к рассуждению как в математике, так и в программировании».

🔄 Принцип самообучения

Модель проходит цикл «предложил–решил–оценил–улучшил» без внешних данных:
1. Proposer генерирует задание, оптимизируя его полезность для собственного обучения.
2. Solver решает его и отправляет решение встроенному code executor, который проверяет корректность ответа.
3. Модель получает награду за верное решение и обновляет параметры с помощью алгоритма Task-Relative REINFORCE++, укрепляя успешные стратегии.

«Агент обучается через взаимодействие с окружением, которое предоставляет верифицируемую обратную связь, обеспечивая надёжное и непрерывное самоулучшение без какого-либо участия человека».

📊 Результаты
• AZR опережает модели, обученные на десятках тысяч размеченных примеров.
• Устанавливает новый рекорд в задачах программирования и математического рассуждения.

💡 Почему это важно?
В условиях нарастающей нехватки высококачественных данных, созданных человеком, модель демонстрирует, что базовые навыки рассуждения могут формироваться полностью автономно. Такой подход открывает путь к ИИ, который самостоятельно ставит себе всё более сложные цели и повышает интеллект без нашего вмешательства.

#AI #RL #самообучающиеся_модели #технологии

🚀 ©ТехноТренды

arXiv.org

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

Reinforcement learning with verifiable rewards (RLVR) has shown promise in enhancing the reasoning capabilities of large language models by learning directly from outcome-based rewards. Recent...

🤩1

138 views06:00

About

Blog

Apps

Platform