Последние исследования в сфере RL для языковых моделей. (RL — Reinforcement Learning, то есть обучение с подкреплением) Представляем обзор статьи «Absolute Zero: Reinforced Self-play Reasoning with Zero Data».
🚀 Что нового?
Модель AZR одновременно выступает «учителем» и «учеником»: сама генерирует кодовые задачи, решает их и получает «верифицируемую» награду через встроенный исполнитель кода.
📝 Ключевые цитаты
🔸 «Absolute Zero Reasoner (AZR) достигает передовых показателей при НУЛЕВЫХ ДАННЫХ».
🔸 «Мы предлагаем новую парадигму RLVR (Reinforcement learning with verifiable rewards — обучение с подкреплением с помощью проверяемых вознаграждений) под названием Absolute Zero, в которой одна и та же модель учится формулировать задачи, максимизирующие ее собственный прогресс в обучении, и повышает свои способности к рассуждению, решая их, не опираясь на внешние данные».
🔸 «Не полагаясь ни на золотые метки, ни на человеко-заданные запросы, Absolute Zero Reasoner, обученный с помощью предложенного нами самоигрового подхода, демонстрирует впечатляющий рост общих способностей к рассуждению как в математике, так и в программировании».
🔄 Принцип самообучения
Модель проходит цикл «предложил–решил–оценил–улучшил» без внешних данных:
1. Proposer генерирует задание, оптимизируя его полезность для собственного обучения.
2. Solver решает его и отправляет решение встроенному code executor, который проверяет корректность ответа.
3. Модель получает награду за верное решение и обновляет параметры с помощью алгоритма Task-Relative REINFORCE++, укрепляя успешные стратегии.
📊 Результаты
• AZR опережает модели, обученные на десятках тысяч размеченных примеров.
• Устанавливает новый рекорд в задачах программирования и математического рассуждения.
💡 Почему это важно?
В условиях нарастающей нехватки высококачественных данных, созданных человеком, модель демонстрирует, что базовые навыки рассуждения могут формироваться полностью автономно. Такой подход открывает путь к ИИ, который самостоятельно ставит себе всё более сложные цели и повышает интеллект без нашего вмешательства.
#AI #RL #самообучающиеся_модели #технологии
🚀 ©ТехноТренды
🚀 Что нового?
Модель AZR одновременно выступает «учителем» и «учеником»: сама генерирует кодовые задачи, решает их и получает «верифицируемую» награду через встроенный исполнитель кода.
📝 Ключевые цитаты
🔸 «Absolute Zero Reasoner (AZR) достигает передовых показателей при НУЛЕВЫХ ДАННЫХ».
🔸 «Мы предлагаем новую парадигму RLVR (Reinforcement learning with verifiable rewards — обучение с подкреплением с помощью проверяемых вознаграждений) под названием Absolute Zero, в которой одна и та же модель учится формулировать задачи, максимизирующие ее собственный прогресс в обучении, и повышает свои способности к рассуждению, решая их, не опираясь на внешние данные».
🔸 «Не полагаясь ни на золотые метки, ни на человеко-заданные запросы, Absolute Zero Reasoner, обученный с помощью предложенного нами самоигрового подхода, демонстрирует впечатляющий рост общих способностей к рассуждению как в математике, так и в программировании».
🔄 Принцип самообучения
Модель проходит цикл «предложил–решил–оценил–улучшил» без внешних данных:
1. Proposer генерирует задание, оптимизируя его полезность для собственного обучения.
2. Solver решает его и отправляет решение встроенному code executor, который проверяет корректность ответа.
3. Модель получает награду за верное решение и обновляет параметры с помощью алгоритма Task-Relative REINFORCE++, укрепляя успешные стратегии.
«Агент обучается через взаимодействие с окружением, которое предоставляет верифицируемую обратную связь, обеспечивая надёжное и непрерывное самоулучшение без какого-либо участия человека».
📊 Результаты
• AZR опережает модели, обученные на десятках тысяч размеченных примеров.
• Устанавливает новый рекорд в задачах программирования и математического рассуждения.
💡 Почему это важно?
В условиях нарастающей нехватки высококачественных данных, созданных человеком, модель демонстрирует, что базовые навыки рассуждения могут формироваться полностью автономно. Такой подход открывает путь к ИИ, который самостоятельно ставит себе всё более сложные цели и повышает интеллект без нашего вмешательства.
#AI #RL #самообучающиеся_модели #технологии
🚀 ©ТехноТренды
arXiv.org
Absolute Zero: Reinforced Self-play Reasoning with Zero Data
Reinforcement learning with verifiable rewards (RLVR) has shown promise in enhancing the reasoning capabilities of large language models by learning directly from outcome-based rewards. Recent...
🤩1