📈 ТехноТренды: Технологии, Тренды, IT
1.13K subscribers
123 photos
23 videos
7 files
225 links
Канал "ТехноТренды". Разбор технологий, технологических трендов и инноваций в различных сферах бизнеса и жизни: IT, производство и др.
Download Telegram
Последние исследования в сфере RL для языковых моделей. (RLReinforcement Learning, то есть обучение с подкреплением) Представляем обзор статьи «Absolute Zero: Reinforced Self-play Reasoning with Zero Data».

🚀 Что нового?
Модель AZR одновременно выступает «учителем» и «учеником»: сама генерирует кодовые задачи, решает их и получает «верифицируемую» награду через встроенный исполнитель кода.

📝 Ключевые цитаты

🔸 «Absolute Zero Reasoner (AZR) достигает передовых показателей при НУЛЕВЫХ ДАННЫХ».
🔸 «Мы предлагаем новую парадигму RLVR (Reinforcement learning with verifiable rewards — обучение с подкреплением с помощью проверяемых вознаграждений) под названием Absolute Zero, в которой одна и та же модель учится формулировать задачи, максимизирующие ее собственный прогресс в обучении, и повышает свои способности к рассуждению, решая их, не опираясь на внешние данные».
🔸 «Не полагаясь ни на золотые метки, ни на человеко-заданные запросы, Absolute Zero Reasoner, обученный с помощью предложенного нами само­игрового подхода, демонстрирует впечатляющий рост общих способностей к рассуждению как в математике, так и в программировании».

🔄 Принцип самообучения

Модель проходит цикл «предложил–решил–оценил–улучшил» без внешних данных:
1. Proposer генерирует задание, оптимизируя его полезность для собственного обучения.
2. Solver решает его и отправляет решение встроенному code executor, который проверяет корректность ответа.
3. Модель получает награду за верное решение и обновляет параметры с помощью алгоритма Task-Relative REINFORCE++, укрепляя успешные стратегии.
«Агент обучается через взаимодействие с окружением, которое предоставляет верифицируемую обратную связь, обеспечивая надёжное и непрерывное само­улучшение без какого-либо участия человека».


📊 Результаты
• AZR опережает модели, обученные на десятках тысяч размеченных примеров.
• Устанавливает новый рекорд в задачах программирования и математического рассуждения.

💡 Почему это важно?
В условиях нарастающей нехватки высококачественных данных, созданных человеком, модель демонстрирует, что базовые навыки рассуждения могут формироваться полностью автономно. Такой подход открывает путь к ИИ, который самостоятельно ставит себе всё более сложные цели и повышает интеллект без нашего вмешательства.

#AI #RL #самообучающиеся_модели #технологии

🚀 ©ТехноТренды
🤩1