ByteDance опубликовала техотчет и код проекта DAPO — RL-алгоритма для больших языковых моделей, который смог преодолеть ограничения классических методов: коллапс энтропии (PPO и GRPO), зашумление из-за отброса длинных ответов, "мертвые зоны" в данных (группы ответов с одинаковым вознаграждением) и жесткая привязка к KL-дивергенции (традиционный RLHF).
DAPO включил в себя сразу 4 инновационных метода:
Экспериментально обученная с применением DAPO Qwen2.5-32B достигла рекордных 50 баллов на тесте AIME 2024, обойдя DeepSeek-R1-Zero-Qwen-32B (47 баллов) при 2х меньшем числе шагов обучения, а отказ от штрафа за расхождение Кульбака-Лейблера позволил целевой модели свободнее развивать сложные цепочки рассуждений.
DAPO, помимо опенсорсной доступности а репозитории на Github, интегрирован в фреймворк verl, а мониторинг поможет отследать ключевые метрики — длину ответов, динамику наград и энтропию.
Веса тестовой Qwen2.5-32B и, возможно, других базовых моделей, обученных с DAPO разработчики обещают опубликовать в ближайшем будущем. Попробовать обучение алгоритмом можно специально подготовленным скриптом, с опубликованными вместе датасетами DAPO-Math-17k и валидационным сетом AIME 2024.
@ai_machinelearning_big_data
#AI #ML #LLM #RL #ByteDance #DAPO
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍46🔥21❤8🤓4🤔3👾3💅1