Machinelearning

🌟

DAPO: алгоритм RL-обучения от ByteDance.

ByteDance опубликовала техотчет и код проекта DAPO — RL-алгоритма для больших языковых моделей, который смог преодолеть ограничения классических методов: коллапс энтропии (PPO и GRPO), зашумление из-за отброса длинных ответов, "мертвые зоны" в данных (группы ответов с одинаковым вознаграждением) и жесткая привязка к KL-дивергенции (традиционный RLHF).

DAPO включил в себя сразу 4 инновационных метода:

🟢

Clip-Higher - решает проблему коллапса энтропии, разделяя диапазон клиппинга на нижний (low=0.2) и верхний (high=0.28). Это позволяет увеличивать вероятность маловероятных токенов, сохраняя разнообразие генерации, и предотвращает преждевременную фиксацию политики в локальном оптимуме.

🟢

Dynamic Sampling - устраняет «мёртвые зоны» обучения, отфильтровывая группы ответов с одинаковой наградой (0 или 1), которые не генерируют полезные градиенты. Метод динамически дополняет батч примерами, где есть хотя бы один верный и один неверный ответ, сохраняя стабильность обновлений, что в результате сокращает время сходимости даже с учетом увеличения объема генерации на 20-30%.

🟢

Token-Level Policy Gradient Loss - взвешивает вклад каждого токена в длинных цепочках рассуждений. Вместо усреднения по ответу градиенты рассчитываются для каждого токена, что предотвращает подавление значимых паттернов в длинных решениях. Например, 100-токенный ответ влияет на loss в 5 раз сильнее, чем 20-токенный, стимулируя целевую модель к структурированным рассуждениям.

🟢

Overlong Reward Shaping - заменяет бинарное пенальти за превышение длины на постепенную штрафную функцию. Ответы длиной до 16К токенов получают полную награду, а в интервале 16-20К токенов штраф линейно растёт от 0 до -1. В итоге - снижается шум, позволяя модели учиться на частично корректных длинных решениях, вместо их полного отбрасывания.

Экспериментально обученная с применением DAPO Qwen2.5-32B достигла рекордных 50 баллов на тесте AIME 2024, обойдя DeepSeek-R1-Zero-Qwen-32B (47 баллов) при 2х меньшем числе шагов обучения, а отказ от штрафа за расхождение Кульбака-Лейблера позволил целевой модели свободнее развивать сложные цепочки рассуждений.

DAPO, помимо опенсорсной доступности а репозитории на Github, интегрирован в фреймворк verl, а мониторинг поможет отследать ключевые метрики — длину ответов, динамику наград и энтропию.

Веса тестовой Qwen2.5-32B и, возможно, других базовых моделей, обученных с DAPO разработчики обещают опубликовать в ближайшем будущем. Попробовать обучение алгоритмом можно специально подготовленным скриптом, с опубликованными вместе датасетами DAPO-Math-17k и валидационным сетом AIME 2024.

🟡

Страница проекта

🟡

Arxiv

🟡

Датасет

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #RL #ByteDance #DAPO

Please open Telegram to view this post