🚀 В ByteDance Seed представили новую технику для обучения LLM - Knapsack RL
Проблема: в классическом RL-тренинге распределение rollout-ов идёт равномерно.
✅ Простые задачи всегда решаются → нет градиента
❌ Сложные задачи всегда проваливаются → тоже нет градиента
💡 Решение: рассматривать exploration как задачу рюкзака (knapsack) и распределять вычислительный бюджет туда, где это реально даёт сигнал обучения.
✨ Результаты:
🔼 +20–40% больше ненулевых градиентов
🧮 До 93 rollout-ов на сложные задачи (без доп. вычислений)
📈 +2–4 средних балла, до +9 на пике в математических бенчмарках
💰 ~в 2 раза дешевле, чем равномерное распределение
📄 Подробности: huggingface.co/papers/2509.25849
Проблема: в классическом RL-тренинге распределение rollout-ов идёт равномерно.
✅ Простые задачи всегда решаются → нет градиента
❌ Сложные задачи всегда проваливаются → тоже нет градиента
💡 Решение: рассматривать exploration как задачу рюкзака (knapsack) и распределять вычислительный бюджет туда, где это реально даёт сигнал обучения.
✨ Результаты:
🔼 +20–40% больше ненулевых градиентов
🧮 До 93 rollout-ов на сложные задачи (без доп. вычислений)
📈 +2–4 средних балла, до +9 на пике в математических бенчмарках
💰 ~в 2 раза дешевле, чем равномерное распределение
📄 Подробности: huggingface.co/papers/2509.25849
👍12❤5🔥2
🛰 ComputerRL - новый фреймворк, который учит AI-агентов работать с компьютером так же, как это делает человек.
Главная идея - парадигма API-GUI: агент может и вызывать API, и кликать по кнопкам интерфейса. Благодаря этому исчезает разрыв между машинной автоматизацией и привычным для человека рабочим столом.
Команда Zai проверила ComputerRL на модели GLM-4-9B-0414 и протестировала её на бенчмарке OSWorld. Результат — новый агент AutoGLM-OS-9B, который достиг рекордной точности и уверенно решает задачи автоматизации в desktop-средах.
Проще говоря: теперь AI может не только «понимать» компьютер, но и полноценно работать с ним — запускать программы, управлять окнами и выполнять сложные действия.
📌 Статья
📌 Проект
Главная идея - парадигма API-GUI: агент может и вызывать API, и кликать по кнопкам интерфейса. Благодаря этому исчезает разрыв между машинной автоматизацией и привычным для человека рабочим столом.
Команда Zai проверила ComputerRL на модели GLM-4-9B-0414 и протестировала её на бенчмарке OSWorld. Результат — новый агент AutoGLM-OS-9B, который достиг рекордной точности и уверенно решает задачи автоматизации в desktop-средах.
Проще говоря: теперь AI может не только «понимать» компьютер, но и полноценно работать с ним — запускать программы, управлять окнами и выполнять сложные действия.
📌 Статья
📌 Проект
❤10👍5🔥3