StepCoder улучшает генерацию кода
StepCoder - новая среда для обучения генерации кода с помощью обучения с подкреплением.
Авторы упрощают задачи исследования для снижения сложности сред с разреженным вознаграждением.
Набор данных APPS+:
https://github.com/Ablustrund/APPS_Plus
Основная цель - улучшение генерации кода на базе обратной связи от компилятора.
#StepCoder #RL
StepCoder - новая среда для обучения генерации кода с помощью обучения с подкреплением.
Авторы упрощают задачи исследования для снижения сложности сред с разреженным вознаграждением.
Набор данных APPS+:
https://github.com/Ablustrund/APPS_Plus
Основная цель - улучшение генерации кода на базе обратной связи от компилятора.
#StepCoder #RL
Крутой и подробный гайд по обучению с подкреплением (Reinforcement Learning, RL)! 🚀
Это подробное руководство от naklecha, которое объясняет RL через практические примеры и реальные применения.
Кратко:
Основы RL на примере шахмат 🎮
- Объясняется концепция состояний и действий
- Вводится понятие функции ценности (value function)
- Рассматривается проблема огромного пространства состояний
Алгоритмы и методы 🤖
- Q-learning и его улучшенные версии
- Monte Carlo Tree Search (MCTS)
- Deep Q-Networks (DQN)
- Actor-Critic методы
- PPO (Proximal Policy Optimization)
- TRPO (Trust Region Policy Optimization)
Практические применения 💡
- Обучение языковых моделей (LLM) через RLHF
- Использование в рекомендательных системах (Netflix)
- Применение в играх (DotA 2, шахматы)
- Новые методы вроде RLOO от Cohere
Современные достижения 🔥
- Разбор архитектуры ChatGPT и подобных систем
- Обсуждение новой модели O3 от OpenAI
- Анализ распределенных систем RL
Особенно интересно, что автор объясняет сложные концепции через понятные примеры и постепенно наращивает сложность.
Это делает материал доступным даже для начинающих, при этом охватывая продвинутые темы для опытных разработчиков.
Гайд завершается обсуждением последних достижений в области RL и его применения в современных AI-системах, что делает его особенно актуальным для понимания текущего состояния отрасли! 🌟
Кстати, автор создал некоммерческую организацию A10 labs (AAAAAAAAAA.org), целью которой является сделать исследования в области ИИ более доступными для понимания. 🎯
Там прям ещё круче:
> 20.07.2024 (video) tree to wifi speedrun
> 25.06.2024 (video) transformers from the atom up
> 19.05.2024 (guide) llama3 from scratch
> 27.01.2024 (experiment) embedding experiments
> 12.12.2023 (guide) latent consistency models
> 23.11.2023 (tool) curated research papers
Ну везде английский само-собой.
В наше время это как латынь в медицине, извините.
Не знаешь, - проиграл.
#RL #guide #обучение
———
@tsingular
Это подробное руководство от naklecha, которое объясняет RL через практические примеры и реальные применения.
Кратко:
Основы RL на примере шахмат 🎮
- Объясняется концепция состояний и действий
- Вводится понятие функции ценности (value function)
- Рассматривается проблема огромного пространства состояний
Алгоритмы и методы 🤖
- Q-learning и его улучшенные версии
- Monte Carlo Tree Search (MCTS)
- Deep Q-Networks (DQN)
- Actor-Critic методы
- PPO (Proximal Policy Optimization)
- TRPO (Trust Region Policy Optimization)
Практические применения 💡
- Обучение языковых моделей (LLM) через RLHF
- Использование в рекомендательных системах (Netflix)
- Применение в играх (DotA 2, шахматы)
- Новые методы вроде RLOO от Cohere
Современные достижения 🔥
- Разбор архитектуры ChatGPT и подобных систем
- Обсуждение новой модели O3 от OpenAI
- Анализ распределенных систем RL
Особенно интересно, что автор объясняет сложные концепции через понятные примеры и постепенно наращивает сложность.
Это делает материал доступным даже для начинающих, при этом охватывая продвинутые темы для опытных разработчиков.
Гайд завершается обсуждением последних достижений в области RL и его применения в современных AI-системах, что делает его особенно актуальным для понимания текущего состояния отрасли! 🌟
Кстати, автор создал некоммерческую организацию A10 labs (AAAAAAAAAA.org), целью которой является сделать исследования в области ИИ более доступными для понимания. 🎯
Там прям ещё круче:
> 20.07.2024 (video) tree to wifi speedrun
> 25.06.2024 (video) transformers from the atom up
> 19.05.2024 (guide) llama3 from scratch
> 27.01.2024 (experiment) embedding experiments
> 12.12.2023 (guide) latent consistency models
> 23.11.2023 (tool) curated research papers
Ну везде английский само-собой.
В наше время это как латынь в медицине, извините.
Не знаешь, - проиграл.
#RL #guide #обучение
———
@tsingular
1🔥9✍3👍2🏆2
DeepSeek использует идеи, которые Шмидхубер предложил еще в 2015-2018 годах:
DeepSeekR1 (2025): Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv 2501.12948
Концепция RL prompt engineer (2015) - система, которая активно учится формулировать промпты для абстрактного мышления и планирования. arXiv:1210.0118
"One Big Net For Everything" (2018) [arXiv 1802.08864] - объединение RL-системы и языковой модели в единую нейросеть через дистилляцию. По сути, это то, что сейчас называют RL Chain of Thought.
Интересно, что базовые принципы дистилляции (сжатия знаний от "учителя" к "ученику") были предложены еще в 1991 году! 🎓
Тогда эта техника использовалась для решения проблемы затухающего градиента через предварительное обучение без учителя (кстати, та самая "P" в ChatGPT).
Идеи циклически возвращаются в новом обличии. То, что было революционным в 90-х, сейчас становится основой для современных LLM.
Пост в Х
Не знаю как это работает, но вот именно эти циклы обратной связи я видел во сне в 2001м
#Schmidhuber #RL #deepseek
———
@tsingular
DeepSeekR1 (2025): Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv 2501.12948
Концепция RL prompt engineer (2015) - система, которая активно учится формулировать промпты для абстрактного мышления и планирования. arXiv:1210.0118
"One Big Net For Everything" (2018) [arXiv 1802.08864] - объединение RL-системы и языковой модели в единую нейросеть через дистилляцию. По сути, это то, что сейчас называют RL Chain of Thought.
Интересно, что базовые принципы дистилляции (сжатия знаний от "учителя" к "ученику") были предложены еще в 1991 году! 🎓
Тогда эта техника использовалась для решения проблемы затухающего градиента через предварительное обучение без учителя (кстати, та самая "P" в ChatGPT).
Идеи циклически возвращаются в новом обличии. То, что было революционным в 90-х, сейчас становится основой для современных LLM.
Пост в Х
Не знаю как это работает, но вот именно эти циклы обратной связи я видел во сне в 2001м
#Schmidhuber #RL #deepseek
———
@tsingular
👍8
This media is not supported in your browser
VIEW IN TELEGRAM
QwQ-32B: Тихая революция в мире ИИ от команды Qwen
Qwen выпустили модель QwQ-32B, которая делает то, что раньше казалось невозможным: достигает производительности DeepSeek-R1 (с 671B параметров) всего при 32B параметров (контекст 131К).
Что интересно:
1. Масштабируемый Reinforcement Learning — ключевой прорыв. Вместо традиционных reward models используют:
- Верификаторы точности для математических задач
- Сервер выполнения кода для проверки работоспособности на этапе обучения.
2. Двухэтапный подход: сначала оптимизация для математики/кодинга, затем для общих способностей — без потери специализированных навыков.
3. Интеграция агентных возможностей — модель не просто рассуждает, но использует инструменты и адаптирует логику на основе обратной связи.
4. Открытые веса — распространяется под Apache 2.0, доступна через HuggingFace/ModelScope.
Производительность:
На A100 80GB — 14.6 токенов/с при квантизации до Int4 (AWQ).
Для контекста в 32K токенов требуется всего 31.56 GB памяти. (>32К включается отдельно в настройках)
HuggingFace
Demo
Фишка с проверкой кода на этапе обучения через обратную связь, - это интересно. Т.е. мы не просто кормим модель дистиллятом, - что тоже полезно и вкусно, как показывает опыт DeepSeek R1, но еще проверяем как она поняла и тут же исправляем по фактической проверке в исполняемой среде.
#Qwen #Китай #RL
———
@tsingular
Qwen выпустили модель QwQ-32B, которая делает то, что раньше казалось невозможным: достигает производительности DeepSeek-R1 (с 671B параметров) всего при 32B параметров (контекст 131К).
Что интересно:
1. Масштабируемый Reinforcement Learning — ключевой прорыв. Вместо традиционных reward models используют:
- Верификаторы точности для математических задач
- Сервер выполнения кода для проверки работоспособности на этапе обучения.
2. Двухэтапный подход: сначала оптимизация для математики/кодинга, затем для общих способностей — без потери специализированных навыков.
3. Интеграция агентных возможностей — модель не просто рассуждает, но использует инструменты и адаптирует логику на основе обратной связи.
4. Открытые веса — распространяется под Apache 2.0, доступна через HuggingFace/ModelScope.
Производительность:
На A100 80GB — 14.6 токенов/с при квантизации до Int4 (AWQ).
Для контекста в 32K токенов требуется всего 31.56 GB памяти. (>32К включается отдельно в настройках)
HuggingFace
Demo
Фишка с проверкой кода на этапе обучения через обратную связь, - это интересно. Т.е. мы не просто кормим модель дистиллятом, - что тоже полезно и вкусно, как показывает опыт DeepSeek R1, но еще проверяем как она поняла и тут же исправляем по фактической проверке в исполняемой среде.
#Qwen #Китай #RL
———
@tsingular
👍13
🚀LADDER: LLM учится решать задачи как человек - от простого к сложному
Исследователи из Tufa Labs разработали подход LADDER (Learning through Autonomous Difficulty-Driven Example Recursion), позволяющий моделям учиться на декомпозиции сложных задач.
Суть в том, что модель сама генерирует более простые варианты сложной задачи, образуя естественный градиент сложности.
Она решает эти упрощенные варианты и постепенно учится решать всё более сложные задачи — без участия человека! 🤯
🧪 Технические детали, которые делают этот метод особенным:
1. Рекурсивное разложение проблемы: Модель генерирует дерево вариантов, где каждый новый уровень проще предыдущего. Важно, что сама модель определяет, как упростить задачу.
2. Верификация решений: на математической задаче из примера для проверки используется численное интегрирование, которое дает достоверную проверку.
3. Reinforcement Learning (GRPO): Применяется Group Relative Policy Optimization без отдельной критической модели, что экономит память и повышает эффективность.
4. TTRL (Test-Time Reinforcement Learning): Когда модель сталкивается с новой сложной задачей на этапе тестирования, она генерирует для неё варианты прямо во время вывода!
🔥 Результаты просто огонь:
- Модель Llama 3.2 3B улучшила точность с 1% до 82% на университетских интегралах
- 7B модель достигла 73% на экзамене MIT Integration Bee, превзойдя GPT-4o (42%)
- После TTRL та же 7B модель достигла 90% на MIT Integration Bee, перегнав даже OpenAI o1 (80%)
Да, вы правильно поняли — 7-миллиардная модель ОБОШЛА топовые модели с триллионами параметров! И это без дополнительной архитектурной оптимизации и человеческого фидбека.
💼 Бизнес-применение:
1. Экономия на вычислительных ресурсах: зачем платить за огромные модели, если можно научить маленькие?
2. Создание узкоспециализированных решений с меньшими бюджетами: можно взять маленькую модель и научить её конкретной задаче.
3. Edge-устройства: теперь реально делать локальные приложения с продвинутым мышлением на слабом железе.
Кажется, наконец-то появится альтернатива подходу "залить всё железом". LADDER открывает дверь к более эффективным моделям без безумного масштабирования.
Т.е. 5090 пока не покупаем :)
#LADDER #RL #mathematics
Исследователи из Tufa Labs разработали подход LADDER (Learning through Autonomous Difficulty-Driven Example Recursion), позволяющий моделям учиться на декомпозиции сложных задач.
Суть в том, что модель сама генерирует более простые варианты сложной задачи, образуя естественный градиент сложности.
Она решает эти упрощенные варианты и постепенно учится решать всё более сложные задачи — без участия человека! 🤯
🧪 Технические детали, которые делают этот метод особенным:
1. Рекурсивное разложение проблемы: Модель генерирует дерево вариантов, где каждый новый уровень проще предыдущего. Важно, что сама модель определяет, как упростить задачу.
2. Верификация решений: на математической задаче из примера для проверки используется численное интегрирование, которое дает достоверную проверку.
3. Reinforcement Learning (GRPO): Применяется Group Relative Policy Optimization без отдельной критической модели, что экономит память и повышает эффективность.
4. TTRL (Test-Time Reinforcement Learning): Когда модель сталкивается с новой сложной задачей на этапе тестирования, она генерирует для неё варианты прямо во время вывода!
🔥 Результаты просто огонь:
- Модель Llama 3.2 3B улучшила точность с 1% до 82% на университетских интегралах
- 7B модель достигла 73% на экзамене MIT Integration Bee, превзойдя GPT-4o (42%)
- После TTRL та же 7B модель достигла 90% на MIT Integration Bee, перегнав даже OpenAI o1 (80%)
Да, вы правильно поняли — 7-миллиардная модель ОБОШЛА топовые модели с триллионами параметров! И это без дополнительной архитектурной оптимизации и человеческого фидбека.
💼 Бизнес-применение:
1. Экономия на вычислительных ресурсах: зачем платить за огромные модели, если можно научить маленькие?
2. Создание узкоспециализированных решений с меньшими бюджетами: можно взять маленькую модель и научить её конкретной задаче.
3. Edge-устройства: теперь реально делать локальные приложения с продвинутым мышлением на слабом железе.
Кажется, наконец-то появится альтернатива подходу "залить всё железом". LADDER открывает дверь к более эффективным моделям без безумного масштабирования.
Т.е. 5090 пока не покупаем :)
#LADDER #RL #mathematics
👍13❤🔥1
Forwarded from Machinelearning
SEAL - это методика от MiT, позволяющая LLM самостоятельно генерировать обучающие данные и настраивать параметры обучения, чтобы адаптироваться к новым задачам. Вместо традиционного файнтюна на внешних данных модель учится рефлексировать: анализировать контекст, создавать из него синтетические данные и применять их для корректировки собственных весов через механизм усиленного обучения.
SEAL, по сути, это два разделенных цикла:
Этот процесс повторяется, постепенно формируя у модели навык преобразования исходных данных в полезные обучающие сигналы.
SEAL протестили на 2 задачах: интеграции новых знаний и few-shot обучении. В первом случае модель генерирует логические следствия из текста, дообучается на них и улучшает точность ответов на вопросы без доступа к исходному тексту.
Во втором случае SEAL выбирает оптимальные аугментации данных и гиперпараметры для обучения на примерах задач ARC-AGI.
В обоих сценариях SEAL превзошел подходы с фиксированными шаблонами (ICL, TTT+Self Edit без RL и) и даже синтетическими данными от GPT-4.1.
Метод скорее академический и по большей части экспериментальный, у него есть ограничения:
@ai_machinelearning_big_data
#AI #ML #LLM #SEAL #RL #MiT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍4✍3⚡2
Интересный доклад Джона Кармака (это который Doom разработал, если кто не в курсе из молодежи)
Ключевые тезисы:
🎮 Физическое обучение RL на Atari:
- Создали робота с камерой и сервоприводами, который рубится в приставку Atari
- Задержка на реакциях ~180мс (как у человека: 150-200мс)
Проблемы: распознавание счета, износ джойстика, "фантомные" действия
🧠 Фундаментальные проблемы RL:
- Sequential multitask learning - агенты забывают предыдущие игры при изучении новых
- Transfer learning провален - даже после обучения на 10+ играх, новая игра изучается с нуля, что значительно отбрасывает ИИ в сравнении с человеком назад
- Sparse rewards - в реальности награды редкие, не как в видеоиграх
⚡️ Критика современных подходов:
- LLM не выход и не решение так как не работают как человеческий мозг
- Современные RL-алгоритмы разваливаются при добавлении латентности
- Replay ratio 8:1 нереалистичен для реального мира
🎯 Предложения:
- Новый бенчмарк: последовательное обучение на Atari играх
- Инвертированная RL-среда (среда вызывает агента, а не наоборот)
- Фокус на intrinsic rewards вместо внешней оценки
Главный вывод: Современные RL-системы ИИ далеки от человека в части обучения и адаптации.
AGI откладывается на неопределённый срок, короче.
Пока ИИшка сама не сможет играть в игры и системно в них выигрывать, - без специальной среды, а просто подойдя к игровому автомату, - человек будет эффективнее.
#Джон #Кармак #Doom #RL #AGI
———
@tsingular
Ключевые тезисы:
🎮 Физическое обучение RL на Atari:
- Создали робота с камерой и сервоприводами, который рубится в приставку Atari
- Задержка на реакциях ~180мс (как у человека: 150-200мс)
Проблемы: распознавание счета, износ джойстика, "фантомные" действия
🧠 Фундаментальные проблемы RL:
- Sequential multitask learning - агенты забывают предыдущие игры при изучении новых
- Transfer learning провален - даже после обучения на 10+ играх, новая игра изучается с нуля, что значительно отбрасывает ИИ в сравнении с человеком назад
- Sparse rewards - в реальности награды редкие, не как в видеоиграх
⚡️ Критика современных подходов:
- LLM не выход и не решение так как не работают как человеческий мозг
- Современные RL-алгоритмы разваливаются при добавлении латентности
- Replay ratio 8:1 нереалистичен для реального мира
🎯 Предложения:
- Новый бенчмарк: последовательное обучение на Atari играх
- Инвертированная RL-среда (среда вызывает агента, а не наоборот)
- Фокус на intrinsic rewards вместо внешней оценки
Главный вывод: Современные RL-системы ИИ далеки от человека в части обучения и адаптации.
AGI откладывается на неопределённый срок, короче.
Пока ИИшка сама не сможет играть в игры и системно в них выигрывать, - без специальной среды, а просто подойдя к игровому автомату, - человек будет эффективнее.
#Джон #Кармак #Doom #RL #AGI
———
@tsingular
👍7❤2🔥2
Forwarded from Machinelearning
Глубокие исследовательские агенты — не просто чат‑боты, а полноценные ИИ‑ассистенты, способные искать информацию, взаимодействовать с инструментами, планировать и писать отчёты. Ниже — 10 мощных open‑source проектов, которые уже можно протестировать:
1. DeerFlow — модульная система от Bytedance: DeerFlow — open‑source фреймворк от Bytedance для создания модульных LLM-агентов.
Поддерживает:
- планирование действий,
- анализ кода,
- генерацию отчётов (включая Text-to-Speech),
- адаптивную интеграцию инструментов.
Создан для исследований, автоматизации и построения сложных агентных пайплайнов.
https://github.com/bytedance/deer-flow
2. Alita — самообучающийся агент с поддержкой Model Context Protocols (MCP), всё в одном модуле. Alita — агент, который сам придумывает, как ему расширить себя, не полагаясь на заранее написанные сценарии, и уже демонстрирует топовые результаты на сложных тестах.
https://github.com/CharlesQ9/Alita
3. WebThinker — автономный веб‑поиск с логикой "думай‑ищи‑пиши", RL‑обучением и глубокой навигацией
https://github.com/RUC-NLPIR/WebThinker
4. SimpleDeepSearcher — это лёгкий, но эффективный open‑source фреймворк от RUCAIBox, предназначенный для автономного веб-поиска через импровизированные многотуровые сессии:
- Использует Supervised Fine‑Tuning (SFT) вместо сложного RL, что значительно упрощает обучение и снижает вычислительные затраты
- Генерирует реалистичные траектории поиска и рассуждений, симулируя поведение пользователя в живом поисковом окружении .
- Критически отбирает данные по нескольким критериям качества: разнообразие запросов, сложность, структура ответов
5. AgenticSeek — приватный on‑device ассистент с выбором эксперта под задачу и голосовым управлением
https://github.com/Fosowl/agenticSeek
6. Suna — универсальный ассистент: браузер, CLI, работа с файлами, API, деплой
https://github.com/kortix-ai/suna
7. DeepResearcher — это комплексный open-source фреймворк от GAIR‑NLP, предназначенный для обучения LLM‑агентов, способных проводить глубокие исследования в автономном режиме, взаимодействуя с вебом. Использует несколько агентов‑браузеров, которые совместно исследуют веб и обрабатывают информацию
https://github.com/GAIR-NLP/DeepResearcher
8. Search‑R1 — агент на PPO/GRPO с поддержкой LLaMA3, Qwen2.5 и кастомных поисковиков. Агент учится эффективному циклу «думай — ищи — думай — отвечай» через RL, достигая важных улучшений в точности ответов и эффективности поиска.
https://github.com/PeterGriffinJin/Search-R1
9. ReCall — это фреймворк на основе RL, который учит LLM "должным образом" вызывать и комбинировать инструменты, используя сгенерированные задачи, без необходимости вручную собирать примеры вызовов — и всё это в открытом доступе.
https://github.com/Agent-RL/ReCall
10. OWL — мультиагентная система на CAMEL‑AI для динамического взаимодействия между агентами
https://github.com/camel-ai/owl
Агенты умеют планировать, взаимодействовать с браузером, запускать скрипты, интегрироваться с API и работать автономно.
Всё проекты — с открытым кодом. Можно изучить, собрать и доработать под свои задачи.
@ai_machinelearning_big_data
#ml #rl #aiagents #ai #agents
Please open Telegram to view this post
VIEW IN TELEGRAM
✍6⚡2