Технозаметки Малышева

StepCoder улучшает генерацию кода

StepCoder - новая среда для обучения генерации кода с помощью обучения с подкреплением.
Авторы упрощают задачи исследования для снижения сложности сред с разреженным вознаграждением.
Набор данных APPS+:
https://github.com/Ablustrund/APPS_Plus

Основная цель - улучшение генерации кода на базе обратной связи от компилятора.

#StepCoder #RL

97 viewsedited 17:18

Крутой и подробный гайд по обучению с подкреплением (Reinforcement Learning, RL)! 🚀

Это подробное руководство от naklecha, которое объясняет RL через практические примеры и реальные применения.

Кратко:

Основы RL на примере шахмат 🎮

- Объясняется концепция состояний и действий
- Вводится понятие функции ценности (value function)
- Рассматривается проблема огромного пространства состояний

Алгоритмы и методы 🤖

- Q-learning и его улучшенные версии
- Monte Carlo Tree Search (MCTS)
- Deep Q-Networks (DQN)
- Actor-Critic методы

- PPO (Proximal Policy Optimization)
- TRPO (Trust Region Policy Optimization)

Практические применения 💡

- Обучение языковых моделей (LLM) через RLHF
- Использование в рекомендательных системах (Netflix)
- Применение в играх (DotA 2, шахматы)
- Новые методы вроде RLOO от Cohere

Современные достижения 🔥

- Разбор архитектуры ChatGPT и подобных систем
- Обсуждение новой модели O3 от OpenAI
- Анализ распределенных систем RL

Особенно интересно, что автор объясняет сложные концепции через понятные примеры и постепенно наращивает сложность.
Это делает материал доступным даже для начинающих, при этом охватывая продвинутые темы для опытных разработчиков.

Гайд завершается обсуждением последних достижений в области RL и его применения в современных AI-системах, что делает его особенно актуальным для понимания текущего состояния отрасли! 🌟

Кстати, автор создал некоммерческую организацию A10 labs (AAAAAAAAAA.org), целью которой является сделать исследования в области ИИ более доступными для понимания. 🎯

Там прям ещё круче:
> 20.07.2024 (video) tree to wifi speedrun
> 25.06.2024 (video) transformers from the atom up
> 19.05.2024 (guide) llama3 from scratch
> 27.01.2024 (experiment) embedding experiments
> 12.12.2023 (guide) latent consistency models
> 23.11.2023 (tool) curated research papers

Ну везде английский само-собой.
В наше время это как латынь в медицине, извините.
Не знаешь, - проиграл.

#RL #guide #обучение
———
@tsingular

1🔥9✍3👍2🏆2

1.56K views16:45

Технозаметки Малышева

DeepSeek использует идеи, которые Шмидхубер предложил еще в 2015-2018 годах:

DeepSeekR1 (2025): Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv 2501.12948

Концепция RL prompt engineer (2015) - система, которая активно учится формулировать промпты для абстрактного мышления и планирования. arXiv:1210.0118

"One Big Net For Everything" (2018) [arXiv 1802.08864] - объединение RL-системы и языковой модели в единую нейросеть через дистилляцию. По сути, это то, что сейчас называют RL Chain of Thought.

Интересно, что базовые принципы дистилляции (сжатия знаний от "учителя" к "ученику") были предложены еще в 1991 году! 🎓
Тогда эта техника использовалась для решения проблемы затухающего градиента через предварительное обучение без учителя (кстати, та самая "P" в ChatGPT).

Идеи циклически возвращаются в новом обличии. То, что было революционным в 90-х, сейчас становится основой для современных LLM.

Пост в Х

Не знаю как это работает, но вот именно эти циклы обратной связи я видел во сне в 2001м

#Schmidhuber #RL #deepseek
———
@tsingular

👍8

990 viewsedited 17:19

Технозаметки Малышева

This media is not supported in your browser

VIEW IN TELEGRAM

QwQ-32B: Тихая революция в мире ИИ от команды Qwen

Qwen выпустили модель QwQ-32B, которая делает то, что раньше казалось невозможным: достигает производительности DeepSeek-R1 (с 671B параметров) всего при 32B параметров (контекст 131К).

Что интересно:
1. Масштабируемый Reinforcement Learning — ключевой прорыв. Вместо традиционных reward models используют:
- Верификаторы точности для математических задач
- Сервер выполнения кода для проверки работоспособности на этапе обучения.

2. Двухэтапный подход: сначала оптимизация для математики/кодинга, затем для общих способностей — без потери специализированных навыков.

3. Интеграция агентных возможностей — модель не просто рассуждает, но использует инструменты и адаптирует логику на основе обратной связи.

4. Открытые веса — распространяется под Apache 2.0, доступна через HuggingFace/ModelScope.

Производительность:
На A100 80GB — 14.6 токенов/с при квантизации до Int4 (AWQ).
Для контекста в 32K токенов требуется всего 31.56 GB памяти. (>32К включается отдельно в настройках)

HuggingFace

Demo

Фишка с проверкой кода на этапе обучения через обратную связь, - это интересно. Т.е. мы не просто кормим модель дистиллятом, - что тоже полезно и вкусно, как показывает опыт DeepSeek R1, но еще проверяем как она поняла и тут же исправляем по фактической проверке в исполняемой среде.

#Qwen #Китай #RL
———
@tsingular

👍13

1.01K viewsedited 04:18

Технозаметки Малышева

🚀LADDER: LLM учится решать задачи как человек - от простого к сложному

Исследователи из Tufa Labs разработали подход LADDER (Learning through Autonomous Difficulty-Driven Example Recursion), позволяющий моделям учиться на декомпозиции сложных задач.

Суть в том, что модель сама генерирует более простые варианты сложной задачи, образуя естественный градиент сложности.

Она решает эти упрощенные варианты и постепенно учится решать всё более сложные задачи — без участия человека! 🤯

🧪 Технические детали, которые делают этот метод особенным:
1. Рекурсивное разложение проблемы: Модель генерирует дерево вариантов, где каждый новый уровень проще предыдущего. Важно, что сама модель определяет, как упростить задачу.

2. Верификация решений: на математической задаче из примера для проверки используется численное интегрирование, которое дает достоверную проверку.

3. Reinforcement Learning (GRPO): Применяется Group Relative Policy Optimization без отдельной критической модели, что экономит память и повышает эффективность.

4. TTRL (Test-Time Reinforcement Learning): Когда модель сталкивается с новой сложной задачей на этапе тестирования, она генерирует для неё варианты прямо во время вывода!

🔥 Результаты просто огонь:
- Модель Llama 3.2 3B улучшила точность с 1% до 82% на университетских интегралах

- 7B модель достигла 73% на экзамене MIT Integration Bee, превзойдя GPT-4o (42%)

- После TTRL та же 7B модель достигла 90% на MIT Integration Bee, перегнав даже OpenAI o1 (80%)

Да, вы правильно поняли — 7-миллиардная модель ОБОШЛА топовые модели с триллионами параметров! И это без дополнительной архитектурной оптимизации и человеческого фидбека.

💼 Бизнес-применение:
1. Экономия на вычислительных ресурсах: зачем платить за огромные модели, если можно научить маленькие?
2. Создание узкоспециализированных решений с меньшими бюджетами: можно взять маленькую модель и научить её конкретной задаче.
3. Edge-устройства: теперь реально делать локальные приложения с продвинутым мышлением на слабом железе.

Кажется, наконец-то появится альтернатива подходу "залить всё железом". LADDER открывает дверь к более эффективным моделям без безумного масштабирования.

Т.е. 5090 пока не покупаем :)

#LADDER #RL #mathematics

👍13❤‍🔥1

1.15K views08:04

Технозаметки Малышева

Forwarded from Machinelearning

🌟

SEAL: Еще одна попытка создать пайплайн самообучающихся LLM.

SEAL - это методика от MiT, позволяющая LLM самостоятельно генерировать обучающие данные и настраивать параметры обучения, чтобы адаптироваться к новым задачам. Вместо традиционного файнтюна на внешних данных модель учится рефлексировать: анализировать контекст, создавать из него синтетические данные и применять их для корректировки собственных весов через механизм усиленного обучения.

SEAL, по сути, это два разделенных цикла:

🟢Внешний цикл использует RL, чтобы научить модель генерировать «самоизменения» (инструкции на естественном языке, описывающие, какие данные использовать и как настраивать параметры).

🟢Внутренний цикл реализует эти изменения: модель дообучается на сгенерированных данных, а затем тестирует результат на конкретной задаче. За коррекцию отвечает RL-алгоритм ReSTEM, который оценивает эффективность изменений и обновляет стратегию генерации инструкций. Для экономии ресурсов используются легковесные адаптеры LoRA, которые модифицируют только часть параметров модели.

Этот процесс повторяется, постепенно формируя у модели навык преобразования исходных данных в полезные обучающие сигналы.

SEAL протестили на 2 задачах: интеграции новых знаний и few-shot обучении. В первом случае модель генерирует логические следствия из текста, дообучается на них и улучшает точность ответов на вопросы без доступа к исходному тексту.

Во втором случае SEAL выбирает оптимальные аугментации данных и гиперпараметры для обучения на примерах задач ARC-AGI.

В обоих сценариях SEAL превзошел подходы с фиксированными шаблонами (ICL, TTT+Self Edit без RL и) и даже синтетическими данными от GPT-4.1.

Метод скорее академический и по большей части экспериментальный, у него есть ограничения:

🟠При последовательном применении изменений модель склонна к «катастрофическому забыванию» — потере знаний, усвоенных ранее;

🟠Сопутствующие вычислительные затраты, так как каждая итерация требует дообучения и тестирования модели.

▶️В репозитории проекта разработчики выложили код, данные и инструкции для двух направлений:

🟢

Включение новых фактических знаний;

🟢

Адаптация к новым задачам на основе примеров.

📌Лицензирование: MIT License.

🟡

Страница проекта

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #SEAL #RL #MiT

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍4✍3⚡2

1.3K views07:16

Технозаметки Малышева

Интересный доклад Джона Кармака (это который Doom разработал, если кто не в курсе из молодежи)

Ключевые тезисы:

🎮 Физическое обучение RL на Atari:

- Создали робота с камерой и сервоприводами, который рубится в приставку Atari
- Задержка на реакциях ~180мс (как у человека: 150-200мс)
Проблемы: распознавание счета, износ джойстика, "фантомные" действия

🧠 Фундаментальные проблемы RL:
- Sequential multitask learning - агенты забывают предыдущие игры при изучении новых
- Transfer learning провален - даже после обучения на 10+ играх, новая игра изучается с нуля, что значительно отбрасывает ИИ в сравнении с человеком назад
- Sparse rewards - в реальности награды редкие, не как в видеоиграх

⚡️ Критика современных подходов:
- LLM не выход и не решение так как не работают как человеческий мозг
- Современные RL-алгоритмы разваливаются при добавлении латентности
- Replay ratio 8:1 нереалистичен для реального мира

🎯 Предложения:
- Новый бенчмарк: последовательное обучение на Atari играх
- Инвертированная RL-среда (среда вызывает агента, а не наоборот)
- Фокус на intrinsic rewards вместо внешней оценки

Главный вывод: Современные RL-системы ИИ далеки от человека в части обучения и адаптации.

AGI откладывается на неопределённый срок, короче.
Пока ИИшка сама не сможет играть в игры и системно в них выигрывать, - без специальной среды, а просто подойдя к игровому автомату, - человек будет эффективнее.

#Джон #Кармак #Doom #RL #AGI
———
@tsingular

👍7❤2🔥2

2.03K viewsedited 12:33

Технозаметки Малышева

Forwarded from Machinelearning

🔟 Open‑source Deep Research Assistants

🤖

Глубокие исследовательские агенты — не просто чат‑боты, а полноценные ИИ‑ассистенты, способные искать информацию, взаимодействовать с инструментами, планировать и писать отчёты. Ниже — 10 мощных open‑source проектов, которые уже можно протестировать:

1. DeerFlow — модульная система от Bytedance: DeerFlow — open‑source фреймворк от Bytedance для создания модульных LLM-агентов.
Поддерживает:
- планирование действий,
- анализ кода,
- генерацию отчётов (включая Text-to-Speech),
- адаптивную интеграцию инструментов.
Создан для исследований, автоматизации и построения сложных агентных пайплайнов.
https://github.com/bytedance/deer-flow

2. Alita — самообучающийся агент с поддержкой Model Context Protocols (MCP), всё в одном модуле. Alita — агент, который сам придумывает, как ему расширить себя, не полагаясь на заранее написанные сценарии, и уже демонстрирует топовые результаты на сложных тестах.
https://github.com/CharlesQ9/Alita

3. WebThinker — автономный веб‑поиск с логикой "думай‑ищи‑пиши", RL‑обучением и глубокой навигацией
https://github.com/RUC-NLPIR/WebThinker

4. SimpleDeepSearcher — это лёгкий, но эффективный open‑source фреймворк от RUCAIBox, предназначенный для автономного веб-поиска через импровизированные многотуровые сессии:

- Использует Supervised Fine‑Tuning (SFT) вместо сложного RL, что значительно упрощает обучение и снижает вычислительные затраты
- Генерирует реалистичные траектории поиска и рассуждений, симулируя поведение пользователя в живом поисковом окружении .
- Критически отбирает данные по нескольким критериям качества: разнообразие запросов, сложность, структура ответов

5. AgenticSeek — приватный on‑device ассистент с выбором эксперта под задачу и голосовым управлением
https://github.com/Fosowl/agenticSeek

6. Suna — универсальный ассистент: браузер, CLI, работа с файлами, API, деплой
https://github.com/kortix-ai/suna

7. DeepResearcher — это комплексный open-source фреймворк от GAIR‑NLP, предназначенный для обучения LLM‑агентов, способных проводить глубокие исследования в автономном режиме, взаимодействуя с вебом. Использует несколько агентов‑браузеров, которые совместно исследуют веб и обрабатывают информацию
https://github.com/GAIR-NLP/DeepResearcher

8. Search‑R1 — агент на PPO/GRPO с поддержкой LLaMA3, Qwen2.5 и кастомных поисковиков. Агент учится эффективному циклу «думай — ищи — думай — отвечай» через RL, достигая важных улучшений в точности ответов и эффективности поиска.
https://github.com/PeterGriffinJin/Search-R1

9. ReCall — это фреймворк на основе RL, который учит LLM "должным образом" вызывать и комбинировать инструменты, используя сгенерированные задачи, без необходимости вручную собирать примеры вызовов — и всё это в открытом доступе.
https://github.com/Agent-RL/ReCall

10. OWL — мультиагентная система на CAMEL‑AI для динамического взаимодействия между агентами
https://github.com/camel-ai/owl

Агенты умеют планировать, взаимодействовать с браузером, запускать скрипты, интегрироваться с API и работать автономно.

Всё проекты — с открытым кодом. Можно изучить, собрать и доработать под свои задачи.

@ai_machinelearning_big_data

#ml #rl #aiagents #ai #agents

Please open Telegram to view this post

VIEW IN TELEGRAM

✍6⚡2

1.38K views10:26

About

Blog

Apps

Platform