🚀 ART (Agent Reinforcement Trainer) — фреймворк для обучения агентных моделей с помощью RL.
✨ Что внутри:
- RULER — система вознаграждений, где LLM сам оценивает действия агента.
- MCP•RL — агенты учатся работать с инструментами и выполнять задачи без размеченных данных.
- GSPO / GRPO — новые стабильные алгоритмы RL, особенно полезные для MoE-моделей.
- Интеграции — vLLM, Unsloth, SkyPilot, W&B, Langfuse.
🔥 Кейсы:
ART уже обучает почтового агента (**ART•E**), где Qwen 2.5 14B обходит даже o3 на ряде задач.
⚙️ Установка:
👉 Репозиторий: github.com/OpenPipe/ART
@machinelearning_interview
✨ Что внутри:
- RULER — система вознаграждений, где LLM сам оценивает действия агента.
- MCP•RL — агенты учатся работать с инструментами и выполнять задачи без размеченных данных.
- GSPO / GRPO — новые стабильные алгоритмы RL, особенно полезные для MoE-моделей.
- Интеграции — vLLM, Unsloth, SkyPilot, W&B, Langfuse.
🔥 Кейсы:
ART уже обучает почтового агента (**ART•E**), где Qwen 2.5 14B обходит даже o3 на ряде задач.
⚙️ Установка:
pip install openpipe-art
👉 Репозиторий: github.com/OpenPipe/ART
@machinelearning_interview
👍6🔥3❤2🥰1
Forwarded from Machinelearning
Awesome-Self-Evolving-Agents - подборка материалов по теме оптимизации агентов в концепции саморазвивающихся систем, в которой собраны работы с 2023 по 2025 год по 3-м направлениям: оптимизация одиночного агента, оптимизация мультиагентных систем и методы их оценки.
Содержание
@ai_machinelearning_big_data
#AI #ML #LLM #Agents #AwesomeList #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍6🥰4
🚀 В репозитории rasbt/LLMs-from-scratch появился новый раздел: Gemma 3 from Scratch — PyTorch-реализация модели Gemma 3 (270M) полностью с нуля, выполненная в Jupyter-ноутбуке (~1.5 ГБ RAM).
Gemma 3 — одна из самых интресных open-weight моделей от Google.
Это отличный способ изучить архитектуру крупной LLM без абстракций.
Советую: если вы хотите глубже понять, как работают современные языковые модели — этот раздел будет идеальным обучающим материалом.
📌 Читать
Gemma 3 — одна из самых интресных open-weight моделей от Google.
Это отличный способ изучить архитектуру крупной LLM без абстракций.
Советую: если вы хотите глубже понять, как работают современные языковые модели — этот раздел будет идеальным обучающим материалом.
📌 Читать
🔥8❤5👍1