Machine learning Interview

🚀 ART (Agent Reinforcement Trainer) — фреймворк для обучения агентных моделей с помощью RL.

✨ Что внутри:
- RULER — система вознаграждений, где LLM сам оценивает действия агента.
- MCP•RL — агенты учатся работать с инструментами и выполнять задачи без размеченных данных.
- GSPO / GRPO — новые стабильные алгоритмы RL, особенно полезные для MoE-моделей.
- Интеграции — vLLM, Unsloth, SkyPilot, W&B, Langfuse.

🔥 Кейсы:
ART уже обучает почтового агента (**ART•E**), где Qwen 2.5 14B обходит даже o3 на ряде задач.

⚙️ Установка:


pip install openpipe-art

👉 Репозиторий: github.com/OpenPipe/ART

@machinelearning_interview

👍11🔥5❤3🥰2

4.18K views10:25

Machine learning Interview

Forwarded from Machinelearning

📌

Подборка материалов по оптимизации агентных систем.

Awesome-Self-Evolving-Agents - подборка материалов по теме оптимизации агентов в концепции саморазвивающихся систем, в которой собраны работы с 2023 по 2025 год по 3-м направлениям: оптимизация одиночного агента, оптимизация мультиагентных систем и методы их оценки.

Содержание

🟡

Оптимизация одного агента

🟢

Оптимизация поведения LLM

🟢

Оптимизация промпта

🟢

Оптимизация памяти

🟢

Инструменты

🟡

Мультиагентная оптимизация

🟡

Оценка

🟠

LLM-судья

🟠

Агент-судья

🟠

Безопасность и элайнмент саморазвивающихся агентов

@ai_machinelearning_big_data

#AI #ML #LLM #Agents #AwesomeList #Github

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤14👍7🥰5

3.43K views14:03

Machine learning Interview

🚀 В репозитории rasbt/LLMs-from-scratch появился новый раздел: Gemma 3 from Scratch — PyTorch-реализация модели Gemma 3 (270M) полностью с нуля, выполненная в Jupyter-ноутбуке (~1.5 ГБ RAM).

Gemma 3 — одна из самых интресных open-weight моделей от Google.

Это отличный способ изучить архитектуру крупной LLM без абстракций.

Советую: если вы хотите глубже понять, как работают современные языковые модели — этот раздел будет идеальным обучающим материалом.

📌 Читать

🔥28❤9👍6

4.53K views20:56

Machine learning Interview

🔮 Prophet Arena — новый бенчмарк, созданный для проверки предсказательных способностей ИИ.

Он отвечает на вопрос: может ли модель действительно «увидеть будущее», связывая точки настоящего?

Особенности Prophet Arena:
- 🚫 Его невозможно «взломать». В отличие от классических бенчмарков, которые со временем насыщаются, здесь модели сталкиваются с реальными будущими событиями. Завтра нельзя заучить — если только не изобрели машину времени.
- 🔍 Он прозрачен и интерпретируем. Высокие результаты означают реальное предвидение, что напрямую конвертируется в инвестиционные преимущества.

👉 Подробнее: https://prophetarena.com

❤14🥰5🔥3🤣2

3.99K views10:38

Machine learning Interview

🇺🇸🇨🇳 Чип NVIDIA H20 стал разменной монетой в технологическом противостоянии

Графический процессор NVIDIA H20 оказался в центре торговых переговоров между США и Китаем. Этот чип, изначально созданный как безопасная для экспорта версия H100, теперь требует специальных лицензий и облагается 15% сбором с продаж.

Ситуация осложняется тем, что китайские регуляторы начали сомневаться в безопасности этих чипов, а местные компании активно переходят на отечественные аналоги. При этом H20 остается востребованным благодаря поддержке CUDA и высокой производительности в задачах обучения ИИ.

На фоне этих ограничений китайские производители вроде Huawei, Cambricon и Biren получают возможность укрепить свои позиции на рынке. Huawei уже предлагает полный стек решений для ИИ-вычислений, снижающий зависимость от западных технологий.

🔗 Подробнее в статье - *клик*

@machinelearning_interview

😱9👍7❤3🔥3

4.28K views13:02

Machine learning Interview

Forwarded from Machinelearning

1:25

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 Qwen-Image-Edit — новый инструмент для умного редактирования картинок от Qwen

Теперь можно не только генерировать изображения, но и редактировать их по команде: менять объекты, стиль, фон или даже текст прямо на картинке.

Что умеет:
- ✨ Редактировать смысл и детали — можно, например, повернуть объект, сменить цвет или стиль, не трогая остальное.
- 🔤 Менять текст на картинках — добавлять, убирать или редактировать надписи на китайском и английском, при этом сохраняются шрифт и стиль.
- 🏆 Лучшие результаты на тестах — модель показывает топ-уровень среди открытых решений.

Как работает:
Система сочетает понимание картинки (VL-модель) и точное управление структурой (VAE-кодировщик). Поэтому картинка сохраняет и смысл, и детали после правок.

🟢 Как попробовать:
Достаточно открыть Qwen Chat и выбрать режим *Image Editing*.

🟠

Попробовать: https://chat.qwen.ai/?inputFeature=image_edit

🟠

Hugging Face: https://huggingface.co/Qwen/Qwen-Image-Edit

🟠

ModelScope: https://modelscope.cn/models/Qwen/Qwen-Image-Edit

🟠

Blog: https://qwenlm.github.io/blog/qwen-image-edit/

🟠

Github: https://github.com/QwenLM/Qwen-Image

🟠

API (💰$0.03 за 1 редактирование): https://alibabacloud.com/help/en/model-studio/qwen-image-edit

@ai_machinelearning_big_data

#qwen #ml #llm #ai

Please open Telegram to view this post

VIEW IN TELEGRAM

❤13👍8🔥1

3.25K views18:27

Machine learning Interview

🚀 ИИ придумывает безумные новые эксперименты в физике — и они реально работают

ИИ выходит за пределы привычного — теперь он придумывает эксперименты в физике, которые не только выглядят странно, но и реально работают.

🔭 На примере LIGO (детектор гравитационных волн):
AI предложил необычные, на первый взгляд хаотичные конструкции, которые повысили чувствительность установки на 10–15%. Для этой области — это огромный прорыв.

- Алгоритм предложил добавить трёхкилометровое кольцо для циркуляции света.
На первый взгляд это выглядело хаотично и бессмысленно, но решение оказалось крайне эффективным.
- Такой подход позволил бы повысить чувствительность детектора на 10–15% — огромный прогресс в этой области.
- В квантовой оптике ИИ нашёл новые способы для “entanglement swapping”, которые позже подтвердились экспериментально.
- Алгоритмы также

🌀 В квантовой оптике AI нашёл новые, более простые методы для *entanglement swapping* (перестановки запутанных частиц), которые затем подтвердили экспериментально.

⚛️ Помимо этого, AI открывает симметрии в больших массивах данных (например, симметрии Лоренца в экспериментах на Большом адронном коллайдере) и даже выводит новые формулы — в том числе для описания тёмной материи.

✨ ИИ активно помогает открывать фундаментальные законы природы.

📌 Подробнее

@machinelearning_interview

🔥31👍6❤4

3.84K viewsedited 08:50

Machine learning Interview

🤖 Прокачай вайб-кодинг: Anthropic выкатили 17 бесплатных лекций по разработке с ИИ-агентами

💡 За 8 часов ты узнаешь:
— как правильно писать код с помощью LLM
— как создавать идеальные промпты
— как собрать собственного агента на Claude или другой модели
— и какие лучшие практики реально работают в проде

📚 Полный гайд по работе с ИИ — от основ до тонкостей.

@machinelearning_interview

👍12🔥8❤7😁3🕊2🤣2🙏1🥴1

5.52K views16:41

Machine learning Interview

🕹️ Новый мощный бенчмарк для ИИ — **HeroBench** 👏

Он проверяет, умеют ли LLM планировать длинные цепочки действий в реалистичном RPG-мире: выбрать снаряжение, собрать ресурсы, скрафтить предметы и победить монстра.

⚔️ Особенность: всё завязано на урон, резисты и здоровье, поэтому модели должны рассуждать о компромиссах, а не просто угадывать шаги.
🤖 Модели пишут Python-код со стратегией, симулятор исполняет его и оценивает прогресс.

🔑 Итоги:
- Grok-4 лидирует на сложных заданиях
- За ним GPT-5 и Gemini 2.5 Pro
- GPT-4.1 остаётся сильнейшей «обычной» моделью без спец. reasoning-режимов
- Ошибки чаще всего связаны с неверным выбором экипировки или кривым исполнением

📄 Paper: arxiv.org/abs/2508.12782

#AI #LLM #benchmark #gaming #reasoning

❤14👍7🔥6

4.66K views09:20

Machine learning Interview

⚡ PyTorch представил **ZenFlow** — новый движок для обучения больших языковых моделей без «простоев» GPU.

В чём проблема?
Когда при обучении LLM данные и градиенты выгружаются на CPU (offloading), GPU часто простаивает: шина PCIe медленная, а вычисления на CPU ещё медленнее. В итоге шаг обучения может замедлиться в 10–15 раз.

Как решает ZenFlow:
- 🔄 Делит градиенты по важности: ключевые обновляются сразу на GPU, остальные — асинхронно на CPU.
- ⏱️ Все операции перекрываются: пока CPU считает и гоняет данные по PCIe, GPU продолжает работать.
- 🚀 Это снижает простои GPU на 85% и ускоряет обучение в среднем в 5 раз (по сравнению с DeepSpeed ZeRO-Offload).
- 📉 PCIe загружается в 2 раза меньше, а качество обучения моделей не падает.

Итог:
ZenFlow делает обучение LLM быстрее и эффективнее — теперь GPU работают почти без перерывов, а модели масштабируются без потери качества.

🟢

Подробности: https://pytorch.org/blog/zenflow-stall-free-offloading-engine-for-llm-training/

@machinelearning_interview

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥26❤11👍6

42.9K views12:55

Machine learning Interview

📢 xAI представила Model Card для Grok 4

🔑 Главное:
- ❌ 0% вредных ответов на очевидно опасные и вредеоносные вопросы.
- 🧬 Суперрезультаты по биологии: 47% на BioLP-Bench (люди — 38%), до 71% на VCT (люди — 22%), 87% на WMDP Bio.
- 🛡️ Даже при джейлбрейках модель отказывается отвечать. Лишь при изменении скрытых правил проскользнуло около 1%.

⚙️ Безопасность
- Три слоя защиты: системные промпты, встроенные фильтры и тематические блокировки.
- AgentDojo обходит защиту в 0.02% случаев, MakeMeSay выигрывает только 12% (намного реже, чем у Grok 3 Mini).
- Фильтры отдельно следят за биологией/химией, плюс базовые отказы для оружия, преступлений, CSAM, мошенничества и самоповреждений.

📚 Как обучали
- Данные: интернет, сторонние наборы, пользовательские и автосгенерированные данные.
- Очистка и фильтрация → обучение с RLHF и дополнительным safety-тюнингом.
- В продакшене работает системный промпт, который усиливает отказы на опасные запросы.

✨ Итог: Grok 4 сочетает высокие научные показатели с устойчивостью к взлому и прозрачной системой защиты.

📑 Подробности

❤10👍8🔥6🙊1

3.76K views08:49

Machine learning Interview

⚡️ DreamOn — open-source модель для гибкого заполнения кода (code infilling) без фиксированного шаблона

Разработчики из DreamLM сделали Diffusion LLM, которая умеет вставлять недостающие фрагменты кода любой длины прямо во время генерации. Это значит — никакого ограничения на размер “маски” и больше свободы при автодополнении.

🔥 Фишки
— Заполнение кода в любом месте файла, без заранее заданной длины вставки.
— Несколько алгоритмов генерации (`entropy`, maskgit_plus, `topk_margin`).
— Возможность наблюдать процесс инфиллинга по шагам.
— Поддержка Python через transformers и torch.

⚡ Пример запуска


from transformers import AutoModel
model = AutoModel.from_pretrained("Dream-org/DreamOn-v0-7B", torch_dtype="bfloat16", trust_remote_code=True).to("cuda").eval()
output = model.diffusion_generate(..., alg="entropy", max_new_tokens=64)

🔗 GitHub: https://github.com/DreamLM/DreamOn
🔗 Модель: https://huggingface.co/Dream-org/DreamOn-v0-7B

👍12❤11🔥6

4.16K views13:04

About

Blog

Apps

Platform