Machine learning Interview

🕹️ Новый мощный бенчмарк для ИИ — **HeroBench** 👏

Он проверяет, умеют ли LLM планировать длинные цепочки действий в реалистичном RPG-мире: выбрать снаряжение, собрать ресурсы, скрафтить предметы и победить монстра.

⚔️ Особенность: всё завязано на урон, резисты и здоровье, поэтому модели должны рассуждать о компромиссах, а не просто угадывать шаги.
🤖 Модели пишут Python-код со стратегией, симулятор исполняет его и оценивает прогресс.

🔑 Итоги:
- Grok-4 лидирует на сложных заданиях
- За ним GPT-5 и Gemini 2.5 Pro
- GPT-4.1 остаётся сильнейшей «обычной» моделью без спец. reasoning-режимов
- Ошибки чаще всего связаны с неверным выбором экипировки или кривым исполнением

📄 Paper: arxiv.org/abs/2508.12782

#AI #LLM #benchmark #gaming #reasoning

❤14👍7🔥6

4.64K views09:20

Machine learning Interview

⚡ PyTorch представил **ZenFlow** — новый движок для обучения больших языковых моделей без «простоев» GPU.

В чём проблема?
Когда при обучении LLM данные и градиенты выгружаются на CPU (offloading), GPU часто простаивает: шина PCIe медленная, а вычисления на CPU ещё медленнее. В итоге шаг обучения может замедлиться в 10–15 раз.

Как решает ZenFlow:
- 🔄 Делит градиенты по важности: ключевые обновляются сразу на GPU, остальные — асинхронно на CPU.
- ⏱️ Все операции перекрываются: пока CPU считает и гоняет данные по PCIe, GPU продолжает работать.
- 🚀 Это снижает простои GPU на 85% и ускоряет обучение в среднем в 5 раз (по сравнению с DeepSpeed ZeRO-Offload).
- 📉 PCIe загружается в 2 раза меньше, а качество обучения моделей не падает.

Итог:
ZenFlow делает обучение LLM быстрее и эффективнее — теперь GPU работают почти без перерывов, а модели масштабируются без потери качества.

🟢

Подробности: https://pytorch.org/blog/zenflow-stall-free-offloading-engine-for-llm-training/

@machinelearning_interview

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥26❤11👍6

42.5K views12:55

Machine learning Interview

📢 xAI представила Model Card для Grok 4

🔑 Главное:
- ❌ 0% вредных ответов на очевидно опасные и вредеоносные вопросы.
- 🧬 Суперрезультаты по биологии: 47% на BioLP-Bench (люди — 38%), до 71% на VCT (люди — 22%), 87% на WMDP Bio.
- 🛡️ Даже при джейлбрейках модель отказывается отвечать. Лишь при изменении скрытых правил проскользнуло около 1%.

⚙️ Безопасность
- Три слоя защиты: системные промпты, встроенные фильтры и тематические блокировки.
- AgentDojo обходит защиту в 0.02% случаев, MakeMeSay выигрывает только 12% (намного реже, чем у Grok 3 Mini).
- Фильтры отдельно следят за биологией/химией, плюс базовые отказы для оружия, преступлений, CSAM, мошенничества и самоповреждений.

📚 Как обучали
- Данные: интернет, сторонние наборы, пользовательские и автосгенерированные данные.
- Очистка и фильтрация → обучение с RLHF и дополнительным safety-тюнингом.
- В продакшене работает системный промпт, который усиливает отказы на опасные запросы.

✨ Итог: Grok 4 сочетает высокие научные показатели с устойчивостью к взлому и прозрачной системой защиты.

📑 Подробности

❤10👍8🔥6🙊1

3.74K views08:49

Machine learning Interview

⚡️ DreamOn — open-source модель для гибкого заполнения кода (code infilling) без фиксированного шаблона

Разработчики из DreamLM сделали Diffusion LLM, которая умеет вставлять недостающие фрагменты кода любой длины прямо во время генерации. Это значит — никакого ограничения на размер “маски” и больше свободы при автодополнении.

🔥 Фишки
— Заполнение кода в любом месте файла, без заранее заданной длины вставки.
— Несколько алгоритмов генерации (`entropy`, maskgit_plus, `topk_margin`).
— Возможность наблюдать процесс инфиллинга по шагам.
— Поддержка Python через transformers и torch.

⚡ Пример запуска


from transformers import AutoModel
model = AutoModel.from_pretrained("Dream-org/DreamOn-v0-7B", torch_dtype="bfloat16", trust_remote_code=True).to("cuda").eval()
output = model.diffusion_generate(..., alg="entropy", max_new_tokens=64)

🔗 GitHub: https://github.com/DreamLM/DreamOn
🔗 Модель: https://huggingface.co/Dream-org/DreamOn-v0-7B

👍12❤11🔥6

4.14K views13:04

Machine learning Interview

2:16

Media is too big

VIEW IN TELEGRAM

🦜 «Где обитает эта исчезающая птица?»
🦭 «Сколько тюленей рождается?»
🐠 «Снизилось ли количество лосося?»

DeepMind представила новую версию Perch — AI-модели, обученной анализировать звуки природы (от птичьих трелей до шумов коралловых рифов) и помогать исследователям быстрее выявлять угрозы в экосистемах. Первая версия уже скачана более 250 000 раз и интегрирована в инструменты вроде BirdNet Analyzer.

Что нового в Perch 2.0:
- Обучена на гораздо более широкой выборке видов: птицы, млекопитающие, амфибии, антропогенные шумы. Данных почти в два раза больше, чем в оригинале.
- Лучше адаптируется к новым условиям, включая подводные сцены, например, коралловые рифы.
- Открыта для использования — модель доступна в open-source на Kaggle.

Примеры применения:
- Австралия: с помощью Perch обнаружили новую популяцию редкого Plains Wanderer.
- Гавайи: модель распознала трели редких honeycreeper-ов. Обработка звуков стала в 50 раз быстрее, что критично для мониторинга видов под угрозой исчезновения.

Как это работает:
- Совмещены vector search и active learning, что позволяет создать классификатор на основе одного примера звука.
- В статье "The Search for Squawk: Agile Modeling in Bioacoustics" подробно описан этот подход.

Почему это важно:
- Звуки природы дают данные о здоровье экосистем и численности видов.
- Perch 2.0 позволяет быстро анализировать огромные объёмы записей и находить нужные сигналы без потери точности.
- Это реальный вклад AI в экологию: больше времени на действия, меньше — на ручной анализ.

📌 Подробнее

❤19👍7🔥4

3.58K views12:03

Machine learning Interview

📢 Grok 2 теперь в открытом доступе!

Модель уже устарела, но то, что её веса выложили на Hugging Face — большой шаг для сообщества. 🚀
Это показывает: xAI не забывает про опенсорс и готова делиться даже старыми наработками.

Было бы круто, если бы и другие компании делали так же — выкладывали веса «списанных» моделей.

Полезно было бы иметь открытые GPT-4.5 или Claude 3 Opus.

🔗 https://huggingface.co/xai-org/grok-2

👍28🔥10❤4😁3🍌3

4.2K views11:04

Machine learning Interview

💡 Memory-Amortized Inference (MAI)

Авторы новой работы предлагают свежий взгляд на то, как может работать интеллект:
не пересчитывать всё заново, а переиспользовать ранее найденные решения в виде «циклов вывода» (inference loops).

🔎 Как это устроено
- Система хранит в памяти готовые «циклы решения задач».
- Когда приходит новый ввод, она достаёт похожий цикл и слегка подстраивает его под ситуацию.
- Получается экономия вычислений и устойчивое поведение — как использовать проверенный плейбук и менять пару шагов, вместо написания нового.

⚙️ Принцип MAI
1. Retrieval — извлечь из памяти похожий цикл.
2. Update — внести маленькие коррекции под текущий контекст.

Петля замыкается сама на себя, поэтому внутреннее состояние остаётся стабильным и не «уплывает».

📊 Почему это важно
- Сокращает вычисления и энергию.
- Даёт встроенный приоритет простым и проверенным решениям.
- Работает как встроенное «смещение» в сторону объяснений, которые уже работали.
- В отличие от RL, который «толкает» ценность вперёд от наград, MAI «вытягивает» причины назад из памяти — так планирование можно делать вперёд, а вывод назад, и они усиливают друг друга.

🧠 Связь с мозгом
Авторы связывают MAI с работой кортикальных колонок: прямые пути делают обновления, обратные пути извлекают память — похоже на предиктивные кодирующие петли мозга.

👉 Практический вывод: храните стабильные вычислительные циклы, начинайте каждую задачу с них и корректируйте минимально. Это путь к энергоэффективному и надёжному ИИ.

📑 Paper: *Beyond Turing: Memory-Amortized Inference as a Foundation for Cognitive Computation*

🔗 arxiv.org/abs/2508.14143

❤11🔥6👍5❤‍🔥1

4.02K views11:01

Machine learning Interview

👨‍💻 Omnara — Mission Control для AI-агентов

Что это?
Omnara — это «диспетчерская» для ваших AI-агентов. С её помощью можно управлять и наблюдать за работой агентов в реальном времени: через терминал, веб-интерфейс и мобильное приложение.

Возможности
- Отслеживание всех шагов агента в реальном времени.
- Push-уведомления, когда агент ждёт обратной связи.
- Ответы и контроль прямо с телефона или браузера.
- Единый дашборд для всех агентов.

Почему это удобно
- Не нужно сидеть за ПК, чтобы держать процесс под контролем.
- Всё open-source, можно разворачивать самостоятельно.
- Подходит как для разработчиков-одиночек, так и для команд.

👉 Omnara делает взаимодействие с AI-агентами гибким и удобным: вы всегда в курсе, что они делают, и можете вмешаться в любой момент.

🔗 GitHub

@pythonl

❤19👍8🥰4

3.87K views17:20

Machine learning Interview

1:01

This media is not supported in your browser

VIEW IN TELEGRAM

🎤 Microsoft выкатил **VibeVoice** — новую SoTA модель Text-to-Speech (TTS) на **1.5B параметров** под лицензией MIT 🔥

Возможности
- 🎧 Генерация до 90 минут аудио за раз
- 👥 Поддержка >4 голосов одновременно
- ⚡ Режим стриминга + готовится версия на 7B
- 🌍 Кросс-языковая генерация и даже синтез пения 🎶
- 🎭 Управление эмоциями и экспрессивностью речи

Это делает VibeVoice одним из самых мощных и доступных open-source TTS-решений прямо сейчас. Огромный шаг от Microsoft в сторону открытых голосовых технологий! 🚀

https://huggingface.co/microsoft/VibeVoice-1.5B

@machinelearning_interview

❤22👍7🥰4

4.15K viewsedited 11:01

Machine learning Interview

Google все таки стояли за Nano Banana и намается она теперь Gemini Native Image.

Эта модель для редактирования изображений- мощный коктейль из Photoshop, Figma и MidJourney!

Gemini Native Image — качество редактирования Которое не имеет аналогов.

Что он умеет? Попробуйте, она стоит вашего времени:

• Заменяет объекты на фото, сохраняя остальное — без артефактов и искажений.
• Реставрирует старые снимки — родственники будут в шоке!
• Раскрашивает фото как профи-колорист.
• Удаляет фон идеально чисто.
• Меняет освещение на снимке.
• Всё — через один интуитивный промпт: просто опишите, что хотите!

Посмотрите примеры — модель просто огонь! 🔥

Доступна беcплатно в aistudio: https://aistudio.google.com/prompts/new_chat

@machinelearning_interview

❤22👍9🔥7

12.5K views15:01

About

Blog

Apps

Platform