Machine learning Interview

🚀 Microsoft представила rStar2-Agent — новый отчёт по Agentic Reasoning

🧠 rStar2-Agent выводит предобученную 14B-модель на уровень state-of-the-art всего за 510 шагов RL за одну неделю.

📊 Результаты:
- 80.6% pass@1 на AIME24
- 69.8% pass@1 на AIME25
- Превзошёл DeepSeek-R1 (671B), при этом выдавая ответы значительно короче

⚡️ Впечатляющий пример того, как компактные модели с умным обучением могут догонять и даже обгонять гигантов.

https://huggingface.co/papers/2508.20722

👍12❤9🔥5

3.54K views14:40

Machine learning Interview

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

💥 SmolVLA: компактная VLA-модель для роботов, которая обогнала крупных конкурентов — и она полностью open source!

🚀 Что это такое:
SmolVLA — новая vision-language-action модель для робототехники, обученная только на открытых датасетах LeRobot (Hugging Face). Несмотря на размер всего 450M параметров, она показывает результаты лучше более крупных моделей вроде ACT.

📌 Почему интересно:
✅ +26% точности благодаря предобучению на open-source данных
✅ Запускается даже на обычном MacBook
✅ Ответы на 30% быстрее за счёт async-инференса и оптимизаций
✅ Сильные результаты на Meta-World, LIBERO, SO100, SO101
✅ Полностью открыта: веса, код, пайплайн и стек для оценки

🧠 Трюки для эффективности:
- меньше визуальных токенов
- выходы берутся с промежуточных слоёв
- разделение perception и action для ускорения

📍 SmolVLA — отличный пример того, что может дать сообщество, когда делится данными и строит открытые решения в робототехнике.

https://huggingface.co/blog/smolvla

❤12👍4🔥4🐳2

3.86K views08:14

Machine learning Interview

🧩 Неожиданное поведение Seed-OSS-36B

Оказалось, что модель умеет сама отслеживать, сколько токенов она уже сгенерировала — и делает это очень необычно.

🔎 Что видно при анализе:
- На шаге reflection (когда модель «останавливается» и подсчитывает токены) внимание почти полностью сосредоточено только на текущем и последнем токене.
- До этого внимание распределялось как обычно — по разным токенам.
- Получается, что именно последний токен запускает мощную активацию во всех attention-головах.
- При этом сам по себе токен ничем не особенный — значит, дело не в его содержимом.

💡 Возможное объяснение:
Модель может использовать позиционное кодирование. У самого последнего токена уникальная позиция, которая как будто «сигналит» attention-механизму: *вот тут конец последовательности*.

🧪 Что планирую проверить:
Если испортить позиционное кодирование последнего токена, то, возможно, модель перестанет «понимать», сколько токенов она сгенерировала, и пропустит подсчёт.

https://github.com/RiddleHe/llm-interp

👍13❤7🔥7🤔5🤗3

3.49K views10:45

Machine learning Interview

⚡️

Новое исследование Google DeepMind показало жёсткий предел эмбеддингов

Даже самые мощные модели не могут учесть все комбинации запросов и документов.
Есть математический потолок: часть ответов невозможно достать, как бы мы ни увеличивали размер модели или количество данных.

📌 В чём суть
- Эмбеддинги имеют ограниченную ёмкость, зависящую от размерности вектора.
- При больших объёмах данных точность поиска начинает резко падать.
- Например: эмбеддинги размером 4096 «ломаются» уже на ~250 млн документов (для top-2).

🛠 Практика
- Для поиска, рекомендаций и RAG эмбеддинги нельзя использовать как единственный инструмент.
- Нужны гибридные системы:
- Dense + sparse (BM25, гибридный поиск)
- Multi-vector retrieval
- Реранкеры на длинных контекстах

📉 Эксперименты
- На тестовом датасете LIMIT даже сильные модели показали <20% точности (recall@100).
- BM25 дал ~93.6%, ColBERT (multi-vector) — ~54.8%.
- Single-vector эмбеддинги быстро упираются в лимит.

💡 Вывод
Эмбеддинги — важный инструмент, но не универсальный.
Будущее поиска и RAG — за гибридными пайплайнами.

🟠

Статья: https://arxiv.org/abs/2508.21038

@machinelearning_interview

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍27🔥9❤8

8.13K views09:51

Machine learning Interview

📊 Bayesian Machine Learning Notebooks — практическое погружение в байесовские методы

Для тех, кто хочет разобраться в байесовском подходе к машинному обучению, этот репозиторий — настоящая находка. Здесь собраны Jupyter-ноутбуки, которые на примерах объясняют ключевые концепции: от линейной регрессии до вариационных автоэнкодеров.

Авторы сочетают теоретические основы с практикой — все алгоритмы реализованы и на чистом NumPy/SciPy, и с использованием популярных библиотек. Например, можно сравнить реализацию гауссовских процессов вручную и через GPy, или увидеть, как работает байесовская оптимизация для подбора гиперпараметров.

🤖 GitHub

@machinelearning_interview

👍20❤9🔥9

4.21K views17:05

Machine learning Interview

🆕 Исследование: LLM могут находить правильный ответ ещё до конца генерации.

На GSM8K — до 97% задач, на MMLU — до 99% ответов верны уже на середине шагов.

Метод Prophet позволяет остановить генерацию раньше и ускорить модель в 3.4 раза без потери качества.

💡 Как работает Prophet:
1. На каждом шаге смотрит на разрыв уверенности между топ-1 и топ-2 токенами
2. Если разрыв большой → модель уже «уверена»
3. Декодирование останавливается досрочно, оставшиеся токены фиксируются сразу

🔗 Подробности: arxiv.org/pdf/2508.19982

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥16😁5👍3🥰3❤2

3.84K views10:59

Machine learning Interview

🎙 Microsoft представила VibeVoice-Large — open-source TTS модель для выразительных, продолжительных диалогов (и подкастов).

Что делает её особенной:
- Синтезирует до 45 минут речи с четырьмя разными голосами — намного больше, чем у большинства моделей.
- Использует continuous acoustic & semantic tokenizers с низкой частотой (7.5 Hz) для высокого качества и эффективности на длинных аудио.
- Основа — LLM (Qwen 2.5) + diffusion head для генерации деталей речи (около 600M параметров).
- Генерация до ~45 минут при контексте до 32K токенов.

Технические детали:
- 9.34B параметров
- Тип тензоров — BF16
- MIT-лицензия

Ограничения и меры безопасности:
- Только для исследований, не для коммерции
- Запрещено использовать для голосового клонирования без разрешения или создания фейков
- Встроенный дисклеймер *“This segment was generated by AI”*
- Водяной знак для подтверждения происхождения

Полезные ссылки:
- Репозиторий: https://huggingface.co/microsoft/VibeVoice-Large
- Код: https://github.com/microsoft/VibeVoice

⚡️ VibeVoice-Large — шаг вперёд в генерации естественных, длительных диалогов с несколькими голосами.

@machinelearning_interview

👍14❤6🥰3

3.83K views13:03

Machine learning Interview

🚀 Fantastic Pretraining Optimizers and Where to Find Them

Исследователи проектировали 10 оптимизаторов на моделях от 0.1B до 1.2B параметров и разных объёмах данных (1–8× Chinchilla).

Что выяснили:
- ⚡ Muon и Soap — самые быстрые, они используют матрицы вместо скаляров.
- ➕ Прирост скорости есть, но он падает с масштабом: от 1.4× быстрее AdamW на маленьких моделях до всего 1.1× на больших.
- 🔧 Настройки гиперпараметров не переносятся между оптимизаторами.
- 📉 По ранним кривым лосса нельзя судить о финальном качестве.
- ⚖ Оптимальный выбор зависит от того, сколько данных на модель.

👉 Итог: новые оптимизаторы реально полезны на малых моделях, но на больших их преимущество почти исчезает.

Подробнее: wandb.ai/marin-community/optimizer-scaling

❤11🔥6👍5

3.72K views15:10

Machine learning Interview

⚡ Что такое vLLM и зачем он нужен?

Это движок для сверхбыстрого инференса больших языковых моделей. В блоге Алески Гордича разобрали, как он устроен под капотом.

Главные фишки:
• KV-cache с paged attention — умно хранит память, чтобы модель не тормозила на длинных запросах.
• Continuous batching — новые запросы можно подмешивать прямо во время работы, без ожидания.
• Оптимизации:
• chunked prefill — длинные промпты режутся на куски, чтобы не блокировать других
• prefix caching — общий префикс считается один раз, а не заново для всех
• guided decoding — модель пишет строго по правилам (например, JSON)
• speculative decoding — маленькая модель «накидывает» текст, большая подтверждает.
• Масштабирование: работает и на одной видеокарте, и на кластере из десятков.
• Автотюнинг и бенчмарки: встроенные тесты подбирают оптимальные настройки под SLA.

Итог: vLLM — это уже не просто библиотека, а полноценная архитектура для работы LLM в проде: быстрая, гибкая и экономная.

🟠Подробный разбор: https://www.aleksagordic.com/blog/vllm

@machinelearning_interview

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24❤7🔥5

3.59K viewsedited 09:50

Machine learning Interview

Forwarded from AI VK Hub

1:56

Media is too big

VIEW IN TELEGRAM

🔹

Показываем, как прошла первая встреча AI VK & Pro

Собрали всю RecSys-тусовку: говорили о будущем рекомендаций, технологиях глубокого понимания контента и не только. Ну и, конечно, было много нетворкинга.

Музыка, диджей-сеты, игры, в том числе не обошли стороной турнир по су-е-фа.

🔹 Полное видео с отчётом можно посмотреть здесь.

#aivk #aivkpro

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍4👏3🥰1

2.85K views11:45

About

Blog

Apps

Platform