Machine learning Interview

💥 SmolVLA: компактная VLA-модель для роботов, которая обогнала крупных конкурентов — и она полностью open source!

🚀 Что это такое:
SmolVLA — новая vision-language-action модель для робототехники, обученная только на открытых датасетах LeRobot (Hugging Face). Несмотря на размер всего 450M параметров, она показывает результаты лучше более крупных моделей вроде ACT.

📌 Почему интересно:
✅ +26% точности благодаря предобучению на open-source данных
✅ Запускается даже на обычном MacBook
✅ Ответы на 30% быстрее за счёт async-инференса и оптимизаций
✅ Сильные результаты на Meta-World, LIBERO, SO100, SO101
✅ Полностью открыта: веса, код, пайплайн и стек для оценки

🧠 Трюки для эффективности:
- меньше визуальных токенов
- выходы берутся с промежуточных слоёв
- разделение perception и action для ускорения

📍 SmolVLA — отличный пример того, что может дать сообщество, когда делится данными и строит открытые решения в робототехнике.

https://huggingface.co/blog/smolvla

❤12👍4🔥4🐳2

3.79K views08:14

Machine learning Interview

🧩 Неожиданное поведение Seed-OSS-36B

Оказалось, что модель умеет сама отслеживать, сколько токенов она уже сгенерировала — и делает это очень необычно.

🔎 Что видно при анализе:
- На шаге reflection (когда модель «останавливается» и подсчитывает токены) внимание почти полностью сосредоточено только на текущем и последнем токене.
- До этого внимание распределялось как обычно — по разным токенам.
- Получается, что именно последний токен запускает мощную активацию во всех attention-головах.
- При этом сам по себе токен ничем не особенный — значит, дело не в его содержимом.

💡 Возможное объяснение:
Модель может использовать позиционное кодирование. У самого последнего токена уникальная позиция, которая как будто «сигналит» attention-механизму: *вот тут конец последовательности*.

🧪 Что планирую проверить:
Если испортить позиционное кодирование последнего токена, то, возможно, модель перестанет «понимать», сколько токенов она сгенерировала, и пропустит подсчёт.

https://github.com/RiddleHe/llm-interp

👍13❤7🔥7🤔5🤗3

3.42K views10:45

Machine learning Interview

⚡️

Новое исследование Google DeepMind показало жёсткий предел эмбеддингов

Даже самые мощные модели не могут учесть все комбинации запросов и документов.
Есть математический потолок: часть ответов невозможно достать, как бы мы ни увеличивали размер модели или количество данных.

📌 В чём суть
- Эмбеддинги имеют ограниченную ёмкость, зависящую от размерности вектора.
- При больших объёмах данных точность поиска начинает резко падать.
- Например: эмбеддинги размером 4096 «ломаются» уже на ~250 млн документов (для top-2).

🛠 Практика
- Для поиска, рекомендаций и RAG эмбеддинги нельзя использовать как единственный инструмент.
- Нужны гибридные системы:
- Dense + sparse (BM25, гибридный поиск)
- Multi-vector retrieval
- Реранкеры на длинных контекстах

📉 Эксперименты
- На тестовом датасете LIMIT даже сильные модели показали <20% точности (recall@100).
- BM25 дал ~93.6%, ColBERT (multi-vector) — ~54.8%.
- Single-vector эмбеддинги быстро упираются в лимит.

💡 Вывод
Эмбеддинги — важный инструмент, но не универсальный.
Будущее поиска и RAG — за гибридными пайплайнами.

🟠

Статья: https://arxiv.org/abs/2508.21038

@machinelearning_interview

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍27🔥9❤7

7.8K views09:51

Machine learning Interview

Новый подкаст о будущем AI-агентов

Генеративные модели были первым шагом. Дальше — ИИ-агенты: системы, которые умеют не просто писать код или тексты, а сами принимают решения и выполняют действия — от покупки билетов до развёртывания инфраструктуры. Также в подкасте поговорили о том, как подготовиться к внедрению агентов, об MCP и инструментах для работы с ними.

YouTube

Готовься разрабатывать AI-агентов, скоро они будут везде — Артур Самигуллин — Мы обречены

Гость выпуска — Артур Самигуллин, руководитель продуктового ML-направления в Yandex Cloud

Конференция Yandex Neuro Scale соберёт IT-специалистов, чтобы обсудить всё важное в мире ML&AI, облаков, DevOps, безопасности и инфраструктуры. Эксперты расскажут,…

👍9❤5🔥4

3.28K views15:02

Machine learning Interview

📊 Bayesian Machine Learning Notebooks — практическое погружение в байесовские методы

Для тех, кто хочет разобраться в байесовском подходе к машинному обучению, этот репозиторий — настоящая находка. Здесь собраны Jupyter-ноутбуки, которые на примерах объясняют ключевые концепции: от линейной регрессии до вариационных автоэнкодеров.

Авторы сочетают теоретические основы с практикой — все алгоритмы реализованы и на чистом NumPy/SciPy, и с использованием популярных библиотек. Например, можно сравнить реализацию гауссовских процессов вручную и через GPy, или увидеть, как работает байесовская оптимизация для подбора гиперпараметров.

🤖 GitHub

@machinelearning_interview

👍20🔥9❤8

4K views17:05

Machine learning Interview

🆕 Исследование: LLM могут находить правильный ответ ещё до конца генерации.

На GSM8K — до 97% задач, на MMLU — до 99% ответов верны уже на середине шагов.

Метод Prophet позволяет остановить генерацию раньше и ускорить модель в 3.4 раза без потери качества.

💡 Как работает Prophet:
1. На каждом шаге смотрит на разрыв уверенности между топ-1 и топ-2 токенами
2. Если разрыв большой → модель уже «уверена»
3. Декодирование останавливается досрочно, оставшиеся токены фиксируются сразу

🔗 Подробности: arxiv.org/pdf/2508.19982

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥16😁5👍3🥰3❤2

3.74K views10:59

Machine learning Interview

🎙 Microsoft представила VibeVoice-Large — open-source TTS модель для выразительных, продолжительных диалогов (и подкастов).

Что делает её особенной:
- Синтезирует до 45 минут речи с четырьмя разными голосами — намного больше, чем у большинства моделей.
- Использует continuous acoustic & semantic tokenizers с низкой частотой (7.5 Hz) для высокого качества и эффективности на длинных аудио.
- Основа — LLM (Qwen 2.5) + diffusion head для генерации деталей речи (около 600M параметров).
- Генерация до ~45 минут при контексте до 32K токенов.

Технические детали:
- 9.34B параметров
- Тип тензоров — BF16
- MIT-лицензия

Ограничения и меры безопасности:
- Только для исследований, не для коммерции
- Запрещено использовать для голосового клонирования без разрешения или создания фейков
- Встроенный дисклеймер *“This segment was generated by AI”*
- Водяной знак для подтверждения происхождения

Полезные ссылки:
- Репозиторий: https://huggingface.co/microsoft/VibeVoice-Large
- Код: https://github.com/microsoft/VibeVoice

⚡️ VibeVoice-Large — шаг вперёд в генерации естественных, длительных диалогов с несколькими голосами.

@machinelearning_interview

👍14❤6🥰3

3.72K views13:03

Machine learning Interview

🚀 Fantastic Pretraining Optimizers and Where to Find Them

Исследователи проектировали 10 оптимизаторов на моделях от 0.1B до 1.2B параметров и разных объёмах данных (1–8× Chinchilla).

Что выяснили:
- ⚡ Muon и Soap — самые быстрые, они используют матрицы вместо скаляров.
- ➕ Прирост скорости есть, но он падает с масштабом: от 1.4× быстрее AdamW на маленьких моделях до всего 1.1× на больших.
- 🔧 Настройки гиперпараметров не переносятся между оптимизаторами.
- 📉 По ранним кривым лосса нельзя судить о финальном качестве.
- ⚖ Оптимальный выбор зависит от того, сколько данных на модель.

👉 Итог: новые оптимизаторы реально полезны на малых моделях, но на больших их преимущество почти исчезает.

Подробнее: wandb.ai/marin-community/optimizer-scaling

❤11🔥6👍5

3.62K views15:10

Machine learning Interview

⚡ Что такое vLLM и зачем он нужен?

Это движок для сверхбыстрого инференса больших языковых моделей. В блоге Алески Гордича разобрали, как он устроен под капотом.

Главные фишки:
• KV-cache с paged attention — умно хранит память, чтобы модель не тормозила на длинных запросах.
• Continuous batching — новые запросы можно подмешивать прямо во время работы, без ожидания.
• Оптимизации:
• chunked prefill — длинные промпты режутся на куски, чтобы не блокировать других
• prefix caching — общий префикс считается один раз, а не заново для всех
• guided decoding — модель пишет строго по правилам (например, JSON)
• speculative decoding — маленькая модель «накидывает» текст, большая подтверждает.
• Масштабирование: работает и на одной видеокарте, и на кластере из десятков.
• Автотюнинг и бенчмарки: встроенные тесты подбирают оптимальные настройки под SLA.

Итог: vLLM — это уже не просто библиотека, а полноценная архитектура для работы LLM в проде: быстрая, гибкая и экономная.

🟠Подробный разбор: https://www.aleksagordic.com/blog/vllm

@machinelearning_interview

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24❤7🔥5

3.39K viewsedited 09:50

Machine learning Interview

Forwarded from AI VK Hub

1:56

Media is too big

VIEW IN TELEGRAM

🔹

Показываем, как прошла первая встреча AI VK & Pro

Собрали всю RecSys-тусовку: говорили о будущем рекомендаций, технологиях глубокого понимания контента и не только. Ну и, конечно, было много нетворкинга.

Музыка, диджей-сеты, игры, в том числе не обошли стороной турнир по су-е-фа.

🔹 Полное видео с отчётом можно посмотреть здесь.

#aivk #aivkpro

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍4👏3🥰1

2.78K views11:45

Machine learning Interview

Forwarded from Machinelearning

🌟

POINTS-Reader: компактная VLM для OCR без дистилляции и сложной обвязки.

Tencent опубликовали довольно интересный проект - POINTS-Reader. Это VLM для OCR английского и китайского языков на 4 млрд. параметров на базе Qwen2.5-3B-Instruct, которая обошла GPT-4o и Gemini на бенче OmniDocBench.

POINTS-Reader - это философия предельной простоты c прямолинейным конвейером: на вход подается изображение документа и фиксированный промпт, а на выходе получается извлеченный текст.

Никаких этапов постобработки, скриптов для очистки или дополнительных моделей — результат сразу готов к использованию.

Помимо скромной базовой Qwen2.5, в POINTS-Reader использовали умеренный по нынешним меркам Vision Transformer - NaViT на 600 млн. параметров. И это осознанный инженерный шаг в угоду простоте и производительности.

Современные фреймворки для инференса, будь то SGLang или vLLM, в первую очередь оптимизированы под LLM-часть, из-за чего громоздкий ViT становится узким местом и серьезно замедляет всю систему.

Такая компактная архитектура превосходно показала себя на тестах. На комплексном OmniDocBench модель набрала 0.133 для английских документов и 0.212 для китайских. Эти цифры ставят POINTS-Reader в один ряд с гораздо более тяжелыми и сложными системами.

Секрет проекта кроется в двухэтапной стратегии подготовки данных, которая полностью отказывается от дистилляции знаний у моделей-учителей.

На первом этапе модель получает базовые навыки OCR, обучаясь на синтетике. Дальше начинается самый интересный этап — непрерывная самоэволюция. Модель используется для генерации аннотаций на реальных документах, после чего лучшие из полученных образцов используются для ее дообучения. Этот итеративный процесс позволяет постоянно повышать качество как самой модели, так и генерируемых ею данных.

Этот метод к самосовершенствованию описан в техотчете как очень гибкий и применимый, по словам Tencent, практически к любой другой архитектуре.

🟡

Как в любом проекте - есть нюансы.

Модель пока не очень уверенно справляется со сложными макетами, вроде газетной верстки, что может приводить к повторению или пропуску контента. Аналогичные трудности возникают и при обработке рукописного текста, например, в чеках или заметках. Кроме того, на данный момент POINTS-Reader поддерживает только английский и китайский языки.

▶️ Запустить эту прелесть модель можно на Transformers или в SGLang. Поддержку vLLM обещают добавить.

🟡

Модель

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #VLM #POINTSReader #Tencent

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤5🔥4

3.3K views13:32