На GSM8K — до 97% задач, на MMLU — до 99% ответов верны уже на середине шагов.
Метод Prophet позволяет остановить генерацию раньше и ускорить модель в 3.4 раза без потери качества.
💡 Как работает Prophet:
1. На каждом шаге смотрит на разрыв уверенности между топ-1 и топ-2 токенами
2. Если разрыв большой → модель уже «уверена»
3. Декодирование останавливается досрочно, оставшиеся токены фиксируются сразу
🔗 Подробности: arxiv.org/pdf/2508.19982
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15😁5👍3🥰3❤1
🎙 Microsoft представила VibeVoice-Large — open-source TTS модель для выразительных, продолжительных диалогов (и подкастов).
Что делает её особенной:
- Синтезирует до 45 минут речи с четырьмя разными голосами — намного больше, чем у большинства моделей.
- Использует continuous acoustic & semantic tokenizers с низкой частотой (7.5 Hz) для высокого качества и эффективности на длинных аудио.
- Основа — LLM (Qwen 2.5) + diffusion head для генерации деталей речи (около 600M параметров).
- Генерация до ~45 минут при контексте до 32K токенов.
Технические детали:
- 9.34B параметров
- Тип тензоров — BF16
- MIT-лицензия
Ограничения и меры безопасности:
- Только для исследований, не для коммерции
- Запрещено использовать для голосового клонирования без разрешения или создания фейков
- Встроенный дисклеймер *“This segment was generated by AI”*
- Водяной знак для подтверждения происхождения
Полезные ссылки:
- Репозиторий: https://huggingface.co/microsoft/VibeVoice-Large
- Код: https://github.com/microsoft/VibeVoice
⚡️ VibeVoice-Large — шаг вперёд в генерации естественных, длительных диалогов с несколькими голосами.
@machinelearning_interview
Что делает её особенной:
- Синтезирует до 45 минут речи с четырьмя разными голосами — намного больше, чем у большинства моделей.
- Использует continuous acoustic & semantic tokenizers с низкой частотой (7.5 Hz) для высокого качества и эффективности на длинных аудио.
- Основа — LLM (Qwen 2.5) + diffusion head для генерации деталей речи (около 600M параметров).
- Генерация до ~45 минут при контексте до 32K токенов.
Технические детали:
- 9.34B параметров
- Тип тензоров — BF16
- MIT-лицензия
Ограничения и меры безопасности:
- Только для исследований, не для коммерции
- Запрещено использовать для голосового клонирования без разрешения или создания фейков
- Встроенный дисклеймер *“This segment was generated by AI”*
- Водяной знак для подтверждения происхождения
Полезные ссылки:
- Репозиторий: https://huggingface.co/microsoft/VibeVoice-Large
- Код: https://github.com/microsoft/VibeVoice
⚡️ VibeVoice-Large — шаг вперёд в генерации естественных, длительных диалогов с несколькими голосами.
@machinelearning_interview
👍13❤5🥰3
🚀 Fantastic Pretraining Optimizers and Where to Find Them
Исследователи проектировали 10 оптимизаторов на моделях от 0.1B до 1.2B параметров и разных объёмах данных (1–8× Chinchilla).
Что выяснили:
- ⚡ Muon и Soap — самые быстрые, они используют матрицы вместо скаляров.
- ➕ Прирост скорости есть, но он падает с масштабом: от 1.4× быстрее AdamW на маленьких моделях до всего 1.1× на больших.
- 🔧 Настройки гиперпараметров не переносятся между оптимизаторами.
- 📉 По ранним кривым лосса нельзя судить о финальном качестве.
- ⚖ Оптимальный выбор зависит от того, сколько данных на модель.
👉 Итог: новые оптимизаторы реально полезны на малых моделях, но на больших их преимущество почти исчезает.
Подробнее: wandb.ai/marin-community/optimizer-scaling
Исследователи проектировали 10 оптимизаторов на моделях от 0.1B до 1.2B параметров и разных объёмах данных (1–8× Chinchilla).
Что выяснили:
- ⚡ Muon и Soap — самые быстрые, они используют матрицы вместо скаляров.
- ➕ Прирост скорости есть, но он падает с масштабом: от 1.4× быстрее AdamW на маленьких моделях до всего 1.1× на больших.
- 🔧 Настройки гиперпараметров не переносятся между оптимизаторами.
- 📉 По ранним кривым лосса нельзя судить о финальном качестве.
- ⚖ Оптимальный выбор зависит от того, сколько данных на модель.
👉 Итог: новые оптимизаторы реально полезны на малых моделях, но на больших их преимущество почти исчезает.
Подробнее: wandb.ai/marin-community/optimizer-scaling
❤9👍4🔥4
⚡ Что такое vLLM и зачем он нужен?
Это движок для сверхбыстрого инференса больших языковых моделей. В блоге Алески Гордича разобрали, как он устроен под капотом.
Главные фишки:
• KV-cache с paged attention — умно хранит память, чтобы модель не тормозила на длинных запросах.
• Continuous batching — новые запросы можно подмешивать прямо во время работы, без ожидания.
• Оптимизации:
• chunked prefill — длинные промпты режутся на куски, чтобы не блокировать других
• prefix caching — общий префикс считается один раз, а не заново для всех
• guided decoding — модель пишет строго по правилам (например, JSON)
• speculative decoding — маленькая модель «накидывает» текст, большая подтверждает.
• Масштабирование: работает и на одной видеокарте, и на кластере из десятков.
• Автотюнинг и бенчмарки: встроенные тесты подбирают оптимальные настройки под SLA.
Итог: vLLM — это уже не просто библиотека, а полноценная архитектура для работы LLM в проде: быстрая, гибкая и экономная.
🟠 Подробный разбор: https://www.aleksagordic.com/blog/vllm
@machinelearning_interview
Это движок для сверхбыстрого инференса больших языковых моделей. В блоге Алески Гордича разобрали, как он устроен под капотом.
Главные фишки:
• KV-cache с paged attention — умно хранит память, чтобы модель не тормозила на длинных запросах.
• Continuous batching — новые запросы можно подмешивать прямо во время работы, без ожидания.
• Оптимизации:
• chunked prefill — длинные промпты режутся на куски, чтобы не блокировать других
• prefix caching — общий префикс считается один раз, а не заново для всех
• guided decoding — модель пишет строго по правилам (например, JSON)
• speculative decoding — маленькая модель «накидывает» текст, большая подтверждает.
• Масштабирование: работает и на одной видеокарте, и на кластере из десятков.
• Автотюнинг и бенчмарки: встроенные тесты подбирают оптимальные настройки под SLA.
Итог: vLLM — это уже не просто библиотека, а полноценная архитектура для работы LLM в проде: быстрая, гибкая и экономная.
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17❤4🔥2
Forwarded from AI VK Hub
Media is too big
VIEW IN TELEGRAM
Собрали всю RecSys-тусовку: говорили о будущем рекомендаций, технологиях глубокого понимания контента и не только. Ну и, конечно, было много нетворкинга.
Музыка, диджей-сеты, игры, в том числе не обошли стороной турнир по су-е-фа.
#aivk #aivkpro
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2🥰1👏1