Machine learning Interview

🎙 Microsoft представила VibeVoice-Large — open-source TTS модель для выразительных, продолжительных диалогов (и подкастов).

Что делает её особенной:
- Синтезирует до 45 минут речи с четырьмя разными голосами — намного больше, чем у большинства моделей.
- Использует continuous acoustic & semantic tokenizers с низкой частотой (7.5 Hz) для высокого качества и эффективности на длинных аудио.
- Основа — LLM (Qwen 2.5) + diffusion head для генерации деталей речи (около 600M параметров).
- Генерация до ~45 минут при контексте до 32K токенов.

Технические детали:
- 9.34B параметров
- Тип тензоров — BF16
- MIT-лицензия

Ограничения и меры безопасности:
- Только для исследований, не для коммерции
- Запрещено использовать для голосового клонирования без разрешения или создания фейков
- Встроенный дисклеймер *“This segment was generated by AI”*
- Водяной знак для подтверждения происхождения

Полезные ссылки:
- Репозиторий: https://huggingface.co/microsoft/VibeVoice-Large
- Код: https://github.com/microsoft/VibeVoice

⚡️ VibeVoice-Large — шаг вперёд в генерации естественных, длительных диалогов с несколькими голосами.

@machinelearning_interview

👍14❤5🥰3

2.66K views13:03

Machine learning Interview

🚀 Fantastic Pretraining Optimizers and Where to Find Them

Исследователи проектировали 10 оптимизаторов на моделях от 0.1B до 1.2B параметров и разных объёмах данных (1–8× Chinchilla).

Что выяснили:
- ⚡ Muon и Soap — самые быстрые, они используют матрицы вместо скаляров.
- ➕ Прирост скорости есть, но он падает с масштабом: от 1.4× быстрее AdamW на маленьких моделях до всего 1.1× на больших.
- 🔧 Настройки гиперпараметров не переносятся между оптимизаторами.
- 📉 По ранним кривым лосса нельзя судить о финальном качестве.
- ⚖ Оптимальный выбор зависит от того, сколько данных на модель.

👉 Итог: новые оптимизаторы реально полезны на малых моделях, но на больших их преимущество почти исчезает.

Подробнее: wandb.ai/marin-community/optimizer-scaling

❤10👍5🔥5

2.48K views15:10

Machine learning Interview

⚡ Что такое vLLM и зачем он нужен?

Это движок для сверхбыстрого инференса больших языковых моделей. В блоге Алески Гордича разобрали, как он устроен под капотом.

Главные фишки:
• KV-cache с paged attention — умно хранит память, чтобы модель не тормозила на длинных запросах.
• Continuous batching — новые запросы можно подмешивать прямо во время работы, без ожидания.
• Оптимизации:
• chunked prefill — длинные промпты режутся на куски, чтобы не блокировать других
• prefix caching — общий префикс считается один раз, а не заново для всех
• guided decoding — модель пишет строго по правилам (например, JSON)
• speculative decoding — маленькая модель «накидывает» текст, большая подтверждает.
• Масштабирование: работает и на одной видеокарте, и на кластере из десятков.
• Автотюнинг и бенчмарки: встроенные тесты подбирают оптимальные настройки под SLA.

Итог: vLLM — это уже не просто библиотека, а полноценная архитектура для работы LLM в проде: быстрая, гибкая и экономная.

🟠Подробный разбор: https://www.aleksagordic.com/blog/vllm

@machinelearning_interview

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24❤7🔥4

2.25K viewsedited 09:50

Machine learning Interview

Forwarded from AI VK Hub

1:56

Media is too big

VIEW IN TELEGRAM

🔹

Показываем, как прошла первая встреча AI VK & Pro

Собрали всю RecSys-тусовку: говорили о будущем рекомендаций, технологиях глубокого понимания контента и не только. Ну и, конечно, было много нетворкинга.

Музыка, диджей-сеты, игры, в том числе не обошли стороной турнир по су-е-фа.

🔹 Полное видео с отчётом можно посмотреть здесь.

#aivk #aivkpro

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍2🥰1👏1

2.04K views11:45

Machine learning Interview

Forwarded from Machinelearning

🌟

POINTS-Reader: компактная VLM для OCR без дистилляции и сложной обвязки.

Tencent опубликовали довольно интересный проект - POINTS-Reader. Это VLM для OCR английского и китайского языков на 4 млрд. параметров на базе Qwen2.5-3B-Instruct, которая обошла GPT-4o и Gemini на бенче OmniDocBench.

POINTS-Reader - это философия предельной простоты c прямолинейным конвейером: на вход подается изображение документа и фиксированный промпт, а на выходе получается извлеченный текст.

Никаких этапов постобработки, скриптов для очистки или дополнительных моделей — результат сразу готов к использованию.

Помимо скромной базовой Qwen2.5, в POINTS-Reader использовали умеренный по нынешним меркам Vision Transformer - NaViT на 600 млн. параметров. И это осознанный инженерный шаг в угоду простоте и производительности.

Современные фреймворки для инференса, будь то SGLang или vLLM, в первую очередь оптимизированы под LLM-часть, из-за чего громоздкий ViT становится узким местом и серьезно замедляет всю систему.

Такая компактная архитектура превосходно показала себя на тестах. На комплексном OmniDocBench модель набрала 0.133 для английских документов и 0.212 для китайских. Эти цифры ставят POINTS-Reader в один ряд с гораздо более тяжелыми и сложными системами.

Секрет проекта кроется в двухэтапной стратегии подготовки данных, которая полностью отказывается от дистилляции знаний у моделей-учителей.

На первом этапе модель получает базовые навыки OCR, обучаясь на синтетике. Дальше начинается самый интересный этап — непрерывная самоэволюция. Модель используется для генерации аннотаций на реальных документах, после чего лучшие из полученных образцов используются для ее дообучения. Этот итеративный процесс позволяет постоянно повышать качество как самой модели, так и генерируемых ею данных.

Этот метод к самосовершенствованию описан в техотчете как очень гибкий и применимый, по словам Tencent, практически к любой другой архитектуре.

🟡

Как в любом проекте - есть нюансы.

Модель пока не очень уверенно справляется со сложными макетами, вроде газетной верстки, что может приводить к повторению или пропуску контента. Аналогичные трудности возникают и при обработке рукописного текста, например, в чеках или заметках. Кроме того, на данный момент POINTS-Reader поддерживает только английский и китайский языки.

▶️ Запустить эту прелесть модель можно на Transformers или в SGLang. Поддержку vLLM обещают добавить.

🟡

Модель

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #VLM #POINTSReader #Tencent

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤4🔥3

1.64K views13:32

Machine learning Interview

0:45

This media is not supported in your browser

VIEW IN TELEGRAM

💰 Цукерберг: $600B на ИИ к 2028 году

- К 2028 году Zuck вложит компания около $600 млрд в инфраструктуру для ИИ
- Уже известны планы компании: $70 млрд вложений в 2025 и примерно $100 млрд в 2026 году.

То есть траты будут расти взрывными темпами, и к концу десятилетия его компания станет одной из крупнейших инвестирующих компаний в мире.

😱9👍2🔥2👏2🥰1

2.29K views08:13

Machine learning Interview

🦾 На Hugging Face опубликовали обзор открытых ML-датасетов, в котором выделили Yambda-5B от Яндекса — крупнейший в мире музыкальный рекомендательный датасет.

🎵 Yambda-5B содержит 4,79 млрд взаимодействий: прослушивания, лайки и дизлайки. Датасет идеально подходит для обучения и тестирования рекомендательных систем.

🗣 ML-эксперты Аман Чадха (AWS GenAI, ранее Stanford AI и Apple) и Айксин Сан (NTU Singapore) отметили значимость датасета для исследований и индустрии.

🌍 Разработки Яндекса в области машинного обучения востребованы на глобальном уровне и применяются наряду с решениями мировых компаний.

https://huggingface.co/blog/avi81/open-datasets-and-tools-an-overview-for-hugging-fa

🤣13🔥12❤3👍3🗿1

2.23K views10:35

Machine learning Interview

🧡 MATLAB + Google Colab

Теперь можно связать MATLAB и Python через Colab:
- Поднять бесплатный GPU в Google Colab
- Запустить полноценный MATLAB через MATLAB Package Manager
- Обучить deep learning модель с использованием GPU
- Экспортировать её в TensorFlow
- Протестировать в Python

⚡ Всё это занимает всего несколько минут.

🔗 Блог

@machinelearning_interview

🔥12👍7❤2🙊2

2.13K views12:35

Machine learning Interview

🚀 Новая работа по обучению моделей с ограниченным бюджетом разметки: Group Relative Policy Optimization (GRPO)

💡 Идея проста: самые большие улучшения достигаются, если обучать модель именно на самых сложных задачах.

Что показали эксперименты:
- 📈 +30–40 баллов на reasoning-задачах
- 🔥 +20% lift на out-of-distribution тестах
- ✅ Только hardest 10% данных даёт лучший результат, чем easy, middle или случайный выбор

Как это работает:
- Трудность задачи оценивается по *pass rate* — сколько ответов base-модели проходят из нескольких сэмплов
- Промпты ранжируются на easy / middle / hard
- GRPO обучается только на hard-срезе
- Обучение идёт за счёт нескольких rollout’ов: награда выдаётся только тем, кто превысил средний уровень группы
- На лёгких задачах сигнал быстро исчезает, на сложных остаётся вариативность и полезные градиенты

📊 Результаты:
- GSM8K, Tracking Shuffled Objects → hardest 10% всегда лучше остальных
- AIME-2025 → только hard-обученная модель превзошла base, с ~20% приростом

🔑 Практическое правило: покупайте задачи, которые базовая модель *редко* решает, но *иногда* угадывает правильно. Именно они приносят максимальную отдачу.

🟢

Paper: https://arxiv.org/abs/2508.14094

🟢

Github: https://github.com/Pikus16/grpo_difficulty

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10❤5🥰2

1.82K views14:21

About

Blog

Apps

Platform