Machine learning Interview

🆕 Исследование: LLM могут находить правильный ответ ещё до конца генерации.

На GSM8K — до 97% задач, на MMLU — до 99% ответов верны уже на середине шагов.

Метод Prophet позволяет остановить генерацию раньше и ускорить модель в 3.4 раза без потери качества.

💡 Как работает Prophet:
1. На каждом шаге смотрит на разрыв уверенности между топ-1 и топ-2 токенами
2. Если разрыв большой → модель уже «уверена»
3. Декодирование останавливается досрочно, оставшиеся токены фиксируются сразу

🔗 Подробности: arxiv.org/pdf/2508.19982

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥17😁5👍3🥰3❤2

3.91K views10:59

Machine learning Interview

🎙 Microsoft представила VibeVoice-Large — open-source TTS модель для выразительных, продолжительных диалогов (и подкастов).

Что делает её особенной:
- Синтезирует до 45 минут речи с четырьмя разными голосами — намного больше, чем у большинства моделей.
- Использует continuous acoustic & semantic tokenizers с низкой частотой (7.5 Hz) для высокого качества и эффективности на длинных аудио.
- Основа — LLM (Qwen 2.5) + diffusion head для генерации деталей речи (около 600M параметров).
- Генерация до ~45 минут при контексте до 32K токенов.

Технические детали:
- 9.34B параметров
- Тип тензоров — BF16
- MIT-лицензия

Ограничения и меры безопасности:
- Только для исследований, не для коммерции
- Запрещено использовать для голосового клонирования без разрешения или создания фейков
- Встроенный дисклеймер *“This segment was generated by AI”*
- Водяной знак для подтверждения происхождения

Полезные ссылки:
- Репозиторий: https://huggingface.co/microsoft/VibeVoice-Large
- Код: https://github.com/microsoft/VibeVoice

⚡️ VibeVoice-Large — шаг вперёд в генерации естественных, длительных диалогов с несколькими голосами.

@machinelearning_interview

👍14❤6🥰3

3.9K views13:03

Machine learning Interview

🚀 Fantastic Pretraining Optimizers and Where to Find Them

Исследователи проектировали 10 оптимизаторов на моделях от 0.1B до 1.2B параметров и разных объёмах данных (1–8× Chinchilla).

Что выяснили:
- ⚡ Muon и Soap — самые быстрые, они используют матрицы вместо скаляров.
- ➕ Прирост скорости есть, но он падает с масштабом: от 1.4× быстрее AdamW на маленьких моделях до всего 1.1× на больших.
- 🔧 Настройки гиперпараметров не переносятся между оптимизаторами.
- 📉 По ранним кривым лосса нельзя судить о финальном качестве.
- ⚖ Оптимальный выбор зависит от того, сколько данных на модель.

👉 Итог: новые оптимизаторы реально полезны на малых моделях, но на больших их преимущество почти исчезает.

Подробнее: wandb.ai/marin-community/optimizer-scaling

❤12🔥6👍5

3.78K views15:10

Machine learning Interview

⚡ Что такое vLLM и зачем он нужен?

Это движок для сверхбыстрого инференса больших языковых моделей. В блоге Алески Гордича разобрали, как он устроен под капотом.

Главные фишки:
• KV-cache с paged attention — умно хранит память, чтобы модель не тормозила на длинных запросах.
• Continuous batching — новые запросы можно подмешивать прямо во время работы, без ожидания.
• Оптимизации:
• chunked prefill — длинные промпты режутся на куски, чтобы не блокировать других
• prefix caching — общий префикс считается один раз, а не заново для всех
• guided decoding — модель пишет строго по правилам (например, JSON)
• speculative decoding — маленькая модель «накидывает» текст, большая подтверждает.
• Масштабирование: работает и на одной видеокарте, и на кластере из десятков.
• Автотюнинг и бенчмарки: встроенные тесты подбирают оптимальные настройки под SLA.

Итог: vLLM — это уже не просто библиотека, а полноценная архитектура для работы LLM в проде: быстрая, гибкая и экономная.

🟠Подробный разбор: https://www.aleksagordic.com/blog/vllm

@machinelearning_interview

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24❤8🔥5

3.69K viewsedited 09:50

Machine learning Interview

Forwarded from AI VK Hub

1:56

Media is too big

VIEW IN TELEGRAM

🔹

Показываем, как прошла первая встреча AI VK & Pro

Собрали всю RecSys-тусовку: говорили о будущем рекомендаций, технологиях глубокого понимания контента и не только. Ну и, конечно, было много нетворкинга.

Музыка, диджей-сеты, игры, в том числе не обошли стороной турнир по су-е-фа.

🔹 Полное видео с отчётом можно посмотреть здесь.

#aivk #aivkpro

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍4👏3🥰1

2.89K views11:45

Machine learning Interview

Forwarded from Machinelearning

🌟

POINTS-Reader: компактная VLM для OCR без дистилляции и сложной обвязки.

Tencent опубликовали довольно интересный проект - POINTS-Reader. Это VLM для OCR английского и китайского языков на 4 млрд. параметров на базе Qwen2.5-3B-Instruct, которая обошла GPT-4o и Gemini на бенче OmniDocBench.

POINTS-Reader - это философия предельной простоты c прямолинейным конвейером: на вход подается изображение документа и фиксированный промпт, а на выходе получается извлеченный текст.

Никаких этапов постобработки, скриптов для очистки или дополнительных моделей — результат сразу готов к использованию.

Помимо скромной базовой Qwen2.5, в POINTS-Reader использовали умеренный по нынешним меркам Vision Transformer - NaViT на 600 млн. параметров. И это осознанный инженерный шаг в угоду простоте и производительности.

Современные фреймворки для инференса, будь то SGLang или vLLM, в первую очередь оптимизированы под LLM-часть, из-за чего громоздкий ViT становится узким местом и серьезно замедляет всю систему.

Такая компактная архитектура превосходно показала себя на тестах. На комплексном OmniDocBench модель набрала 0.133 для английских документов и 0.212 для китайских. Эти цифры ставят POINTS-Reader в один ряд с гораздо более тяжелыми и сложными системами.

Секрет проекта кроется в двухэтапной стратегии подготовки данных, которая полностью отказывается от дистилляции знаний у моделей-учителей.

На первом этапе модель получает базовые навыки OCR, обучаясь на синтетике. Дальше начинается самый интересный этап — непрерывная самоэволюция. Модель используется для генерации аннотаций на реальных документах, после чего лучшие из полученных образцов используются для ее дообучения. Этот итеративный процесс позволяет постоянно повышать качество как самой модели, так и генерируемых ею данных.

Этот метод к самосовершенствованию описан в техотчете как очень гибкий и применимый, по словам Tencent, практически к любой другой архитектуре.

🟡

Как в любом проекте - есть нюансы.

Модель пока не очень уверенно справляется со сложными макетами, вроде газетной верстки, что может приводить к повторению или пропуску контента. Аналогичные трудности возникают и при обработке рукописного текста, например, в чеках или заметках. Кроме того, на данный момент POINTS-Reader поддерживает только английский и китайский языки.

▶️ Запустить эту прелесть модель можно на Transformers или в SGLang. Поддержку vLLM обещают добавить.

🟡

Модель

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #VLM #POINTSReader #Tencent

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤6🔥4

3.48K views13:32

Machine learning Interview

0:45

This media is not supported in your browser

VIEW IN TELEGRAM

💰 Цукерберг: $600B на ИИ к 2028 году

- К 2028 году Zuck вложит компания около $600 млрд в инфраструктуру для ИИ
- Уже известны планы компании: $70 млрд вложений в 2025 и примерно $100 млрд в 2026 году.

То есть траты будут расти взрывными темпами, и к концу десятилетия его компания станет одной из крупнейших инвестирующих компаний в мире.

😱12👍2🔥2🥰2👏2

3.57K views08:13

Machine learning Interview

🦾 На Hugging Face опубликовали обзор открытых ML-датасетов, в котором выделили Yambda-5B от Яндекса — крупнейший в мире музыкальный рекомендательный датасет.

🎵 Yambda-5B содержит 4,79 млрд взаимодействий: прослушивания, лайки и дизлайки. Датасет идеально подходит для обучения и тестирования рекомендательных систем.

🗣 ML-эксперты Аман Чадха (AWS GenAI, ранее Stanford AI и Apple) и Айксин Сан (NTU Singapore) отметили значимость датасета для исследований и индустрии.

🌍 Разработки Яндекса в области машинного обучения востребованы на глобальном уровне и применяются наряду с решениями мировых компаний.

https://huggingface.co/blog/avi81/open-datasets-and-tools-an-overview-for-hugging-fa

🤣21🔥14❤3👍3🗿2😨1

3.92K views10:35

Machine learning Interview

🧡 MATLAB + Google Colab

Теперь можно связать MATLAB и Python через Colab:
- Поднять бесплатный GPU в Google Colab
- Запустить полноценный MATLAB через MATLAB Package Manager
- Обучить deep learning модель с использованием GPU
- Экспортировать её в TensorFlow
- Протестировать в Python

⚡ Всё это занимает всего несколько минут.

🔗 Блог

@machinelearning_interview

🔥17👍10❤4🙊3

4.13K views12:35

Machine learning Interview

🚀 Новая работа по обучению моделей с ограниченным бюджетом разметки: Group Relative Policy Optimization (GRPO)

💡 Идея проста: самые большие улучшения достигаются, если обучать модель именно на самых сложных задачах.

Что показали эксперименты:
- 📈 +30–40 баллов на reasoning-задачах
- 🔥 +20% lift на out-of-distribution тестах
- ✅ Только hardest 10% данных даёт лучший результат, чем easy, middle или случайный выбор

Как это работает:
- Трудность задачи оценивается по *pass rate* — сколько ответов base-модели проходят из нескольких сэмплов
- Промпты ранжируются на easy / middle / hard
- GRPO обучается только на hard-срезе
- Обучение идёт за счёт нескольких rollout’ов: награда выдаётся только тем, кто превысил средний уровень группы
- На лёгких задачах сигнал быстро исчезает, на сложных остаётся вариативность и полезные градиенты

📊 Результаты:
- GSM8K, Tracking Shuffled Objects → hardest 10% всегда лучше остальных
- AIME-2025 → только hard-обученная модель превзошла base, с ~20% приростом

🔑 Практическое правило: покупайте задачи, которые базовая модель *редко* решает, но *иногда* угадывает правильно. Именно они приносят максимальную отдачу.

🟢

Paper: https://arxiv.org/abs/2508.14094

🟢

Github: https://github.com/Pikus16/grpo_difficulty

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14❤6🥰3👌1

4.71K views14:21

Machine learning Interview

⚡️ Лучшее для вайб-кодинга: на GitHub собрали самые полезные курсы и инструменты для ИИ-разработки.

Здесь есть все — ссылки на бесплатные лекции от Стэнфорда, готовых агентов и чат-ботов, а также библиотеки для обучения собственных нейронок под любые задачи.

Репозитрий: https://github.com/balavenkatesh3322/awesome-AI-toolkit

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍6🥰3💊2

4.67K viewsedited 09:02

Machine learning Interview

6:47

Media is too big

VIEW IN TELEGRAM

📌

Почему языковые модели галлюцинируют.

OpenAI опубликовали исследование о причинах галлюцинации LLM.

Галлюцинации - это не мистический сбой в сознании ИИ, а вполне предсказуемый побочный эффект его обучения.

Представьте, что перед моделью стоит задача бинарной классификации - определить, является ли предложенное утверждение корректным или нет. Математическая выкладка в исследовании проста: уровень ошибок генерации как минимум в 2 раза превышает уровень ошибок классификации. Если модель не способна надежно отличить факт от вымысла, она неизбежно будет этот вымысел генерировать.

🟡

Все начинается еще на претрейне.

Даже на идеально чистых данных статистические цели обучения подталкивают модель к генерации ошибок. Особенно это касается фактов, которые редко встречаются в обучающей выборке.

В работе вводится понятие singleton rate — доля фактов, которые появились в данных лишь один раз. Теоретический расклад показывает, что уровень галлюцинаций модели будет как минимум равен этой доле.

Проще говоря, если 20% фактов о днях рождения в датасете встретились единожды, модель будет выдумывать дни рождения как минимум в 20% случаев.

🟡

Эксперименты это подтверждают.

Модель DeepSeek-V3, на просьбу назвать день рождения одного из авторов статьи, трижды выдала неверные даты: 03-07, 15-06 и 01-01. Ни одна из них не была даже близка к правильной (осенью).

В другом тесте, где нужно было сосчитать количество букв D в слове DEEPSEEK, та же DeepSeek-V3 выдавала 2 или 3, а модели компании Марка Цукерберга и Claude 3.7 Sonnet доходили до 6 и 7.

При этом базовые модели после претрейна часто показывают отличную калибровку. Например, у предобученной GPT-4 ожидаемая ошибка калибровки составляла всего 0.007, что говорит о высокой статистической адекватности ее предсказаний. Кто бы сомневался.

🟡

Почему галлюцинации не исчезают после пост-тренинга и RLHF?

Ответ на этот вопрос - в системе оценки. Большинство современных бенчмарков поощряют угадывание. Модели, по сути, постоянно находятся в режиме сдачи экзамена, где за правильный ответ дают 1 балл, а за пустой бланк или ответ я не знаю - 0. В такой системе оптимальная стратегия при неуверенности - только угадать. Любой шанс на правильный ответ лучше, чем гарантированный ноль.

Эту гипотезу подтвердили анализом популярных оценочных наборов.

В GPQA, MMLU-Pro, Omni-MATH, SWE-bench и HLE используется строго бинарная система оценки (правильно/неправильно). Возможности получить частичный балл за честное признание в незнании там просто нет. Из 10 рассмотренных в исследовании популярных бенчмарков только один, WildBench, присуждает частичные баллы за ответы формата я не знаю. Остальные же фактически наказывают модель за отказ галлюцинировать, создавая эпидемию штрафов за неуверенность и поощряя ее выдавать правдоподобную ложь.

🟡

Что делать инженерам.

OpenAI предлагает встраивать явные целевые уровни уверенности в рубрики, вводить поведенческую калибровку и оценивать модели по секциям с разными порогами уверенности.

Еще рекомендуют включают мониторинг singleton-rate на корпусе, измерение вероятности важных ответов, комбинирование RAG с верификацией фактов и изменение лидербордов чтобы ответы я не знаю не штрафовались автоматически.

🔜

Читать статью полностью

🔜

Смотреть видео разбор

#AI #ML #LLM #Research #OpenAI

Please open Telegram to view this post

VIEW IN TELEGRAM

❤17👍13🔥6

4.63K views14:29

Machine learning Interview

⚡️ REFRAG: новое поколение RAG

REFRAG ускоряет работу Retrieval-Augmented Generation, сжимая контекст в chunk embeddings, сохраняя качество ответов.

📌 Результаты:

- До 30.85× быстрее первый токен

- До 16× длиннее эффективный контекст без потери точности

🔍 В чём идея:

Обычные RAG-промпты вставляют кучу текстов, половина из которых не нужна → модель тратит вычисления впустую.

REFRAG заменяет токены этих текстов кэшированными эмбеддингами, подгоняет их под размер декодера и подаёт вместе с вопросом.

Последовательность короче → внимание масштабируется по чанкам, а не по токенам → меньше памяти уходит на KV-кэш.

🎯 Как работает:

- Большинство чанков остаются сжатыми.

- Специальная политика выбирает, какие именно разжать обратно в токены, если важна точная формулировка.

- Обучение идёт в 2 шага: сначала модель учится восстанавливать токены из эмбеддингов, потом продолжается предобучение с задачей прогнозирования следующего абзаца (постепенно увеличивая размер чанков).

- Политика сжатия/разжатия тренируется через reinforcement learning, используя лосс предсказания слова как сигнал.

📄 Paper: arxiv.org/abs/2509.01092

❤15👍10🔥6

4.75K views08:07

About

Blog

Apps

Platform