Machine learning Interview

📌

DeepConf: фильтрация мусорных СoT c высокой точностью.

Deep Think with Confidence (DeepConf) - способ улучшить рассуждения LLM, который в отличие от стандартного голосования по большинству, предлагает фильтровать варианты на лету, используя внутренние сигналы уверенности самой модели.

Идея в том, чтобы не ждать генерации полной цепочки рассуждений, а отслеживать её качество в реальном времени. Для этого придумали метрику "групповой уверенности" (group confidence) — усредненную уверенность модели на небольшом скользящем окне токенов.

Если эта метрика падает ниже определенного порога, генерация траектории рассуждения просто останавливается. Это позволяет отсекать низкокачественные цепочки на ранней стадии, экономя огромное количество токенов. При этом сам метод не требует дополнительного обучения или тюнинга гиперпараметров.

🟡

DeepConf работает в 2 режимах.

В офлайн-режиме, когда все варианты уже сгенерированы, он позволяет применять взвешенное голосование или фильтрацию. Вместо простого подсчета голосов, каждый ответ взвешивается по уверенности породившей его цепочки рассуждений.

Результаты на бенчмарке AIME 2025: для GPT-OSS-120B стандартное голосование по 512 вариантам (cons@512) даёт точность 97.0%. Взвешивание с фильтрацией по уверенности (DeepConf@512) поднимает эту планку до 99.9%, практически решая бенчмарк.

🟡

Но самый большой выигрыш даёт онлайн-режим.

Здесь происходит та самая ранняя остановка генерации. Для GPT-OSS-120B на том же AIME 2025 DeepConf в агрессивной конфигурации DeepConf-low сокращает количество сгенерированных токенов на 84.7% по сравнению с полной генерацией 512 вариантов. При этом точность не только не падает, а даже немного растeт — с 97.1% до 97.9%.

В более консервативном режиме, DeepConf-high, экономия токенов составляет 56.0%, а точность остается на уровне 97.0%. Схожие результаты наблюдаются и на моделях DeepSeek-8B и Qwen3-32B, где экономия токенов достигает 77.9% и 66.8% соответственно.

Для оценки уверенности прогнали несколько метрик, но наиболее эффективными оказались те, что фокусируются на слабых местах в рассуждениях. Например, метрика Bottom 10% Group Confidence (средняя уверенность по 10% наименее уверенных групп токенов) и Tail Confidence (уверенность на последних токенах цепочки) оказались лучше, чем простое усреднение по всему трейсу.

Порог для ранней остановки определяется на лету для каждого нового промпта. Сначала генерируется небольшое количество "разогревочных" трасс, на основе которых вычисляется порог уверенности. Затем запускается основная генерация, и любой вариант, чья групповая уверенность падает ниже этого порога, немедленно останавливается.

▶️Попробовать DeepConf на практике можно пока только в vLLM, есть примеры для онлайн и оффлайн режима. Отдельного репозитория проекта пока нет.

🟡

Страница проекта

🟡

Arxiv

@ai_machinelearning_big_data

#AI #ML #LLM #CoT #DEEPCONF

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10😱4🔥3🥰3

2.99K views07:04

Machine learning Interview

🧠 AI Math Resources — коллекция лучших материалов по ML и математике. Этот репозиторий собрал в себе самые полезные курсы, лекции и гайды по машинному обучению — от основ линейной алгебры до современных трансформеров.

Здесь есть подборки от Стэнфорда, MIT и практиков вроде Andrew Ng и Andrej Karpathy. Проект будет особенно ценен для тех, кто хочет систематизировать знания: от статистики и NumPy до нейросетевых архитектур и MLOps.

🤖 GitHub

@machinelearning_interview

❤24👍9🔥6🦄2🥱1

4.43K views10:34

Machine learning Interview

0:18

This media is not supported in your browser

VIEW IN TELEGRAM

🇨🇳 Alibaba представила новый open-source прорыв — Wan-S2V (Speech-to-Video).
Модель для аудио-управляемой генерации кинематографичных видео с цифровыми персонажами.

🎬 Как это работает
- На вход: одна фотография + аудио.
- На выходе: видео, где текст управляет сценой, а звук задает мимику и движения.
- Основа — Wan-14B (video diffusion-transformer), дополненный аудиопотоком, который «подсказывает», когда открывается рот, как наклоняется голова и когда срабатывают микродвижения.

⚡ Ключевые технологии
- Текст задает общую сцену: камеры, герои, взаимодействия.
- Аудио управляет деталями: артикуляция губ, эмоции, микро-жесты.
- Признаки извлекаются из звука (фонемы, ритм, громкость, интонации) и внедряются в видеобекбон через cross-attention.
- Сохраняется личность героя: система учит embedding лица и тела, которые постоянны, пока движения подстраиваются под звук.
- Для многопользовательских сцен есть active speaker detection — говорит именно тот, чей голос звучит.

🛠 Обучение и стабилизация
- Авто-аннотации движений с помощью сильной VLM сохраняют текстовую управляемость.
- Отслеживание 2D позы тела добавляет сигнал для более реалистичных движений.
- Длинные клипы стабилизируются с помощью memory-токенов для плавных кадров.
- Обучение staged: сначала предобучение аудио-стека, затем масштабное совместное обучение (FSDP, context parallel), финально — дообучение на качество.

🎯 Дополнительно
Есть режим точного редактирования синхронизации губ: маскируется рот и перегенерируется только эта зона под новый звук, сохраняя весь остальной кадр.

📌 В итоге: Wan-S2V превращает фото и аудио в реалистичные видео с цифровыми людьми, соединяя текстовый контроль с аудио-детализацией движений. Это шаг к новым возможностям в кино, играх и создании виртуальных персонажей.

https://github.com/Wan-Video/Wan2.2

👍18❤11🔥6

4.1K views10:47

Machine learning Interview

❌ Классический поиск по ключевым словам даёт ограниченные результаты.

В примере выше, такой селективный нашел только одно совпадение: "Machine Learning Overview".

✅ А вот pgvector ищет по смыслу и находит связанные концепции.
Пример запроса возвращает 5 релевантных документов:
– Machine Learning Overview
– Data Mining Basics
– Introduction to AI
– Deep Learning Guide

Семантический поиск > ключевого 🔥

@machinelearning_interview

❤21🔥7🥰4

6.83K viewsedited 10:51

Machine learning Interview

📊 В открытом доступе появился VK-LSVD — масштабный датасет коротких видео для рекомендательных систем, созданный командой AI VK.

🤝 В отличие от существующих наборов данных, VK-LSVD собрали 40 млрд обезличенных взаимодействий 10 млн пользователей с 20 млн коротких видео за период январь–июнь 2025. В него входят лайки, дизлайки, шеры, длительность просмотра и контекст воспроизведения — всё в формате числовых идентификаторов для гарантии конфиденциальности пользователей.

⚡️ Датасет позволяет гибко настраивать выборки: определять их объём, формировать случайным образом или с учётом популярности контента, адаптируя данные под доступные вычислительные мощности. Это делает VK-LSVD ценным инструментом для проверки гипотез и построения более точных моделей рекомендаций на реальных актуальных данных.

🔍 Такой ресурс открывает новые возможности для исследователей и инженеров, закладывая основу для следующего уровня развития рекомендательных технологий.

AI VK Hub

Датасет VK-LSVD (Large Short-Video Dataset) для развития рекомендательных систем

Сейчас в открытом доступе не так много больших открытых датасетов, на базе которых инженеры и ученые могут обучать и оценивать модели. Для построения точных рекомендательных…

👍14❤5🤔2🔥1😁1

3.75K views12:00

Machine learning Interview

🚀 Microsoft представила rStar2-Agent — новый отчёт по Agentic Reasoning

🧠 rStar2-Agent выводит предобученную 14B-модель на уровень state-of-the-art всего за 510 шагов RL за одну неделю.

📊 Результаты:
- 80.6% pass@1 на AIME24
- 69.8% pass@1 на AIME25
- Превзошёл DeepSeek-R1 (671B), при этом выдавая ответы значительно короче

⚡️ Впечатляющий пример того, как компактные модели с умным обучением могут догонять и даже обгонять гигантов.

https://huggingface.co/papers/2508.20722

👍12❤10🔥5

3.6K views14:40

Machine learning Interview

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

💥 SmolVLA: компактная VLA-модель для роботов, которая обогнала крупных конкурентов — и она полностью open source!

🚀 Что это такое:
SmolVLA — новая vision-language-action модель для робототехники, обученная только на открытых датасетах LeRobot (Hugging Face). Несмотря на размер всего 450M параметров, она показывает результаты лучше более крупных моделей вроде ACT.

📌 Почему интересно:
✅ +26% точности благодаря предобучению на open-source данных
✅ Запускается даже на обычном MacBook
✅ Ответы на 30% быстрее за счёт async-инференса и оптимизаций
✅ Сильные результаты на Meta-World, LIBERO, SO100, SO101
✅ Полностью открыта: веса, код, пайплайн и стек для оценки

🧠 Трюки для эффективности:
- меньше визуальных токенов
- выходы берутся с промежуточных слоёв
- разделение perception и action для ускорения

📍 SmolVLA — отличный пример того, что может дать сообщество, когда делится данными и строит открытые решения в робототехнике.

https://huggingface.co/blog/smolvla

❤13👍4🔥4🐳2

3.92K views08:14

Machine learning Interview

🧩 Неожиданное поведение Seed-OSS-36B

Оказалось, что модель умеет сама отслеживать, сколько токенов она уже сгенерировала — и делает это очень необычно.

🔎 Что видно при анализе:
- На шаге reflection (когда модель «останавливается» и подсчитывает токены) внимание почти полностью сосредоточено только на текущем и последнем токене.
- До этого внимание распределялось как обычно — по разным токенам.
- Получается, что именно последний токен запускает мощную активацию во всех attention-головах.
- При этом сам по себе токен ничем не особенный — значит, дело не в его содержимом.

💡 Возможное объяснение:
Модель может использовать позиционное кодирование. У самого последнего токена уникальная позиция, которая как будто «сигналит» attention-механизму: *вот тут конец последовательности*.

🧪 Что планирую проверить:
Если испортить позиционное кодирование последнего токена, то, возможно, модель перестанет «понимать», сколько токенов она сгенерировала, и пропустит подсчёт.

https://github.com/RiddleHe/llm-interp

👍13❤8🔥7🤔5🤗3

3.54K views10:45

Machine learning Interview

⚡️

Новое исследование Google DeepMind показало жёсткий предел эмбеддингов

Даже самые мощные модели не могут учесть все комбинации запросов и документов.
Есть математический потолок: часть ответов невозможно достать, как бы мы ни увеличивали размер модели или количество данных.

📌 В чём суть
- Эмбеддинги имеют ограниченную ёмкость, зависящую от размерности вектора.
- При больших объёмах данных точность поиска начинает резко падать.
- Например: эмбеддинги размером 4096 «ломаются» уже на ~250 млн документов (для top-2).

🛠 Практика
- Для поиска, рекомендаций и RAG эмбеддинги нельзя использовать как единственный инструмент.
- Нужны гибридные системы:
- Dense + sparse (BM25, гибридный поиск)
- Multi-vector retrieval
- Реранкеры на длинных контекстах

📉 Эксперименты
- На тестовом датасете LIMIT даже сильные модели показали <20% точности (recall@100).
- BM25 дал ~93.6%, ColBERT (multi-vector) — ~54.8%.
- Single-vector эмбеддинги быстро упираются в лимит.

💡 Вывод
Эмбеддинги — важный инструмент, но не универсальный.
Будущее поиска и RAG — за гибридными пайплайнами.

🟠

Статья: https://arxiv.org/abs/2508.21038

@machinelearning_interview

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍28❤10🔥9

8.27K views09:51

Machine learning Interview

📊 Bayesian Machine Learning Notebooks — практическое погружение в байесовские методы

Для тех, кто хочет разобраться в байесовском подходе к машинному обучению, этот репозиторий — настоящая находка. Здесь собраны Jupyter-ноутбуки, которые на примерах объясняют ключевые концепции: от линейной регрессии до вариационных автоэнкодеров.

Авторы сочетают теоретические основы с практикой — все алгоритмы реализованы и на чистом NumPy/SciPy, и с использованием популярных библиотек. Например, можно сравнить реализацию гауссовских процессов вручную и через GPy, или увидеть, как работает байесовская оптимизация для подбора гиперпараметров.

🤖 GitHub

@machinelearning_interview

👍21❤11🔥9

4.33K views17:05

Machine learning Interview

🆕 Исследование: LLM могут находить правильный ответ ещё до конца генерации.

На GSM8K — до 97% задач, на MMLU — до 99% ответов верны уже на середине шагов.

Метод Prophet позволяет остановить генерацию раньше и ускорить модель в 3.4 раза без потери качества.

💡 Как работает Prophet:
1. На каждом шаге смотрит на разрыв уверенности между топ-1 и топ-2 токенами
2. Если разрыв большой → модель уже «уверена»
3. Декодирование останавливается досрочно, оставшиеся токены фиксируются сразу

🔗 Подробности: arxiv.org/pdf/2508.19982

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥17😁5👍3🥰3❤2

3.91K views10:59

About

Blog

Apps

Platform