Machine learning Interview
42.7K subscribers
1.24K photos
92 videos
14 files
838 links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
🧠 AI Math Resources — коллекция лучших материалов по ML и математике. Этот репозиторий собрал в себе самые полезные курсы, лекции и гайды по машинному обучению — от основ линейной алгебры до современных трансформеров.

Здесь есть подборки от Стэнфорда, MIT и практиков вроде Andrew Ng и Andrej Karpathy. Проект будет особенно ценен для тех, кто хочет систематизировать знания: от статистики и NumPy до нейросетевых архитектур и MLOps.

🤖 GitHub

@machinelearning_interview
22👍9🔥6🦄2🥱1
This media is not supported in your browser
VIEW IN TELEGRAM
🇨🇳 Alibaba представила новый open-source прорыв — Wan-S2V (Speech-to-Video).
Модель для аудио-управляемой генерации кинематографичных видео с цифровыми персонажами.

🎬 Как это работает
- На вход: одна фотография + аудио.
- На выходе: видео, где текст управляет сценой, а звук задает мимику и движения.
- Основа — Wan-14B (video diffusion-transformer), дополненный аудиопотоком, который «подсказывает», когда открывается рот, как наклоняется голова и когда срабатывают микродвижения.

Ключевые технологии
- Текст задает общую сцену: камеры, герои, взаимодействия.
- Аудио управляет деталями: артикуляция губ, эмоции, микро-жесты.
- Признаки извлекаются из звука (фонемы, ритм, громкость, интонации) и внедряются в видеобекбон через cross-attention.
- Сохраняется личность героя: система учит embedding лица и тела, которые постоянны, пока движения подстраиваются под звук.
- Для многопользовательских сцен есть active speaker detection — говорит именно тот, чей голос звучит.

🛠 Обучение и стабилизация
- Авто-аннотации движений с помощью сильной VLM сохраняют текстовую управляемость.
- Отслеживание 2D позы тела добавляет сигнал для более реалистичных движений.
- Длинные клипы стабилизируются с помощью memory-токенов для плавных кадров.
- Обучение staged: сначала предобучение аудио-стека, затем масштабное совместное обучение (FSDP, context parallel), финально — дообучение на качество.

🎯 Дополнительно
Есть режим точного редактирования синхронизации губ: маскируется рот и перегенерируется только эта зона под новый звук, сохраняя весь остальной кадр.

📌 В итоге: Wan-S2V превращает фото и аудио в реалистичные видео с цифровыми людьми, соединяя текстовый контроль с аудио-детализацией движений. Это шаг к новым возможностям в кино, играх и создании виртуальных персонажей.

https://github.com/Wan-Video/Wan2.2
👍169🔥6
⚡️ Yandex B2B Tech выпустила YandexGPT 5.1 Pro для бизнеса

🌟 Новая генеративная модель сфокусирована на корпоративных сценариях:
— короткие, точные ответы для отчётов, CRM и баз знаний;
— улучшенная обработка документов и работа с RAG;
— системный промт: возможность зафиксировать роль, стиль и формат;
— прозрачность: если ответа нет — модель сообщает «не знаю»;
— лучшее знание российских фактов и контекста.

📊 Метрики качества:
— 58% ответов лучше прошлой версии;
— выигрывает у GPT-4.1 в 56% случаев;
— рост «хороших» ответов с 60% → 71%;
— снижение выдуманных ответов почти в 2 раза (до 16%).

Стоимость снижена втрое: 40 копеек за 1000 токенов.
Доступна через API в Yandex Cloud AI Studio.

@machinelearning_interview
👍177🥱5🔥4
Классический поиск по ключевым словам даёт ограниченные результаты.

В примере выше, такой селективный нашел только одно совпадение: "Machine Learning Overview".

А вот pgvector ищет по смыслу и находит связанные концепции.
Пример запроса возвращает 5 релевантных документов:
– Machine Learning Overview
– Data Mining Basics
– Introduction to AI
– Deep Learning Guide

Семантический поиск > ключевого 🔥

@machinelearning_interview
17🔥6🥰4
📊 В открытом доступе появился VK-LSVD — масштабный датасет коротких видео для рекомендательных систем, созданный командой AI VK.

🤝 В отличие от  существующих наборов данных, VK-LSVD собрали 40 млрд обезличенных взаимодействий 10 млн пользователей с 20 млн коротких видео за период январь–июнь 2025. В него входят лайки, дизлайки, шеры, длительность просмотра и контекст воспроизведения — всё в формате числовых идентификаторов для гарантии конфиденциальности пользователей.

⚡️ Датасет позволяет гибко настраивать выборки: определять их объём, формировать случайным образом или с учётом популярности контента, адаптируя данные под доступные вычислительные мощности. Это делает VK-LSVD ценным инструментом для проверки гипотез и построения более точных моделей рекомендаций на реальных актуальных данных.

🔍 Такой ресурс открывает новые возможности для исследователей и инженеров, закладывая основу для следующего уровня развития рекомендательных технологий.
👍113🤔2🔥1😁1
🚀 Microsoft представила rStar2-Agent — новый отчёт по Agentic Reasoning

🧠 rStar2-Agent выводит предобученную 14B-модель на уровень state-of-the-art всего за 510 шагов RL за одну неделю.

📊 Результаты:
- 80.6% pass@1 на AIME24
- 69.8% pass@1 на AIME25
- Превзошёл DeepSeek-R1 (671B), при этом выдавая ответы значительно короче

⚡️ Впечатляющий пример того, как компактные модели с умным обучением могут догонять и даже обгонять гигантов.

https://huggingface.co/papers/2508.20722
👍129🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
💥 SmolVLA: компактная VLA-модель для роботов, которая обогнала крупных конкурентов — и она полностью open source!

🚀 Что это такое:
SmolVLA — новая vision-language-action модель для робототехники, обученная только на открытых датасетах LeRobot (Hugging Face). Несмотря на размер всего 450M параметров, она показывает результаты лучше более крупных моделей вроде ACT.

📌 Почему интересно:
+26% точности благодаря предобучению на open-source данных
Запускается даже на обычном MacBook
Ответы на 30% быстрее за счёт async-инференса и оптимизаций
Сильные результаты на Meta-World, LIBERO, SO100, SO101
Полностью открыта: веса, код, пайплайн и стек для оценки

🧠 Трюки для эффективности:
- меньше визуальных токенов
- выходы берутся с промежуточных слоёв
- разделение perception и action для ускорения

📍 SmolVLA — отличный пример того, что может дать сообщество, когда делится данными и строит открытые решения в робототехнике.

https://huggingface.co/blog/smolvla
12👍4🔥4🐳2
🧩 Неожиданное поведение Seed-OSS-36B

Оказалось, что модель умеет сама отслеживать, сколько токенов она уже сгенерировала — и делает это очень необычно.

🔎 Что видно при анализе:
- На шаге reflection (когда модель «останавливается» и подсчитывает токены) внимание почти полностью сосредоточено только на текущем и последнем токене.
- До этого внимание распределялось как обычно — по разным токенам.
- Получается, что именно последний токен запускает мощную активацию во всех attention-головах.
- При этом сам по себе токен ничем не особенный — значит, дело не в его содержимом.

💡 Возможное объяснение:
Модель может использовать позиционное кодирование. У самого последнего токена уникальная позиция, которая как будто «сигналит» attention-механизму: *вот тут конец последовательности*.

🧪 Что планирую проверить:
Если испортить позиционное кодирование последнего токена, то, возможно, модель перестанет «понимать», сколько токенов она сгенерировала, и пропустит подсчёт.

https://github.com/RiddleHe/llm-interp
👍12🔥76🤔4🤗3
⚡️ Новое исследование Google DeepMind показало жёсткий предел эмбеддингов

Даже самые мощные модели не могут учесть все комбинации запросов и документов.
Есть математический потолок: часть ответов невозможно достать, как бы мы ни увеличивали размер модели или количество данных.

📌 В чём суть
- Эмбеддинги имеют ограниченную ёмкость, зависящую от размерности вектора.
- При больших объёмах данных точность поиска начинает резко падать.
- Например: эмбеддинги размером 4096 «ломаются» уже на ~250 млн документов (для top-2).

🛠 Практика
- Для поиска, рекомендаций и RAG эмбеддинги нельзя использовать как единственный инструмент.
- Нужны гибридные системы:
- Dense + sparse (BM25, гибридный поиск)
- Multi-vector retrieval
- Реранкеры на длинных контекстах

📉 Эксперименты
- На тестовом датасете LIMIT даже сильные модели показали <20% точности (recall@100).
- BM25 дал ~93.6%, ColBERT (multi-vector) — ~54.8%.
- Single-vector эмбеддинги быстро упираются в лимит.

💡 Вывод
Эмбеддинги — важный инструмент, но не универсальный.
Будущее поиска и RAG — за гибридными пайплайнами.

🟠Статья: https://arxiv.org/abs/2508.21038

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍186🔥6
Новый подкаст о будущем AI-агентов

Генеративные модели были первым шагом. Дальше — ИИ-агенты: системы, которые умеют не просто писать код или тексты, а сами принимают решения и выполняют действия — от покупки билетов до развёртывания инфраструктуры. Также в подкасте поговорили о том, как подготовиться к внедрению агентов, об MCP и инструментах для работы с ними.
👍74🔥3
📊 Bayesian Machine Learning Notebooks — практическое погружение в байесовские методы

Для тех, кто хочет разобраться в байесовском подходе к машинному обучению, этот репозиторий — настоящая находка. Здесь собраны Jupyter-ноутбуки, которые на примерах объясняют ключевые концепции: от линейной регрессии до вариационных автоэнкодеров.

Авторы сочетают теоретические основы с практикой — все алгоритмы реализованы и на чистом NumPy/SciPy, и с использованием популярных библиотек. Например, можно сравнить реализацию гауссовских процессов вручную и через GPy, или увидеть, как работает байесовская оптимизация для подбора гиперпараметров.

🤖 GitHub

@machinelearning_interview
👍115🔥4