Machine learning Interview
43K subscribers
1.22K photos
91 videos
14 files
830 links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
Google все таки стояли за Nano Banana и намается она теперь Gemini Native Image.

Эта модель для редактирования изображений- мощный коктейль из Photoshop, Figma и MidJourney!

Gemini Native Image — качество редактирования Которое не имеет аналогов.

Что он умеет? Попробуйте, она стоит вашего времени:

• Заменяет объекты на фото, сохраняя остальное — без артефактов и искажений.
• Реставрирует старые снимки — родственники будут в шоке!
• Раскрашивает фото как профи-колорист.
• Удаляет фон идеально чисто.
• Меняет освещение на снимке.
• Всё — через один интуитивный промпт: просто опишите, что хотите!

Посмотрите примеры — модель просто огонь! 🔥

Доступна беcплатно в aistudio: https://aistudio.google.com/prompts/new_chat


@machinelearning_interview
20👍8🔥7
Forwarded from Machinelearning
📌DeepConf: фильтрация мусорных СoT c высокой точностью.

Deep Think with Confidence (DeepConf) - способ улучшить рассуждения LLM, который в отличие от стандартного голосования по большинству, предлагает фильтровать варианты на лету, используя внутренние сигналы уверенности самой модели.

Идея в том, чтобы не ждать генерации полной цепочки рассуждений, а отслеживать её качество в реальном времени. Для этого придумали метрику "групповой уверенности" (group confidence) — усредненную уверенность модели на небольшом скользящем окне токенов.

Если эта метрика падает ниже определенного порога, генерация траектории рассуждения просто останавливается. Это позволяет отсекать низкокачественные цепочки на ранней стадии, экономя огромное количество токенов. При этом сам метод не требует дополнительного обучения или тюнинга гиперпараметров.

🟡DeepConf работает в 2 режимах.

В офлайн-режиме, когда все варианты уже сгенерированы, он позволяет применять взвешенное голосование или фильтрацию. Вместо простого подсчета голосов, каждый ответ взвешивается по уверенности породившей его цепочки рассуждений.

Результаты на бенчмарке AIME 2025: для GPT-OSS-120B стандартное голосование по 512 вариантам (cons@512) даёт точность 97.0%. Взвешивание с фильтрацией по уверенности (DeepConf@512) поднимает эту планку до 99.9%, практически решая бенчмарк.

🟡Но самый большой выигрыш даёт онлайн-режим.

Здесь происходит та самая ранняя остановка генерации. Для GPT-OSS-120B на том же AIME 2025 DeepConf в агрессивной конфигурации DeepConf-low сокращает количество сгенерированных токенов на 84.7% по сравнению с полной генерацией 512 вариантов. При этом точность не только не падает, а даже немного растeт — с 97.1% до 97.9%.

В более консервативном режиме, DeepConf-high, экономия токенов составляет 56.0%, а точность остается на уровне 97.0%. Схожие результаты наблюдаются и на моделях DeepSeek-8B и Qwen3-32B, где экономия токенов достигает 77.9% и 66.8% соответственно.

Для оценки уверенности прогнали несколько метрик, но наиболее эффективными оказались те, что фокусируются на слабых местах в рассуждениях. Например, метрика Bottom 10% Group Confidence (средняя уверенность по 10% наименее уверенных групп токенов) и Tail Confidence (уверенность на последних токенах цепочки) оказались лучше, чем простое усреднение по всему трейсу.

Порог для ранней остановки определяется на лету для каждого нового промпта. Сначала генерируется небольшое количество "разогревочных" трасс, на основе которых вычисляется порог уверенности. Затем запускается основная генерация, и любой вариант, чья групповая уверенность падает ниже этого порога, немедленно останавливается.

▶️Попробовать DeepConf на практике можно пока только в vLLM, есть примеры для онлайн и оффлайн режима. Отдельного репозитория проекта пока нет.


🟡Страница проекта
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #CoT #DEEPCONF
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
7😱4🔥3🥰3
📘 На Stepik вышел курс — «MLOps с нуля: как довести модель до продакшна»

Начинаете путь в MLOps и хотите понять, как перевести ML-модель из ноутбука в реальный продукт? Этот курс — именно то, что нужно.

🔍 Что вы получите:
• Понимание полного жизненного цикла ML-модели: от обучения до мониторинга
• Практику с современными инструментами: Docker, Kubernetes, CI/CD, MLflow
• Опыт построения воспроизводимых пайплайнов и управления экспериментами
• Навыки автоматизации и работы с инфраструктурой для реального продакшна

🎓 Сертификат по завершении — добавьте его в резюме или профиль LinkedIn

🚀 Сделайте шаг к профессии MLOps-инженера. Начните уже сегодня и получите скидку 25%, которая действительна в течение 24 часов

👉 Пройти курс на Stepik
🤣12❤‍🔥4🔥4👍3
🧠 AI Math Resources — коллекция лучших материалов по ML и математике. Этот репозиторий собрал в себе самые полезные курсы, лекции и гайды по машинному обучению — от основ линейной алгебры до современных трансформеров.

Здесь есть подборки от Стэнфорда, MIT и практиков вроде Andrew Ng и Andrej Karpathy. Проект будет особенно ценен для тех, кто хочет систематизировать знания: от статистики и NumPy до нейросетевых архитектур и MLOps.

🤖 GitHub

@machinelearning_interview
21👍9🔥6🦄2
This media is not supported in your browser
VIEW IN TELEGRAM
🇨🇳 Alibaba представила новый open-source прорыв — Wan-S2V (Speech-to-Video).
Модель для аудио-управляемой генерации кинематографичных видео с цифровыми персонажами.

🎬 Как это работает
- На вход: одна фотография + аудио.
- На выходе: видео, где текст управляет сценой, а звук задает мимику и движения.
- Основа — Wan-14B (video diffusion-transformer), дополненный аудиопотоком, который «подсказывает», когда открывается рот, как наклоняется голова и когда срабатывают микродвижения.

Ключевые технологии
- Текст задает общую сцену: камеры, герои, взаимодействия.
- Аудио управляет деталями: артикуляция губ, эмоции, микро-жесты.
- Признаки извлекаются из звука (фонемы, ритм, громкость, интонации) и внедряются в видеобекбон через cross-attention.
- Сохраняется личность героя: система учит embedding лица и тела, которые постоянны, пока движения подстраиваются под звук.
- Для многопользовательских сцен есть active speaker detection — говорит именно тот, чей голос звучит.

🛠 Обучение и стабилизация
- Авто-аннотации движений с помощью сильной VLM сохраняют текстовую управляемость.
- Отслеживание 2D позы тела добавляет сигнал для более реалистичных движений.
- Длинные клипы стабилизируются с помощью memory-токенов для плавных кадров.
- Обучение staged: сначала предобучение аудио-стека, затем масштабное совместное обучение (FSDP, context parallel), финально — дообучение на качество.

🎯 Дополнительно
Есть режим точного редактирования синхронизации губ: маскируется рот и перегенерируется только эта зона под новый звук, сохраняя весь остальной кадр.

📌 В итоге: Wan-S2V превращает фото и аудио в реалистичные видео с цифровыми людьми, соединяя текстовый контроль с аудио-детализацией движений. Это шаг к новым возможностям в кино, играх и создании виртуальных персонажей.

https://github.com/Wan-Video/Wan2.2
👍136🔥4