Machine learning Interview
43K subscribers
1.22K photos
91 videos
14 files
830 links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🇨🇳 Alibaba представила новый open-source прорыв — Wan-S2V (Speech-to-Video).
Модель для аудио-управляемой генерации кинематографичных видео с цифровыми персонажами.

🎬 Как это работает
- На вход: одна фотография + аудио.
- На выходе: видео, где текст управляет сценой, а звук задает мимику и движения.
- Основа — Wan-14B (video diffusion-transformer), дополненный аудиопотоком, который «подсказывает», когда открывается рот, как наклоняется голова и когда срабатывают микродвижения.

Ключевые технологии
- Текст задает общую сцену: камеры, герои, взаимодействия.
- Аудио управляет деталями: артикуляция губ, эмоции, микро-жесты.
- Признаки извлекаются из звука (фонемы, ритм, громкость, интонации) и внедряются в видеобекбон через cross-attention.
- Сохраняется личность героя: система учит embedding лица и тела, которые постоянны, пока движения подстраиваются под звук.
- Для многопользовательских сцен есть active speaker detection — говорит именно тот, чей голос звучит.

🛠 Обучение и стабилизация
- Авто-аннотации движений с помощью сильной VLM сохраняют текстовую управляемость.
- Отслеживание 2D позы тела добавляет сигнал для более реалистичных движений.
- Длинные клипы стабилизируются с помощью memory-токенов для плавных кадров.
- Обучение staged: сначала предобучение аудио-стека, затем масштабное совместное обучение (FSDP, context parallel), финально — дообучение на качество.

🎯 Дополнительно
Есть режим точного редактирования синхронизации губ: маскируется рот и перегенерируется только эта зона под новый звук, сохраняя весь остальной кадр.

📌 В итоге: Wan-S2V превращает фото и аудио в реалистичные видео с цифровыми людьми, соединяя текстовый контроль с аудио-детализацией движений. Это шаг к новым возможностям в кино, играх и создании виртуальных персонажей.

https://github.com/Wan-Video/Wan2.2
👍136🔥4