This media is not supported in your browser
VIEW IN TELEGRAM
🇨🇳 Alibaba представила новый open-source прорыв — Wan-S2V (Speech-to-Video).
Модель для аудио-управляемой генерации кинематографичных видео с цифровыми персонажами.
🎬 Как это работает
- На вход: одна фотография + аудио.
- На выходе: видео, где текст управляет сценой, а звук задает мимику и движения.
- Основа — Wan-14B (video diffusion-transformer), дополненный аудиопотоком, который «подсказывает», когда открывается рот, как наклоняется голова и когда срабатывают микродвижения.
⚡ Ключевые технологии
- Текст задает общую сцену: камеры, герои, взаимодействия.
- Аудио управляет деталями: артикуляция губ, эмоции, микро-жесты.
- Признаки извлекаются из звука (фонемы, ритм, громкость, интонации) и внедряются в видеобекбон через cross-attention.
- Сохраняется личность героя: система учит embedding лица и тела, которые постоянны, пока движения подстраиваются под звук.
- Для многопользовательских сцен есть active speaker detection — говорит именно тот, чей голос звучит.
🛠 Обучение и стабилизация
- Авто-аннотации движений с помощью сильной VLM сохраняют текстовую управляемость.
- Отслеживание 2D позы тела добавляет сигнал для более реалистичных движений.
- Длинные клипы стабилизируются с помощью memory-токенов для плавных кадров.
- Обучение staged: сначала предобучение аудио-стека, затем масштабное совместное обучение (FSDP, context parallel), финально — дообучение на качество.
🎯 Дополнительно
Есть режим точного редактирования синхронизации губ: маскируется рот и перегенерируется только эта зона под новый звук, сохраняя весь остальной кадр.
📌 В итоге: Wan-S2V превращает фото и аудио в реалистичные видео с цифровыми людьми, соединяя текстовый контроль с аудио-детализацией движений. Это шаг к новым возможностям в кино, играх и создании виртуальных персонажей.
https://github.com/Wan-Video/Wan2.2
Модель для аудио-управляемой генерации кинематографичных видео с цифровыми персонажами.
🎬 Как это работает
- На вход: одна фотография + аудио.
- На выходе: видео, где текст управляет сценой, а звук задает мимику и движения.
- Основа — Wan-14B (video diffusion-transformer), дополненный аудиопотоком, который «подсказывает», когда открывается рот, как наклоняется голова и когда срабатывают микродвижения.
⚡ Ключевые технологии
- Текст задает общую сцену: камеры, герои, взаимодействия.
- Аудио управляет деталями: артикуляция губ, эмоции, микро-жесты.
- Признаки извлекаются из звука (фонемы, ритм, громкость, интонации) и внедряются в видеобекбон через cross-attention.
- Сохраняется личность героя: система учит embedding лица и тела, которые постоянны, пока движения подстраиваются под звук.
- Для многопользовательских сцен есть active speaker detection — говорит именно тот, чей голос звучит.
🛠 Обучение и стабилизация
- Авто-аннотации движений с помощью сильной VLM сохраняют текстовую управляемость.
- Отслеживание 2D позы тела добавляет сигнал для более реалистичных движений.
- Длинные клипы стабилизируются с помощью memory-токенов для плавных кадров.
- Обучение staged: сначала предобучение аудио-стека, затем масштабное совместное обучение (FSDP, context parallel), финально — дообучение на качество.
🎯 Дополнительно
Есть режим точного редактирования синхронизации губ: маскируется рот и перегенерируется только эта зона под новый звук, сохраняя весь остальной кадр.
📌 В итоге: Wan-S2V превращает фото и аудио в реалистичные видео с цифровыми людьми, соединяя текстовый контроль с аудио-детализацией движений. Это шаг к новым возможностям в кино, играх и создании виртуальных персонажей.
https://github.com/Wan-Video/Wan2.2
👍13❤6🔥4