This media is not supported in your browser
VIEW IN TELEGRAM
Осенью 2021 года Яндекс впервые представил функцию закадрового перевода видео в Браузере.
Сначала система использовала два стандартных голоса — мужской и женский — затем перешла на ограниченный набор синтезированных голосов. Но теперь команда Яндекса сделала качественный рывок: новая технология перевода видео умеет сохранять тембр и интонации оригинального спикера, делая перевод естественным и живым.
✔️ Как это работает?
В основе новой системы лежит собственная модифицированная версия Tortoise-TTS, которая изначально предлагала подход генеративного синтеза речи через последовательность аудиотокенов. Однако Яндекс значительно переработал архитектуру, решив сразу несколько ключевых проблем:
1. Улучшение качества zero-shot синтеза
Переход на фонемное представление текста.
Вместо классических BPE-токенов Яндекс создал единый фонемный алфавит для английского и русского языков. Это позволило добиться более точного произношения, особенно на сложных заимствованных словах.
🟡 Интеграция биометрических эмбеддингов.
Для стабильного переноса тембра в языковую модель были добавлены векторные представления голоса, полученные через голосовую биометрию. Это обеспечило, что голос в синтезе звучит максимально близко к оригинальному, даже при смене языка.
🟡 Управление качеством через UTMOS.
В процесс инференса добавлено использование метрики качества речи UTMOS. Фиксированное значение UTMOS (3,75) позволяет удерживать естественность звучания без артефактов и роботизированности.
2. Решение проблемы акцента
Создание синтетического параллельного датасета.
Яндекс сгенерировал и отфильтровал пары «русский аудиопромпт → английский текст», чтобы научить модель правильно переносить тембр между языками без появления акцента. В результате процент синтеза с акцентом снизился с 50% до 5%🔥
3. Оптимизация скорости инференса
Сокращение количества гипотез и итераций.
Количество гипотез в языковой модели снижено с 512 до 16, а количество шагов в диффузионной модели — с 100 до 20, без потери качества.
Ускорение вычислений.
Использование torch.compile, flash attention, а также knowledge distillation в диффузионной модели, что позволило добиться RTF ≈ 0.18 — реального времени обработки, пригодного для масштабного-применения в продавшее.
4. Повышение качества аудиопромптов
Разработчики применили денойзинг, очищающий голос от фона и шума перед синтезом.
Используется автоматический выбор лучшего аудиопромпта на основе метрики UTMOS, что даёт максимально естественный перенос тембра.
🌟 Чего удалось добиться?
Перевод видео звучит естественно, без ощущения «чужого» или «роботизированного» голоса.
🟢 Голос сохраняет интонации и тембр оригинала.
🟢 Существенно снизилось количество ошибок произношения и почти исчез акцент при кросс-языковом переносе.
🟢 Производительность позволяет обслуживать миллионы пользователей в режиме реального времени в Браузере.
🔜 Оценка качества
Внутренние тесты методом попарного сравнения (side-by-side) показали:
Новый перевод предпочтительнее старой версии в 72% случаев.
При сравнении с ElevenLabs:
- В полном переводе видео Яндекс выигрывает в 62% случаев.
При сравнении только качества озвучки Яндекс выигрывает в 46% случаев.
Где работает?
Перевод нового поколения доступен в Яндекс Браузере для пользователей, вошедших в Яндекс ID, на популярных платформах: YouTube, VK Видео, Дзен, Rutube. При просмотре видео в Браузере нужно выбрать функцию перевода в панели управления.
🌟 Что дальше?
Команда Яндекса продолжает развивать технологию.
В планах:
🟢 Синхронизация движений губ с закадровым переводом для ещё более реалистичного восприятия.
🟢 Дальнейшее ускорение инференса без потерь в качестве.
Итог:
Яндекс создал передовую систему мультиязычного генеративного синтеза, объединив глубокие фундаментальные исследования и серьёзные инженерные оптимизации. Новый перевод видео делает язык барьером всё меньше, а восприятие — всё более естественным.
@ai_machinelearning_big_data
#yandex #tts
Сначала система использовала два стандартных голоса — мужской и женский — затем перешла на ограниченный набор синтезированных голосов. Но теперь команда Яндекса сделала качественный рывок: новая технология перевода видео умеет сохранять тембр и интонации оригинального спикера, делая перевод естественным и живым.
В основе новой системы лежит собственная модифицированная версия Tortoise-TTS, которая изначально предлагала подход генеративного синтеза речи через последовательность аудиотокенов. Однако Яндекс значительно переработал архитектуру, решив сразу несколько ключевых проблем:
1. Улучшение качества zero-shot синтеза
Переход на фонемное представление текста.
Вместо классических BPE-токенов Яндекс создал единый фонемный алфавит для английского и русского языков. Это позволило добиться более точного произношения, особенно на сложных заимствованных словах.
Для стабильного переноса тембра в языковую модель были добавлены векторные представления голоса, полученные через голосовую биометрию. Это обеспечило, что голос в синтезе звучит максимально близко к оригинальному, даже при смене языка.
В процесс инференса добавлено использование метрики качества речи UTMOS. Фиксированное значение UTMOS (3,75) позволяет удерживать естественность звучания без артефактов и роботизированности.
2. Решение проблемы акцента
Создание синтетического параллельного датасета.
Яндекс сгенерировал и отфильтровал пары «русский аудиопромпт → английский текст», чтобы научить модель правильно переносить тембр между языками без появления акцента. В результате процент синтеза с акцентом снизился с 50% до 5%🔥
3. Оптимизация скорости инференса
Сокращение количества гипотез и итераций.
Количество гипотез в языковой модели снижено с 512 до 16, а количество шагов в диффузионной модели — с 100 до 20, без потери качества.
Ускорение вычислений.
Использование torch.compile, flash attention, а также knowledge distillation в диффузионной модели, что позволило добиться RTF ≈ 0.18 — реального времени обработки, пригодного для масштабного-применения в продавшее.
4. Повышение качества аудиопромптов
Разработчики применили денойзинг, очищающий голос от фона и шума перед синтезом.
Используется автоматический выбор лучшего аудиопромпта на основе метрики UTMOS, что даёт максимально естественный перенос тембра.
Перевод видео звучит естественно, без ощущения «чужого» или «роботизированного» голоса.
Внутренние тесты методом попарного сравнения (side-by-side) показали:
Новый перевод предпочтительнее старой версии в 72% случаев.
При сравнении с ElevenLabs:
- В полном переводе видео Яндекс выигрывает в 62% случаев.
При сравнении только качества озвучки Яндекс выигрывает в 46% случаев.
Где работает?
Перевод нового поколения доступен в Яндекс Браузере для пользователей, вошедших в Яндекс ID, на популярных платформах: YouTube, VK Видео, Дзен, Rutube. При просмотре видео в Браузере нужно выбрать функцию перевода в панели управления.
🌟 Что дальше?
Команда Яндекса продолжает развивать технологию.
В планах:
Итог:
Яндекс создал передовую систему мультиязычного генеративного синтеза, объединив глубокие фундаментальные исследования и серьёзные инженерные оптимизации. Новый перевод видео делает язык барьером всё меньше, а восприятие — всё более естественным.
@ai_machinelearning_big_data
#yandex #tts
Please open Telegram to view this post
VIEW IN TELEGRAM
👍100🔥50❤19🥱4🎉2🤣2🌭1🤨1