Machinelearning

Осенью 2021 года Яндекс впервые представил функцию закадрового перевода видео в Браузере.

Сначала система использовала два стандартных голоса — мужской и женский — затем перешла на ограниченный набор синтезированных голосов. Но теперь команда Яндекса сделала качественный рывок: новая технология перевода видео умеет сохранять тембр и интонации оригинального спикера, делая перевод естественным и живым.

✔️

Как это работает?
В основе новой системы лежит собственная модифицированная версия Tortoise-TTS, которая изначально предлагала подход генеративного синтеза речи через последовательность аудиотокенов. Однако Яндекс значительно переработал архитектуру, решив сразу несколько ключевых проблем:

1. Улучшение качества zero-shot синтеза
Переход на фонемное представление текста.
Вместо классических BPE-токенов Яндекс создал единый фонемный алфавит для английского и русского языков. Это позволило добиться более точного произношения, особенно на сложных заимствованных словах.

🟡

Интеграция биометрических эмбеддингов.
Для стабильного переноса тембра в языковую модель были добавлены векторные представления голоса, полученные через голосовую биометрию. Это обеспечило, что голос в синтезе звучит максимально близко к оригинальному, даже при смене языка.

🟡Управление качеством через UTMOS.
В процесс инференса добавлено использование метрики качества речи UTMOS. Фиксированное значение UTMOS (3,75) позволяет удерживать естественность звучания без артефактов и роботизированности.

2. Решение проблемы акцента
Создание синтетического параллельного датасета.
Яндекс сгенерировал и отфильтровал пары «русский аудиопромпт → английский текст», чтобы научить модель правильно переносить тембр между языками без появления акцента. В результате процент синтеза с акцентом снизился с 50% до 5%🔥

3. Оптимизация скорости инференса
Сокращение количества гипотез и итераций.
Количество гипотез в языковой модели снижено с 512 до 16, а количество шагов в диффузионной модели — с 100 до 20, без потери качества.

Ускорение вычислений.
Использование torch.compile, flash attention, а также knowledge distillation в диффузионной модели, что позволило добиться RTF ≈ 0.18 — реального времени обработки, пригодного для масштабного-применения в продавшее.

4. Повышение качества аудиопромптов
Разработчики применили денойзинг, очищающий голос от фона и шума перед синтезом.

Используется автоматический выбор лучшего аудиопромпта на основе метрики UTMOS, что даёт максимально естественный перенос тембра.

🌟

Чего удалось добиться?
Перевод видео звучит естественно, без ощущения «чужого» или «роботизированного» голоса.

🟢Голос сохраняет интонации и тембр оригинала.

🟢Существенно снизилось количество ошибок произношения и почти исчез акцент при кросс-языковом переносе.

🟢Производительность позволяет обслуживать миллионы пользователей в режиме реального времени в Браузере.

🔜

Оценка качества
Внутренние тесты методом попарного сравнения (side-by-side) показали:

Новый перевод предпочтительнее старой версии в 72% случаев.

При сравнении с ElevenLabs:

- В полном переводе видео Яндекс выигрывает в 62% случаев.

При сравнении только качества озвучки Яндекс выигрывает в 46% случаев.

Где работает?
Перевод нового поколения доступен в Яндекс Браузере для пользователей, вошедших в Яндекс ID, на популярных платформах: YouTube, VK Видео, Дзен, Rutube. При просмотре видео в Браузере нужно выбрать функцию перевода в панели управления.

🌟 Что дальше?
Команда Яндекса продолжает развивать технологию.

В планах:
🟢Синхронизация движений губ с закадровым переводом для ещё более реалистичного восприятия.

🟢Дальнейшее ускорение инференса без потерь в качестве.

Итог:
Яндекс создал передовую систему мультиязычного генеративного синтеза, объединив глубокие фундаментальные исследования и серьёзные инженерные оптимизации. Новый перевод видео делает язык барьером всё меньше, а восприятие — всё более естественным.

@ai_machinelearning_big_data

#yandex #tts

Please open Telegram to view this post

VIEW IN TELEGRAM

👍100🔥50❤19🥱4🎉2🤣2🌭1🤨1

13.9K views17:20

About

Blog

Apps

Platform