Python Community

🎙 TADA (Text Audio Dual Alignment) - речевая AI-система нового типа.

Она генерирует текст и аудио одновременно в одном синхронизированном потоке.
Это позволяет снизить галлюцинации на уровне токенов и значительно уменьшить задержку.

Что показали тесты:

→ 0 галлюцинаций контента на 1000+ тестовых примеров
→ в 5 раз быстрее, чем похожие LLM-решения для TTS
→ намного длиннее аудио: 2048 токенов покрывают ~700 секунд речи (в обычных системах около 70 секунд)
→ транскрипт генерируется сразу вместе с аудио без дополнительной задержки

По сути, модель думает текстом и голосом одновременно, что делает генерацию речи быстрее и точнее.

https://huggingface.co/collections/HumeAI/tada

🐍 Python полезные ресурсы (https://t.iss.one/addlist/8vDUwYRGujRmZjFi) 🚀Max (https://max.ru/pythonl)

@Python_Community_ru

272 views08:03

About

Blog

Apps

Platform