Python Portal
56.6K subscribers
2.39K photos
367 videos
51 files
958 links
Всё самое интересное из мира Python

Связь: @devmangx

РКН: https://clck.ru/3GMMF6
Download Telegram
Forwarded from Айти мемы
😆😆😆
Please open Telegram to view this post
VIEW IN TELEGRAM
😁70🤣15🔥53
Клонируй любой голос по 5-секундному аудиоклипу.

VoxCPM это open-source проект, который делает TTS принципиально иначе.

большинство TTS-систем сначала переводят речь в дискретные токены. это становится бутылочным горлышком и ограничивает, насколько “живым” может быть звук.

VoxCPM вообще пропускает токенизацию. он моделирует аудио в непрерывном пространстве через end-to-end diffusion autoregressive архитектуру.

в итоге получается речь, которая реально звучит по-человечески.

вот что в нем особенного:

> контекстно-зависимая генерация: читает текст и сам подбирает нужную просодию, эмоцию и темп. ручной тюнинг не нужен.

> zero-shot клонирование голоса: даешь короткий аудиоклип, и он ловит не только тембр, но и акцент, ритм и эмоциональный окрас.

модель обучали на 1.8 млн часов билингвальных данных (английский и китайский)

* поддерживает streaming synthesis
* работает и с full fine-tuning, и с LoRA
* простой Python API: pip install voxcpm

VoxCPM1.5 гоняет на 44.1kHz sampling rate и имеет 800M параметров. поэтому звук заметно более четкий и натуральный.

лицензия Apache-2.0

👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
💊53👍1😢1