Python Portal

😅

👉

@PythonPortal

Please open Telegram to view this post

VIEW IN TELEGRAM

❤44🔥10😁9🤔4

3.66K views12:07

Python Portal

1:44

This media is not supported in your browser

VIEW IN TELEGRAM

Мы рады представить Pocket TTS — text-to-speech модель на 100 млн параметров с качественным голосовым клонированием, которая запускается прямо на ноутбуке без GPU. Открытая, лёгкая и очень быстрая.

— так представили новую text-to-speech модель 😁

Проблема текущего TTS:
❌огромные LLM-модели (1B+ параметров) требуют GPU
❌маленькие модели типа Kokoro (82M) быстрые, но не умеют гибко клонировать голос

Pocket TTS закрывает этот разрыв. Она работает быстрее реального времени на обычном ноутбучном CPU, сохраняя мощность крупных моделей.

Настоящее голосовое клонирование: Pocket TTS нужно всего 5 секунд аудио, чтобы уловить:
✅тембр конкретного голоса
✅ эмоцию и акцент
✅акустические условия (реверб, качество микрофона)

Можно использовать их библиотеку голосов или клонировать голос из крошечного сэмпла.

Цифры это подтверждают. Несмотря на размер (100M параметров), Pocket TTS обходит F5-TTS и DSM по Word Error Rate (1.84) и по Audio Quality ELO. Это единственная модель в своём классе, которая умеет клонировать голос и при этом спокойно работает на CPU.

Как это удалось? Они отказались от дискретных токенов. Pocket TTS построена на Continuous Audio Language Models (CALM) и предсказывает последовательности непрерывных латентов напрямую, используя одношаговый sampling (Lagrangian Self-Distillation). CALM paper: …

Опенсорсный и доступный всем. Обучен на 88 тысячах часов публичных английских данных, что позволяет воспроизвести результаты.

👉

@PythonPortal

Please open Telegram to view this post

VIEW IN TELEGRAM

🌭8👍6❤3

2.33K views16:07

About

Blog

Apps

Platform