Анализ данных (Data analysis)

🗣 Kokoro-TTS

Мощнейшая TTS-модель всего лишь на 82M параметров.

Она превосходит более крупные модели и генерирует минуты речи за секунды.

Самое главное - это открытый исходный код!

Попробуйте и убедитесь сами: 👇

🤗 Hf: https://huggingface.co/spaces/hexgrad/Kokoro-TTS

#tts #ml #opensource

👍13🔥7❤5

5.74K views14:02

1:21

This media is not supported in your browser

VIEW IN TELEGRAM

ZyphraAI только что выпустили - лицензированную Apache 2.0, многоязычную модель Zonos для преобразования текста в речь с МГНОВЕННЫМ клонированием голоса! 🔥

> TTS с нулевой скоростью задержки и клонированием голоса: введите текст и 10–30-секундный образец речи для создания высококачественной генерации текста в речь

> Качество звука и контроль эмоций: точная настройка скорости речи, высоты тона, частоты, качества звука и эмоций (например, счастья, гнева, грусти, страха)

> Позволяет реализовать такие фишки, как шепот, которые трудно реализовать с помощью одного лишь клонирования голоса.

> Многоязычная поддержка: поддерживает английский, японский, китайский, французский и немецкий языки.

> Высокая производительность: работает примерно в 2 раза быстрее реального времени на RTX 4090

> Доступно на Hugging Face Hub 🤗

apt install espeak-ng

https://huggingface.co/Zyphra/Zonos-v0.1-hybrid

#ai #ml #tts #opensource #ZyphraAI

🔥22👍8❤6

6.38K views05:52

Анализ данных (Data analysis)

2:52

This media is not supported in your browser

VIEW IN TELEGRAM

💡 Модель Ming-UniAudio — это универсальный фреймворк, сочетающий понимание речи, генерацию и редактирование.

- Модель Ming-UniAudio — это универсальный фреймворк, сочетающий *понимание речи*, *генерацию* и *редактирование*.
- В её основе лежит единый непрерывный токенизатор речи, интегрирующий семантические и акустические признаки.
- Поддерживается инструкционное редактирование: можно менять звук, содержание или тональность без указания временных фрагментов.
- В бенчмарках показывает конкурентные результаты и для распознавания, и для генерации речи.
- Лицензия: Apache-2.0.

💻 GitHub: https://github.com/inclusionAI/Ming-UniAudio
🤗 Tokenizer: https://huggingface.co/inclusionAI/MingTok-Audio
🤗 Model:
base: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B
edit: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B-Edit
🤗 Benchmark: https://huggingface.co/datasets/inclusionAI/Ming-Freeform-Audio-Edit-Benchmark
🌍 blog: https://xqacmer.github.io/Ming-Unitok-Audio.github.io/
#AI #Speech #SpeechLLM #LLM #GenerativeAI #Audio #ASR #TTS #SpeechEditing

❤2🔥2👍1

2.07K views11:25

About

Blog

Apps

Platform