Forwarded from Data Science by ODS.ai 🦜
MMS: Scaling Speech Technology to 1000+ languages
Get ready for a breakthrough in speech technology that is set to revolutionize the world of communication! The field, which has so far been restricted to around a hundred languages, barely scratches the surface of the more than 7,000 languages spoken globally. The Massively Multilingual Speech (MMS) project is taking a monumental leap to bridge this gap, increasing the number of supported languages by an astounding 10 to 40 times, depending on the task. This unprecedented expansion will be a game-changer, significantly improving global access to information and creating a more inclusive digital landscape.
This incredible feat is achieved through the creation of a new dataset drawn from publicly available religious texts and the strategic implementation of self-supervised learning. The MMS project's achievements are staggering, including the development of pre-trained wav2vec 2.0 models for 1,406 languages, a single multilingual automatic speech recognition model for 1,107 languages, speech synthesis models for as many languages, and a language identification model for a whopping 4,017 languages. Even more impressive is the significant improvement in accuracy - our multilingual speech recognition model more than halves the word error rate of Whisper on 54 languages of the FLEURS benchmark, despite being trained on a significantly smaller dataset.
Paper link: https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/
Blogpost link: https://ai.facebook.com/blog/multilingual-model-speech-recognition/
Code link: https://github.com/facebookresearch/fairseq/tree/main/examples/mms
A detailed unofficial overview of the paper: https://andlukyane.com/blog/paper-review-mms
#deeplearning #speechrecognition #tts #audio
Get ready for a breakthrough in speech technology that is set to revolutionize the world of communication! The field, which has so far been restricted to around a hundred languages, barely scratches the surface of the more than 7,000 languages spoken globally. The Massively Multilingual Speech (MMS) project is taking a monumental leap to bridge this gap, increasing the number of supported languages by an astounding 10 to 40 times, depending on the task. This unprecedented expansion will be a game-changer, significantly improving global access to information and creating a more inclusive digital landscape.
This incredible feat is achieved through the creation of a new dataset drawn from publicly available religious texts and the strategic implementation of self-supervised learning. The MMS project's achievements are staggering, including the development of pre-trained wav2vec 2.0 models for 1,406 languages, a single multilingual automatic speech recognition model for 1,107 languages, speech synthesis models for as many languages, and a language identification model for a whopping 4,017 languages. Even more impressive is the significant improvement in accuracy - our multilingual speech recognition model more than halves the word error rate of Whisper on 54 languages of the FLEURS benchmark, despite being trained on a significantly smaller dataset.
Paper link: https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/
Blogpost link: https://ai.facebook.com/blog/multilingual-model-speech-recognition/
Code link: https://github.com/facebookresearch/fairseq/tree/main/examples/mms
A detailed unofficial overview of the paper: https://andlukyane.com/blog/paper-review-mms
#deeplearning #speechrecognition #tts #audio
EmotiVoice: революция в эмоциональном синтезе речи
EmotiVoice – открытый движок для синтеза речи с широким спектром голосов.
Оснащён функцией эмоционального синтеза, позволяющей передать различные эмоции.
Поддерживает английский и китайский языки.
Включает более 2000 голосов для создания уникального звучания.
Два удобных интерфейса: веб-интерфейс и сценарный интерфейс.
Запуск через Docker обеспечивает простоту использования.
Генерация фонем с помощью скрипта Python.
Лицензия Apache-2.0.
Жаль без русского...
#EmotiVoice #TTS #OpenSource
EmotiVoice – открытый движок для синтеза речи с широким спектром голосов.
Оснащён функцией эмоционального синтеза, позволяющей передать различные эмоции.
Поддерживает английский и китайский языки.
Включает более 2000 голосов для создания уникального звучания.
Два удобных интерфейса: веб-интерфейс и сценарный интерфейс.
Запуск через Docker обеспечивает простоту использования.
Генерация фонем с помощью скрипта Python.
Лицензия Apache-2.0.
Жаль без русского...
#EmotiVoice #TTS #OpenSource
👍1
NotebookLlama: PDF в подкаст с помощью нейросетей
Представлен интересный инструментарий для трансформации PDF-документов в аудиоподкасты с использованием различных языковых моделей.
Процесс включает очистку текста, генерацию сценария и создание аудио с применением TTS-моделей parler-tts и bark/suno.
Система поддерживает разные версии Llama (70B, 8B, 1B) в зависимости от доступных вычислительных ресурсов.
Гибкая архитектура позволяет экспериментировать с системными промптами и настраивать различные голоса для разных спикеров.
Теперь можно слушать научные статьи в машине, как подкасты. Обсуждение в студии от нейросетевых экспертов! 🎧📚
#NotebookLlama #TTS #podcast
-------
@tsingular
Представлен интересный инструментарий для трансформации PDF-документов в аудиоподкасты с использованием различных языковых моделей.
Процесс включает очистку текста, генерацию сценария и создание аудио с применением TTS-моделей parler-tts и bark/suno.
Система поддерживает разные версии Llama (70B, 8B, 1B) в зависимости от доступных вычислительных ресурсов.
Гибкая архитектура позволяет экспериментировать с системными промптами и настраивать различные голоса для разных спикеров.
Теперь можно слушать научные статьи в машине, как подкасты. Обсуждение в студии от нейросетевых экспертов! 🎧📚
#NotebookLlama #TTS #podcast
-------
@tsingular
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
Kokoro - интересная TTS модель, для генерации голоса из текста.
Демо
Бесплатная, открытая, очень качественная и быстрая, но русского не знает.
Но есть лайфхак :)
Написать ей запрос транслитом
сама модель
#Kokoro #TTS
———
@tsingular
Демо
Бесплатная, открытая, очень качественная и быстрая, но русского не знает.
Но есть лайфхак :)
Написать ей запрос транслитом
сама модель
#Kokoro #TTS
———
@tsingular
🔥9😁6
Hailuo Audio HD: новый генератор голоса на 17 языках с клонированием
MiniMax представил модель T2A-01-HD - передовую технологию синтеза естественной речи с впечатляющими возможностями.
Система позволяет создавать реалистичные голоса из 10-секундного сэмпла или выбрать из 300+ готовых вариантов.
Встроенный эмоциональный движок автоматически определяет и воспроизводит тональность речи.
Поддерживается 17 языков включая русский, с региональными акцентами и диалектами.
Профессиональные звуковые эффекты добавляют реалистичности: акустика помещений, телефонные фильтры.
Доступна тонкая настройка высоты тона, скорости и эмоциональной окраски каждой фразы.
В открытом виде для локального запуска пока нет, но можно использовать через API.
#Hailuo #MiniMax #TTS #Китай
------
@tsingular
MiniMax представил модель T2A-01-HD - передовую технологию синтеза естественной речи с впечатляющими возможностями.
Система позволяет создавать реалистичные голоса из 10-секундного сэмпла или выбрать из 300+ готовых вариантов.
Встроенный эмоциональный движок автоматически определяет и воспроизводит тональность речи.
Поддерживается 17 языков включая русский, с региональными акцентами и диалектами.
Профессиональные звуковые эффекты добавляют реалистичности: акустика помещений, телефонные фильтры.
Доступна тонкая настройка высоты тона, скорости и эмоциональной окраски каждой фразы.
В открытом виде для локального запуска пока нет, но можно использовать через API.
#Hailuo #MiniMax #TTS #Китай
------
@tsingular
🔥10👍4✍2
Zonos: мультиязычный TTS с клонированием голоса
Новый open source проект Zonos представляет революционную систему преобразования текста в речь.
База в 200 000 часов аудио обеспечивает поддержку 5 языков: английский, японский, китайский, французский и немецкий.
Система позволяет клонировать голос по короткому образцу с возможностью настройки скорости, тона и эмоциональной окраски.
Архитектура построена на eSpeak и DAC-трансформере с выводом звука в качестве 44кГц.
Интерфейс реализован через Gradio с возможностью многократного сэмплирования и Docker-установкой.
Жаль пока без русского
#Zonos #TTS #VoiceCloning
-------
@tsingular
Новый open source проект Zonos представляет революционную систему преобразования текста в речь.
База в 200 000 часов аудио обеспечивает поддержку 5 языков: английский, японский, китайский, французский и немецкий.
Система позволяет клонировать голос по короткому образцу с возможностью настройки скорости, тона и эмоциональной окраски.
Архитектура построена на eSpeak и DAC-трансформере с выводом звука в качестве 44кГц.
Интерфейс реализован через Gradio с возможностью многократного сэмплирования и Docker-установкой.
Жаль пока без русского
#Zonos #TTS #VoiceCloning
-------
@tsingular
✍2🤨1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🗣️ RealtimeVoiceChat — живой голосовой чат с ИИ.
RealtimeVoiceChat — это open-source проект, который позволяет общаться с LLM в реальном времени голосом. Он объединяет распознавание речи, LLM и синтез речи в единую систему с минимальной задержкой — около 500 мс при локальной установке.
➡️ Как работает:
1. Запись речи в браузере
2. Передача аудио по WebSocket на сервер
3. Распознавание речи через
4. Ответ от LLM (Ollama, OpenAI и др.)
5. Озвучка ответа через
6. Обратная передача аудио в браузер
7. Поддержка прерываний и динамики через
✨ Особенности:
- Задержка ~500 мс
- Поддержка разных LLM и TTS движков
- Быстрый запуск через Docker Compose
- Чистый веб-интерфейс на Vanilla JS + Web Audio API
✔️ Стек:
- Backend: Python + FastAPI
- Frontend: JS + WebSockets
- ML: transformers, torchaudio, Ollama, Whisper, TTS
- Контейнеризация: Docker
✔️ Требуется CUDA-совместимая видеокарта (для Whisper/TTS) и Docker.
🔥 Отличный проект для тех, кто хочет интегрировать голосовой интерфейс с LLM — например, для ассистентов, чат-ботов, презентаций или UX-экспериментов.
🔜 Репозиторий: https://github.com/KoljaB/RealtimeVoiceChat
🔜 Демо: https://www.youtube.com/watch?v=-1AD4gakCKw
@ai_machinelearning_big_data
#tts #llm #opensource
RealtimeVoiceChat — это open-source проект, который позволяет общаться с LLM в реальном времени голосом. Он объединяет распознавание речи, LLM и синтез речи в единую систему с минимальной задержкой — около 500 мс при локальной установке.
1. Запись речи в браузере
2. Передача аудио по WebSocket на сервер
3. Распознавание речи через
RealtimeSTT
(на базе Whisper)4. Ответ от LLM (Ollama, OpenAI и др.)
5. Озвучка ответа через
RealtimeTTS
(Coqui XTTSv2, Kokoro и др.)6. Обратная передача аудио в браузер
7. Поддержка прерываний и динамики через
turndetect.py
✨ Особенности:
- Задержка ~500 мс
- Поддержка разных LLM и TTS движков
- Быстрый запуск через Docker Compose
- Чистый веб-интерфейс на Vanilla JS + Web Audio API
- Backend: Python + FastAPI
- Frontend: JS + WebSockets
- ML: transformers, torchaudio, Ollama, Whisper, TTS
- Контейнеризация: Docker
@ai_machinelearning_big_data
#tts #llm #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍3⚡2❤1
🔊Unsloth опубликовал готовый код для файнтюна TTS моделей
Unsloth выпустил набор блокнотов для файнтюнинга моделей Text-to-Speech (TTS), предлагая разработчикам мощный инструментарий кастомизации.
Технические возможности:
- Оптимизированная производительность: в 1.5 раза быстрее и на 50% меньше потребление памяти благодаря Flash Attention 2
-Поддержка популярных моделей: Sesame CSM (1B), Orpheus (3B), CrisperWhisper, Spark и другие модели из экосистемы transformers
- Двусторонний подход: поддержка как TTS (текст-в-речь), так и STT (речь-в-текст) моделей, включая OpenAI Whisper
Блокноты для файнтюна:
- Sesame-CSM (1B)
- Orpheus-TTS (3B)
- Whisper Large V3 (STT)
- Spark-TTS (0.5B)
- Llasa-TTS (3B)
- Oute-TTS (1B)
Практическое применение:
- Клонирование голосов: создание кастомных голосовых моделей
- Настройка стиля и тона: адаптация эмоциональной окраски (поддержка тегов типа
- Поддержка новых языков: расширение языковых возможностей базовых моделей
- Экспорт в различные форматы: поддержка llama.cpp для совместимости
Рабочий процесс:
1. Загрузка модели через FastModel с опциями для 16-бит LoRA или полного файнтюнинга
2. Подготовка датасета- поддерживаются как готовые наборы с Hugging Face, так и собственные датасеты
3. Настройка параметров обучения с оптимизированными настройками для голосовых моделей
4. Запуск файнтюнинга с мониторингом прогресса
5. Сохранение и экспорт результатов в различные форматы
Unsloth существенно упрощает файнтюн, делая технологии персонализации голоса более доступными для разработчиков.
Самое вкусное во всей этой истории, - готовые коллаб-блокноты.
Можно пользовать из облака или скопировать себе и запускать локально.
#Unsloth #TextToSpeech #TTS #finetuning
———
@tsingular
Unsloth выпустил набор блокнотов для файнтюнинга моделей Text-to-Speech (TTS), предлагая разработчикам мощный инструментарий кастомизации.
Технические возможности:
- Оптимизированная производительность: в 1.5 раза быстрее и на 50% меньше потребление памяти благодаря Flash Attention 2
-Поддержка популярных моделей: Sesame CSM (1B), Orpheus (3B), CrisperWhisper, Spark и другие модели из экосистемы transformers
- Двусторонний подход: поддержка как TTS (текст-в-речь), так и STT (речь-в-текст) моделей, включая OpenAI Whisper
Блокноты для файнтюна:
- Sesame-CSM (1B)
- Orpheus-TTS (3B)
- Whisper Large V3 (STT)
- Spark-TTS (0.5B)
- Llasa-TTS (3B)
- Oute-TTS (1B)
Практическое применение:
- Клонирование голосов: создание кастомных голосовых моделей
- Настройка стиля и тона: адаптация эмоциональной окраски (поддержка тегов типа
<laugh>
, <sigh>
)- Поддержка новых языков: расширение языковых возможностей базовых моделей
- Экспорт в различные форматы: поддержка llama.cpp для совместимости
Рабочий процесс:
1. Загрузка модели через FastModel с опциями для 16-бит LoRA или полного файнтюнинга
2. Подготовка датасета- поддерживаются как готовые наборы с Hugging Face, так и собственные датасеты
3. Настройка параметров обучения с оптимизированными настройками для голосовых моделей
4. Запуск файнтюнинга с мониторингом прогресса
5. Сохранение и экспорт результатов в различные форматы
Unsloth существенно упрощает файнтюн, делая технологии персонализации голоса более доступными для разработчиков.
Самое вкусное во всей этой истории, - готовые коллаб-блокноты.
Можно пользовать из облака или скопировать себе и запускать локально.
#Unsloth #TextToSpeech #TTS #finetuning
———
@tsingular
👍6🔥2❤1⚡1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 OpenAudio S1: наконец-то годный открытый TTS с русским языком
Fish Audio выпустили OpenAudio S1 — интересную открытую модель с точным контролем эмоций и поддержкой 13ти языков.
Технические характеристики:
2 версии:
• S1 (4B): Полноразмерная модель с максимальным качеством генерации и точностю в деталях - доступна пока только в онлайне тут: https://fish.audio/ .
• S1-mini (0.5B): Качественный дистиллят на основе 1й модели, доступен бесплатно на HF: https://huggingface.co/fishaudio/openaudio-s1-mini . Лицензия CC-BY-NC-SA-4.0 (можно делиться, адаптировать и развивать исходник, но вы должны указать автора, использовать в некоммерческих целях и делиться любыми модификациями на тех же условиях.)
Обучена на 2+ млн часов аудио
WER: 0.008, CER: 0.004 — лучшие показатели точности
#1 в Human Subjective Evaluation на HuggingFace TTS-Arena-V2
Что особенного в модели:
- Единая модель для семантики + акустики (без потери информации)
- Продвинутые эмоциональные маркеры: (angry), (excited), (whispering)
- Специальные эффекты: (laughing), (sobbing), (crowd laughing)
Поддержка 13 языков, включая русский
Доступная цена:
$15/1млн знаков текста (~$0.8/час) — на порядок дешевле конкурентов.
Архитектура основана на Qwen3 с нативной мультимодальностью.
Го тестить! :)
#TTS #OpenAudio #русский
———
@tsingular
Fish Audio выпустили OpenAudio S1 — интересную открытую модель с точным контролем эмоций и поддержкой 13ти языков.
Технические характеристики:
2 версии:
• S1 (4B): Полноразмерная модель с максимальным качеством генерации и точностю в деталях - доступна пока только в онлайне тут: https://fish.audio/ .
• S1-mini (0.5B): Качественный дистиллят на основе 1й модели, доступен бесплатно на HF: https://huggingface.co/fishaudio/openaudio-s1-mini . Лицензия CC-BY-NC-SA-4.0 (можно делиться, адаптировать и развивать исходник, но вы должны указать автора, использовать в некоммерческих целях и делиться любыми модификациями на тех же условиях.)
Обучена на 2+ млн часов аудио
WER: 0.008, CER: 0.004 — лучшие показатели точности
#1 в Human Subjective Evaluation на HuggingFace TTS-Arena-V2
Что особенного в модели:
- Единая модель для семантики + акустики (без потери информации)
- Продвинутые эмоциональные маркеры: (angry), (excited), (whispering)
- Специальные эффекты: (laughing), (sobbing), (crowd laughing)
Поддержка 13 языков, включая русский
Доступная цена:
$15/1млн знаков текста (~$0.8/час) — на порядок дешевле конкурентов.
Архитектура основана на Qwen3 с нативной мультимодальностью.
Го тестить! :)
#TTS #OpenAudio #русский
———
@tsingular
❤5🔥3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
ElevenLabs выкатили v3 генератор
Всё реалистичнее и реалистичнее.
Пробуем тут:
https://elevenlabs.io/app/speech-synthesis/text-to-speech
Инструкция
#ElevenLabs #TTS
———
@tsingular
Всё реалистичнее и реалистичнее.
Пробуем тут:
https://elevenlabs.io/app/speech-synthesis/text-to-speech
Инструкция
#ElevenLabs #TTS
———
@tsingular
🔥15 4
Speech Note,- оффлайн комбайн для Linux с поддержкой русского
Полноценный набор инструментов для работы с речью без интернета.
Speech Note умеет распознавать речь в текст, читать текст вслух и переводить между языками.
Ключевые фишки:
- Полностью офлайн работа - никуда не передает данные
- Поддержка русского языка для всех функций
- CLI интерфейс для автоматизации
- Доступен через Flatpak на Flathub
Использует движки Whisper, Coqui TTS, Piper и многие другие.
Модели скачиваются прямо из приложения.
Отличный комбайн, который можно развернуть на сервере и вызывать через CLI тем же n8n.
#STT #TTS #SpeechNote
------
@tsingular
Полноценный набор инструментов для работы с речью без интернета.
Speech Note умеет распознавать речь в текст, читать текст вслух и переводить между языками.
Ключевые фишки:
- Полностью офлайн работа - никуда не передает данные
- Поддержка русского языка для всех функций
- CLI интерфейс для автоматизации
- Доступен через Flatpak на Flathub
Использует движки Whisper, Coqui TTS, Piper и многие другие.
Модели скачиваются прямо из приложения.
Отличный комбайн, который можно развернуть на сервере и вызывать через CLI тем же n8n.
#STT #TTS #SpeechNote
------
@tsingular
🔥9❤2⚡1