Технозаметки Малышева
5.54K subscribers
2.79K photos
927 videos
38 files
3.06K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
​​MMS: Scaling Speech Technology to 1000+ languages

Get ready for a breakthrough in speech technology that is set to revolutionize the world of communication! The field, which has so far been restricted to around a hundred languages, barely scratches the surface of the more than 7,000 languages spoken globally. The Massively Multilingual Speech (MMS) project is taking a monumental leap to bridge this gap, increasing the number of supported languages by an astounding 10 to 40 times, depending on the task. This unprecedented expansion will be a game-changer, significantly improving global access to information and creating a more inclusive digital landscape.

This incredible feat is achieved through the creation of a new dataset drawn from publicly available religious texts and the strategic implementation of self-supervised learning. The MMS project's achievements are staggering, including the development of pre-trained wav2vec 2.0 models for 1,406 languages, a single multilingual automatic speech recognition model for 1,107 languages, speech synthesis models for as many languages, and a language identification model for a whopping 4,017 languages. Even more impressive is the significant improvement in accuracy - our multilingual speech recognition model more than halves the word error rate of Whisper on 54 languages of the FLEURS benchmark, despite being trained on a significantly smaller dataset.

Paper link: https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/
Blogpost link: https://ai.facebook.com/blog/multilingual-model-speech-recognition/
Code link: https://github.com/facebookresearch/fairseq/tree/main/examples/mms

A detailed unofficial overview of the paper: https://andlukyane.com/blog/paper-review-mms
#deeplearning #speechrecognition #tts #audio
EmotiVoice: революция в эмоциональном синтезе речи

EmotiVoice – открытый движок для синтеза речи с широким спектром голосов.
Оснащён функцией эмоционального синтеза, позволяющей передать различные эмоции.
Поддерживает английский и китайский языки.
Включает более 2000 голосов для создания уникального звучания.
Два удобных интерфейса: веб-интерфейс и сценарный интерфейс.
Запуск через Docker обеспечивает простоту использования.
Генерация фонем с помощью скрипта Python.
Лицензия Apache-2.0.

Жаль без русского...

#EmotiVoice #TTS #OpenSource
👍1
NotebookLlama: PDF в подкаст с помощью нейросетей

Представлен интересный инструментарий для трансформации PDF-документов в аудиоподкасты с использованием различных языковых моделей.
Процесс включает очистку текста, генерацию сценария и создание аудио с применением TTS-моделей parler-tts и bark/suno.
Система поддерживает разные версии Llama (70B, 8B, 1B) в зависимости от доступных вычислительных ресурсов.
Гибкая архитектура позволяет экспериментировать с системными промптами и настраивать различные голоса для разных спикеров.

Теперь можно слушать научные статьи в машине, как подкасты. Обсуждение в студии от нейросетевых экспертов! 🎧📚

#NotebookLlama #TTS #podcast
-------
@tsingular
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
Kokoro - интересная TTS модель, для генерации голоса из текста.

Демо

Бесплатная, открытая, очень качественная и быстрая, но русского не знает.

Но есть лайфхак :)

Написать ей запрос транслитом

сама модель

#Kokoro #TTS
———
@tsingular
🔥9😁6
Hailuo Audio HD: новый генератор голоса на 17 языках с клонированием

MiniMax представил модель T2A-01-HD - передовую технологию синтеза естественной речи с впечатляющими возможностями.

Система позволяет создавать реалистичные голоса из 10-секундного сэмпла или выбрать из 300+ готовых вариантов.

Встроенный эмоциональный движок автоматически определяет и воспроизводит тональность речи.

Поддерживается 17 языков включая русский, с региональными акцентами и диалектами.

Профессиональные звуковые эффекты добавляют реалистичности: акустика помещений, телефонные фильтры.

Доступна тонкая настройка высоты тона, скорости и эмоциональной окраски каждой фразы.

В открытом виде для локального запуска пока нет, но можно использовать через API.

#Hailuo #MiniMax #TTS #Китай
------
@tsingular
🔥10👍42
Zonos: мультиязычный TTS с клонированием голоса

Новый open source проект Zonos представляет революционную систему преобразования текста в речь.
База в 200 000 часов аудио обеспечивает поддержку 5 языков: английский, японский, китайский, французский и немецкий.
Система позволяет клонировать голос по короткому образцу с возможностью настройки скорости, тона и эмоциональной окраски.
Архитектура построена на eSpeak и DAC-трансформере с выводом звука в качестве 44кГц.
Интерфейс реализован через Gradio с возможностью многократного сэмплирования и Docker-установкой.

Жаль пока без русского

#Zonos #TTS #VoiceCloning
-------
@tsingular
2🤨1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🗣️ RealtimeVoiceChat — живой голосовой чат с ИИ.

RealtimeVoiceChat — это open-source проект, который позволяет общаться с LLM в реальном времени голосом. Он объединяет распознавание речи, LLM и синтез речи в единую систему с минимальной задержкой — около 500 мс при локальной установке.

➡️ Как работает:

1. Запись речи в браузере
2. Передача аудио по WebSocket на сервер
3. Распознавание речи через RealtimeSTT (на базе Whisper)
4. Ответ от LLM (Ollama, OpenAI и др.)
5. Озвучка ответа через RealtimeTTS (Coqui XTTSv2, Kokoro и др.)
6. Обратная передача аудио в браузер
7. Поддержка прерываний и динамики через turndetect.py

Особенности:


- Задержка ~500 мс
- Поддержка разных LLM и TTS движков
- Быстрый запуск через Docker Compose
- Чистый веб-интерфейс на Vanilla JS + Web Audio API

✔️ Стек:

- Backend: Python + FastAPI
- Frontend: JS + WebSockets
- ML: transformers, torchaudio, Ollama, Whisper, TTS
- Контейнеризация: Docker

✔️ Требуется CUDA-совместимая видеокарта (для Whisper/TTS) и Docker.

🔥 Отличный проект для тех, кто хочет интегрировать голосовой интерфейс с LLM — например, для ассистентов, чат-ботов, презентаций или UX-экспериментов.

🔜 Репозиторий: https://github.com/KoljaB/RealtimeVoiceChat
🔜 Демо: https://www.youtube.com/watch?v=-1AD4gakCKw

@ai_machinelearning_big_data

#tts #llm #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍321
🔊Unsloth опубликовал готовый код для файнтюна TTS моделей

Unsloth выпустил набор блокнотов для файнтюнинга моделей Text-to-Speech (TTS), предлагая разработчикам мощный инструментарий кастомизации.

Технические возможности:
- Оптимизированная производительность: в 1.5 раза быстрее и на 50% меньше потребление памяти благодаря Flash Attention 2
-Поддержка популярных моделей: Sesame CSM (1B), Orpheus (3B), CrisperWhisper, Spark и другие модели из экосистемы transformers
- Двусторонний подход: поддержка как TTS (текст-в-речь), так и STT (речь-в-текст) моделей, включая OpenAI Whisper

Блокноты для файнтюна:
- Sesame-CSM (1B)
- Orpheus-TTS (3B)
- Whisper Large V3 (STT)
- Spark-TTS (0.5B)
- Llasa-TTS (3B)
- Oute-TTS (1B)

Практическое применение:
- Клонирование голосов: создание кастомных голосовых моделей
- Настройка стиля и тона: адаптация эмоциональной окраски (поддержка тегов типа <laugh>, <sigh>)
- Поддержка новых языков: расширение языковых возможностей базовых моделей
- Экспорт в различные форматы: поддержка llama.cpp для совместимости

Рабочий процесс:
1. Загрузка модели через FastModel с опциями для 16-бит LoRA или полного файнтюнинга
2. Подготовка датасета- поддерживаются как готовые наборы с Hugging Face, так и собственные датасеты
3. Настройка параметров обучения с оптимизированными настройками для голосовых моделей
4. Запуск файнтюнинга с мониторингом прогресса
5. Сохранение и экспорт результатов в различные форматы

Unsloth существенно упрощает файнтюн, делая технологии персонализации голоса более доступными для разработчиков.

Самое вкусное во всей этой истории, - готовые коллаб-блокноты.
Можно пользовать из облака или скопировать себе и запускать локально.

#Unsloth #TextToSpeech #TTS #finetuning
———
@tsingular
👍6🔥211
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 OpenAudio S1: наконец-то годный открытый TTS с русским языком

Fish Audio выпустили OpenAudio S1 — интересную открытую модель с точным контролем эмоций и поддержкой 13ти языков.

Технические характеристики:

2 версии:
• S1 (4B): Полноразмерная модель с максимальным качеством генерации и точностю в деталях - доступна пока только в онлайне тут: https://fish.audio/ .
• S1-mini (0.5B): Качественный дистиллят на основе 1й модели, доступен бесплатно на HF: https://huggingface.co/fishaudio/openaudio-s1-mini . Лицензия CC-BY-NC-SA-4.0 (можно делиться, адаптировать и развивать исходник, но вы должны указать автора, использовать в некоммерческих целях и делиться любыми модификациями на тех же условиях.)

Обучена на 2+ млн часов аудио
WER: 0.008, CER: 0.004 — лучшие показатели точности

#1 в Human Subjective Evaluation на HuggingFace TTS-Arena-V2

Что особенного в модели:
- Единая модель для семантики + акустики (без потери информации)
- Продвинутые эмоциональные маркеры: (angry), (excited), (whispering)
- Специальные эффекты: (laughing), (sobbing), (crowd laughing)

Поддержка 13 языков, включая русский

Доступная цена:
$15/1млн знаков текста (~$0.8/час) — на порядок дешевле конкурентов.

Архитектура основана на Qwen3 с нативной мультимодальностью.

Го тестить! :)

#TTS #OpenAudio #русский
———
@tsingular
5🔥3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
ElevenLabs выкатили v3 генератор

Всё реалистичнее и реалистичнее.

Пробуем тут:
https://elevenlabs.io/app/speech-synthesis/text-to-speech

Инструкция

#ElevenLabs #TTS
———
@tsingular
🔥154
Speech Note,- оффлайн комбайн для Linux с поддержкой русского

Полноценный набор инструментов для работы с речью без интернета.

Speech Note умеет распознавать речь в текст, читать текст вслух и переводить между языками.

Ключевые фишки:
- Полностью офлайн работа - никуда не передает данные
- Поддержка русского языка для всех функций
- CLI интерфейс для автоматизации
- Доступен через Flatpak на Flathub

Использует движки Whisper, Coqui TTS, Piper и многие другие.
Модели скачиваются прямо из приложения.

Отличный комбайн, который можно развернуть на сервере и вызывать через CLI тем же n8n.

#STT #TTS #SpeechNote
------
@tsingular
🔥921