227K subscribers
3.8K photos
632 videos
17 files
4.45K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 Voila: набор голосовых моделей для взаимодействия в реальном времени и roleplay.

Voila — семейство голосовых языковых моделей с поддержкой 6 языков (английский, китайский, французский, немецкий, японский и корейский), которое амбициозно позиционирует себя как конкурентов Siri или Alexa.

Классические системы используют конвейер из модулей: ASR, обработка текста LLM и затем TTS. Этот пайплайн порождает задержки до нескольких секунд, теряет эмоции и тон голоса. Voila обрабатывает аудио напрямую через end-to-end архитектуру. Модель делит звук на семантические и акустические токены, сохраняя нюансы акцента и интонации, а кастомное LLM-ядро отвечает за осмысленные ответы. В архитектуре Voila задержка составляет всего 300 мс — как у человека.

В тестах на собственном бенчмарке в задачах ASR Voila показала уровень ошибок (WER) 2,7% против 5,7% (Moshi), 3,6% (FastConformer). Для TTS ее аудио настолько естественно, что система ошибается в расшифровке всего в 2,8% случаев (7,7 у YourTTS, 4,7 у Moshi).

▶️ Состав релиза:

🟢Voila-base - базовая модель для обработки голоса и текста, поддерживает ASR (распознавание речи) и TTS (синтез речи). Основа для остальных версий.

🟢Voila-Chat - модель для диалогов. Генерирует естественные ответы с учетом контекста, сохраняет эмоции и интонации. Подходит для голосовых ассистентов и чат-ботов.

🟢Voila-Autonomous - превью-версия полнодуплексной модели. Может слушать и говорить одновременно, имитируя живое общение: перебивает, вставляет реплики-подтверждения («угу»), реагирует на эмоции в реальном времени.

🟢Voila-Audio-alpha - экспериментальная версия для анализа аудио. Распознаёт неречевые звуки (шум, эмоции), идентифицирует говорящего по тембру.

🟠Voila-Tokenizer - аудио-токенайзер. Преобразует аудио в семантические и акустические токены. Разделяет смысл (слова) и звуковые нюансы (акцент, тон), чтобы LLM эффективнее обучалась на аудиоданных. База всех моделей Voila.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Demo
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #ASR #TTS #VOILA #Matrix
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6031🥰12🔥7😁4