This media is not supported in your browser
VIEW IN TELEGRAM
🔥 OpenAudio S1: наконец-то годный открытый TTS с русским языком
Fish Audio выпустили OpenAudio S1 — интересную открытую модель с точным контролем эмоций и поддержкой 13ти языков.
Технические характеристики:
2 версии:
• S1 (4B): Полноразмерная модель с максимальным качеством генерации и точностю в деталях - доступна пока только в онлайне тут: https://fish.audio/ .
• S1-mini (0.5B): Качественный дистиллят на основе 1й модели, доступен бесплатно на HF: https://huggingface.co/fishaudio/openaudio-s1-mini . Лицензия CC-BY-NC-SA-4.0 (можно делиться, адаптировать и развивать исходник, но вы должны указать автора, использовать в некоммерческих целях и делиться любыми модификациями на тех же условиях.)
Обучена на 2+ млн часов аудио
WER: 0.008, CER: 0.004 — лучшие показатели точности
#1 в Human Subjective Evaluation на HuggingFace TTS-Arena-V2
Что особенного в модели:
- Единая модель для семантики + акустики (без потери информации)
- Продвинутые эмоциональные маркеры: (angry), (excited), (whispering)
- Специальные эффекты: (laughing), (sobbing), (crowd laughing)
Поддержка 13 языков, включая русский
Доступная цена:
$15/1млн знаков текста (~$0.8/час) — на порядок дешевле конкурентов.
Архитектура основана на Qwen3 с нативной мультимодальностью.
Го тестить! :)
#TTS #OpenAudio #русский
———
@tsingular
Fish Audio выпустили OpenAudio S1 — интересную открытую модель с точным контролем эмоций и поддержкой 13ти языков.
Технические характеристики:
2 версии:
• S1 (4B): Полноразмерная модель с максимальным качеством генерации и точностю в деталях - доступна пока только в онлайне тут: https://fish.audio/ .
• S1-mini (0.5B): Качественный дистиллят на основе 1й модели, доступен бесплатно на HF: https://huggingface.co/fishaudio/openaudio-s1-mini . Лицензия CC-BY-NC-SA-4.0 (можно делиться, адаптировать и развивать исходник, но вы должны указать автора, использовать в некоммерческих целях и делиться любыми модификациями на тех же условиях.)
Обучена на 2+ млн часов аудио
WER: 0.008, CER: 0.004 — лучшие показатели точности
#1 в Human Subjective Evaluation на HuggingFace TTS-Arena-V2
Что особенного в модели:
- Единая модель для семантики + акустики (без потери информации)
- Продвинутые эмоциональные маркеры: (angry), (excited), (whispering)
- Специальные эффекты: (laughing), (sobbing), (crowd laughing)
Поддержка 13 языков, включая русский
Доступная цена:
$15/1млн знаков текста (~$0.8/час) — на порядок дешевле конкурентов.
Архитектура основана на Qwen3 с нативной мультимодальностью.
Го тестить! :)
#TTS #OpenAudio #русский
———
@tsingular
❤5🔥3👍2