Технозаметки Малышева

🔥 OpenAudio S1: наконец-то годный открытый TTS с русским языком

Fish Audio выпустили OpenAudio S1 — интересную открытую модель с точным контролем эмоций и поддержкой 13ти языков.

Технические характеристики:

2 версии:
• S1 (4B): Полноразмерная модель с максимальным качеством генерации и точностю в деталях - доступна пока только в онлайне тут: https://fish.audio/ .
• S1-mini (0.5B): Качественный дистиллят на основе 1й модели, доступен бесплатно на HF: https://huggingface.co/fishaudio/openaudio-s1-mini . Лицензия CC-BY-NC-SA-4.0 (можно делиться, адаптировать и развивать исходник, но вы должны указать автора, использовать в некоммерческих целях и делиться любыми модификациями на тех же условиях.)

Обучена на 2+ млн часов аудио
WER: 0.008, CER: 0.004 — лучшие показатели точности

#1 в Human Subjective Evaluation на HuggingFace TTS-Arena-V2

Что особенного в модели:
- Единая модель для семантики + акустики (без потери информации)
- Продвинутые эмоциональные маркеры: (angry), (excited), (whispering)
- Специальные эффекты: (laughing), (sobbing), (crowd laughing)

Поддержка 13 языков, включая русский

Доступная цена:
$15/1млн знаков текста (~$0.8/час) — на порядок дешевле конкурентов.

Архитектура основана на Qwen3 с нативной мультимодальностью.

Го тестить! :)

#TTS #OpenAudio #русский
———
@tsingular

❤5🔥3👍2

1.19K views06:04

About

Blog

Apps

Platform