Технозаметки Малышева
5.55K subscribers
2.79K photos
927 videos
38 files
3.06K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 OpenAudio S1: наконец-то годный открытый TTS с русским языком

Fish Audio выпустили OpenAudio S1 — интересную открытую модель с точным контролем эмоций и поддержкой 13ти языков.

Технические характеристики:

2 версии:
• S1 (4B): Полноразмерная модель с максимальным качеством генерации и точностю в деталях - доступна пока только в онлайне тут: https://fish.audio/ .
• S1-mini (0.5B): Качественный дистиллят на основе 1й модели, доступен бесплатно на HF: https://huggingface.co/fishaudio/openaudio-s1-mini . Лицензия CC-BY-NC-SA-4.0 (можно делиться, адаптировать и развивать исходник, но вы должны указать автора, использовать в некоммерческих целях и делиться любыми модификациями на тех же условиях.)

Обучена на 2+ млн часов аудио
WER: 0.008, CER: 0.004 — лучшие показатели точности

#1 в Human Subjective Evaluation на HuggingFace TTS-Arena-V2

Что особенного в модели:
- Единая модель для семантики + акустики (без потери информации)
- Продвинутые эмоциональные маркеры: (angry), (excited), (whispering)
- Специальные эффекты: (laughing), (sobbing), (crowd laughing)

Поддержка 13 языков, включая русский

Доступная цена:
$15/1млн знаков текста (~$0.8/час) — на порядок дешевле конкурентов.

Архитектура основана на Qwen3 с нативной мультимодальностью.

Го тестить! :)

#TTS #OpenAudio #русский
———
@tsingular
5🔥3👍2