Технозаметки Малышева

NotebookLlama: PDF в подкаст с помощью нейросетей

Представлен интересный инструментарий для трансформации PDF-документов в аудиоподкасты с использованием различных языковых моделей.
Процесс включает очистку текста, генерацию сценария и создание аудио с применением TTS-моделей parler-tts и bark/suno.
Система поддерживает разные версии Llama (70B, 8B, 1B) в зависимости от доступных вычислительных ресурсов.
Гибкая архитектура позволяет экспериментировать с системными промптами и настраивать различные голоса для разных спикеров.

Теперь можно слушать научные статьи в машине, как подкасты. Обсуждение в студии от нейросетевых экспертов! 🎧📚

#NotebookLlama #TTS #podcast
-------
@tsingular

👍6

1.21K viewsedited 17:15

0:29

Kokoro - интересная TTS модель, для генерации голоса из текста.

Демо

Бесплатная, открытая, очень качественная и быстрая, но русского не знает.

Но есть лайфхак :)

Написать ей запрос транслитом

сама модель

#Kokoro #TTS
———
@tsingular

🔥9😁6

1.07K viewsedited 19:15

Hailuo Audio HD: новый генератор голоса на 17 языках с клонированием

MiniMax представил модель T2A-01-HD - передовую технологию синтеза естественной речи с впечатляющими возможностями.

Система позволяет создавать реалистичные голоса из 10-секундного сэмпла или выбрать из 300+ готовых вариантов.

Встроенный эмоциональный движок автоматически определяет и воспроизводит тональность речи.

Поддерживается 17 языков включая русский, с региональными акцентами и диалектами.

Профессиональные звуковые эффекты добавляют реалистичности: акустика помещений, телефонные фильтры.

Доступна тонкая настройка высоты тона, скорости и эмоциональной окраски каждой фразы.

В открытом виде для локального запуска пока нет, но можно использовать через API.

#Hailuo #MiniMax #TTS #Китай
------
@tsingular

🔥10👍4✍2

1.28K views04:33

Zonos: мультиязычный TTS с клонированием голоса

Новый open source проект Zonos представляет революционную систему преобразования текста в речь.
База в 200 000 часов аудио обеспечивает поддержку 5 языков: английский, японский, китайский, французский и немецкий.
Система позволяет клонировать голос по короткому образцу с возможностью настройки скорости, тона и эмоциональной окраски.
Архитектура построена на eSpeak и DAC-трансформере с выводом звука в качестве 44кГц.
Интерфейс реализован через Gradio с возможностью многократного сэмплирования и Docker-установкой.

Жаль пока без русского

#Zonos #TTS #VoiceCloning
-------
@tsingular

✍2🤨1

874 viewsedited 17:02

Forwarded from Machinelearning

1:52

🗣️ RealtimeVoiceChat — живой голосовой чат с ИИ.

RealtimeVoiceChat — это open-source проект, который позволяет общаться с LLM в реальном времени голосом. Он объединяет распознавание речи, LLM и синтез речи в единую систему с минимальной задержкой — около 500 мс при локальной установке.

➡️

Как работает:

1. Запись речи в браузере
2. Передача аудио по WebSocket на сервер
3. Распознавание речи через RealtimeSTT (на базе Whisper)
4. Ответ от LLM (Ollama, OpenAI и др.)
5. Озвучка ответа через RealtimeTTS (Coqui XTTSv2, Kokoro и др.)
6. Обратная передача аудио в браузер
7. Поддержка прерываний и динамики через turndetect.py

✨ Особенности:

- Задержка ~500 мс
- Поддержка разных LLM и TTS движков
- Быстрый запуск через Docker Compose
- Чистый веб-интерфейс на Vanilla JS + Web Audio API

✔️

Стек:

- Backend: Python + FastAPI
- Frontend: JS + WebSockets
- ML: transformers, torchaudio, Ollama, Whisper, TTS
- Контейнеризация: Docker

✔️ Требуется CUDA-совместимая видеокарта (для Whisper/TTS) и Docker.

🔥 Отличный проект для тех, кто хочет интегрировать голосовой интерфейс с LLM — например, для ассистентов, чат-ботов, презентаций или UX-экспериментов.

🔜

Репозиторий: https://github.com/KoljaB/RealtimeVoiceChat

🔜

Демо: https://www.youtube.com/watch?v=-1AD4gakCKw

@ai_machinelearning_big_data

#tts #llm #opensource

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍3⚡2❤1

1.51K views12:03

🔊Unsloth опубликовал готовый код для файнтюна TTS моделей

Unsloth выпустил набор блокнотов для файнтюнинга моделей Text-to-Speech (TTS), предлагая разработчикам мощный инструментарий кастомизации.

Технические возможности:
- Оптимизированная производительность: в 1.5 раза быстрее и на 50% меньше потребление памяти благодаря Flash Attention 2
-Поддержка популярных моделей: Sesame CSM (1B), Orpheus (3B), CrisperWhisper, Spark и другие модели из экосистемы transformers
- Двусторонний подход: поддержка как TTS (текст-в-речь), так и STT (речь-в-текст) моделей, включая OpenAI Whisper

Блокноты для файнтюна:
- Sesame-CSM (1B)
- Orpheus-TTS (3B)
- Whisper Large V3 (STT)
- Spark-TTS (0.5B)
- Llasa-TTS (3B)
- Oute-TTS (1B)

Практическое применение:
- Клонирование голосов: создание кастомных голосовых моделей
- Настройка стиля и тона: адаптация эмоциональной окраски (поддержка тегов типа <laugh>, <sigh>)
- Поддержка новых языков: расширение языковых возможностей базовых моделей
- Экспорт в различные форматы: поддержка llama.cpp для совместимости

Рабочий процесс:
1. Загрузка модели через FastModel с опциями для 16-бит LoRA или полного файнтюнинга
2. Подготовка датасета- поддерживаются как готовые наборы с Hugging Face, так и собственные датасеты
3. Настройка параметров обучения с оптимизированными настройками для голосовых моделей
4. Запуск файнтюнинга с мониторингом прогресса
5. Сохранение и экспорт результатов в различные форматы

Unsloth существенно упрощает файнтюн, делая технологии персонализации голоса более доступными для разработчиков.

Самое вкусное во всей этой истории, - готовые коллаб-блокноты.
Можно пользовать из облака или скопировать себе и запускать локально.

#Unsloth #TextToSpeech #TTS #finetuning
———
@tsingular

👍6🔥2❤1⚡1

1.26K viewsedited 18:31

1:43

🔥 OpenAudio S1: наконец-то годный открытый TTS с русским языком

Fish Audio выпустили OpenAudio S1 — интересную открытую модель с точным контролем эмоций и поддержкой 13ти языков.

Технические характеристики:

2 версии:
• S1 (4B): Полноразмерная модель с максимальным качеством генерации и точностю в деталях - доступна пока только в онлайне тут: https://fish.audio/ .
• S1-mini (0.5B): Качественный дистиллят на основе 1й модели, доступен бесплатно на HF: https://huggingface.co/fishaudio/openaudio-s1-mini . Лицензия CC-BY-NC-SA-4.0 (можно делиться, адаптировать и развивать исходник, но вы должны указать автора, использовать в некоммерческих целях и делиться любыми модификациями на тех же условиях.)

Обучена на 2+ млн часов аудио
WER: 0.008, CER: 0.004 — лучшие показатели точности

#1 в Human Subjective Evaluation на HuggingFace TTS-Arena-V2

Что особенного в модели:
- Единая модель для семантики + акустики (без потери информации)
- Продвинутые эмоциональные маркеры: (angry), (excited), (whispering)
- Специальные эффекты: (laughing), (sobbing), (crowd laughing)

Поддержка 13 языков, включая русский

Доступная цена:
$15/1млн знаков текста (~$0.8/час) — на порядок дешевле конкурентов.

Архитектура основана на Qwen3 с нативной мультимодальностью.

Го тестить! :)

#TTS #OpenAudio #русский
———
@tsingular

❤5🔥3👍2

1.19K views06:04

0:45

ElevenLabs выкатили v3 генератор

Всё реалистичнее и реалистичнее.

Пробуем тут:
https://elevenlabs.io/app/speech-synthesis/text-to-speech

Инструкция

#ElevenLabs #TTS
———
@tsingular

🔥154

1.32K viewsedited 21:26