227K subscribers
3.8K photos
632 videos
17 files
4.45K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 🌟 OuteTTS-0.2-500M: обновление ТTS-модели с возможностью клонирования голоса.

OuteTTS-0.2-500M - улучшенная версия предыдущей модели синтеза речи, основанная на Qwen-2.5-0.5B и обученная на крупных и более качественных датасетах Emilia-Dataset, LibriTTS-R и Multilingual LibriSpeech. Контекст длиной 4096 токенов обеспечивает ~ 54 секунды генерации звука.

Новая версия получила изменения относительно версии 0.1:

🟢Повышенная точность. Модель лучше следует промптам и показывает более высокую согласованность выходных данных по сравнению с предыдущей версией;

🟢Естественная речь. V 0.2 генерирует более естественную и плавную синтезированную речь;

🟢Расширенный словарь. Модель обучена на более чем 5 млрд. токенов аудио;

🟢Клонирование голоса. Улучшены возможности клонирования голоса с большей вариативностью и точностью;

🟢Многоязычная поддержка. Добавлена экспериментальная поддержка китайского, японского и корейского языков.


⚠️ Для инференса GGUF-версии модели необходимо установить llama-cpp-python.


▶️ Установка и пример локального инференса:

# Install from PyPI
pip install outetts

# Interface Usage
import outetts

# Configure the model
model_config = outetts.HFModelConfig_v1(
model_path="OuteAI/OuteTTS-0.2-500M",
language="en", # Supported languages in v0.2: en, zh, ja, ko
)

# Initialize the interface
interface = outetts.InterfaceHF(model_version="0.2", cfg=model_config)

# Optional: Create a speaker profile (use a 10-15 second audio clip)
speaker = interface.create_speaker(
audio_path="path/to/audio/file",
transcript="Transcription of the audio file."
)

# Optional: Load speaker from default presets
interface.print_default_speakers()
speaker = interface.load_default_speaker(name="male_1")

output = interface.generate(
text="%Prompt Text%%.",
temperature=0.1,
repetition_penalty=1.1,
max_length=4096,

# Optional: Use a speaker profile
speaker=speaker,
)

# Save the synthesized speech to a file
output.save("output.wav")


📌Лицензирование кода : Apache 2.0 License.

📌Лицензирование модели: CC-BY-NC-4.0 License.


🟡Страница проекта
🟡Модель
🟡GGUF версия
🟡Demo
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #TTS #OuteTTS
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍29🔥116😁2👻1