Machinelearning

🌟 LLaMA-Omni: Речевое управление LLM

LLaMA-Omni - модель, построенная на основе Llama-3.1-8B-Instruct, которая поддерживает голосовое взаимодействие с низкой задержкой ответа и высоким качеством синтеза аудио, одновременно генерируя текстовые и речевые ответы на основе голосовых инструкций.

LLaMA-Omni не требует транскрипции речи, напрямую передавая адаптированное речевое представление в LLM. LLM генерирует текстовый ответ, и, параллельно декодер речи генерирует соответствующие дискретные речевые единицы, используя скрытые состояния инференса LLM. Применение этой конструктивной особенности значительно сокращает задержку ответа до в 226 мс на chunk-size размерности 10.

Для установки и локального запуска понадобятся GPU => 20GB и набор :

🟢Модель Llama-3.1-8B-Omni
🟢Модель Whisper-large-v3;
🟠HiFi-GAN вокодер;
🟠Тулкит Fairseq;
🟠Flash-attention.

⚠️ Примечания:

🟠Gradio плохо воспроизводит потоковое аудио, поэтому автовоспроизведение в нем отключено;

🟠Чтобы запустить СLI-инференс локально, организуйте файлы речевых инструкций в соответствии с форматом в omni_speech/infer/examples, а затем обратитесь скрипту omni_speech/infer/run.sh.

▶️Установка :

# Clone repository 
git clone https://github.com/ictnlp/LLaMA-Omni
cd LLaMA-Omni

# Install packages
conda create -n llama-omni python=3.10
conda activate llama-omni
pip install pip==24.0
pip install -e .

# Install fairseq
git clone https://github.com/pytorch/fairseq
cd fairseq
pip install -e . --no-build-isolation

# Install flash-attention
pip install flash-attn --no-build-isolation

▶️ Выполните команды, описанные в разделах Quick Start и Gradio Demo. Интерфейс будет доступен в вашем браузере по адресу https://localhost:8000/

📌Лицензирование : Apache 2.0 License.

🟡

Модель

🟡

Arxiv

🖥

Github

@ai_machinelearning_big_data

#AI #ML #LLM #Llama #SpeechToSpeech

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍29❤10🔥6

12.6K views18:19

Machinelearning

1:29

This media is not supported in your browser

VIEW IN TELEGRAM

💬 Hibiki (2B и 1B) - новая модель синхронного перевода РЕЧИ В РЕЧЬ.

Модель может выполнять аудио и текстовые переводы речи в режиме реального времени, сохраняя голос говорящего и оптимально адаптируя его темп на основе содержания исходной речи.

Hibiki превосходит предыдущие модели по качеству перевода, естественности и по схожести говорящих и приближается к переводчикам-людям.

> Открытые веса
> Потоковый перевод: обрабатывает аудио в реальном времени
> Многопотоковая архитектура: использует архитектуру Moshi для моделирования исходной и целевой речи
> Способна работать в шумных условиях
> Обучена на 48 Nvidia H100
> Работает с MLX, Candle и PyTorch
> На данный момент поддерживает французский и английский языки (дальше больше)
> Отлично подходит на запусках на девайсах

Посмотрите на примере, как плавно и естественно выглядит перевод 💥

🤗 HF: https://huggingface.co/collections/kyutai/hibiki-fr-en-67a48835a3d50ee55d37c2b5

#speechtospeech #ai #ml #Hibiki

Please open Telegram to view this post

VIEW IN TELEGRAM

👍82🔥43❤8🗿4🤗2👀1

18.6K viewsedited 16:23

About

Blog

Apps

Platform