Machinelearning

🌟 Mini-Omni : Мультимодальная речевая модель.

Mini-Omni - open-source MMLM, которая умеет ввод-вывод речи в режиме реального времени. Она построена по предложенному в исследовании методу "Any Model Can Talk", который позволяет добавлять речевые возможности к существующим LLM с минимальными изменениями в их архитектуре.

Функциональные возможности модели:

🟢speech-to-speech в реальном времени. Не требуются дополнительные модели ASR или TTS;

🟢генерация текста и аудио одновременно;

🟢потоковое воспроизведение аудио;

🟢пакетное преобразование "speech-to-text" и "speech-to-speech".

Mini-Omni основана на LLM Qwen2-0.5B с трансформерной архитектурой, состоящей из 24 блоков и internal dimension 896.

Для кодирования речи используется Whisper-small encoder, а для распознавания и синтеза речи добавлены адаптеры ASR, связанные с двухслойной MLP, и ТТS, который добавляет 6 дополнительных трасформерных блоков к существующим у Qwen2.

Mini-Omni обучалась на датасетах Libritts, VCTK, Multilingual LibriSpeech, Open-Orca, Moss’s SFT, Alpaca-GPT4 и другие. Общий объем данных составил около 8000 часов речевых данных и 2 миллиона текстовых записей.

В бенчмарках Mini-Omn продемонстрировала отличные результаты в задачах распознавания речи, немного уступая Whisper-small и VITA.

▶️Установка:

# Create & activate venv
conda create -n omni python=3.10
conda activate omni

# Clone the Repository
git clone https://github.com/gpt-omni/mini-omni.git
cd mini-omni

# Install required packages
pip install -r requirements.txt

# start server
python3 server.py --ip '0.0.0.0' --port 60808

Запуск с Streamlit UI:

# run streamlit with PyAudio
pip install PyAudio==0.2.14
API_URL=https://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py

Запуск с Gradio UI:

API_URL=https://0.0.0.0:60808/chat python3 webui/omni_gradio.py

📌Лицензирование : MIT License.

🟡

Arxiv

🟡

Demo

🟡

Модель

🖥

Github

@ai_machinelearning_big_data

#AI #ML #MMLM #Speech2Speech #MiniOmni

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤26👍21🔥8

9.98K views16:38

Machinelearning

# Create & activate venv
conda create -n omni python=3.10
conda activate omni

# Clone the Repository
git clone https://github.com/gpt-omni/mini-omni.git
cd mini-omni

# Install required packages
pip install -r requirements.txt

# start server
python3 server.py --ip '0.0.0.0' --port 60808

Запуск с Streamlit UI:

# run streamlit with PyAudio
pip install PyAudio==0.2.14
API_URL=https://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py

Запуск с Gradio UI:

API_URL=https://0.0.0.0:60808/chat python3 webui/omni_gradio.py

📌Лицензирование : MIT License.

🟡

Arxiv

🟡

Demo

🟡

Модель

🖥

Github

@ai_machinelearning_big_data

#AI #ML #MMLM #Speech2Speech #MiniOmni

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍26🔥11❤7🆒1

9.39K views13:04

About

Blog

Apps

Platform