Mini-Omni - open-source MMLM, которая умеет ввод-вывод речи в режиме реального времени. Она построена по предложенному в исследовании методу "Any Model Can Talk", который позволяет добавлять речевые возможности к существующим LLM с минимальными изменениями в их архитектуре.
Функциональные возможности модели:
Mini-Omni основана на LLM Qwen2-0.5B с трансформерной архитектурой, состоящей из 24 блоков и internal dimension 896.
Для кодирования речи используется Whisper-small encoder, а для распознавания и синтеза речи добавлены адаптеры ASR, связанные с двухслойной MLP, и ТТS, который добавляет 6 дополнительных трасформерных блоков к существующим у Qwen2.
Mini-Omni обучалась на датасетах Libritts, VCTK, Multilingual LibriSpeech, Open-Orca, Moss’s SFT, Alpaca-GPT4 и другие. Общий объем данных составил около 8000 часов речевых данных и 2 миллиона текстовых записей.
В бенчмарках Mini-Omn продемонстрировала отличные результаты в задачах распознавания речи, немного уступая Whisper-small и VITA.
# Create & activate venv
conda create -n omni python=3.10
conda activate omni
# Clone the Repository
git clone https://github.com/gpt-omni/mini-omni.git
cd mini-omni
# Install required packages
pip install -r requirements.txt
# start server
python3 server.py --ip '0.0.0.0' --port 60808
Запуск с Streamlit UI:
# run streamlit with PyAudio
pip install PyAudio==0.2.14
API_URL=https://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py
Запуск с Gradio UI:
API_URL=https://0.0.0.0:60808/chat python3 webui/omni_gradio.py
@ai_machinelearning_big_data
#AI #ML #MMLM #Speech2Speech #MiniOmni
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤26👍21🔥8
Mini-Omni - open-source MMLM, которая умеет ввод-вывод речи в режиме реального времени. Она построена по предложенному в исследовании методу "Any Model Can Talk", который позволяет добавлять речевые возможности к существующим LLM с минимальными изменениями в их архитектуре.
Функциональные возможности модели:
Mini-Omni основана на LLM Qwen2-0.5B с трансформерной архитектурой, состоящей из 24 блоков и internal dimension 896.
Для кодирования речи используется Whisper-small encoder, а для распознавания и синтеза речи добавлены адаптеры ASR, связанные с двухслойной MLP, и ТТS, который добавляет 6 дополнительных трасформерных блоков к существующим у Qwen2.
Mini-Omni обучалась на датасетах Libritts, VCTK, Multilingual LibriSpeech, Open-Orca, Moss’s SFT, Alpaca-GPT4 и другие. Общий объем данных составил около 8000 часов речевых данных и 2 миллиона текстовых записей.
В бенчмарках Mini-Omn продемонстрировала отличные результаты в задачах распознавания речи, немного уступая Whisper-small и VITA.
# Create & activate venv
conda create -n omni python=3.10
conda activate omni
# Clone the Repository
git clone https://github.com/gpt-omni/mini-omni.git
cd mini-omni
# Install required packages
pip install -r requirements.txt
# start server
python3 server.py --ip '0.0.0.0' --port 60808
Запуск с Streamlit UI:
# run streamlit with PyAudio
pip install PyAudio==0.2.14
API_URL=https://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py
Запуск с Gradio UI:
API_URL=https://0.0.0.0:60808/chat python3 webui/omni_gradio.py
@ai_machinelearning_big_data
#AI #ML #MMLM #Speech2Speech #MiniOmni
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🔥11❤7🆒1