Forwarded from VGTimes (Илья)
Кадры вообще не отличить от реальной съёмки, а качество просто поражает. Нейросеть называется Sora и пока что доступна только тестерам.
Можно попробовать выбить доступ
@vgtimes
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Talk-llama-fast - неформальный голосовой помощник с поддержкой русского и XTTSv2.
Взял talk-llama и накодил за неделю:
- Добавил XTTSv2 streaming.
- уменьшил задержки везде где только мог.
- русский язык и UTF-8.
- голосовые команды: Google, стоп, переделай, удали всё.
Под капотом:
- STT: whisper.cpp medium
- LLM: Mistral-7B-v0.2-Q6_k.gguf
- TTS: XTTSv2 streaming mode
- Google: langchain google-serper
Работает на 3060 12 GB, скорее всего 8 GB тоже хватит. В планах запустить все чисто на android.
Код, exe, инструкция:
https://github.com/Mozer/talk-llama-fast
Взял talk-llama и накодил за неделю:
- Добавил XTTSv2 streaming.
- уменьшил задержки везде где только мог.
- русский язык и UTF-8.
- голосовые команды: Google, стоп, переделай, удали всё.
Под капотом:
- STT: whisper.cpp medium
- LLM: Mistral-7B-v0.2-Q6_k.gguf
- TTS: XTTSv2 streaming mode
- Google: langchain google-serper
Работает на 3060 12 GB, скорее всего 8 GB тоже хватит. В планах запустить все чисто на android.
Код, exe, инструкция:
https://github.com/Mozer/talk-llama-fast
🔥3😁3
https://www.youtube.com/watch?v=N3Eoc6M3Erg
Talk-llama-fast - Informal voice assistant [English video]
I took talk-llama and added:
- XTTSv2 streaming.
- low latencies.
- Russian and other languages, UTF-8.
- voice commands: Google, stop, regenerate, reset.
Under the hood:
- STT: whisper.cpp medium
- LLM: Mistral-7B-v0.2-Q6_k.gguf
- TTS: XTTSv2 in streaming mode
- Google: langchain google-serper
In this video I used nvidia 3060 12 GB, but I guess 8 GB of VRAM is also enough. Have plans to port everything to android.
Code, exe, manual:
https://github.com/Mozer/talk-llama-fast
Talk-llama-fast - Informal voice assistant [English video]
I took talk-llama and added:
- XTTSv2 streaming.
- low latencies.
- Russian and other languages, UTF-8.
- voice commands: Google, stop, regenerate, reset.
Under the hood:
- STT: whisper.cpp medium
- LLM: Mistral-7B-v0.2-Q6_k.gguf
- TTS: XTTSv2 in streaming mode
- Google: langchain google-serper
In this video I used nvidia 3060 12 GB, but I guess 8 GB of VRAM is also enough. Have plans to port everything to android.
Code, exe, manual:
https://github.com/Mozer/talk-llama-fast
YouTube
Talk llama fast - informal voice assistant [en]
Informal voice assistant
I took talk-llama and added:
- XTTSv2 streaming.
- low latencies.
- Russian and other languages, UTF-8.
- voice commands: Google, stop, regenerate, reset.
Under the hood:
- STT: whisper.cpp medium
- LLM: Mistral-7B-v0.2-Q6_k.gguf…
I took talk-llama and added:
- XTTSv2 streaming.
- low latencies.
- Russian and other languages, UTF-8.
- voice commands: Google, stop, regenerate, reset.
Under the hood:
- STT: whisper.cpp medium
- LLM: Mistral-7B-v0.2-Q6_k.gguf…
👍1
Нейронка Wayve Gaia генерирует видео для предсказания трафика на дороге. На вход подаётся первый кадр, а она строит несколько секунд дальнейшего видео на его основе. Используется для автопилота.
https://youtu.be/SEt2HIs2Bp8?feature=shared
https://youtu.be/SEt2HIs2Bp8?feature=shared
YouTube
Watch GAIA 1 Go
🔥2
Media is too big
VIEW IN TELEGRAM
Talk-llama-fast 0.0.3
Добавил поддержку нескольких персонажей. Сами общаются между собой и могут быть вызваны голосовой командой "Ты меня слышишь?"
Ещё добавил поддержку лайв перевода с английского на русский прямо внутри основной LLM модели. Это прокачивает мозги модели, но добавляет грамматических ошибок.
https://github.com/Mozer/talk-llama-fast
Добавил поддержку нескольких персонажей. Сами общаются между собой и могут быть вызваны голосовой командой "Ты меня слышишь?"
Ещё добавил поддержку лайв перевода с английского на русский прямо внутри основной LLM модели. Это прокачивает мозги модели, но добавляет грамматических ошибок.
https://github.com/Mozer/talk-llama-fast
🔥3👍2
Media is too big
VIEW IN TELEGRAM
Сделал разговорный файнтюн XTTSv2 Banana для русского языка. Основан на голосовых сообщениях с матом от 5 разных девушек.
- добавляет больше интонаций, эмоциональности, придыханий, делая речь более живой.
- лучше справляется с ударениями в словах (мат, разговорная лексика).
- только для русского языка, остальные языки остались неизменными.
- основан на женских голосах, поэтому все мужские голоса будут слегка феминными.
- обучение заняло всего 1 час.
Веса: https://huggingface.co/Ftfyhh/xttsv2_banana
- добавляет больше интонаций, эмоциональности, придыханий, делая речь более живой.
- лучше справляется с ударениями в словах (мат, разговорная лексика).
- только для русского языка, остальные языки остались неизменными.
- основан на женских голосах, поэтому все мужские голоса будут слегка феминными.
- обучение заняло всего 1 час.
Веса: https://huggingface.co/Ftfyhh/xttsv2_banana
👍6🔥4
Вышел Claude 3.
Это заявка на победу. (GPT4 стихи на русском писать практически не умеет).
Бесплатно для РФ есть тут - во вкладке Direct chat - Claude 3 opus (он самый умный)
https://chat.lmsys.org/
Это заявка на победу. (GPT4 стихи на русском писать практически не умеет).
Бесплатно для РФ есть тут - во вкладке Direct chat - Claude 3 opus (он самый умный)
https://chat.lmsys.org/
👍5🔥2
SDXL lightning от ByteDance
Очень быстрая генерация картинок по тексту в разрешении 1024х1024 (для сравнения, у SDXL turbo базовое разрешение 512х512). Веса есть.
https://huggingface.co/spaces/radames/Real-Time-Text-to-Image-SDXL-Lightning
Очень быстрая генерация картинок по тексту в разрешении 1024х1024 (для сравнения, у SDXL turbo базовое разрешение 512х512). Веса есть.
https://huggingface.co/spaces/radames/Real-Time-Text-to-Image-SDXL-Lightning
🔥2
Еще один тест на логику на русском языке - игра в города.
Смогли пройти только GPT4/3.5 и свежие Claude 3. Русскоязычные модели от Сбера и Яндекса с тестом не справились. Ну и все опенсорсные модели тоже завалили: llama-2-70B, mixtral, qwen. miqu-1, falcon-120B не тестировал, но надежд мало.
Смогли пройти только GPT4/3.5 и свежие Claude 3. Русскоязычные модели от Сбера и Яндекса с тестом не справились. Ну и все опенсорсные модели тоже завалили: llama-2-70B, mixtral, qwen. miqu-1, falcon-120B не тестировал, но надежд мало.
🤣1