Запустил SDXL Turbo чисто на процессоре через OpenVINO (модель rupeshs/sdxl-turbo-openvino-int8). На CPU именно через OpenVINO - самая большая скорость, все остальные реализации в несколько раз медленнее: в Automatic1111 1.5 минуты на картинку, в stable-diffusion.cpp еще не тестил, но там тоже нет API.
Скорость генерации приемлимая (10-24s), качество почти приемлимое, намного лучше чем при использовании LCM lora. Базовое разрешение модели 512x512, но для портретов неплохо 512x768 2 steps. В 1 шаг много артефактов получается. TAESDXL не понравилась - тоже артефакты лезут.
Скорость генерации на Ryzen, 8 ядер:
512x512, 2 steps - 14s
512x768, 2 steps - 24s
Теперь хочу прикрутить fastsdcpu к SillyTavern именно на CPU, потому что GPU и так занят LLM, TTS и wav2lip.
В fastsdcpu нет API. В automatic1111 openVINO не поддерживается. В SD.Next есть поддержка OpenVINO для SDXL, но нет для SDXL Turbo. В openvinotoolkit webui SDXL Turbo работает, но использует ~60 GB RAM, использует особый python+torch и часто падает.
https://github.com/rupeshs/fastsdcpu
Скорость генерации приемлимая (10-24s), качество почти приемлимое, намного лучше чем при использовании LCM lora. Базовое разрешение модели 512x512, но для портретов неплохо 512x768 2 steps. В 1 шаг много артефактов получается. TAESDXL не понравилась - тоже артефакты лезут.
Скорость генерации на Ryzen, 8 ядер:
512x512, 2 steps - 14s
512x768, 2 steps - 24s
Теперь хочу прикрутить fastsdcpu к SillyTavern именно на CPU, потому что GPU и так занят LLM, TTS и wav2lip.
В fastsdcpu нет API. В automatic1111 openVINO не поддерживается. В SD.Next есть поддержка OpenVINO для SDXL, но нет для SDXL Turbo. В openvinotoolkit webui SDXL Turbo работает, но использует ~60 GB RAM, использует особый python+torch и часто падает.
https://github.com/rupeshs/fastsdcpu
👍3
Скетч, генерация и анимация
🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Взял картинку, сделал анимацию в Stable Video Diffusion с низким motion_bucket_id. Затем засунул в Silly tavern Wav2lip. Голос XTTSv2, стих от Mixtral, рифма моя.
В общем, теперь можно и с любой фоткой чатиться, если видео под рукой нет. Главное, чтобы в анимации было морганание и движение глаз, чтобы смотрелось реалистичнее.
В общем, теперь можно и с любой фоткой чатиться, если видео под рукой нет. Главное, чтобы в анимации было морганание и движение глаз, чтобы смотрелось реалистичнее.
👍4
This media is not supported in your browser
VIEW IN TELEGRAM
Нейронка для создания музыки по картинке Image 2 music.
Создаёт 10 секунд музыки, анализируя загруженную картинку и созданное описание. Описание можно изменять для изменения стиля или нужных инструментов.
https://huggingface.co/spaces/fffiloni/image-to-music-v2
Создаёт 10 секунд музыки, анализируя загруженную картинку и созданное описание. Описание можно изменять для изменения стиля или нужных инструментов.
https://huggingface.co/spaces/fffiloni/image-to-music-v2
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Взял 10 секунд этого голоса и загнал в генератор речи XTTSv2. Для придания акцента установил язык на турецкий, а не на русский. Затем закинул полученное аудио в Wav2lip для синхронизации губ и видео 😁😁
😁5🔥1
Forwarded from VGTimes (Илья)
Кадры вообще не отличить от реальной съёмки, а качество просто поражает. Нейросеть называется Sora и пока что доступна только тестерам.
Можно попробовать выбить доступ
@vgtimes
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Talk-llama-fast - неформальный голосовой помощник с поддержкой русского и XTTSv2.
Взял talk-llama и накодил за неделю:
- Добавил XTTSv2 streaming.
- уменьшил задержки везде где только мог.
- русский язык и UTF-8.
- голосовые команды: Google, стоп, переделай, удали всё.
Под капотом:
- STT: whisper.cpp medium
- LLM: Mistral-7B-v0.2-Q6_k.gguf
- TTS: XTTSv2 streaming mode
- Google: langchain google-serper
Работает на 3060 12 GB, скорее всего 8 GB тоже хватит. В планах запустить все чисто на android.
Код, exe, инструкция:
https://github.com/Mozer/talk-llama-fast
Взял talk-llama и накодил за неделю:
- Добавил XTTSv2 streaming.
- уменьшил задержки везде где только мог.
- русский язык и UTF-8.
- голосовые команды: Google, стоп, переделай, удали всё.
Под капотом:
- STT: whisper.cpp medium
- LLM: Mistral-7B-v0.2-Q6_k.gguf
- TTS: XTTSv2 streaming mode
- Google: langchain google-serper
Работает на 3060 12 GB, скорее всего 8 GB тоже хватит. В планах запустить все чисто на android.
Код, exe, инструкция:
https://github.com/Mozer/talk-llama-fast
🔥3😁3
https://www.youtube.com/watch?v=N3Eoc6M3Erg
Talk-llama-fast - Informal voice assistant [English video]
I took talk-llama and added:
- XTTSv2 streaming.
- low latencies.
- Russian and other languages, UTF-8.
- voice commands: Google, stop, regenerate, reset.
Under the hood:
- STT: whisper.cpp medium
- LLM: Mistral-7B-v0.2-Q6_k.gguf
- TTS: XTTSv2 in streaming mode
- Google: langchain google-serper
In this video I used nvidia 3060 12 GB, but I guess 8 GB of VRAM is also enough. Have plans to port everything to android.
Code, exe, manual:
https://github.com/Mozer/talk-llama-fast
Talk-llama-fast - Informal voice assistant [English video]
I took talk-llama and added:
- XTTSv2 streaming.
- low latencies.
- Russian and other languages, UTF-8.
- voice commands: Google, stop, regenerate, reset.
Under the hood:
- STT: whisper.cpp medium
- LLM: Mistral-7B-v0.2-Q6_k.gguf
- TTS: XTTSv2 in streaming mode
- Google: langchain google-serper
In this video I used nvidia 3060 12 GB, but I guess 8 GB of VRAM is also enough. Have plans to port everything to android.
Code, exe, manual:
https://github.com/Mozer/talk-llama-fast
YouTube
Talk llama fast - informal voice assistant [en]
Informal voice assistant
I took talk-llama and added:
- XTTSv2 streaming.
- low latencies.
- Russian and other languages, UTF-8.
- voice commands: Google, stop, regenerate, reset.
Under the hood:
- STT: whisper.cpp medium
- LLM: Mistral-7B-v0.2-Q6_k.gguf…
I took talk-llama and added:
- XTTSv2 streaming.
- low latencies.
- Russian and other languages, UTF-8.
- voice commands: Google, stop, regenerate, reset.
Under the hood:
- STT: whisper.cpp medium
- LLM: Mistral-7B-v0.2-Q6_k.gguf…
👍1
Нейронка Wayve Gaia генерирует видео для предсказания трафика на дороге. На вход подаётся первый кадр, а она строит несколько секунд дальнейшего видео на его основе. Используется для автопилота.
https://youtu.be/SEt2HIs2Bp8?feature=shared
https://youtu.be/SEt2HIs2Bp8?feature=shared
YouTube
Watch GAIA 1 Go
🔥2