Forwarded from Бэкдор
Это не настоящие фотки на телефон! Это Midjourney v6 — она настолько хороша, что уже может творить вот такое! Никакой «зловещей долины», странных пропорций и артефактов, выдающих, что это нейронка. Всё выглядит так, будто это обычные фотки!
Забирайте шаблон промпта для генерации своих «фоток с телефона»:
Midjourney — тут.
@whackdoor
Забирайте шаблон промпта для генерации своих «фоток с телефона»:
phone photo of a man sitting on a bench with his family at a wedding in New York posted to reddit in 2019 --style raw
Midjourney — тут.
@whackdoor
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Wav2lip отлично справляется с песнями. Видео из About a girl, а голос из Smells like teen spirit. Однако голос должен быть чистым, без музыки (можно использовать сервисы для разделения музыки на отдельные дорожки для извлечения голоса).
Так можно "переснять" клипы на песни, у которых никогда не было клипов 🤯
P.S. Во время записи этого концерта "MTV Unplugged" зритель из зала попросил Курта исполнить Smells like teen spirit, на что Курт отшутился, что не знает как её переделать в акустическую версию. Ну вот, спустя 30 лет исполнил, хотя бы а капелла.
Так можно "переснять" клипы на песни, у которых никогда не было клипов 🤯
P.S. Во время записи этого концерта "MTV Unplugged" зритель из зала попросил Курта исполнить Smells like teen spirit, на что Курт отшутился, что не знает как её переделать в акустическую версию. Ну вот, спустя 30 лет исполнил, хотя бы а капелла.
👍2
Запустил SDXL Turbo чисто на процессоре через OpenVINO (модель rupeshs/sdxl-turbo-openvino-int8). На CPU именно через OpenVINO - самая большая скорость, все остальные реализации в несколько раз медленнее: в Automatic1111 1.5 минуты на картинку, в stable-diffusion.cpp еще не тестил, но там тоже нет API.
Скорость генерации приемлимая (10-24s), качество почти приемлимое, намного лучше чем при использовании LCM lora. Базовое разрешение модели 512x512, но для портретов неплохо 512x768 2 steps. В 1 шаг много артефактов получается. TAESDXL не понравилась - тоже артефакты лезут.
Скорость генерации на Ryzen, 8 ядер:
512x512, 2 steps - 14s
512x768, 2 steps - 24s
Теперь хочу прикрутить fastsdcpu к SillyTavern именно на CPU, потому что GPU и так занят LLM, TTS и wav2lip.
В fastsdcpu нет API. В automatic1111 openVINO не поддерживается. В SD.Next есть поддержка OpenVINO для SDXL, но нет для SDXL Turbo. В openvinotoolkit webui SDXL Turbo работает, но использует ~60 GB RAM, использует особый python+torch и часто падает.
https://github.com/rupeshs/fastsdcpu
Скорость генерации приемлимая (10-24s), качество почти приемлимое, намного лучше чем при использовании LCM lora. Базовое разрешение модели 512x512, но для портретов неплохо 512x768 2 steps. В 1 шаг много артефактов получается. TAESDXL не понравилась - тоже артефакты лезут.
Скорость генерации на Ryzen, 8 ядер:
512x512, 2 steps - 14s
512x768, 2 steps - 24s
Теперь хочу прикрутить fastsdcpu к SillyTavern именно на CPU, потому что GPU и так занят LLM, TTS и wav2lip.
В fastsdcpu нет API. В automatic1111 openVINO не поддерживается. В SD.Next есть поддержка OpenVINO для SDXL, но нет для SDXL Turbo. В openvinotoolkit webui SDXL Turbo работает, но использует ~60 GB RAM, использует особый python+torch и часто падает.
https://github.com/rupeshs/fastsdcpu
👍3
Скетч, генерация и анимация
🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Взял картинку, сделал анимацию в Stable Video Diffusion с низким motion_bucket_id. Затем засунул в Silly tavern Wav2lip. Голос XTTSv2, стих от Mixtral, рифма моя.
В общем, теперь можно и с любой фоткой чатиться, если видео под рукой нет. Главное, чтобы в анимации было морганание и движение глаз, чтобы смотрелось реалистичнее.
В общем, теперь можно и с любой фоткой чатиться, если видео под рукой нет. Главное, чтобы в анимации было морганание и движение глаз, чтобы смотрелось реалистичнее.
👍4
This media is not supported in your browser
VIEW IN TELEGRAM
Нейронка для создания музыки по картинке Image 2 music.
Создаёт 10 секунд музыки, анализируя загруженную картинку и созданное описание. Описание можно изменять для изменения стиля или нужных инструментов.
https://huggingface.co/spaces/fffiloni/image-to-music-v2
Создаёт 10 секунд музыки, анализируя загруженную картинку и созданное описание. Описание можно изменять для изменения стиля или нужных инструментов.
https://huggingface.co/spaces/fffiloni/image-to-music-v2
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Взял 10 секунд этого голоса и загнал в генератор речи XTTSv2. Для придания акцента установил язык на турецкий, а не на русский. Затем закинул полученное аудио в Wav2lip для синхронизации губ и видео 😁😁
😁5🔥1
Forwarded from VGTimes (Илья)
Кадры вообще не отличить от реальной съёмки, а качество просто поражает. Нейросеть называется Sora и пока что доступна только тестерам.
Можно попробовать выбить доступ
@vgtimes
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM