Натренил wan-14b лору на прыжки в воду
Детали тренировки:
- на 3090, 20 часов
- 11 коротких вертикальных видео, 3-4 секунды, 16fps. часть в slo-mo, часть - нет. 16fps можно конвертировать в comfyui через "vhs Load/Combine"
- видео тренились в разрешении 224x384 на 33, 49 и 57 кадрах
- 60 фото с разными планами для доп. информации о деталях
- фото тренились в разрешении 656x992
- сперва тренил разные типы прыжков, но ван их часто путал, и получалась каша. Поэтому во второй части тренировки удалил лишние прыжки и оставил только один прыжок с трамплина с сальто вперед
- скорость трени: 12 s/it, batch 1, потребление vram - 24 GB
- приложение - musubi wan gui: https://github.com/Kvento/musubi-tuner-wan-gui
- как установить под виндой - было в посте чуть выше
Озвучка:
- LLM для написания монолога комментатора: gemini-2.5-pro-preview-06-05, https://lmarena.ai/
- TTS: Gemini Pro 2.5 Preview TTS, голос Puck, нужен впн сша: https://aistudio.google.com/generate-speech
- TTS промпт:
Инференс:
- описание видео в датасете было примерно таким же.
- у Wan не всегда получается красивое движение, иногда получается каша. Рекомендую использовать сид 105 в прикрепленном воркфлоу, половина видео была сделана именно с ним.
- рекомендованные настройки: 480x832x65 кадров, 25 steps. На 3090 занимает 9 минут.
- воркфлоу: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_14b_t2v_diving_lora.json
- toml конфиг датасета: https://github.com/Mozer/comfy_stuff/blob/main/musubi/dataset_diving_14b.toml
- лора: https://huggingface.co/Ftfyhh/wan_14b_diving_lora
- civitai: https://civitai.com/models/1666148?modelVersionId=1885880
- также натренил 14b hand_grab nsfw лору. пример тут: https://t.iss.one/tensor_art/1019
Детали тренировки:
- на 3090, 20 часов
- 11 коротких вертикальных видео, 3-4 секунды, 16fps. часть в slo-mo, часть - нет. 16fps можно конвертировать в comfyui через "vhs Load/Combine"
- видео тренились в разрешении 224x384 на 33, 49 и 57 кадрах
- 60 фото с разными планами для доп. информации о деталях
- фото тренились в разрешении 656x992
- сперва тренил разные типы прыжков, но ван их часто путал, и получалась каша. Поэтому во второй части тренировки удалил лишние прыжки и оставил только один прыжок с трамплина с сальто вперед
- скорость трени: 12 s/it, batch 1, потребление vram - 24 GB
- приложение - musubi wan gui: https://github.com/Kvento/musubi-tuner-wan-gui
- как установить под виндой - было в посте чуть выше
Озвучка:
- LLM для написания монолога комментатора: gemini-2.5-pro-preview-06-05, https://lmarena.ai/
- TTS: Gemini Pro 2.5 Preview TTS, голос Puck, нужен впн сша: https://aistudio.google.com/generate-speech
- TTS промпт:
Fast voice of a sports commentator, with enthusiastic tone:
Инференс:
diving competition, 25yo woman in a white wedding dress is jumping and diving on a springboard at competition, front jump, side view, then dives into water, water splash
- описание видео в датасете было примерно таким же.
- у Wan не всегда получается красивое движение, иногда получается каша. Рекомендую использовать сид 105 в прикрепленном воркфлоу, половина видео была сделана именно с ним.
- рекомендованные настройки: 480x832x65 кадров, 25 steps. На 3090 занимает 9 минут.
- воркфлоу: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_14b_t2v_diving_lora.json
- toml конфиг датасета: https://github.com/Mozer/comfy_stuff/blob/main/musubi/dataset_diving_14b.toml
- лора: https://huggingface.co/Ftfyhh/wan_14b_diving_lora
- civitai: https://civitai.com/models/1666148?modelVersionId=1885880
- также натренил 14b hand_grab nsfw лору. пример тут: https://t.iss.one/tensor_art/1019
12👍37🔥10😁6❤3🤔1
Flux Kontext с промптами
1. Колоризация старых фото:
2. Колоризация манги:
3. снять одежду:
4. апскейл фото:
5. объект с разных ракурсов:
6. real2anime:
7. anime2real:
8. замена текста:
9. сменить пол:
10. перенос объектов с разных фото:
11. на обложку журнала:
12. лего:
13. убрать вотермарки:
14. пиксельарт/8bit:
- Разрешение 1024x1024, 1568x672 и разные вариации. Можно больше, но, скорее всего, будет хуже.
- Лоры от Flux dev работают, но хуже.
- Работает на 15-20 шагах, 40-55 секунд на 3090. TeaCache работает, но возможны ухудшения качества. 15 шагов + teacache_0.40 = 20 секунд
официальный гайд по Kontext: https://docs.bfl.ai/guides/prompting_guide_kontext_i2i#basic-object-modifications
воркфлоу: https://comfyanonymous.github.io/ComfyUI_examples/flux/#flux-extras
потестить онлайн: https://huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev
Если есть еще интересные кейсы - кидайте в комменты.
1. Колоризация старых фото:
colorize this photo
2. Колоризация манги:
colorize this manga
3. снять одежду:
remove clothes
, нужна лора https://huggingface.co/llama-anon/not-flux-kontext-dev-clothes-remover4. апскейл фото:
upscale this image, make it crisp, add details
5. объект с разных ракурсов:
Same character but in the 3 positions, front, side and back.
6. real2anime:
turn this photo into Ghibli Studio anime
7. anime2real:
make it realistic
8. замена текста:
Replace text 'BKYCHO - U TO4KA' with text 'BKYC ßAHAHA'
Моя русская лора https://civitai.com/models/1056401/russian-text-or-flux , но работает так себе.9. сменить пол:
turn her into a man, but keep facial features the same. big cheekbones
10. перенос объектов с разных фото:
add woman from the right image to the left image. so now they are standing together. make them the same height. right woman has bare feet
11. на обложку журнала:
Turn this into VOGUE magazine cover. background is now grey. Add some titles on the cover
12. лего:
turn them into Lego style
13. убрать вотермарки:
remove watermarks
14. пиксельарт/8bit:
turn this into 8-bit NES art
- Разрешение 1024x1024, 1568x672 и разные вариации. Можно больше, но, скорее всего, будет хуже.
- Лоры от Flux dev работают, но хуже.
- Работает на 15-20 шагах, 40-55 секунд на 3090. TeaCache работает, но возможны ухудшения качества. 15 шагов + teacache_0.40 = 20 секунд
официальный гайд по Kontext: https://docs.bfl.ai/guides/prompting_guide_kontext_i2i#basic-object-modifications
воркфлоу: https://comfyanonymous.github.io/ComfyUI_examples/flux/#flux-extras
потестить онлайн: https://huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev
Если есть еще интересные кейсы - кидайте в комменты.
👍49🔥13🤝6❤2✍2
Float - липс синк и говорящая голова на реал-тайм скорости
- на вход картинка 512х512
- лицо должно занимать 60% кадра и смотреть прямо. Если есть обрезка головы, например, макушка, на выходе будут сильные артефакты
- нет video2video, на вход только картинка
- поддерживает 7 эмоций, можно задавать вручную: 'angry', 'disgust', 'fear', 'happy', 'neutral', 'sad', 'surprise' (гнев", "отвращение", "страх", "радость", "нейтральность", "грусть", "удивление"). По умолчанию использует смешанные эмоции.
- аниме лица не анимирует
- скорость на 3090 почти реалтайм: 39 секунд аудио за 41 секунду обработки
- жрет всего 3.3 гига VRAM при 20 секундах аудио
- в комфи ставится через manager по URL без всяких танцев с бубном
Надо бы сделать в комфи авто-вырезалку квадратного портрета с последующей склейкой обратно поверх исходного лица.
код: https://github.com/set-soft/ComfyUI-FLOAT_Optimized
ноды для comfy: https://github.com/set-soft/ComfyUI-FLOAT_Optimized
видео примеры: https://deepbrainai-research.github.io/float/
- на вход картинка 512х512
- лицо должно занимать 60% кадра и смотреть прямо. Если есть обрезка головы, например, макушка, на выходе будут сильные артефакты
- нет video2video, на вход только картинка
- поддерживает 7 эмоций, можно задавать вручную: 'angry', 'disgust', 'fear', 'happy', 'neutral', 'sad', 'surprise' (гнев", "отвращение", "страх", "радость", "нейтральность", "грусть", "удивление"). По умолчанию использует смешанные эмоции.
- аниме лица не анимирует
- скорость на 3090 почти реалтайм: 39 секунд аудио за 41 секунду обработки
- жрет всего 3.3 гига VRAM при 20 секундах аудио
- в комфи ставится через manager по URL без всяких танцев с бубном
Надо бы сделать в комфи авто-вырезалку квадратного портрета с последующей склейкой обратно поверх исходного лица.
код: https://github.com/set-soft/ComfyUI-FLOAT_Optimized
ноды для comfy: https://github.com/set-soft/ComfyUI-FLOAT_Optimized
видео примеры: https://deepbrainai-research.github.io/float/
🔥25👍6🤡3😁2
T-one STT (распознавание речи на русском) под виндой (без WSL и докера) на CPU
- размер очень маленький - 71M параметров (whisper large - 1500M), поэтому быстрый.
- по первым ощущениям, уровень ошибок на уровне whisper-large.
- но по метрикам превосходит все существующие модули распознавания речи для русского.
- по умолчанию работает на CPU и довольно быстро. Намного быстрее виспера на cpu
- на ГПУ запускать лень, надо triton-inference-server поднимать. Пишут, что для GPU нужно 8 GB vram
- не ставит знаки препинания (а виспер ставит)
- обычное голосовое сообщение умеренного качества, записанное на улице, длиной 74 секунды он распознал за 12 секунд на CPU. Работает потоково. Первая фраза появилась уже через 1 секунду. Итого: 10 ошибок, в основном, пропуск слов, которые плохо слышно, иногда неверные окончания.
Установка под виндой
(для linux или wsl - используйте официальную инструкцию)
По умолчанию демо работает на CPU. Чтобы запустить на GPU нужно ставить TensorRT и triton-inference-server. Там свои сложности, под винду есть только некоторые версии сервера. Официальная инструкция (я не тестил) https://github.com/voicekit-team/T-one/blob/main/docs/triton_inference_server.ru.md
гитхаб: https://github.com/voicekit-team/T-one
HF: https://huggingface.co/t-tech/T-one
- размер очень маленький - 71M параметров (whisper large - 1500M), поэтому быстрый.
- по первым ощущениям, уровень ошибок на уровне whisper-large.
- но по метрикам превосходит все существующие модули распознавания речи для русского.
- по умолчанию работает на CPU и довольно быстро. Намного быстрее виспера на cpu
- на ГПУ запускать лень, надо triton-inference-server поднимать. Пишут, что для GPU нужно 8 GB vram
- не ставит знаки препинания (а виспер ставит)
- обычное голосовое сообщение умеренного качества, записанное на улице, длиной 74 секунды он распознал за 12 секунд на CPU. Работает потоково. Первая фраза появилась уже через 1 секунду. Итого: 10 ошибок, в основном, пропуск слов, которые плохо слышно, иногда неверные окончания.
Установка под виндой
(для linux или wsl - используйте официальную инструкцию)
git clone https://github.com/voicekit-team/T-one.git
cd T-one
python -m venv .venv
.venv\Scripts\activate
в файле pyproject.toml удаляем или комментируем (#) строчку 16:
"kenlm (>=0.2.0,<1.0.0)",
git clone https://github.com/Microsoft/vcpkg.git
cd vcpkg
bootstrap-vcpkg.sh
vcpkg integrate install
vcpkg install kenlm
cd ..
pip install poetry
poetry lock
poetry install -E demo
pip install kenlm
uvicorn --host 127.0.0.1 --port 8081 tone.demo.website:app --reload
открываем 127.0.0.1:8081 в браузере
По умолчанию демо работает на CPU. Чтобы запустить на GPU нужно ставить TensorRT и triton-inference-server. Там свои сложности, под винду есть только некоторые версии сервера. Официальная инструкция (я не тестил) https://github.com/voicekit-team/T-one/blob/main/docs/triton_inference_server.ru.md
гитхаб: https://github.com/voicekit-team/T-one
HF: https://huggingface.co/t-tech/T-one
1👍29🔥6❤4🤔3