Степень деградации LLM в зависимости от кванта
Взял свежую Ministral-8B-Instruct-2410 в разных квантах от q8 до q2 и сравнил на количество языковых/логических ошибок в двух задачах.
Тестил в llama.cpp. Там еще нет полной поддержки, пишут, что работает хорошо только до контекста 2048.
Сочинение историй
Я специально задрал температуру до 1.0 чтобы выявить проблемы с умением использовать русский язык. При низкой температуре (0.30) будет меньше ошибок, но язык будет скучным. Тот факт, что локальная LLM вообще пишет связный текст на русском с такой температурой заслуживает одобрения, раньше они такого не могли. Ministral горячо рекомендую затестить (в talk-llama-fast вроде работает).
Настройки: temp: 1.00, min_p: 0.02, rep_pen: 1.10, mistral preset
Начиная с Q4 и ниже грудус бреда начал зашкаливать. Q3 и Q2 вообще слетели с катушек.
Все LLM, которые я затестил, не в курсе кто такие скуфы и квадроберы, поэтому им приходится выдумывать. gpt-4o думает, что квадроберы ездят на квадроциклах =)
Невошедшие примеры от других LLM скину в комменты (sonnet, gpt4o и несколько локальных).
Логика и следование инструкциям
Настройки: temp: 0.10, min_p: 0.00, rep_pen: 1.00, mistral preset
Q8 - Q4 - хорошо, q3 и q2 либо отказываются следовать инструкциям, либо допускают ошибки.
С некоторыми сложными словами не справляется даже q8, нужна моделька побольше и поумнее.
Картинки в SillyTavern мне рисует flux Schnell по API от together ai. Бесплатно дают 6 запросов в минуту. Нужен "SillyTavern, ветка staging".
Выводы: Отличий между q8 и q6 минимум. q5 - почти приемлимо. q4 - на любителя. Я еще кванты T-lite-8b также сравнивал, он стихи пытался писать с рифмой вплоть до q4.
гуфы https://huggingface.co/bartowski/Ministral-8B-Instruct-2410-HF-GGUF-TEST/tree/main
Взял свежую Ministral-8B-Instruct-2410 в разных квантах от q8 до q2 и сравнил на количество языковых/логических ошибок в двух задачах.
Тестил в llama.cpp. Там еще нет полной поддержки, пишут, что работает хорошо только до контекста 2048.
Сочинение историй
Я специально задрал температуру до 1.0 чтобы выявить проблемы с умением использовать русский язык. При низкой температуре (0.30) будет меньше ошибок, но язык будет скучным. Тот факт, что локальная LLM вообще пишет связный текст на русском с такой температурой заслуживает одобрения, раньше они такого не могли. Ministral горячо рекомендую затестить (в talk-llama-fast вроде работает).
Напиши пост в телеграме про скуфов в офисе в личном блоге от лица девушки-альтушки. Ещё добавь про борьбу с квадроберами и хоббихорсерами. В конце расскажи про трансформеров.
Обязательно используй мат, эмодзи и современный молодежный сленг (слова: бля, хз, нах, огонь, норм). Начни со слова Пипец.
Настройки: temp: 1.00, min_p: 0.02, rep_pen: 1.10, mistral preset
Начиная с Q4 и ниже грудус бреда начал зашкаливать. Q3 и Q2 вообще слетели с катушек.
Все LLM, которые я затестил, не в курсе кто такие скуфы и квадроберы, поэтому им приходится выдумывать. gpt-4o думает, что квадроберы ездят на квадроциклах =)
Невошедшие примеры от других LLM скину в комменты (sonnet, gpt4o и несколько локальных).
Логика и следование инструкциям
Сколько букв "с" в слове "ассистентский"? Сперва выпиши все буквы в нумерованный список, а потом посчитай, обязательно выписав порядковый номер нужных букв. В конце прогавкай столько же раз.
Настройки: temp: 0.10, min_p: 0.00, rep_pen: 1.00, mistral preset
Q8 - Q4 - хорошо, q3 и q2 либо отказываются следовать инструкциям, либо допускают ошибки.
С некоторыми сложными словами не справляется даже q8, нужна моделька побольше и поумнее.
Картинки в SillyTavern мне рисует flux Schnell по API от together ai. Бесплатно дают 6 запросов в минуту. Нужен "SillyTavern, ветка staging".
Выводы: Отличий между q8 и q6 минимум. q5 - почти приемлимо. q4 - на любителя. Я еще кванты T-lite-8b также сравнивал, он стихи пытался писать с рифмой вплоть до q4.
гуфы https://huggingface.co/bartowski/Ministral-8B-Instruct-2410-HF-GGUF-TEST/tree/main
👍19🔥11😁3❤2
Запускаем SD 3.5 Large fp8 в comfyUI
Модель в формате fp8 должна влезть в 8GB VRAM. Если у вас меньше - попробуйте варианты в формате gguf, они есть и на 4 гига, но качество будет хуже.
1. Качаем свежий comfyUI https://github.com/comfyanonymous/ComfyUI или обновляем ваш старый (update_comfyui_stable.bat)
2. Качаем 3 клипа (все кроме t5xxl_fp16.safetensors) и кладем в папку /models/clip/: https://huggingface.co/lodestones/stable-diffusion-3-medium/tree/main/text_encoders
3. Скачать саму sd3 в fp8 или gguf формате, пишут, что скорость почти одинаковая. Дефолтная модель в fp16 весит слишком много (16 GB), поэтому я использовал fp8, положил в папку /models/checkpoints/. Гуфы надо класть в папку /models/unet/
fp8 (8GB) https://huggingface.co/matt3ounstable/stable-diffusion-3.5-large-fp8/tree/main
или gguf (4-8 GB) https://huggingface.co/city96/stable-diffusion-3.5-large-gguf/tree/main
(для гуфов нужно установить ноды: "ComfyUI-GGUF", они есть в ComfyUI-Manager. Далее для загрузки модели ипользовать ноду "Unet loader (GGUF)")
4. Качаем vae и кладем в /models/vae/ https://huggingface.co/stabilityai/stable-diffusion-3.5-large/blob/main/vae/diffusion_pytorch_model.safetensors
5. Качаем workflow (картинку) для fp8 и перетаскиваем в браузер в ComfyUI https://github.com/Mozer/comfy_stuff/blob/main/workflows/sd35_large_fp8.png
для гуфов workflow сами измените ноду LoadCheckpoint на Unet loader (GGUF).
6. Проверяем, что нужные модельки выставлены в TripleCLIPLoader, LoadCheckpoint и LoadVAE. Готово.
## Скорость
SD3.5 large FP8:
На 2080Ti-22GB (pcie 3.0 4x, power-limit 80%)
Холодный старт - 75s
1024x1024 20 steps - 42s, 1.61s/it
жрет vram - 21 GB
На 3060-12GB (pcie 3.0 4x, power-limit 80%)
Холодный старт - 91s
1024x1024 20 steps - 75s, 3.20s/it
жрет vram - 11 GB
Скорость Flux-dev-fp8 у меня чуть-чуть медленнее (2080ti, 1024x1024 20 steps - 45s, 1.94s/it)
Если в SD3.5 не менять промпт, и vae вынести на вторую видюху, то полное время на генерацию будет 35s.
SD-3.5-Large-8b тренилась на разрешении до 1 мегапикселя, так что ставить разрешение больше чем 1024х1024 не стоит - будет ухудшение качества. (Flux работает до 2-х мегапикселей). Модель поменьше, SD-3.5-Medium-2.5B, обещают выпустить уже 29 декабря, и в ней обещают разрешение до 2 mpx. Еще есть Large-Turbo модель, генерирует всего за 4 шага, но качество будет хуже, ее не тестил.
Общее впечатление: flux лучше. Он реалистичнее, анатомия лучше, разрешение больше, следование промпту лучше. А тут результат напоминает SDXL. Но, наверняка, для SD3 будут свои файнтюны и лоры, которые улучшат ситуацию и добавят что-то новое, например flux очень дорого файнтюнить (lora - дешево). Текст пишет, но в мелком тексте будут неточности. Пишут, что sd3 лучше чем flux следует заданному художественному стилю. Сам не тестил.
Nsfw - умеет, верх - норм (лучше чем у флакса из коробки), низ - без деталей (+- как у флакса из коробки). Для реализма нужно снизить cfg например до 3.0.
Затестить онлайн https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large
Модель в формате fp8 должна влезть в 8GB VRAM. Если у вас меньше - попробуйте варианты в формате gguf, они есть и на 4 гига, но качество будет хуже.
1. Качаем свежий comfyUI https://github.com/comfyanonymous/ComfyUI или обновляем ваш старый (update_comfyui_stable.bat)
2. Качаем 3 клипа (все кроме t5xxl_fp16.safetensors) и кладем в папку /models/clip/: https://huggingface.co/lodestones/stable-diffusion-3-medium/tree/main/text_encoders
3. Скачать саму sd3 в fp8 или gguf формате, пишут, что скорость почти одинаковая. Дефолтная модель в fp16 весит слишком много (16 GB), поэтому я использовал fp8, положил в папку /models/checkpoints/. Гуфы надо класть в папку /models/unet/
fp8 (8GB) https://huggingface.co/matt3ounstable/stable-diffusion-3.5-large-fp8/tree/main
или gguf (4-8 GB) https://huggingface.co/city96/stable-diffusion-3.5-large-gguf/tree/main
(для гуфов нужно установить ноды: "ComfyUI-GGUF", они есть в ComfyUI-Manager. Далее для загрузки модели ипользовать ноду "Unet loader (GGUF)")
4. Качаем vae и кладем в /models/vae/ https://huggingface.co/stabilityai/stable-diffusion-3.5-large/blob/main/vae/diffusion_pytorch_model.safetensors
5. Качаем workflow (картинку) для fp8 и перетаскиваем в браузер в ComfyUI https://github.com/Mozer/comfy_stuff/blob/main/workflows/sd35_large_fp8.png
для гуфов workflow сами измените ноду LoadCheckpoint на Unet loader (GGUF).
6. Проверяем, что нужные модельки выставлены в TripleCLIPLoader, LoadCheckpoint и LoadVAE. Готово.
## Скорость
SD3.5 large FP8:
На 2080Ti-22GB (pcie 3.0 4x, power-limit 80%)
Холодный старт - 75s
1024x1024 20 steps - 42s, 1.61s/it
жрет vram - 21 GB
На 3060-12GB (pcie 3.0 4x, power-limit 80%)
Холодный старт - 91s
1024x1024 20 steps - 75s, 3.20s/it
жрет vram - 11 GB
Скорость Flux-dev-fp8 у меня чуть-чуть медленнее (2080ti, 1024x1024 20 steps - 45s, 1.94s/it)
Если в SD3.5 не менять промпт, и vae вынести на вторую видюху, то полное время на генерацию будет 35s.
SD-3.5-Large-8b тренилась на разрешении до 1 мегапикселя, так что ставить разрешение больше чем 1024х1024 не стоит - будет ухудшение качества. (Flux работает до 2-х мегапикселей). Модель поменьше, SD-3.5-Medium-2.5B, обещают выпустить уже 29 декабря, и в ней обещают разрешение до 2 mpx. Еще есть Large-Turbo модель, генерирует всего за 4 шага, но качество будет хуже, ее не тестил.
Общее впечатление: flux лучше. Он реалистичнее, анатомия лучше, разрешение больше, следование промпту лучше. А тут результат напоминает SDXL. Но, наверняка, для SD3 будут свои файнтюны и лоры, которые улучшат ситуацию и добавят что-то новое, например flux очень дорого файнтюнить (lora - дешево). Текст пишет, но в мелком тексте будут неточности. Пишут, что sd3 лучше чем flux следует заданному художественному стилю. Сам не тестил.
Nsfw - умеет, верх - норм (лучше чем у флакса из коробки), низ - без деталей (+- как у флакса из коробки). Для реализма нужно снизить cfg например до 3.0.
Затестить онлайн https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large
👍19
flux lite 8B - 33 секунды на 3060
Разрабы убрали несколько слоев из середины модели и сократили число параметров с 12b до 8b, сократился и размер с 22 GB до 15 GB(fp16) и всего 7.6 GB в fp8. В теории, должна влезть в 8 GB VRAM. Затестил на своих 12 и 22 GB. Если у кого есть 8 GB - напишите скорость комментах.
Пишут, что flux lite чуть хуже рисует текст и хуже работает с Лорами. 8 шаговая лора hyper-flux работет, почти также как и в dev (хотя comfy пишет, что есть некоторые ошибки загрузки лоры).
Разрабы Lite рекомендуют ставить guidance_scale 3.5 и число шагов 22-30.
Затестил lite в форматах fp16, fp8 и Q4_0.
Сиды у картинок разные, выбирал самые хорошие. У hyper flux 8 step lora сила 0.125. Хайрез картинку скину в комменты.
Явного различия в качестве flux-dev-fp8 против flux-lite-fp8 пока не заметил. в lite-q4 кожа попроще, но я от него и не ждал чуда, текст пишет, но в довольно простом стиле.
С 8 шаговой Hyper лорой, конечно, все быстрее, но кожа становится чуть пластиковой, текст попроще. Но она все еще намного лучше чем schnell. У schnell самая пластиковая кожа и отсутствие мелких деталей.
Заодно затестил свежий PixelWave (один из первых полноцененных файнтюнов flux, 5 недель тренировки на 4090, 3000 изображений). А также SD3.5 Large и Medium.
PixelWave fp8 приятно удивил реалистичностью. Но с 8-step-lora работает хуже (малая насыщенность). PixelWave_fp8 по скорости такой же как dev_fp8.
SD3.5-large-8b неплохо отрабовал, но кожа пластиковая. SD3.5-medium-2.6b попытался, но не смог (проблемы с соблюдением всех условий, проблемы с текстом).
Файлов Lite в fp8 и nf4 пока нет, есть автоматическая конвертация в fp8 в комфи (в ноде Load Diffusion Model выбрать weight_dtype fp8_e4m3fn_fast).
flux lite fp16(16 GB): https://huggingface.co/Freepik/flux.1-lite-8B-alpha/tree/main
flux lite gguf(4-9 GB): https://huggingface.co/city96/flux.1-lite-8B-alpha-gguf/tree/main
hyper flux 8 step lora: https://huggingface.co/ByteDance/Hyper-SD
flux pixelwave: https://huggingface.co/mikeyandfriends/PixelWave_FLUX.1-dev_03/tree/main
Разрабы убрали несколько слоев из середины модели и сократили число параметров с 12b до 8b, сократился и размер с 22 GB до 15 GB(fp16) и всего 7.6 GB в fp8. В теории, должна влезть в 8 GB VRAM. Затестил на своих 12 и 22 GB. Если у кого есть 8 GB - напишите скорость комментах.
Пишут, что flux lite чуть хуже рисует текст и хуже работает с Лорами. 8 шаговая лора hyper-flux работет, почти также как и в dev (хотя comfy пишет, что есть некоторые ошибки загрузки лоры).
Разрабы Lite рекомендуют ставить guidance_scale 3.5 и число шагов 22-30.
Затестил lite в форматах fp16, fp8 и Q4_0.
2080ti-22GB, 80%_power, 1024x1024 22 steps, guidance 3.5
dev_fp8: 16 GB, 1.99s/it, 46s
lite_fp16 17 GB, 1.58s/it, 40s
lite_fp8 15 GB, 1.57s/it, 37s
lite_q4 13 GB, 1.83s/it, 43s
dev_fp8_8st_lora 17 GB, 1.88s/it, 25s
lite_q4+8st_lora 13 GB, 2.50s/it, 20s
lite_fp8_8st_lora 15 GB, 1.51s/it, 15s
3060-12GB, 80%_power, 1024x1024 22 steps, guidance 3.5
dev_fp8 11 GB, 4.36s/it, 109s
lite_fp8 9 GB, 3.04s/it, 75s
lite_q4 10 GB, 3.52s/it, 81s
lite_q4_8st_lora 10 GB, 4.61s/it, 40s
lite_fp8_8st_lora 10 GB, 2.87s/it, 33s
close-up photo of a face of a young french woman fully covered with artistic paint. Left part of is fully covered with black paint and right part is fully white. There is red text "Tensor" on her right forehead on white background. There is red text "Banana" on her right cheek under her eye on white background. Her neck is also covered in black paint. Lips are bright red. Background is dark, there's low light in photo
Сиды у картинок разные, выбирал самые хорошие. У hyper flux 8 step lora сила 0.125. Хайрез картинку скину в комменты.
Явного различия в качестве flux-dev-fp8 против flux-lite-fp8 пока не заметил. в lite-q4 кожа попроще, но я от него и не ждал чуда, текст пишет, но в довольно простом стиле.
С 8 шаговой Hyper лорой, конечно, все быстрее, но кожа становится чуть пластиковой, текст попроще. Но она все еще намного лучше чем schnell. У schnell самая пластиковая кожа и отсутствие мелких деталей.
Заодно затестил свежий PixelWave (один из первых полноцененных файнтюнов flux, 5 недель тренировки на 4090, 3000 изображений). А также SD3.5 Large и Medium.
PixelWave fp8 приятно удивил реалистичностью. Но с 8-step-lora работает хуже (малая насыщенность). PixelWave_fp8 по скорости такой же как dev_fp8.
SD3.5-large-8b неплохо отрабовал, но кожа пластиковая. SD3.5-medium-2.6b попытался, но не смог (проблемы с соблюдением всех условий, проблемы с текстом).
Файлов Lite в fp8 и nf4 пока нет, есть автоматическая конвертация в fp8 в комфи (в ноде Load Diffusion Model выбрать weight_dtype fp8_e4m3fn_fast).
flux lite fp16(16 GB): https://huggingface.co/Freepik/flux.1-lite-8B-alpha/tree/main
flux lite gguf(4-9 GB): https://huggingface.co/city96/flux.1-lite-8B-alpha-gguf/tree/main
hyper flux 8 step lora: https://huggingface.co/ByteDance/Hyper-SD
flux pixelwave: https://huggingface.co/mikeyandfriends/PixelWave_FLUX.1-dev_03/tree/main
🔥21👍16
This media is not supported in your browser
VIEW IN TELEGRAM
Генерируем видео в mochi-1 локально
mochi-1 - самая большая открытая модель для text2video размером 10B. Для сравнения cogvideox-5B, а animateDiff 1.4B.
Видео на выходе - 848x480, 24 fps, длиной до 5.4 секунды. Вертикальные видео тоже может, но качество - размытое. Квадратные - не тестил.
img2video пока официально не поддерживается, но уже есть способ, как использовать картинку для частичного деноиза.
NSFW выпилен, но что-то все равно умеет, если постараться. Пишут, что модель заточена на реализм, а не на рисованую анимацию.
Натренирован на длинных детальных промптах. Примеры промптов можно глянуть тут https://www.genmo.ai/play
При генерации локально используется tiling (разбиение кадра на части), но из-за этого страдает качество и появляется двоение. Часть роликов в примере страдают от двоения. Это зависит от настроек, я тестил разные, искал оптимальные.
Если у вас меньше 12 GB vram: попробуйте уменьшить размер тайла или попробуйте gguf версию.
gguf q4 весит всего 6 гигов, но качество будет хуже. fp8 весит 10 GB. В твиттере пишут, что запустили на 2060-6GB (деталей не пишут). SwarmUI рекомендуют размер тайла: 160x160 и overlap 96 (factor 0.6)
## text2video, 30 steps:
- 3060, 31 кадр, 17.65s/it, 9 минут, 10.5 GB max vram
- 3060, 13 кадров, 7.41s/it - 4 минуты, 10 GB max vram
- 2080ti, 13 кадров, 14.80s/it - 8 минут, 11 GB max vram, медленно
- 3090, 175 кадров - 45 минут
- 4090, 175 кадров - 14 минут
7 и 13 кадров не рекомендую, качество плохое.
## img2video
img2video реализовали через video2video (костыль). Рекомендуют ставить denoise 0.60, подобрать правильный denoise под конкретную картинку бывает трудновато. Картинку на вход исключительно в разрешении 848x480, иначе крашится. Промпт нужен подходящий под эту картинку. Примеров я пока не нагенерировал.
## img2video, 30steps:
3060, 13 кадров, 7.94s/it, 5 минут, 11 GB
2080ti, 13 кадров, 20.27s/it, 11 минут, 12.6 GB
## Установка:
Обнвовляем comfyui через update_comfyui.bat или скачиваем свежий.
устанавливаем эти ноды через comfyui manager:
https://github.com/kijai/ComfyUI-MochiWrapper
https://github.com/SeanScripts/ComfyUI-Unload-Model
https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite (опционально)
и вот этот скрипт положить в папку \custom_nodes\ в https://gist.github.com/city96/30743dfdfe129b331b5676a79c3a8a39#file-comfybootlegoffload-py
mochi unet: https://huggingface.co/Kijai/Mochi_preview_comfy/blob/main/mochi_preview_dit_fp8_e4m3fn.safetensors
t5xxl clip: https://huggingface.co/Comfy-Org/mochi_preview_repackaged/blob/main/split_files/text_encoders/t5xxl_fp8_e4m3fn_scaled.safetensors
vae decoder: https://huggingface.co/Kijai/Mochi_preview_comfy/blob/main/mochi_preview_vae_decoder_bf16.safetensors
vae encoder: https://huggingface.co/Kijai/Mochi_preview_comfy/blob/main/mochi_preview_vae_encoder_bf16_.safetensors
еще есть гуфы (не тестил, загружать через ноду (Down)load Mochi Model): https://huggingface.co/Kijai/Mochi_preview_comfy/tree/main
workflow text2video: https://raw.githubusercontent.com/Mozer/comfy_stuff/refs/heads/main/workflows/mochi_text2video_12GB.json
workflow img2video: https://raw.githubusercontent.com/Mozer/comfy_stuff/refs/heads/main/workflows/mochi_img2video_12GB.json
Если на этапе Processing rows все вылетело - значит не хватило vram и нужно вручную изменить настройки:
EmptyMochoLatentVideo: length: ставим поменьше, 13 кадров у меня жрет 11 VRAM. Но при мало количестве кадров (7 и 13) качество видео будет намного хуже - модель тренировалась на большем количестве.
auto_tile_size: false
tile_smaple_min_width: 160, 128 или меньше.
tile_smaple_min_height: 160, 128 или меньше.
160х160 влазят в 12 GB.
Хз какие значения нужны для 8 GB, пишите в комментах.
video2video (2 попытки): https://www.runninghub.ai/workflow/1855187218284285953
text2video (крашится): https://www.runninghub.ai/post/1849422477566038017
ждать долго (я не дождался): https://runcomfy.com/comfyui?workflow=mochi1-genmo-video-generation
mochi-1 - самая большая открытая модель для text2video размером 10B. Для сравнения cogvideox-5B, а animateDiff 1.4B.
Видео на выходе - 848x480, 24 fps, длиной до 5.4 секунды. Вертикальные видео тоже может, но качество - размытое. Квадратные - не тестил.
img2video пока официально не поддерживается, но уже есть способ, как использовать картинку для частичного деноиза.
NSFW выпилен, но что-то все равно умеет, если постараться. Пишут, что модель заточена на реализм, а не на рисованую анимацию.
Натренирован на длинных детальных промптах. Примеры промптов можно глянуть тут https://www.genmo.ai/play
При генерации локально используется tiling (разбиение кадра на части), но из-за этого страдает качество и появляется двоение. Часть роликов в примере страдают от двоения. Это зависит от настроек, я тестил разные, искал оптимальные.
Если у вас меньше 12 GB vram: попробуйте уменьшить размер тайла или попробуйте gguf версию.
gguf q4 весит всего 6 гигов, но качество будет хуже. fp8 весит 10 GB. В твиттере пишут, что запустили на 2060-6GB (деталей не пишут). SwarmUI рекомендуют размер тайла: 160x160 и overlap 96 (factor 0.6)
## text2video, 30 steps:
- 3060, 31 кадр, 17.65s/it, 9 минут, 10.5 GB max vram
- 3060, 13 кадров, 7.41s/it - 4 минуты, 10 GB max vram
- 2080ti, 13 кадров, 14.80s/it - 8 минут, 11 GB max vram, медленно
- 3090, 175 кадров - 45 минут
- 4090, 175 кадров - 14 минут
7 и 13 кадров не рекомендую, качество плохое.
## img2video
img2video реализовали через video2video (костыль). Рекомендуют ставить denoise 0.60, подобрать правильный denoise под конкретную картинку бывает трудновато. Картинку на вход исключительно в разрешении 848x480, иначе крашится. Промпт нужен подходящий под эту картинку. Примеров я пока не нагенерировал.
## img2video, 30steps:
3060, 13 кадров, 7.94s/it, 5 минут, 11 GB
2080ti, 13 кадров, 20.27s/it, 11 минут, 12.6 GB
## Установка:
Обнвовляем comfyui через update_comfyui.bat или скачиваем свежий.
устанавливаем эти ноды через comfyui manager:
https://github.com/kijai/ComfyUI-MochiWrapper
https://github.com/SeanScripts/ComfyUI-Unload-Model
https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite (опционально)
и вот этот скрипт положить в папку \custom_nodes\ в https://gist.github.com/city96/30743dfdfe129b331b5676a79c3a8a39#file-comfybootlegoffload-py
mochi unet: https://huggingface.co/Kijai/Mochi_preview_comfy/blob/main/mochi_preview_dit_fp8_e4m3fn.safetensors
t5xxl clip: https://huggingface.co/Comfy-Org/mochi_preview_repackaged/blob/main/split_files/text_encoders/t5xxl_fp8_e4m3fn_scaled.safetensors
vae decoder: https://huggingface.co/Kijai/Mochi_preview_comfy/blob/main/mochi_preview_vae_decoder_bf16.safetensors
vae encoder: https://huggingface.co/Kijai/Mochi_preview_comfy/blob/main/mochi_preview_vae_encoder_bf16_.safetensors
еще есть гуфы (не тестил, загружать через ноду (Down)load Mochi Model): https://huggingface.co/Kijai/Mochi_preview_comfy/tree/main
workflow text2video: https://raw.githubusercontent.com/Mozer/comfy_stuff/refs/heads/main/workflows/mochi_text2video_12GB.json
workflow img2video: https://raw.githubusercontent.com/Mozer/comfy_stuff/refs/heads/main/workflows/mochi_img2video_12GB.json
Если на этапе Processing rows все вылетело - значит не хватило vram и нужно вручную изменить настройки:
EmptyMochoLatentVideo: length: ставим поменьше, 13 кадров у меня жрет 11 VRAM. Но при мало количестве кадров (7 и 13) качество видео будет намного хуже - модель тренировалась на большем количестве.
auto_tile_size: false
tile_smaple_min_width: 160, 128 или меньше.
tile_smaple_min_height: 160, 128 или меньше.
160х160 влазят в 12 GB.
Хз какие значения нужны для 8 GB, пишите в комментах.
video2video (2 попытки): https://www.runninghub.ai/workflow/1855187218284285953
text2video (крашится): https://www.runninghub.ai/post/1849422477566038017
ждать долго (я не дождался): https://runcomfy.com/comfyui?workflow=mochi1-genmo-video-generation
31👍19🔥8✍1
Тренировка Flux Лоры на лицо при 12 GB VRAM
Влезет ли тренировка в 6 или 8 GB vram? На реддите писали, что да, для 512px. Если получится - напишите.
# Установка
Скачиваем https://github.com/Nerogar/OneTrainer и ставим по инструкции, git clone и дабл клик по install.bat
Скачиваем diffusers версию flux dev (32 Гига) https://huggingface.co/black-forest-labs/FLUX.1-dev/tree/main. Нужно скачать все файлы кроме flux1-dev.safetensors (самого большого) с сохранением структуры папок.
## Фотки
Для Лоры на лицо рекомендую побольше фоток именно лица с разных углов. Затем портреты по грудь, портреты в полный рост и портреты на улице.
Не рекомендую для первого раза использовать селфи фото. В селфи обычно есть значительные геометрические искажения, они будут мешать похожести. Для себя я взял 24 фотки, снятые на фотик. До этого пробовал микс селфи и неселфи - вышло хуже. Работает принцип - на каких позах и ракурсах учим - такие позы и ракурсы и будут получаться лучше всего. Другие ракурсы будут не так похожи.
Тренировать будем в разрешении 768px. Результат Лоры в 768px меня порадовал больше в 1024px. В 512px тоже пробовал, но были видны артефакты низкого разрешения.
OneTrainer сам обрежет как надо ваши картинки по максимальной длине или высоте. Рекомендую выбирать именно те соотношения сторон, какое вы хотите получить на выходе, например, все фотки в портретной ориентации. Квадратов не надо.
## Описание фоток
Фотки кладём а одну папку, создаём txt файлы с такими же именами (например photo1.txt). Внутри каждого txt файла пишем всего два слова: ten50rb4n4na woman. Где ten50rb4n4na это уникальное имя вашего персонажа. Один раз я долго не мог понять почему вместо девушки получается какой-то анимешный военный. Описывать позы и одежду мы не будем, работает и без этого. (А вот при тренировке лоры на стиль/концепт нужно описывать значимые детали).
## Настройки OneTrainer
Мой конфиг для 768px-12 GB: https://github.com/Mozer/comfy_stuff/blob/main/oneTrainer_configs/face_768px_12GB.json положить в папку training_presets, затем выбрать его в программе в левом верхнем углу. Там же на гитхабе лежат конфиги 512px-12GB и 1024px-22GB.
Тренить будем в формате nf4 (override prior data type: nfloat4), так быстрее.
Включать Sampling (периодическая генерация тестовых картинок) можно только если у вас 16 и больше vram, иначе вылетит в OOM. Но функция, конечно, полезная, позволяет генерировать картинки прямо по ходу тренировки лоры. (функцию попробуйте, вдруг у вас не будет вылетать при 12 GB).
Для 512px на 12 GB vram: Gradient Checkpointing: On, Layer offload fraction: 0.00, Resolution: 512
Для 768px на 12 GB vram: Gradient Checkpointing: CPU_Offloaded, Layer offload fraction: 0.50, Resolution: 768
Если у вас 22+ GB vram, то при 768px и 1024px CPU_Offloaded не нужен (нужно поставить Gradient Checkpointing: On).
Можно немного ускорить и сократить VRAM, тренируя только "attn" слои, выставив их в Lora - Layer Preset. Но я не уверен, как это отразится на конечном результате. На реддите писали, что для персонажа можно тренить только 2 конкретных слоя.
Если у вас 3000 и 4000 серия - тренить будем с "Train data type: bfloat16" (на 4% быстрее). Если 2000 и старее - float16 (чуть медленнее).
Тренить будем до 3000 шагов (25 фоток x 120 эпох). Для теста можете попробовать 2000 или 1000.
Если выкидывает ошибку CUDA_LAUNCH_BLOCKING - перезапустите программу.
Layer offload fraction: 0.50 - можно попробовать сделать меньше, возможно будет чуть быстрее для 3060-12GB.
Чтобы продолжить начатую лору, не забудьте перед запуском установить галочку: Continue from last backup.
Свою лору на лицо выкладывать не буду. Но есть другая на стиль: https://civitai.com/models/948149?modelVersionId=1061544 Примеры фоток скинул в комменты.
Влезет ли тренировка в 6 или 8 GB vram? На реддите писали, что да, для 512px. Если получится - напишите.
# Установка
Скачиваем https://github.com/Nerogar/OneTrainer и ставим по инструкции, git clone и дабл клик по install.bat
Скачиваем diffusers версию flux dev (32 Гига) https://huggingface.co/black-forest-labs/FLUX.1-dev/tree/main. Нужно скачать все файлы кроме flux1-dev.safetensors (самого большого) с сохранением структуры папок.
## Фотки
Для Лоры на лицо рекомендую побольше фоток именно лица с разных углов. Затем портреты по грудь, портреты в полный рост и портреты на улице.
Не рекомендую для первого раза использовать селфи фото. В селфи обычно есть значительные геометрические искажения, они будут мешать похожести. Для себя я взял 24 фотки, снятые на фотик. До этого пробовал микс селфи и неселфи - вышло хуже. Работает принцип - на каких позах и ракурсах учим - такие позы и ракурсы и будут получаться лучше всего. Другие ракурсы будут не так похожи.
Тренировать будем в разрешении 768px. Результат Лоры в 768px меня порадовал больше в 1024px. В 512px тоже пробовал, но были видны артефакты низкого разрешения.
OneTrainer сам обрежет как надо ваши картинки по максимальной длине или высоте. Рекомендую выбирать именно те соотношения сторон, какое вы хотите получить на выходе, например, все фотки в портретной ориентации. Квадратов не надо.
## Описание фоток
Фотки кладём а одну папку, создаём txt файлы с такими же именами (например photo1.txt). Внутри каждого txt файла пишем всего два слова: ten50rb4n4na woman. Где ten50rb4n4na это уникальное имя вашего персонажа. Один раз я долго не мог понять почему вместо девушки получается какой-то анимешный военный. Описывать позы и одежду мы не будем, работает и без этого. (А вот при тренировке лоры на стиль/концепт нужно описывать значимые детали).
## Настройки OneTrainer
Мой конфиг для 768px-12 GB: https://github.com/Mozer/comfy_stuff/blob/main/oneTrainer_configs/face_768px_12GB.json положить в папку training_presets, затем выбрать его в программе в левом верхнем углу. Там же на гитхабе лежат конфиги 512px-12GB и 1024px-22GB.
Тренить будем в формате nf4 (override prior data type: nfloat4), так быстрее.
Включать Sampling (периодическая генерация тестовых картинок) можно только если у вас 16 и больше vram, иначе вылетит в OOM. Но функция, конечно, полезная, позволяет генерировать картинки прямо по ходу тренировки лоры. (функцию попробуйте, вдруг у вас не будет вылетать при 12 GB).
Для 512px на 12 GB vram: Gradient Checkpointing: On, Layer offload fraction: 0.00, Resolution: 512
Для 768px на 12 GB vram: Gradient Checkpointing: CPU_Offloaded, Layer offload fraction: 0.50, Resolution: 768
Если у вас 22+ GB vram, то при 768px и 1024px CPU_Offloaded не нужен (нужно поставить Gradient Checkpointing: On).
Можно немного ускорить и сократить VRAM, тренируя только "attn" слои, выставив их в Lora - Layer Preset. Но я не уверен, как это отразится на конечном результате. На реддите писали, что для персонажа можно тренить только 2 конкретных слоя.
Если у вас 3000 и 4000 серия - тренить будем с "Train data type: bfloat16" (на 4% быстрее). Если 2000 и старее - float16 (чуть медленнее).
Тренить будем до 3000 шагов (25 фоток x 120 эпох). Для теста можете попробовать 2000 или 1000.
512px
3060-12GB, 5.06s/it 4 часа 10GB
2080-22GB, 3.49s/it 3 часа 12GB
768px
3060-12GB, 11.4s/it 10 часо 10GB
2080-22GB, 6.01s/it 5 часов 11GB
1024px
3060-12GB, OOM error
2080-22GB, 10.2s/it 8 часов 11GB
Если выкидывает ошибку CUDA_LAUNCH_BLOCKING - перезапустите программу.
Layer offload fraction: 0.50 - можно попробовать сделать меньше, возможно будет чуть быстрее для 3060-12GB.
Чтобы продолжить начатую лору, не забудьте перед запуском установить галочку: Continue from last backup.
Свою лору на лицо выкладывать не буду. Но есть другая на стиль: https://civitai.com/models/948149?modelVersionId=1061544 Примеры фоток скинул в комменты.
6🔥17👍9❤2