Tensor Banana

flux lite 8B - 33 секунды на 3060

Разрабы убрали несколько слоев из середины модели и сократили число параметров с 12b до 8b, сократился и размер с 22 GB до 15 GB(fp16) и всего 7.6 GB в fp8. В теории, должна влезть в 8 GB VRAM. Затестил на своих 12 и 22 GB. Если у кого есть 8 GB - напишите скорость комментах.

Пишут, что flux lite чуть хуже рисует текст и хуже работает с Лорами. 8 шаговая лора hyper-flux работет, почти также как и в dev (хотя comfy пишет, что есть некоторые ошибки загрузки лоры).

Разрабы Lite рекомендуют ставить guidance_scale 3.5 и число шагов 22-30.

Затестил lite в форматах fp16, fp8 и Q4_0.

2080ti-22GB, 80%_power, 1024x1024 22 steps, guidance 3.5
dev_fp8:           16 GB, 1.99s/it, 46s

lite_fp16          17 GB, 1.58s/it, 40s
lite_fp8           15 GB, 1.57s/it, 37s
lite_q4            13 GB, 1.83s/it, 43s 

dev_fp8_8st_lora   17 GB, 1.88s/it, 25s
lite_q4+8st_lora   13 GB, 2.50s/it, 20s
lite_fp8_8st_lora  15 GB, 1.51s/it, 15s


3060-12GB, 80%_power, 1024x1024 22 steps, guidance 3.5
dev_fp8            11 GB, 4.36s/it, 109s     

lite_fp8           9 GB,  3.04s/it, 75s
lite_q4            10 GB, 3.52s/it, 81s

lite_q4_8st_lora   10 GB, 4.61s/it, 40s
lite_fp8_8st_lora  10 GB, 2.87s/it, 33s

close-up photo of a face of a young french woman fully covered with artistic paint. Left part of is fully covered with black paint and right part is fully white.   There is red text "Tensor" on her right forehead on white background. There is red text "Banana" on her right cheek under her eye on white background. Her neck is also covered in black paint. Lips are bright red. Background is dark, there's low light in photo

Сиды у картинок разные, выбирал самые хорошие. У hyper flux 8 step lora сила 0.125. Хайрез картинку скину в комменты.

Явного различия в качестве flux-dev-fp8 против flux-lite-fp8 пока не заметил. в lite-q4 кожа попроще, но я от него и не ждал чуда, текст пишет, но в довольно простом стиле.

С 8 шаговой Hyper лорой, конечно, все быстрее, но кожа становится чуть пластиковой, текст попроще. Но она все еще намного лучше чем schnell. У schnell самая пластиковая кожа и отсутствие мелких деталей.

Заодно затестил свежий PixelWave (один из первых полноцененных файнтюнов flux, 5 недель тренировки на 4090, 3000 изображений). А также SD3.5 Large и Medium.

PixelWave fp8 приятно удивил реалистичностью. Но с 8-step-lora работает хуже (малая насыщенность). PixelWave_fp8 по скорости такой же как dev_fp8.

SD3.5-large-8b неплохо отрабовал, но кожа пластиковая. SD3.5-medium-2.6b попытался, но не смог (проблемы с соблюдением всех условий, проблемы с текстом).

Файлов Lite в fp8 и nf4 пока нет, есть автоматическая конвертация в fp8 в комфи (в ноде Load Diffusion Model выбрать weight_dtype fp8_e4m3fn_fast).

flux lite fp16(16 GB): https://huggingface.co/Freepik/flux.1-lite-8B-alpha/tree/main
flux lite gguf(4-9 GB): https://huggingface.co/city96/flux.1-lite-8B-alpha-gguf/tree/main

hyper flux 8 step lora: https://huggingface.co/ByteDance/Hyper-SD
flux pixelwave: https://huggingface.co/mikeyandfriends/PixelWave_FLUX.1-dev_03/tree/main

🔥21👍16

2.85K views18:36

Tensor Banana

Channel photo updated

19:38

Tensor Banana

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

Генерируем видео в mochi-1 локально

mochi-1 - самая большая открытая модель для text2video размером 10B. Для сравнения cogvideox-5B, а animateDiff 1.4B.

Видео на выходе - 848x480, 24 fps, длиной до 5.4 секунды. Вертикальные видео тоже может, но качество - размытое. Квадратные - не тестил.
img2video пока официально не поддерживается, но уже есть способ, как использовать картинку для частичного деноиза.

NSFW выпилен, но что-то все равно умеет, если постараться. Пишут, что модель заточена на реализм, а не на рисованую анимацию.

Натренирован на длинных детальных промптах. Примеры промптов можно глянуть тут https://www.genmo.ai/play

При генерации локально используется tiling (разбиение кадра на части), но из-за этого страдает качество и появляется двоение. Часть роликов в примере страдают от двоения. Это зависит от настроек, я тестил разные, искал оптимальные.

Если у вас меньше 12 GB vram: попробуйте уменьшить размер тайла или попробуйте gguf версию.
gguf q4 весит всего 6 гигов, но качество будет хуже. fp8 весит 10 GB. В твиттере пишут, что запустили на 2060-6GB (деталей не пишут). SwarmUI рекомендуют размер тайла: 160x160 и overlap 96 (factor 0.6)

## text2video, 30 steps:
- 3060, 31 кадр, 17.65s/it, 9 минут, 10.5 GB max vram
- 3060, 13 кадров, 7.41s/it - 4 минуты, 10 GB max vram
- 2080ti, 13 кадров, 14.80s/it - 8 минут, 11 GB max vram, медленно
- 3090, 175 кадров - 45 минут
- 4090, 175 кадров - 14 минут

7 и 13 кадров не рекомендую, качество плохое.

## img2video
img2video реализовали через video2video (костыль). Рекомендуют ставить denoise 0.60, подобрать правильный denoise под конкретную картинку бывает трудновато. Картинку на вход исключительно в разрешении 848x480, иначе крашится. Промпт нужен подходящий под эту картинку. Примеров я пока не нагенерировал.

## img2video, 30steps:
3060, 13 кадров, 7.94s/it, 5 минут, 11 GB
2080ti, 13 кадров, 20.27s/it, 11 минут, 12.6 GB

## Установка:
Обнвовляем comfyui через update_comfyui.bat или скачиваем свежий.
устанавливаем эти ноды через comfyui manager:
https://github.com/kijai/ComfyUI-MochiWrapper
https://github.com/SeanScripts/ComfyUI-Unload-Model
https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite (опционально)
и вот этот скрипт положить в папку \custom_nodes\ в https://gist.github.com/city96/30743dfdfe129b331b5676a79c3a8a39#file-comfybootlegoffload-py

mochi unet: https://huggingface.co/Kijai/Mochi_preview_comfy/blob/main/mochi_preview_dit_fp8_e4m3fn.safetensors
t5xxl clip: https://huggingface.co/Comfy-Org/mochi_preview_repackaged/blob/main/split_files/text_encoders/t5xxl_fp8_e4m3fn_scaled.safetensors
vae decoder: https://huggingface.co/Kijai/Mochi_preview_comfy/blob/main/mochi_preview_vae_decoder_bf16.safetensors
vae encoder: https://huggingface.co/Kijai/Mochi_preview_comfy/blob/main/mochi_preview_vae_encoder_bf16_.safetensors
еще есть гуфы (не тестил, загружать через ноду (Down)load Mochi Model): https://huggingface.co/Kijai/Mochi_preview_comfy/tree/main

workflow text2video: https://raw.githubusercontent.com/Mozer/comfy_stuff/refs/heads/main/workflows/mochi_text2video_12GB.json
workflow img2video: https://raw.githubusercontent.com/Mozer/comfy_stuff/refs/heads/main/workflows/mochi_img2video_12GB.json

Если на этапе Processing rows все вылетело - значит не хватило vram и нужно вручную изменить настройки:
EmptyMochoLatentVideo: length: ставим поменьше, 13 кадров у меня жрет 11 VRAM. Но при мало количестве кадров (7 и 13) качество видео будет намного хуже - модель тренировалась на большем количестве.
auto_tile_size: false
tile_smaple_min_width: 160, 128 или меньше.
tile_smaple_min_height: 160, 128 или меньше.
160х160 влазят в 12 GB.
Хз какие значения нужны для 8 GB, пишите в комментах.

video2video (2 попытки): https://www.runninghub.ai/workflow/1855187218284285953
text2video (крашится): https://www.runninghub.ai/post/1849422477566038017
ждать долго (я не дождался): https://runcomfy.com/comfyui?workflow=mochi1-genmo-video-generation

31👍19🔥8✍1

2.57K views18:17

Tensor Banana

Тренировка Flux Лоры на лицо при 12 GB VRAM

Влезет ли тренировка в 6 или 8 GB vram? На реддите писали, что да, для 512px. Если получится - напишите.

# Установка
Скачиваем https://github.com/Nerogar/OneTrainer и ставим по инструкции, git clone и дабл клик по install.bat
Скачиваем diffusers версию flux dev (32 Гига) https://huggingface.co/black-forest-labs/FLUX.1-dev/tree/main. Нужно скачать все файлы кроме flux1-dev.safetensors (самого большого) с сохранением структуры папок.

## Фотки
Для Лоры на лицо рекомендую побольше фоток именно лица с разных углов. Затем портреты по грудь, портреты в полный рост и портреты на улице.
Не рекомендую для первого раза использовать селфи фото. В селфи обычно есть значительные геометрические искажения, они будут мешать похожести. Для себя я взял 24 фотки, снятые на фотик. До этого пробовал микс селфи и неселфи - вышло хуже. Работает принцип - на каких позах и ракурсах учим - такие позы и ракурсы и будут получаться лучше всего. Другие ракурсы будут не так похожи.

Тренировать будем в разрешении 768px. Результат Лоры в 768px меня порадовал больше в 1024px. В 512px тоже пробовал, но были видны артефакты низкого разрешения.
OneTrainer сам обрежет как надо ваши картинки по максимальной длине или высоте. Рекомендую выбирать именно те соотношения сторон, какое вы хотите получить на выходе, например, все фотки в портретной ориентации. Квадратов не надо.

## Описание фоток
Фотки кладём а одну папку, создаём txt файлы с такими же именами (например photo1.txt). Внутри каждого txt файла пишем всего два слова: ten50rb4n4na woman. Где ten50rb4n4na это уникальное имя вашего персонажа. Один раз я долго не мог понять почему вместо девушки получается какой-то анимешный военный. Описывать позы и одежду мы не будем, работает и без этого. (А вот при тренировке лоры на стиль/концепт нужно описывать значимые детали).

## Настройки OneTrainer
Мой конфиг для 768px-12 GB: https://github.com/Mozer/comfy_stuff/blob/main/oneTrainer_configs/face_768px_12GB.json положить в папку training_presets, затем выбрать его в программе в левом верхнем углу. Там же на гитхабе лежат конфиги 512px-12GB и 1024px-22GB.

Тренить будем в формате nf4 (override prior data type: nfloat4), так быстрее.

Включать Sampling (периодическая генерация тестовых картинок) можно только если у вас 16 и больше vram, иначе вылетит в OOM. Но функция, конечно, полезная, позволяет генерировать картинки прямо по ходу тренировки лоры. (функцию попробуйте, вдруг у вас не будет вылетать при 12 GB).

Для 512px на 12 GB vram: Gradient Checkpointing: On, Layer offload fraction: 0.00, Resolution: 512
Для 768px на 12 GB vram: Gradient Checkpointing: CPU_Offloaded, Layer offload fraction: 0.50, Resolution: 768
Если у вас 22+ GB vram, то при 768px и 1024px CPU_Offloaded не нужен (нужно поставить Gradient Checkpointing: On).
Можно немного ускорить и сократить VRAM, тренируя только "attn" слои, выставив их в Lora - Layer Preset. Но я не уверен, как это отразится на конечном результате. На реддите писали, что для персонажа можно тренить только 2 конкретных слоя.

Если у вас 3000 и 4000 серия - тренить будем с "Train data type: bfloat16" (на 4% быстрее). Если 2000 и старее - float16 (чуть медленнее).
Тренить будем до 3000 шагов (25 фоток x 120 эпох). Для теста можете попробовать 2000 или 1000.

512px
3060-12GB, 5.06s/it 4 часа  10GB
2080-22GB, 3.49s/it 3 часа  12GB

768px
3060-12GB, 11.4s/it 10 часо 10GB
2080-22GB, 6.01s/it 5 часов 11GB

1024px
3060-12GB, OOM error
2080-22GB, 10.2s/it 8 часов 11GB

Если выкидывает ошибку CUDA_LAUNCH_BLOCKING - перезапустите программу.
Layer offload fraction: 0.50 - можно попробовать сделать меньше, возможно будет чуть быстрее для 3060-12GB.
Чтобы продолжить начатую лору, не забудьте перед запуском установить галочку: Continue from last backup.

Свою лору на лицо выкладывать не буду. Но есть другая на стиль: https://civitai.com/models/948149?modelVersionId=1061544 Примеры фоток скинул в комменты.

6🔥17👍9❤2

3K views20:44

Tensor Banana

Flux fill - модель для inpaint и outpaint

outpaint - умеет дорисовывать картинку по краям.
inpaint - перерисовывает выделенный объект или текст. Для того чтобы сохранить исходный стиль текста - нужно выделить не всю надпись, а сперва ее часть, так чтобы для модельки остался хоть кусочек текста, под который она подстроится. Например, надпись "Tensor 76" была написана в 2 этапа: "Ten" + "or 76". В comfy инпеинт делать через "Load image - Open in mask editor".

Для хорошего качества инпеинта на выходе - нужно чтобы исходная картинка была большого разрешения. Но тогда и генерация будет идти медленно, так как картинка генерируется в разрешении равном исходному. Частичная региональная генерация вроде тоже работает, но скорее всего, хуже. Для инпеинта рекомендую ставить denoise 0.98 - так стиль лучше сохраняется.

В gguf_q4_0 (6 GB) качество будет немного хуже чем в fp8 (11GB), а скорость генерации такая же.

Со старыми лорами не работает (тестил лору на лицо и 8-шаговую лору). Новые лоры для redux и контролнета еще не тестил.

1000x1344, 20 steps
3060, q4_0, 6.23s/it, 02:04
3060, fp8, 6.41s/it, 02:09

800x1064, 20 steps
2080ti, fp8, 1.64s/it, 00:32

На 2080ti инпеинт и аутпеинт у меня почему-то плохо работает с разрешением больше 700x700 - внезапно появляется сильный шум на всей картинке. Инпеинт еще термимо, а аутпеинт вообще плохо. Comfy обновлял, разные модельки качал. Если у вас тоже Nvidia 20-й или 10-й серии, напишите в комментариях. На 3060 все супер, но не так быстро.

Для работы нужно обновить comfyui (update_comfyui.bat). В фордже пока не работает, добавят на днях.

гуфы тут: https://huggingface.co/SporkySporkness/FLUX.1-Fill-dev-GGUF/tree/main
или fp8: https://huggingface.co/dim/black-forest-labs_FLUX.1-Fill-dev_flux1-fill-dev_fp8.safetensors/tree/main
воркфлоу для oupaint и inpaint: https://comfyanonymous.github.io/ComfyUI_examples/flux/
nf4 пока нет
Затестить онлайн (бесплатно около 5-6 генераций в день):
inpaint: https://www.runninghub.ai/post/1859967231923810306
outpaint: https://www.runninghub.ai/post/1859965846230798338

👍21❤‍🔥3

2.73K views22:06

Tensor Banana

Flux Redux x3 - смешиваем 3 картинки с указанием силы

Если кто не в курсе, Flux Redux - новая модель для создания вариаций картинки.

Базовый воркфлоу для Flux Redux (вариации по одной картинке) слишком негибкий, поэтому я его адаптировал. Я добавил указание силы для каждой картинки и для промпта. Теперь можно четко контролировать силу каждого фактора.

Рекомендации:
- в моем воркфлоу главная картинка всегда третья, у нее всегда почему-то самое большое влияние на результат, ставьте ей силу 1.0 или близкое значение.
- первая картинка по умолчанию выключена. Если вам надо - можете включить, но контролировать 3 картинки + промпт - сложнее, чем 2.
- Redux неплохо работает с лорами. Тестил на лоре на лицо.
- рекомендую выставлять большое конечное разрешение, например, 800x1400. При меньшем разрешении финальные картинки иногда могут не влезать по высоте, и объект будет обрезаться сверху. Предполагаю, что redux тренировали на разрешении 1400x1400.
- сила промпта также может быть задана, путем уменьшения финальной силы всех картинок. По умолчанию она стоит в 0.40. При 1.00 - промпт будет игнорироваться. При 0.00 - картинки будут игнорироваться.
- картинки на белом фоне проще интегрировать друг в друга.
- у меня там 2 лоры встроены с силой 0. выберите любые или удалите эти ноды если у вас вообще нет скачанных лор.

Все ноды доступны по умолчанию (кроме гуфов, но по умолчанию выключены). Ничего дополнительно устанавливать не надо, просто обновите comfyui (update_comfyui.bat) и перетащите воркфлоу.

Для работы Redux скачать, если не качали:
sigclip https://huggingface.co/Comfy-Org/sigclip_vision_384/blob/main/sigclip_vision_patch14_384.safetensors в папку models/clip_vision
FLUX.1-Redux https://huggingface.co/black-forest-labs/FLUX.1-Redux-dev в папку models/style_models

flux dev, clip_l, t5_xxl, vae надеюсь у вас уже скачаны, если нет то: https://comfyanonymous.github.io/ComfyUI_examples/flux/

Redux x3 воркфлоу https://github.com/Mozer/comfy_stuff/blob/main/workflows/workflow_redux_x3_with_strength.png
Затестить онлайн: https://www.runninghub.ai/post/1860773217928441857

1👍36🔥6❤4

4.85K views19:43

About

Blog

Apps

Platform