Tensor Banana
2.64K subscribers
523 photos
124 videos
111 links
Нейросети и всё такое. https://youtube.com/@tensorbanana
Чат по нейронкам: https://t.iss.one/+zFDiHuL1iVA1YWMy
Чат с ботами: https://t.iss.one/+m2TQ5VJLhIRiY2U6
Написать админу и донаты: @talkllamabot
Download Telegram
Flux fill - модель для inpaint и outpaint

outpaint - умеет дорисовывать картинку по краям.
inpaint - перерисовывает выделенный объект или текст. Для того чтобы сохранить исходный стиль текста - нужно выделить не всю надпись, а сперва ее часть, так чтобы для модельки остался хоть кусочек текста, под который она подстроится. Например, надпись "Tensor 76" была написана в 2 этапа: "Ten" + "or 76". В comfy инпеинт делать через "Load image - Open in mask editor".

Для хорошего качества инпеинта на выходе - нужно чтобы исходная картинка была большого разрешения. Но тогда и генерация будет идти медленно, так как картинка генерируется в разрешении равном исходному. Частичная региональная генерация вроде тоже работает, но скорее всего, хуже. Для инпеинта рекомендую ставить denoise 0.98 - так стиль лучше сохраняется.

В gguf_q4_0 (6 GB) качество будет немного хуже чем в fp8 (11GB), а скорость генерации такая же.

Со старыми лорами не работает (тестил лору на лицо и 8-шаговую лору). Новые лоры для redux и контролнета еще не тестил.

1000x1344, 20 steps
3060, q4_0, 6.23s/it, 02:04
3060, fp8, 6.41s/it, 02:09

800x1064, 20 steps
2080ti, fp8, 1.64s/it, 00:32



На 2080ti инпеинт и аутпеинт у меня почему-то плохо работает с разрешением больше 700x700 - внезапно появляется сильный шум на всей картинке. Инпеинт еще термимо, а аутпеинт вообще плохо. Comfy обновлял, разные модельки качал. Если у вас тоже Nvidia 20-й или 10-й серии, напишите в комментариях. На 3060 все супер, но не так быстро.

Для работы нужно обновить comfyui (update_comfyui.bat). В фордже пока не работает, добавят на днях.

гуфы тут: https://huggingface.co/SporkySporkness/FLUX.1-Fill-dev-GGUF/tree/main
или fp8: https://huggingface.co/dim/black-forest-labs_FLUX.1-Fill-dev_flux1-fill-dev_fp8.safetensors/tree/main
воркфлоу для oupaint и inpaint: https://comfyanonymous.github.io/ComfyUI_examples/flux/
nf4 пока нет
Затестить онлайн (бесплатно около 5-6 генераций в день):
inpaint: https://www.runninghub.ai/post/1859967231923810306
outpaint: https://www.runninghub.ai/post/1859965846230798338
👍21❤‍🔥3
Flux Redux x3 - смешиваем 3 картинки с указанием силы

Если кто не в курсе, Flux Redux - новая модель для создания вариаций картинки.

Базовый воркфлоу для Flux Redux (вариации по одной картинке) слишком негибкий, поэтому я его адаптировал. Я добавил указание силы для каждой картинки и для промпта. Теперь можно четко контролировать силу каждого фактора.

Рекомендации:
- в моем воркфлоу главная картинка всегда третья, у нее всегда почему-то самое большое влияние на результат, ставьте ей силу 1.0 или близкое значение.
- первая картинка по умолчанию выключена. Если вам надо - можете включить, но контролировать 3 картинки + промпт - сложнее, чем 2.
- Redux неплохо работает с лорами. Тестил на лоре на лицо.
- рекомендую выставлять большое конечное разрешение, например, 800x1400. При меньшем разрешении финальные картинки иногда могут не влезать по высоте, и объект будет обрезаться сверху. Предполагаю, что redux тренировали на разрешении 1400x1400.
- сила промпта также может быть задана, путем уменьшения финальной силы всех картинок. По умолчанию она стоит в 0.40. При 1.00 - промпт будет игнорироваться. При 0.00 - картинки будут игнорироваться.
- картинки на белом фоне проще интегрировать друг в друга.
- у меня там 2 лоры встроены с силой 0. выберите любые или удалите эти ноды если у вас вообще нет скачанных лор.

Все ноды доступны по умолчанию (кроме гуфов, но по умолчанию выключены). Ничего дополнительно устанавливать не надо, просто обновите comfyui (update_comfyui.bat) и перетащите воркфлоу.

Для работы Redux скачать, если не качали:
sigclip https://huggingface.co/Comfy-Org/sigclip_vision_384/blob/main/sigclip_vision_patch14_384.safetensors в папку models/clip_vision
FLUX.1-Redux https://huggingface.co/black-forest-labs/FLUX.1-Redux-dev в папку models/style_models

flux dev, clip_l, t5_xxl, vae надеюсь у вас уже скачаны, если нет то: https://comfyanonymous.github.io/ComfyUI_examples/flux/

Redux x3 воркфлоу https://github.com/Mozer/comfy_stuff/blob/main/workflows/workflow_redux_x3_with_strength.png
Затестить онлайн: https://www.runninghub.ai/post/1860773217928441857
1👍36🔥64
Влияние ширины PCIe на LLM и flux

GPU:
- 3090 на pcie-4.0@x4
- 2080ti на [email protected]
- 3060 на [email protected]

3090 сидит на отдельном GPU 750w.
2080ti + 3060 сидят на GPU 750w.

Последние 2 карты сидят на x1 через сплиттер, поэтому по факту там половина скорости от x1. На pcie x16 не тестил, на моем мини-пк его нет (есть x4 + x4 + x1). На одном из x4 сидит ssd.

Затестим скорость LLM и Flux в зависимости от количества линий pcie, на которых сидит моя 3090.

Gemma-27b-Q6 (21 GB), 3090 power_60%_250w
pcie4.0@x1, IN 730 t/s, OUT 19.57 t/s
pcie4.0@x4, IN 780 t/s, OUT 20.43 t/s

Flux, 1024, 20steps, 3090 power_60%_250w
pcie4.0@x1, 00:28, 1.44s/it
pcie4.0@x4, 00:25, 1.29s/it

Flux lora train, 3090 power_60%_250w
pcie4.0@x1, 5.00s/it
pcie4.0@x4, 5.00s/it


Видим, что при работе в соло с небольшими LLM или Flux практически нет просадки. Скорость изначальной загрузки модели в память, конечно, проседает, но не супер критично (гемма-27 загружается за 1-2 минуты). Заметьте, что скорость обработки входного промта до сих пор быстрая - 323 t/s, хотя тоже просела.

Флакс из-за медленной шины pcie просел на 10%. А вот тренировка лоры вообще не заметила изменений.

Работа в связке из 3-х карт с большими LLM.

А теперь затестим Gemma-27b-Q6 (21 GB) на одной карте и затем через layer-split 50/50. Просадка есть, но минимальная.
3090, 250w, solo - 20 t/s
2080ti, 200w, solo - 15 t/s
3090+2080ti pcie4.0@x4 + pcie2.0@x1, 50/50 - 14 t/s


А теперь задействуем все 3 карты. pcie x4+x0.5+x0.5. 2 карты с power limit 80% и 3090 - 60% (250w)
qwen-72b-q5(51 GB) - 7.00 t/s
Llama-3.3-70B-Q5_K_M (47 GB) - 7.27 t/s.


для сравнения, с реддита:
70B-gguf_Q4 (43 GB), 2x 3090 - 15.5 t/s
70b-awq_4b (40 GB), 4x 3060 pcie3.0@8 - 14 t/s
3.3-70b_Q4, mac mini M4 Max 64gb - 7 t/s
квенов-72b не нашел

SAINEMO-reMIX-12B_q6 (9 GB)
3090, pcie 4.0x4 - 43 t/s

То есть в теории, из-за медленной шины, я теряю какую-то скорость, но я не сказал, бы что она критичная. Сравним для моей 3090 power_60%_250w, размер LLM и скорость:
9 GB, solo - 43 t/s
21 GB, solo - 20 t/s
51 GB, split_3 - 7 t/s
При увеличении размера LLM в 2 раза скорость падает в 2 раза (это норма), и скорость pcie в этом случаем особо не дает влияния.


3090 в соло режиме с маленькой LLM жрет все выделенные ей 250W (TDP у нее 420, но я ей столько не даю). То же самое и 2080ti - в соло ест отведенные 191W из 200w. Но с большой LLM раскиданной по всем картам видно, что чипы потребляют лишь половину максимальной мощности (смотрим скрин). Возможно, в остальное время они ждут друг друга или хз что там происходит.

Кстати, свежую llama-3.3-70b для русского РП не рекомендую, она сухая и зацензуренная. А вот SAINEMO-reMIX-12B (9GB) весьма рекомендую. Это смесь разных nemo-12b: saiga_nemo + vikhr_nemo + 2 англоязычных РП микса. Сейчас либо ее использую, либо magnum-v4-72b-Q5 (51GB). Athene-72b не так понравилась, цензуры больше чем в магнуме.
https://huggingface.co/mradermacher/SAINEMO-reMIX-GGUF/tree/main


Выводы: число линий pcie для маленьких LLM - пофиг. Для больших LLM - важно, но не супер критично. Для флакса (генерации и тренировки) - тоже пофиг. Получается, pcie x16 переоценен? Даешь всем по сплиттеру, который делит x1 на 4 и будет счастье? 😀
11👍288🤔2