Tensor Banana
2.65K subscribers
523 photos
124 videos
111 links
Нейросети и всё такое. https://youtube.com/@tensorbanana
Чат по нейронкам: https://t.iss.one/+zFDiHuL1iVA1YWMy
Чат с ботами: https://t.iss.one/+m2TQ5VJLhIRiY2U6
Написать админу и донаты: @talkllamabot
Download Telegram
Следование промпту разных версий flux + сравнение скорости LORA

1. Сравнил разные flux dev gguf по качеству и следованию промпту. Задал сложный промпт с кучей деталей, большую часть из которых flux успешно проигнорировал. Можно попробовать увеличить следование промпту увеличив guidence до 3.5-4.5 и увеличить разрешение картинки, но я заметил, что тогда падает фотореалистичность. Также Лора amateur-photography отлично фотореалистичность ценой падения качества деталей.

flux_fp8+T5_fp16 куда-то дел кота.
Q8 не стал тестить, он большой и медленнее чем fp8. Q3 - неплох. Q2 - не очень. Шнель - быстрый, но некрасивый. Pro - неплохо справляется с деталями, но почему-то потерял фотореализм.

768x1024 20 steps, Seed 1, guidence 3.0, T5_fp8

промпт
Amateur overexposure photography of a cute french woman with light ginger bob hair in round glasses making a mirror selfie at bathroom with lots of details.
She is holding a iPhone and a cocktail.
On the left she is holding a mojito cocktail in her hand and on the right - an iPhone with apple logo in her hand.
There is a Colgate toothpaste, a Havana rum bottle, a lime and a green bottle of Sprite lying on a sink.
She is wearing white sport bra with Nike logo and grey panties with text "Calvin Klein".
Photo with film grain and shallow depth of field, slight blur, shot on polaroid.
There is a window on the left.
There is a bathtub with lots of shampoos on shelves at background. There's also a cat sitting at background.
She has apple watch on her wrist.
She has a tattoo of a banana on her belly.
Her mouth is slightly opened.


Качество у всех плюс-минус одинаковое вплоть до Q3, если не сравнить бок-о-бок, то отличий не заметно. Q2 уже плывет. Q3_K_S весит всего 4.87 GB и должен влезть в 6 Гб видеокарту без просадки по скорости. Сам же я выбираю fp8, потому что быстро работает с лорами.


2. Flux gguf теперь поддерживает Lora в comfyUI.

Но с ними чуть-чуть проседает скорость генерации. У меня стало 82 секунд на картинку (+26 секунд сверху) при работе с GGUF. NF4 пока не поддерживает Lora.

960х1280 dev 21 steps, schnell 4 steps, 2080Ti-22GB
без Lora    speed       time  size  vram
fp16 3.34s/it 88 sec 22 21 GB
fp8 2.44s/it 59 sec 11 18 GB
q5_0 3.39s/it 86 sec 8 14 GB
q4_0 2.81s/it 64 sec 6 12 GB
q3_k_s 3.17s/it 72 sec 5 11 GB
q2_k 2.84s/it 72 sec 4 10 GB
dev_nf4_2 2.50s/it 55 sec 6 15 GB
schnell_nf4 2.47s/it 14 sec 6 10 GB
schnell_q5 3.41s/it 18 sec 8 15 GB

+2 Lora speed time size vram
fp16 3.48s/it 90 sec 22 21 GB
fp8 2.45s/it 60 sec 11 19 GB
q5_0 4.26s/it 91 sec 8 15 GB
q4_0 3.71s/it 82 sec 6 13 GB
q3_k_s 4.03s/it 90 sec 5 12 GB
q2_k 3.67s/it 79 sec 4 10 GB
dev_nf4_2 - - 6 -
schnell_nf4 - - 6 -
schnell_q5 3.65s/it 19 sec 8 16 GB


q2_k, весит всего 4.03 GB. Но прироста скорости не дает. Качество заметно страдает, основной объект прорисовывается еще более или менее, а вот детали и задний фон - текут и превращаются в кашу. Этот квант мне напомнил sdxl с низким cfg 2.0 - там тоже была каша с намеками на реалистичность.

schnell_nf4 терят фотореализм, композиция становится проще, а кожа становится пластиковой. Но сохраняет детали на заднем плане, они не превращаются в кашу. Из больших плюсов - всего 11 секунд на довольно большую картинку. Шнель с лорами работает хуже, ему не хватает шагов.

С Лорами самый быстрый fp8 - 60 sec.
Без Лор самый быстрый nf4_2 - 55 sec.

Хайрез и workflow для gguf/fp8 + 2 Lora скинул в комменты.

comfy gguf нода https://github.com/city96/ComfyUI-GGUF
gguf https://huggingface.co/city96/FLUX.1-dev-gguf/tree/main
лора https://civitai.com/models/652699/amateur-photography-flux-dev
15👍28🔥4👏1🌚1
Вышел генератор картинок Ideogram 2.0

По их оценке - круче чем flux pro.
По моим наблюдениям - весьма неплох. Хорошо справляется со сложными промптами и мелкими деталями. Иногда косячит с пальцами. С текстом справляется чуть лучше чем flux pro. Умеет сам сочинять связный текст: там есть встроенная LLM, которая пишет ему тексты (функция Magic Prompt).

Есть на сайте и в ios приложении (локально установить нельзя).
Дают бесплатно 10 кредитов в день (всего 5 генераций по 4 картинки за раз = 20 картинок). Цена 1 генерации по API - $0.08 (скорее всего, тоже за 4 картинки за один проход). Дорого.

https://ideogram.ai/
👍20👎5🤔42😁1
Ideogram 2.0
🕊29👍10😁6🤣2
T-lite-instruct-0.1-8B от Тинькофф

Модель вышла еще месяц назад, но затестил только сейчас.

В русском рейтинге на llmarena.ru она внезапно оказалась на 4-м месте (лучшая среди протестированных опенсорс моделей)
Отлично работает на русском. Уровень владения языком даже лучше чем у gemma-2-9b и llama-3-8b.

Основана на llama-3-8b
Контекст: 8k
Отлично работает в talk-llama-fast

Интеллект для 8b модели на русском - средний, где-то справляется чуть лучше, где-то чуть хуже своих собратьев (лама и гемма). С математикой бывают проблемы.

Стихи на русском пытается писать! Точно лучше всех среди опенсорс моделей размером до 100b (на уровне mistral-123b. даже лама-405b не умеет в стихи). Причем, у меня локально рифма намного лучше, чем на сайте llmarena (возможно, у них температура слишком большая или квант хуже)

Для ассистента тестил с температурой 0.30, rep_pen 1, min_p 0.05
Для роулплея тестил с температурой 0.75, rep_pen 1.20, min_p 0.05, context 4k.
Instruct template: chatML
Цензуры почти нет.

Пишут, что тренировка заняла 4 дня на 96x A100-80GB ($16 000)

В чате шутят - поставить ее Олегу в моем боте - но ее что-то нет на openrouter =).

В целом, - лайк, буду гонять вместе со своей любимой gemma-27b, хз кто из них лучше в роулплее.

https://huggingface.co/AnatoliiPotapov/T-lite-instruct-0.1
gguf https://huggingface.co/mradermacher/T-lite-instruct-0.1-GGUF
Потестить (на вкладке Сравнение): https://llmarena.ru/
🔥19👍10😭1
Flux умеет модифицировать известные логотипы с сохранением стиля

Половину сгенерировал в Flux Dev fp8 (T5_fp8), половину в Pro. "Котлета-Сарай" - из Ideogram 2.0 (там должна была быть котлета-царь, но что-то пошло не так)

"Царь-котлету" получил через img2img от оригинального лого + пришлось буквы Ц и Л в фотошопе поправить.

1024x1024 25 steps
Guidance 5-8
Sampler: Euler
Scheduler: Normal

Burger king logo with text "Bratan King" instead with red branded letters


Если с первого раза не понимает:
LEGO logo with text "OLEG" instead with branded letters
text is "OLEG" with white letters on red and yellow
The first letter is "O"


Для хорошего результата:
- длина нового слова должна примерно совпадать со старой
- желательно чтобы первая буква быть той же.
- flux не умеет в кириллицу. Ideogram пытается.

Иначе будете долго пытаться его заставить написать, то что нужно.

Если все равно не хочет - попробуйте в Flux Pro, он чуть умнее (https://fluxpro.art/create) или ideogram 2.0.
3👍29😁6🔥3👏3