Tensor Banana
2.65K subscribers
523 photos
124 videos
111 links
Нейросети и всё такое. https://youtube.com/@tensorbanana
Чат по нейронкам: https://t.iss.one/+zFDiHuL1iVA1YWMy
Чат с ботами: https://t.iss.one/+m2TQ5VJLhIRiY2U6
Написать админу и донаты: @talkllamabot
Download Telegram
gemma-2-2b

Гугл выпустил маленькую гемму (джемму) размером всего 2.6B и очень неплохого качества, круче чем GPT-3.5! Размер квантованной модели в q5 всего 2 гига!
На реддите пишут, что она получилась дистилляцией ответов от старшей Gemma-2-27B (подтверждения пока не видел).

На русском ведет себя очень и очень неплохо, мне кажется, даже лучше чем свежая llama-3.1-8b. Стихи на русском не пишет, но для роулплея сойдет, можно прямо на телефоне запускать без доступа в интернет. Речевые ошибки бывают, но не супер много.

Локально уже можно гонять в свежей llama.cpp. Также есть на арене. В openrouter пока нет.

Контекст: 8192 (честные 4096, дальше sliding window).
Рейтинг на LMSYS Arena: 47 место, выше чем GPT-3.5-Turbo и чуть ниже чем Mixtral-8x22b
Рейтинг на open-llm-leaderboard: 17.05, чуть выше чем SOLAR-10.7B (если кто его помнит)

Карточка: https://huggingface.co/google/gemma-2-2b
Гуфы: https://huggingface.co/unsloth/gemma-2-it-GGUF/tree/main
нужна свежая лама: https://github.com/ggerganov/llama.cpp/releases
тестить тут: https://chat.lmsys.org/
👍21
Flux - новая диффузная модель для генерации картинок.

Заточена на фотореализм и анатомию. Модель весит 24 гига, но уже научились запускать на видеокартах с 12 GB vram (fp8 вместо fp16).

Гайд чтобы запустить локально в comfyUI https://comfyanonymous.github.io/ComfyUI_examples/flux/
Нужен сам ComfyUI portable https://github.com/comfyanonymous/ComfyUI и скачать указанные модели в нужные папки. Затем перетащить скачаную из гайда аниме картинку в comfy, она подгрузит workflow.

Запустил локально в comfyUI в точности fp8. жрет 12.5 GB VRAM + 30 GB RAM. Занимает около 2-х минут на генерацию 1 картинки 1024*768 на 2080ti-22GB. А если запускать в оригинальном качестве fp16 то жрет 21 GB VRAM и тратит 8 минут на 1 картинку.

В comfy у меня первая генерация жрет 12.5 GB, а последующие почему-то 17.5 GB. Видимо какая-то модель не выгружается, клип t5 или vae, можно попробовать--lowvram. Пишут что на 4090 генерация занимает около 30 секунд.

Есть 2 варианта модели - Dev и Schnell, размер одинаковый. Dev - качественнее, Schnell - быстрее (генерирует всего за 4 шага, а не за 20). Schnell я не тестил.

Пока не могу ее заставить полноценное nsfw генерировать. Бубисы хорошо рисует, а вот первычные признаки не может - то трусы там нарисует, то вообще боком или спиной развернет 😁 Надеюсь, поправят файнтюнами. Довольно неплохо рисует пальцы (наконец-то).

Иногда почему-то получаются размытые картинки (и по API и локально) как будто в низком разрешении, хз почему.

Довольно хорошо умеет писать текст на картинках на английском. Кириллицу не любит.


анонс https://blackforestlabs.ai/
веса https://huggingface.co/black-forest-labs/FLUX.1-dev/tree/main
генерировать онлайн https://huggingface.co/spaces/black-forest-labs/FLUX.1-dev
и тут https://fal.ai/models/fal-ai/flux/dev?ref=blog.fal.ai
колаб https://colab.research.google.com/github/camenduru/flux-jupyter/blob/main/flux.1-schnell_jupyter.ipynb#scrollTo=mOcigZBrHp5S
🔥20👍6🥱2
Media is too big
VIEW IN TELEGRAM
Dead Street Kombat 8-bit remastered

Картинки: Flux dev
Анимация: Luma + Kling
Музыка: Udio
Свел все вместе: @TensorBanana

Flux dev отлично рисует интерфейсы старых 8-битных игр. Просто нужно указать ему, что именно должно быть на экране и какие подписи делать. Есть еще куча неводшедших в ролик картинок, выложу их вместе с промптами в наш новый чатик по сгенерированным картинкам @tensor_art.

Luma делает более активные анимации, больше экшена в кадре, но картинка быстро начинает плыть. Kling дает более стабильную картинку, но меньше экшена. Промпты на анимацию тоже выложу.

С музыкой не запаривался: инструментал, 8-bit, retrowave.
🔥20👏4👍2
Сравнил все версии flux между собой

Сгенерировал с одинаковым seed (0 или 1) 3 картинки, используя флакс в разных форматах, чтобы сравнить качество. flux_fp16 + T5_fp16 у меня отказался запускаться, comfy почему-то падает, поэтому в тест не попал.

С первым запросом про девушку справились только pro и nf4, у остальных - лишние пальцы. С третьим с третьим запросом про 3 руки справился только Шнель, у остальных выросли лишние руки. С запросом про текст справился только pro, у остальных - косяки в орфографии.


Выводы: даже у pro есть косяки с количеством рук и пальцев. Dev в разных версиях (fp8, fp16, nf4) практически не отличается, косяки есть у всех. Schnell самый быстрый (у меня всего 10 секунд на картинку), но качество заметно хуже: деталей меньше, пальцы хуже, кожа хуже, но количество рук - идеальное =). Clip_T5 в разных версиях (fp8, fp16) практически не влияет на качество, возможно, нужные какие-то сложные составные промпты, чтобы заменить ухудшение качества понимания промпта.

Для тех кто в танке: пару дней назад flux конвертировали в формат nf4, теперь его можно запускать на видеокартах с малым количеством vram с приемлемой скоростью. Можно запускать в comfyUI или stable-diffusion-webui-forge

dev, cкорость на картинку 1024x1024x20steps:
3060-12 Gb: 60 секунд
3070ti-laptop-8GB: 58 секунд
3050-6GB: 2.5 минуты
2080ti-22 Gb: 40 секунд
970-4GB: 6 минут

Фордж: https://github.com/lllyasviel/stable-diffusion-webui-forge/discussions/981
нода для комфи: https://github.com/comfyanonymous/ComfyUI_bitsandbytes_NF4
веса schnell_nf4 https://huggingface.co/silveroxides/flux1-nf4-weights/blob/main/flux1-schnell-bnb-nf4.safetensors
веса dev_nf4 https://huggingface.co/lllyasviel/flux1-dev-bnb-nf4/blob/main/flux1-dev-bnb-nf4.safetensors
flux pro онлайн https://fluxpro.art/create

photo of a cute woman covering her eyes with hands
3 hands holding together
Bart Simpson writing on a blackboard "I promise not to use flux in fp16"


Вывод: формат nf4 очень неплох и требует мало vram 👍
Оригиналы в хайрез скину в комменты.
👍371🤮1
Runway Gen-3 Alpha Turbo дают бесплатно.

Генерирует видео длиной 5 или 10 секунд в 720p (1280x768) по загруженной картинке и промпту. Генерация очень быстрая, меньше минуты уходит.
5s: 25 кредитов
10s: 50 кредитов

Пишут, что изначально дают 525 кредитов (21 короткое видео). У меня на аккаунте было 385 кредитов (регал полгода назад). Похоже, что кредиты не обновляются.

https://app.runwayml.com/
1👍213😁3👎1🔥1🤮1
Следование промпту разных версий flux + сравнение скорости LORA

1. Сравнил разные flux dev gguf по качеству и следованию промпту. Задал сложный промпт с кучей деталей, большую часть из которых flux успешно проигнорировал. Можно попробовать увеличить следование промпту увеличив guidence до 3.5-4.5 и увеличить разрешение картинки, но я заметил, что тогда падает фотореалистичность. Также Лора amateur-photography отлично фотореалистичность ценой падения качества деталей.

flux_fp8+T5_fp16 куда-то дел кота.
Q8 не стал тестить, он большой и медленнее чем fp8. Q3 - неплох. Q2 - не очень. Шнель - быстрый, но некрасивый. Pro - неплохо справляется с деталями, но почему-то потерял фотореализм.

768x1024 20 steps, Seed 1, guidence 3.0, T5_fp8

промпт
Amateur overexposure photography of a cute french woman with light ginger bob hair in round glasses making a mirror selfie at bathroom with lots of details.
She is holding a iPhone and a cocktail.
On the left she is holding a mojito cocktail in her hand and on the right - an iPhone with apple logo in her hand.
There is a Colgate toothpaste, a Havana rum bottle, a lime and a green bottle of Sprite lying on a sink.
She is wearing white sport bra with Nike logo and grey panties with text "Calvin Klein".
Photo with film grain and shallow depth of field, slight blur, shot on polaroid.
There is a window on the left.
There is a bathtub with lots of shampoos on shelves at background. There's also a cat sitting at background.
She has apple watch on her wrist.
She has a tattoo of a banana on her belly.
Her mouth is slightly opened.


Качество у всех плюс-минус одинаковое вплоть до Q3, если не сравнить бок-о-бок, то отличий не заметно. Q2 уже плывет. Q3_K_S весит всего 4.87 GB и должен влезть в 6 Гб видеокарту без просадки по скорости. Сам же я выбираю fp8, потому что быстро работает с лорами.


2. Flux gguf теперь поддерживает Lora в comfyUI.

Но с ними чуть-чуть проседает скорость генерации. У меня стало 82 секунд на картинку (+26 секунд сверху) при работе с GGUF. NF4 пока не поддерживает Lora.

960х1280 dev 21 steps, schnell 4 steps, 2080Ti-22GB
без Lora    speed       time  size  vram
fp16 3.34s/it 88 sec 22 21 GB
fp8 2.44s/it 59 sec 11 18 GB
q5_0 3.39s/it 86 sec 8 14 GB
q4_0 2.81s/it 64 sec 6 12 GB
q3_k_s 3.17s/it 72 sec 5 11 GB
q2_k 2.84s/it 72 sec 4 10 GB
dev_nf4_2 2.50s/it 55 sec 6 15 GB
schnell_nf4 2.47s/it 14 sec 6 10 GB
schnell_q5 3.41s/it 18 sec 8 15 GB

+2 Lora speed time size vram
fp16 3.48s/it 90 sec 22 21 GB
fp8 2.45s/it 60 sec 11 19 GB
q5_0 4.26s/it 91 sec 8 15 GB
q4_0 3.71s/it 82 sec 6 13 GB
q3_k_s 4.03s/it 90 sec 5 12 GB
q2_k 3.67s/it 79 sec 4 10 GB
dev_nf4_2 - - 6 -
schnell_nf4 - - 6 -
schnell_q5 3.65s/it 19 sec 8 16 GB


q2_k, весит всего 4.03 GB. Но прироста скорости не дает. Качество заметно страдает, основной объект прорисовывается еще более или менее, а вот детали и задний фон - текут и превращаются в кашу. Этот квант мне напомнил sdxl с низким cfg 2.0 - там тоже была каша с намеками на реалистичность.

schnell_nf4 терят фотореализм, композиция становится проще, а кожа становится пластиковой. Но сохраняет детали на заднем плане, они не превращаются в кашу. Из больших плюсов - всего 11 секунд на довольно большую картинку. Шнель с лорами работает хуже, ему не хватает шагов.

С Лорами самый быстрый fp8 - 60 sec.
Без Лор самый быстрый nf4_2 - 55 sec.

Хайрез и workflow для gguf/fp8 + 2 Lora скинул в комменты.

comfy gguf нода https://github.com/city96/ComfyUI-GGUF
gguf https://huggingface.co/city96/FLUX.1-dev-gguf/tree/main
лора https://civitai.com/models/652699/amateur-photography-flux-dev
15👍28🔥4👏1🌚1