эйай ньюз
57.8K subscribers
1.38K photos
727 videos
7 files
1.71K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
Наткнулся на библиотечку Compel, которая позволяет работать с текстовыми эмбеддингами для Stable Diffusion на продвинутом уровне.

Например, можно увеличивать вес отдельных слов, добавляя + или - после слова или фразы, либо явно указать вес от 0 до 2. Принцип работы основан на линейной интерполяции между эмбеддингом оригинального промпта и и промпта, где замаскировано взвешиваемое слово.

Ещё можно блендить несколько промптов между собой (последний скрин).

Вот тут больше примеров операций с промптами.

Самое главное - либа хорошо интегрируется с diffusers и работает как с SD 1.x, 2.x так и с SDXL.

@ai_newz
Чисто кайфовые генерации в виде спиралей и других фоновых структур.

Трюк в том чтобы взять черно белое изображение и использовать его как контрольный сигнал в Controlnet: QR Monster (тот, что ещё использовали для генерации QR кодов в виде картинок: инструкция).

На последних двух генерациях горы в виде Гигачада сделали по такому же принципу. Преобразовали Гигачада в ч/б и использовали его как контрол.

@ai_newz
Forwarded from Denis Sexy IT 🤖
Самое клевое, это конечно правильные геометрические фигуры – баловаться с ними одно удовольствие. 

Автор, которым я вдохновлялся тут.
Würstchen V2 — быстрее чем SDXL

Наконец-то после прогрева зарелизили "Колбаску V2". Модель генерит картинки в 1024x1024 быстрее чем SDXL и состоит из двух этапов диффузии.

Stage A: это text-conditioned диффузия на 1 млрд параметров. Ускорение тут достигается из-за ультра высокой компрессии вместо размера скрытого кода 128x128x4 как у SDXL, тут сначала работают в разрешении 24x24x16 — в 5 раз меньше пикселей, но больше каналов.

Далее идёт Stage B: это диффузионная модель на 600M параметров, которая разжимает из 24x24 в разрешение 128x128.

Ну а в конце по традиции декодер, (20M параметров) который рендерит картинку из скрытого кода.

По скорости выходит в 2-2.5 раза быстрее чем SDXL.

По качеству, думаю небольшой проигрыш есть - хочу ещё провести честное сравнение.

В автоматик1111, конечно же ещё не завезли.

Блог + демо
Код
Веса
Google Colab

@ai_newz