Наткнулся на библиотечку Compel, которая позволяет работать с текстовыми эмбеддингами для Stable Diffusion на продвинутом уровне.
Например, можно увеличивать вес отдельных слов, добавляя
Ещё можно блендить несколько промптов между собой (последний скрин).
Вот тут больше примеров операций с промптами.
Самое главное - либа хорошо интегрируется с diffusers и работает как с SD 1.x, 2.x так и с SDXL.
@ai_newz
Например, можно увеличивать вес отдельных слов, добавляя
+
или -
после слова или фразы, либо явно указать вес от 0 до 2. Принцип работы основан на линейной интерполяции между эмбеддингом оригинального промпта и и промпта, где замаскировано взвешиваемое слово.Ещё можно блендить несколько промптов между собой (последний скрин).
Вот тут больше примеров операций с промптами.
Самое главное - либа хорошо интегрируется с diffusers и работает как с SD 1.x, 2.x так и с SDXL.
@ai_newz
Чисто кайфовые генерации в виде спиралей и других фоновых структур.
Трюк в том чтобы взять черно белое изображение и использовать его как контрольный сигнал в Controlnet: QR Monster (тот, что ещё использовали для генерации QR кодов в виде картинок: инструкция).
На последних двух генерациях горы в виде Гигачада сделали по такому же принципу. Преобразовали Гигачада в ч/б и использовали его как контрол.
@ai_newz
Трюк в том чтобы взять черно белое изображение и использовать его как контрольный сигнал в Controlnet: QR Monster (тот, что ещё использовали для генерации QR кодов в виде картинок: инструкция).
На последних двух генерациях горы в виде Гигачада сделали по такому же принципу. Преобразовали Гигачада в ч/б и использовали его как контрол.
@ai_newz
Forwarded from Denis Sexy IT 🤖
Самое клевое, это конечно правильные геометрические фигуры – баловаться с ними одно удовольствие.
Автор, которым я вдохновлялся тут.
Автор, которым я вдохновлялся тут.
Würstchen V2 — быстрее чем SDXL
Наконец-то после прогрева зарелизили "Колбаску V2". Модель генерит картинки в 1024x1024 быстрее чем SDXL и состоит из двух этапов диффузии.
Stage A: это text-conditioned диффузия на 1 млрд параметров. Ускорение тут достигается из-за ультра высокой компрессии вместо размера скрытого кода 128x128x4 как у SDXL, тут сначала работают в разрешении 24x24x16 — в 5 раз меньше пикселей, но больше каналов.
Далее идёт Stage B: это диффузионная модель на 600M параметров, которая разжимает из 24x24 в разрешение 128x128.
Ну а в конце по традиции декодер, (20M параметров) который рендерит картинку из скрытого кода.
По скорости выходит в 2-2.5 раза быстрее чем SDXL.
По качеству, думаю небольшой проигрыш есть - хочу ещё провести честное сравнение.
В автоматик1111, конечно же ещё не завезли.
Блог + демо
Код
Веса
Google Colab
@ai_newz
Наконец-то после прогрева зарелизили "Колбаску V2". Модель генерит картинки в 1024x1024 быстрее чем SDXL и состоит из двух этапов диффузии.
Stage A: это text-conditioned диффузия на 1 млрд параметров. Ускорение тут достигается из-за ультра высокой компрессии вместо размера скрытого кода 128x128x4 как у SDXL, тут сначала работают в разрешении 24x24x16 — в 5 раз меньше пикселей, но больше каналов.
Далее идёт Stage B: это диффузионная модель на 600M параметров, которая разжимает из 24x24 в разрешение 128x128.
Ну а в конце по традиции декодер, (20M параметров) который рендерит картинку из скрытого кода.
По скорости выходит в 2-2.5 раза быстрее чем SDXL.
По качеству, думаю небольшой проигрыш есть - хочу ещё провести честное сравнение.
В автоматик1111, конечно же ещё не завезли.
Блог + демо
Код
Веса
Google Colab
@ai_newz