Machinelearning

🌟

LongAlign: Улучшение согласованности text-2-image генерации в длинных промптах на диффузионных моделях.

LongAlign - метод тонкой настройки диффузионных text-2-image моделей, который улучшает понимание длинных промптов. Вместо того, чтобы подавать весь длинный текст в CLIP, LongAlign разбивает его на сегменты (например, предложения) и кодирует каждый сегмент по отдельности. Это позволяет использовать CLIP, несмотря на его ограничения.

После кодирования отдельных сегментов LongAlign объединяет полученные эмбединги в единый вектор. Для этого используется конкатенация с удалением повторяющихся специальных токенов ( <sot>, <eot>, <pad>) и добавлением нового токена <pad*>.

Чтобы достичь точности согласования, в LongAlign используется 3 техники:

🟢классификация предпочтений на основе текстовой зависимости, оценивается не только следованию промпту, но и визуальные аспекты (фотореализм, эстетика);

🟢перевзвешивание градиентов, уменьшает влияние текстово-независимого компонента и улучшает согласованность между текстом и изображением;

🟢сегментной модели предпочтений, детально согласовывает отдельные части текста с изображением.

По проведенным оценкам, LongAlign значительно превосходит базовые модели Stable Diffusion, PixArt-α и Kandinsky v2.2 по показателям FID и Denscore. Отдельно выполненная оценка в GPT-4o подтвердила преимущества LongAlign в согласовании text-2-image.

▶️

Подготовка к файнтюну с помощью LongAlign:

🟠Тестовый датасет на 2 млн. пар фомата "длинный промпт-изображение"
🟠Stable Diffusion v1.5 (загрузится автоматически)

🟠

T5-адаптер (положить в ./model/LaVi-Bridge)
🟠Denscore (загрузится автоматически)

🟠

longSD (положить в ./model/longSD)

▶️ Установка и запуск на примере трейна Stable Diffusion и LCM-версии Stable Diffusion

# Prepare environment
pip install -r requirements.txt

# Train original Stable Diffusion
# support long-text inputs
bash run_unet.sh align ct5f

# preference optimization for long-text alignment
bash run_unet.sh reward test

# Train LCM-version Stable Diffusion
# support LCM sampling
bash run_unet.sh lcm ct5f

# preference optimization for long-text alignment
bash run_unet.sh reward_lcm test

📌Лицензирование : Apache 2.0 License.

🟡

Arxiv

🖥

Github

#AI #ML #Diffusion #Text2Image #LongAlign

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍20❤6🔥5

8.12K views09:01

About

Blog

Apps

Platform