Диффузионные модели показывают замечательные результаты при создании изображений. Однако из-за квадратичного увеличения памяти при генерации изображений сверхвысокого разрешения (например, 4096×4096) разрешение генерируемых изображений часто ограничивается 1024×1024.
Inf-DiT предлагает однонаправленный механизм внимания блоков, который может адаптивно регулировать затраты памяти во время процесса вывода и обрабатывать глобальные зависимости.
Комплексные эксперименты показывают, что этот метод демонстрирует отличную производительность при создании изображений сверхвысокого разрешения.
По сравнению с широко используемыми структурами UNet, Inf-Dit может 5-кратно сократить использование VRAM при генерации изображений размером 4096 × 4096.
Адаптацию для ComfyUI обещают к концу июля.
#Upscale #DiT #Diffusers #Img2Img
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34🔥11❤5