Machinelearning

🧠 Как «вклеить» объект в картинку так, чтобы он выглядел естественно?

Это одна из самых сложных задач в семантической генерации:
🔸 нужно сохранить структуру сцены
🔸 вставить объект по текстовому описанию
🔸 и найти уместное место, а не просто налепить поверх

Большинство моделей с этим не справляются — объект добавляется не к месту или портит фон.

Новый метод Add-it от NVIDIA решает эту задачу без обучения модели.

Он расширяет механизм внимания в диффузионных моделях, чтобы учитывать сразу три источника:

1. Оригинальное изображение
2. Текстовый промпт
3. Промежуточную сгенерированную картинку

📌 Такой подход позволяет:
– сохранить геометрию сцены
– встроить объект туда, где он действительно мог бы быть
– не терять мелкие детали и текстуры

📊 Результаты:
– Add-it без дообучения обходит supervised‑модели
– На новом бенчмарке Additing Affordance показывает SOTA результат по «естественности размещения»
– В слепых тестах люди выбирают его в 80% случаев
– Улучшает метрики качества генерации

🟠

Github: https://github.com/NVlabs/addit

🟠

Demo: https://huggingface.co/spaces/nvidia/addit

🟠

Paper: https://arxiv.org/abs/2411.07232

🟠

Project: https://research.nvidia.com/labs/par/addit/

@ai_machinelearning_big_data

#NVIDIA #Diffusion #Addit #StableDiffusion #AIgen #ControllableGeneration

Please open Telegram to view this post

VIEW IN TELEGRAM

❤83🔥33👍31👻7💯6❤‍🔥1

37.5K views18:02

About

Blog

Apps

Platform