Forwarded from Machinelearning
ControlNet++ использует дискриминационные модели вознаграждения для оптимизации согласованности между входными условиями (изрбражение-референс) и результатами генерации за счет оптимизации последовательности циклов.
Согласно опубликованным бенчмаркам, ControlNet++ значительно улучшает управляемость процессом генерации.
Новый метод метод превосходит классический ControlNet:
- на 7.9% по mIoU;
- на 13.4% по SSIM;
- на 7.6% по RMSE.
Адаптации под UI для Stable Diffusion пока нет.
Еще круче то, что контролнеты++ успели упаковать в Controlnet Union и собрали в 1 модель.
Теперь можно разом делать 12 препроцессов с одной модели CN.
👉 Репозиторий https://huggingface.co/xinsir/controlnet-union-sdxl-1.0
Модель safetensors без конфига в папку с Контролнетом Автоматика1111 или ComfyUI.
Это все действия которые необходимо сделать)
А самое главное - больше не нужно качать тонну моделей и следить в UI что нужный препроцессор выбран.
Работает controlnet union на SDXL-моделях. Для SD3 свой контролнет, для SD1.5 -свой, этот работать не будет.
👉 Видео: https://www.youtube.com/watch?v=UBFEw1IUX_I
#ControlNet #Diffusers #Image2Image
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥5👍3
MoMo - метод интерполяции видеокадров VFI, основанный на диффузии, который улучшает качество изображения, за счет генеративного моделирования промежуточного движения.
Метод строится на рассогласованном двухэтапном процессе обучения. Сначала обучается модель синтеза кадров для генерации кадров из входных пар и их оптических потоков. Затем обучается модель диффузии движения, разработанной для оптических потоков, для создания двунаправленных потоков между кадрами.
В процессе создания модели использовался набор данных Vimeo90k, содержащий 51 312 видеотриплетов, где каждый триплет состоит из двух входных кадров и одного целевого промежуточного кадра.
Этот метод, используя простое низкочастотное представление движений, достигает высокого качества при меньших вычислительных требованиях по сравнению с другими генеративными методами моделирования.
Демо результаты MoMo для 2K и 4К видеороликов можно посмотреть на Google Drive.
⚠️ Перед установкой загрузите модель для инференса и сохраните в папку проекта так, чтобы иерархический путь выглядел так:
MoMo/experiments/diffusion/momo_full/weights/model.pth
# Create venv
conda create -n momo python=3.10.9
conda activate momo
# Install requirements
pip install -r requirements.txt
# Run x2 interpolation on single GPU
python demo.py --video <path_to_video.mp4> --output_path <path_to_x2_video.mp4>
▪Arxiv
▪Модель
▪Сообщество в Discord
▪Github
@data_analysis_ml
#AI #ML #Diffusers #Interpolation #MoMo
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤4🔥2
🧠 FLUX.1 Kontext-Dev: текстовое редактирование изображений на новом уровне
Открытая AI-модель, которая позволяет редактировать изображения по текстовой инструкции, сохраняя структуру, стиль и контекст. Всё работает прямо в браузере или локально через Diffusers.
📦 Что умеет FLUX.1 Kontext:
• 🎨 Менять фон, стиль, объекты на изображении по описанию
• 🔁 Поддерживать итеративные изменения — можно вносить правки шаг за шагом
• 🧍♂️ Сохранять форму и позу персонажей даже после множественных трансформаций
• ⚡️ Работает на основе rectified flow transformers и guidance distillation — быстрее и компактнее аналогов
🛠 Как пользоваться:
1. Открыть демо: [huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev](https://huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev)
2. Загрузить своё изображение
3. Ввести текстовую инструкцию, например:
4. Получить новое изображение — и при необходимости продолжить редактирование
🔌 Интеграции:
• Поддержка Diffusers, ComfyUI, API через bfl.ai и Replicate
• Модель доступна под некоммерческой лицензией
• Подходит для локального запуска на GPU (`torch_dtype=torch.bfloat16`)
🎯 Кому это полезно:
• Дизайнерам и художникам — быстрый визуальный прототипинг
• AI-разработчикам — для создания RAG-интерфейсов с визуальной обратной связью
• Исследователям — для тестирования новых подходов к in-context image editing
🚨 Про безопасность:
Модель включает базовые фильтры генерации. Для продакшена рекомендованы расширенные фильтры (например, Hive) и собственные слои модерации.
📌 Вывод:
FLUX.1 Kontext-Dev — это не просто генератор, а полноценный AI-инструмент для интерактивного и контролируемого редактирования изображений. Идеален для творческих задач, UX-прототипов и изучения мультимодальных AI-сценариев.
#ai #diffusers #imageediting #flux1 #huggingface
📌Код
📌 Веса
@data_analysis_ml
Открытая AI-модель, которая позволяет редактировать изображения по текстовой инструкции, сохраняя структуру, стиль и контекст. Всё работает прямо в браузере или локально через Diffusers.
📦 Что умеет FLUX.1 Kontext:
• 🎨 Менять фон, стиль, объекты на изображении по описанию
• 🔁 Поддерживать итеративные изменения — можно вносить правки шаг за шагом
• 🧍♂️ Сохранять форму и позу персонажей даже после множественных трансформаций
• ⚡️ Работает на основе rectified flow transformers и guidance distillation — быстрее и компактнее аналогов
🛠 Как пользоваться:
1. Открыть демо: [huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev](https://huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev)
2. Загрузить своё изображение
3. Ввести текстовую инструкцию, например:
make it sunset
, add snow
, make character look older
4. Получить новое изображение — и при необходимости продолжить редактирование
🔌 Интеграции:
• Поддержка Diffusers, ComfyUI, API через bfl.ai и Replicate
• Модель доступна под некоммерческой лицензией
• Подходит для локального запуска на GPU (`torch_dtype=torch.bfloat16`)
🎯 Кому это полезно:
• Дизайнерам и художникам — быстрый визуальный прототипинг
• AI-разработчикам — для создания RAG-интерфейсов с визуальной обратной связью
• Исследователям — для тестирования новых подходов к in-context image editing
🚨 Про безопасность:
Модель включает базовые фильтры генерации. Для продакшена рекомендованы расширенные фильтры (например, Hive) и собственные слои модерации.
📌 Вывод:
FLUX.1 Kontext-Dev — это не просто генератор, а полноценный AI-инструмент для интерактивного и контролируемого редактирования изображений. Идеален для творческих задач, UX-прототипов и изучения мультимодальных AI-сценариев.
#ai #diffusers #imageediting #flux1 #huggingface
📌Код
📌 Веса
@data_analysis_ml
❤9👍5🔥4