if-else

Вы когда-нибудь мечтали стать лучшей версией себя? А LoRA уже стала!😁

Рад представить вам нашу новую работу, написанную совместно с командой Controllable Generatinve AI: T-LoRA: Single Image Diffusion Model Customization Without Overfitting🎉

Представьте, что вы хотите дообучить модель генерировать новый объект, например, кошечку или чайник. Но у вас ВСЕГО ОДНА КАРТИНКА этого объекта. Вы обучаете LoRA. И что выходит? Полный провал. Модель переобучается: объект генерируется только в той позе, в которой он был на тренировочной картинке, а фон выглядит скудно и плохо соответствует тексту. 😤

Хорошо, что вы читаете этот пост и теперь знаете, что вам нужна T-LoRA!

В ходе нашей работы мы выяснили, что переобучение чаще всего происходит на самых шумных таймстепах. Именно они приводят к тому, что модель переобучается на фон и позу объекта. Мы предложили решение: ограничить ранг на шумных таймстепах, чтобы избежать переобучения, и дать больший ранг на средних и поздних таймстепах для точного запоминания объекта. На поздних таймстепах можно использовать высокие ранги без риска переобучения.

Эту идею мы реализовали с помощью маскирования столбцов LoRA, ограничивая тренировочный сигнал на шумных таймстепах. Более того, чтобы маскирование было эффективным, мы разработали ортогональную версию LoRA, которая сохраняет столбцы ортогональными на протяжении всего обучения.

И вот результат! Теперь ваша кошечка может не только стоять, но и сидеть, и кататься на велосипеде, бегать, принимать любые позы, которые вы захотите. А фоны стали яркими, насыщенными и разнообразными!

Мы будем очень благодарны, если вы поддержите нашу работу, поставив Upvote на 🤗HuggingFace. Это поможет как можно большему числу людей узнать, что делать в подобных тяжелых жизненных ситуациях! 😁

Спасибо за внимание!

📕Arxiv

🖥

GitHub
🤗HuggingFace

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4💅4

464 views16:21

if-else

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

⚡Внимание, найдено новое суперкрутое применение Veo 3 - создание тематических комнат с брендами и персонажами!

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6

483 views13:52

if-else

🚀 Выпустили пост на хабре, про нашу недавнюю работу T‑LoRA — легковесный метод, который позволяет дообучать диффузионку по одному изображению без переобучения

📌 Зачем это нужно?
- Быстрая персонализация генератора под конкретный стиль или объект
- Минимум данных — максимум результата
- Сохранения гибкой генерации модели

В статье на Хабре рассказали, как это работает, показали архитектуру, примеры и сравнение с другими fine‑tuning подходами.

🔗 Читать на Хабре

Хабр

T-LoRA: дообучить диффузионную модель на одной картинке и не переобучиться

Вы когда‑нибудь мечтали стать лучшей версией себя? Моложе, красивее, идеальнее… А вот LoRA уже стала! Меня зовут Вера Соболева, я научный сотрудник лаборатории FusionBrain Института AIRI,...

❤5🤩3

317 views08:54

if-else

Forwarded from Dendi Math&AI (Денис Димитров)

1:43

Media is too big

VIEW IN TELEGRAM

🚀 Мы с командой открываем всю линейку генеративных моделей Kandinsky 5.0!

В сентябре мы выложили в open source Kandinsky 5.0 Video Lite, получили множество положительных отзывов и полезной обратной связи, большое спасибо всем!

Сегодня мы открываем всю линейку: как Video, так и Image модели. Дальше расскажу все подробности, но можно сначала сходить попробовать: модели доступны всем на открытых поверхностях ГигаЧат: Telegram, Max и giga.chat

🎬 Video Pro – мощные Text-to-Video и Image-to-Video – лучшие в мире open source модели, превосходящие по качеству Wan 2.2 A14B и работающие наравне с Veo 3 от Google по визуалу и динамике (в HD)

🖼 Image Lite – универсальные Text-to-Image и Image Editing модели c 6B параметров, которые нативно поддерживают промты на русском языке, знают культурный код и генерируют картинки с кириллическим текстом. Значительно превосходит FLUX.1 [dev] в задаче генерации изображений и работают на одном уровне с FLUX.1 Kontext [dev] в их редактировании

В открытом доступе: четыре версии Image Lite и пять версий Video Pro для разных задач (для генерации 5 сек и 10 сек видео, разрешение — SD и HD). Доступны как SFT-версии с максимальным качеством, так и Pretrain, для исследователей и дообучения

🔧 Как мы достигли этого (подробнее в нашем большом техрепорте):
🔘 Большой Pretrain-датасет 520 млн изображений и 250 млн видео-сцен
🔘 Фокус на SFT: художники и дизайнеры тщательно выбирали материалы с безупречной композицией, стилем и визуальным качеством
🔘 Разработали метод NABLA для стабильной 10-секундной генерации в HD-разрешении
🔘 Использовали архитектуру Kandinsky-DiT с flow matching

🚀 Доступность и информация:
🔘 Лицензия поддерживает коммерческое использование (MIT)
🔘 Все материалы можно найти на GitHub, HuggingFace и GitVerse

🔘

Техрепорт, кстати, уже сейчас #1 в Daily Papers, но ваша поддержка поможет укрепить эту позицию :)

@dendi_math_ai

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥3🎉2

215 views12:21

if-else

Выступил сегодня на AI Journey⚡️

Рассказывал о нашем свежем исследованни диффузионных трансформеров и новом методе Calibri, который позволяет, оптимизируя менее 100 параметров, в разы бустить качество любой Text to Image/Video модели и ускорять инференс аж в 2 раза🚀

Скоро ждите релиз!

🔥19💯8🎉7

330 views15:42

if-else

🚀Стартовали год с поездки на AAAI в Сингапур

Так уж вышло, что моя аспирантура пришлась на ковид и трудные для путешествий года. Поэтому во всех конференциях я участвовал онлайн. Так что AAAI 2026 стала моим первым опытом офлайн поездки на большую конференцию.

Было интересно, но для себя сделал вывод, что на доменные конфы ездить, наверное, полезнее. Каждый день было 1000+ постеров, а релевантных моим задачам около 10.

Тем не менее, опыт международного научного общения бесценен и даже подойти и лично обсудить идеи на 10 постерах было супер полезно.

Наша постерная сессия тоже прошла отлично: много заинтересованных, несколько людей с очень близкими темами — надеюсь, из этого вырастет взаимовыгодное сотрудничество💪

Кстати, к конфе сделали красивый project page к нашей статье, добавили результаты на Flux-1 dev и скоро еще дозальем к нему код. Спойлер: T-LoRA для дообучения людей - это вообще бомба.

🔥11🤩3❤2

257 views12:44

if-else

Кстати, появилась мысль сделать обзор наиболее зацепивших постеров/статей с AAAI, что думаете?

Ставьте огонек, если интересно ⤵️

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14

278 viewsedited 14:09

if-else

Хотите красивые генерации, но всё время не тот fabric и слишком мало details?

Вам нужна Calibri💅

Мы разработали новый метод повышения качества генеративных моделей на базе Diffusion Transformer (DiT), который позволяет за счет калибровки всего ~100 параметров существенно улучшить качество генерации, при этом ускорив генерацию в 2-3 раза 🤯

✔️ Мы выяснили, что блоки в DiT работают неоптимально - простое домножение выхода на коэффициент способно улучшить качество генерации.

✔️ Основываясь на данном наблюдении, мы предложили максимизировать качество генерации (ревард) через калибровку этих коэффициенты с помощью эволюции.

✔️ В результате, генерации становятся насыщеннее и сочнее, но что самое интересное модели требуется в 2-3 раза меньше шагов, чтобы получить более качественную генерацию.

Работа была принята на CVPR 2026🔥

Мы будем очень благодарны, если вы поддержите нашу работу, поставив Upvote на 🤗HuggingFace . Это поможет как можно большему числу людей узнать о нашем исследовании!

ArXiv | Project Page | GitHub | HF

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤5🤩2

328 viewsedited 11:42

if-else

0:36

This media is not supported in your browser

VIEW IN TELEGRAM

А вы знали, что методы генерации видео можно использовать для прогноза погоды?

Наша команда разработала Marchuk — первую в России генеративную модель для прогнозирования климатических рисков.

Мы взяли диффузионные трансформеры (которые обычно генерируют изображения и видео) и научили их предсказывать погоду. И вот что получилось:

✔️Субсезонный диапазон: Marchuk позволяет строить прогнозы на 15-30 дней вперёд
✔️Компактная модель: имея всего 276M параметров, она показывает сопостовимое качество с 1,6B аналогом
✔️Доступность: Код и веса модели в открытом доступе, а запустить ее можно всего на одной видеокарте или в Colab

💡 Имя модели — дань уважения математику Гурию Ивановичу Марчуку, заложившему основы численного моделирования климатических процессов.

👇 Читайте подробности о разработке по ссылкам:
ArXiv | Project Page | GitHub | Colab | HF | Habr

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥11

8.18K viewsedited 12:57

if-else

Forwarded from OnlyGens

Про multi-concept generation

Кажется, качественной генерацией одиночных объектов сейчас никого не удивить. In-context модели справляются отлично почти с любыми объектами, а если нужно генерировать людей — выручают старые добрые адаптеры. Например, наша T-LoRA, которую мы в этом году представили на AAAI в Сингапуре 😌

Однако, возникает задачка со звездочкой: как сгенерировать сразу несколько разных кастомных сущностей на одной картинке?

Нередко в таких случаях возникает проблема «смешивания». Когда вместо двух отдельных, хорошо узнаваемых людей вы получаете двоих, усредненных между ними по внешности👯‍♀️.

По моему опыту, самым стабильно работающим методом (не требующим дообучения и позволяющим надежно отделить объекты) остается маскирование.
Концепт простой: находим внутри диффузионного процесса маски нужных объектов. Дальше используем принцип «разделяй и властвуй» — внутри маски №1 применяем адаптер №1, внутри маски №2 — адаптер №2 и так далее.

Отлично работает, например, в реализации LoRAShop.

Именно поэтому мы полностью обновили репозиторий T-LoRA и адаптеировали его для генерациии нескольких концептов!

Под капотом новой версии:
📌 PEFT-адаптеры — теперь всё работает как plug-and-play с любой моделью и пайплайном Diffusers. Можно загружать, переключать или комбинировать несколько T-LoRA прямо на этапе инференса.
📌 Интеграция с LoRAShop из коробки — генерация нескольких кастомных концептов, обученных независимо.

Там же небольшая пасхалка-пример с авторами статьи🤫

А к этому посту прикрепляю результат работы T-LoRA+LoRAShop: сгенерировали сущности российского культурного кода на модели Kandinsky. Здесь исторические и современные личности, архитектурные объекты, русская кухня, персонажи мультфильмов и многое другое.
Всех узнали?🙃

❤5

86 views13:12

About

Blog

Apps

Platform