Выступил сегодня на AI Journey⚡️
Рассказывал о нашем свежем исследованни диффузионных трансформеров и новом методе Calibri, который позволяет, оптимизируя менее 100 параметров, в разы бустить качество любой Text to Image/Video модели и ускорять инференс аж в 2 раза🚀
Скоро ждите релиз!
Рассказывал о нашем свежем исследованни диффузионных трансформеров и новом методе Calibri, который позволяет, оптимизируя менее 100 параметров, в разы бустить качество любой Text to Image/Video модели и ускорять инференс аж в 2 раза🚀
Скоро ждите релиз!
🔥19💯8🎉7
🚀Стартовали год с поездки на AAAI в Сингапур
Так уж вышло, что моя аспирантура пришлась на ковид и трудные для путешествий года. Поэтому во всех конференциях я участвовал онлайн. Так что AAAI 2026 стала моим первым опытом офлайн поездки на большую конференцию.
Было интересно, но для себя сделал вывод, что на доменные конфы ездить, наверное, полезнее. Каждый день было 1000+ постеров, а релевантных моим задачам около 10.
Тем не менее, опыт международного научного общения бесценен и даже подойти и лично обсудить идеи на 10 постерах было супер полезно.
Наша постерная сессия тоже прошла отлично: много заинтересованных, несколько людей с очень близкими темами — надеюсь, из этого вырастет взаимовыгодное сотрудничество💪
Кстати, к конфе сделали красивый project page к нашей статье, добавили результаты на Flux-1 dev и скоро еще дозальем к нему код.Спойлер: T-LoRA для дообучения людей - это вообще бомба.
Так уж вышло, что моя аспирантура пришлась на ковид и трудные для путешествий года. Поэтому во всех конференциях я участвовал онлайн. Так что AAAI 2026 стала моим первым опытом офлайн поездки на большую конференцию.
Было интересно, но для себя сделал вывод, что на доменные конфы ездить, наверное, полезнее. Каждый день было 1000+ постеров, а релевантных моим задачам около 10.
Тем не менее, опыт международного научного общения бесценен и даже подойти и лично обсудить идеи на 10 постерах было супер полезно.
Наша постерная сессия тоже прошла отлично: много заинтересованных, несколько людей с очень близкими темами — надеюсь, из этого вырастет взаимовыгодное сотрудничество💪
Кстати, к конфе сделали красивый project page к нашей статье, добавили результаты на Flux-1 dev и скоро еще дозальем к нему код.
🔥11🤩3❤2
Кстати, появилась мысль сделать обзор наиболее зацепивших постеров/статей с AAAI, что думаете?
Ставьте огонек, если интересно⤵️
Ставьте огонек, если интересно
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14
Хотите красивые генерации, но всё время не тот fabric и слишком мало details?
Вам нужна Calibri💅
Мы разработали новый метод повышения качества генеративных моделей на базе Diffusion Transformer (DiT), который позволяет за счет калибровки всего ~100 параметров существенно улучшить качество генерации, при этом ускорив генерацию в 2-3 раза 🤯
✔️ Мы выяснили, что блоки в DiT работают неоптимально - простое домножение выхода на коэффициент способно улучшить качество генерации.
✔️ Основываясь на данном наблюдении, мы предложили максимизировать качество генерации (ревард) через калибровку этих коэффициенты с помощью эволюции.
✔️ В результате, генерации становятся насыщеннее и сочнее, но что самое интересное модели требуется в 2-3 раза меньше шагов, чтобы получить более качественную генерацию.
Работа была принята на CVPR 2026🔥
Мы будем очень благодарны, если вы поддержите нашу работу, поставив Upvote на 🤗HuggingFace. Это поможет как можно большему числу людей узнать о нашем исследовании!
ArXiv | Project Page | GitHub | HF
Вам нужна Calibri💅
Мы разработали новый метод повышения качества генеративных моделей на базе Diffusion Transformer (DiT), который позволяет за счет калибровки всего ~100 параметров существенно улучшить качество генерации, при этом ускорив генерацию в 2-3 раза 🤯
Работа была принята на CVPR 2026🔥
Мы будем очень благодарны, если вы поддержите нашу работу, поставив Upvote на 🤗HuggingFace. Это поможет как можно большему числу людей узнать о нашем исследовании!
ArXiv | Project Page | GitHub | HF
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤5🤩2
This media is not supported in your browser
VIEW IN TELEGRAM
А вы знали, что методы генерации видео можно использовать для прогноза погоды?
Наша команда разработала Marchuk — первую в России генеративную модель для прогнозирования климатических рисков.
Мы взяли диффузионные трансформеры (которые обычно генерируют изображения и видео) и научили их предсказывать погоду. И вот что получилось:
✔️ Субсезонный диапазон: Marchuk позволяет строить прогнозы на 15-30 дней вперёд
✔️ Компактная модель: имея всего 276M параметров, она показывает сопостовимое качество с 1,6B аналогом
✔️ Доступность: Код и веса модели в открытом доступе, а запустить ее можно всего на одной видеокарте или в Colab
💡 Имя модели — дань уважения математику Гурию Ивановичу Марчуку, заложившему основы численного моделирования климатических процессов.
👇 Читайте подробности о разработке по ссылкам:
ArXiv | Project Page | GitHub | Colab | HF | Habr
Наша команда разработала Marchuk — первую в России генеративную модель для прогнозирования климатических рисков.
Мы взяли диффузионные трансформеры (которые обычно генерируют изображения и видео) и научили их предсказывать погоду. И вот что получилось:
💡 Имя модели — дань уважения математику Гурию Ивановичу Марчуку, заложившему основы численного моделирования климатических процессов.
👇 Читайте подробности о разработке по ссылкам:
ArXiv | Project Page | GitHub | Colab | HF | Habr
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11
Forwarded from OnlyGens
Про multi-concept generation
Кажется, качественной генерацией одиночных объектов сейчас никого не удивить. In-context модели справляются отлично почти с любыми объектами, а если нужно генерировать людей — выручают старые добрые адаптеры. Например, наша T-LoRA, которую мы в этом году представили на AAAI в Сингапуре 😌
Однако, возникает задачка со звездочкой: как сгенерировать сразу несколько разных кастомных сущностей на одной картинке?
Нередко в таких случаях возникает проблема «смешивания». Когда вместо двух отдельных, хорошо узнаваемых людей вы получаете двоих, усредненных между ними по внешности👯♀️.
По моему опыту, самым стабильно работающим методом (не требующим дообучения и позволяющим надежно отделить объекты) остается маскирование.
Концепт простой: находим внутри диффузионного процесса маски нужных объектов. Дальше используем принцип «разделяй и властвуй» — внутри маски №1 применяем адаптер №1, внутри маски №2 — адаптер №2 и так далее.
Отлично работает, например, в реализации LoRAShop.
Именно поэтому мы полностью обновили репозиторий T-LoRA и адаптеировали его для генерациии нескольких концептов!
Под капотом новой версии:
📌 PEFT-адаптеры — теперь всё работает как plug-and-play с любой моделью и пайплайном Diffusers. Можно загружать, переключать или комбинировать несколько T-LoRA прямо на этапе инференса.
📌 Интеграция с LoRAShop из коробки — генерация нескольких кастомных концептов, обученных независимо.
Там же небольшая пасхалка-пример с авторами статьи🤫
А к этому посту прикрепляю результат работы T-LoRA+LoRAShop: сгенерировали сущности российского культурного кода на модели Kandinsky. Здесь исторические и современные личности, архитектурные объекты, русская кухня, персонажи мультфильмов и многое другое.
Всех узнали?🙃
Кажется, качественной генерацией одиночных объектов сейчас никого не удивить. In-context модели справляются отлично почти с любыми объектами, а если нужно генерировать людей — выручают старые добрые адаптеры. Например, наша T-LoRA, которую мы в этом году представили на AAAI в Сингапуре 😌
Однако, возникает задачка со звездочкой: как сгенерировать сразу несколько разных кастомных сущностей на одной картинке?
Нередко в таких случаях возникает проблема «смешивания». Когда вместо двух отдельных, хорошо узнаваемых людей вы получаете двоих, усредненных между ними по внешности👯♀️.
По моему опыту, самым стабильно работающим методом (не требующим дообучения и позволяющим надежно отделить объекты) остается маскирование.
Концепт простой: находим внутри диффузионного процесса маски нужных объектов. Дальше используем принцип «разделяй и властвуй» — внутри маски №1 применяем адаптер №1, внутри маски №2 — адаптер №2 и так далее.
Отлично работает, например, в реализации LoRAShop.
Именно поэтому мы полностью обновили репозиторий T-LoRA и адаптеировали его для генерациии нескольких концептов!
Под капотом новой версии:
📌 PEFT-адаптеры — теперь всё работает как plug-and-play с любой моделью и пайплайном Diffusers. Можно загружать, переключать или комбинировать несколько T-LoRA прямо на этапе инференса.
📌 Интеграция с LoRAShop из коробки — генерация нескольких кастомных концептов, обученных независимо.
Там же небольшая пасхалка-пример с авторами статьи🤫
А к этому посту прикрепляю результат работы T-LoRA+LoRAShop: сгенерировали сущности российского культурного кода на модели Kandinsky. Здесь исторические и современные личности, архитектурные объекты, русская кухня, персонажи мультфильмов и многое другое.
Всех узнали?🙃
❤5