This media is not supported in your browser
VIEW IN TELEGRAM
Приветствую всех!
Меня зовут Костя Соболев, и в этом канале я буду рассказывать о генеративных моделях и искусственном интеллекте, делиться новостями нашей команды и последними достижениями науки!
Немного обо мне
Я окончил МФТИ и аспирантуру Сколтеха. Мой путь в AI охватывал множество направлений — от анализа временных рядов до сжатия нейронных сетей. Однако три года назад я нашел свою настоящую страсть в генерации изображений и видео. Эта область меня невероятно вдохновляет! Ведь то, что сегодня можно создавать с помощью генеративных моделей, просто взрывает мозг и поражает воображение🤯
Сейчас я руковожу командой Video Generation AI в лаборатории FusionBrain AIRI👾 , где мы занимаемся исследованиями в области генерации изображений и видео. Мы разрабатываем новые архитектуры, ускоряем существующие методы, изучаем подходы к редактированию контента и применяем обучение с подкреплением для работы с диффузионными моделями🚀
На волне этой мотивации и огромной любви к своему делу я решил создать канал, чтобы делиться своими знаниями, инсайтами и опытом
О канале
Здесь вы найдете:
🔸 Полезные материалы для глубокого погружения в методы генерации.
🔸 Новости из мира искусственного интеллекта.
🔸 Рассказы о проектах нашей команды и, конечно, немного закулисья нашей работы.
🔸 Информацию о том, где и как можно с нами поработать.
🔸 А иногда — мои размышления о науке в России и за рубежом.
Кроме того, в этом канале я буду делиться своими личными наблюдениями, экспериментами и инсайтами, которые вы вряд ли найдёте где-то ещё.
Посты будут выходить не слишком часто, но я постараюсь сделать их регулярными и максимально полезными.
Присоединяйтесь! Будет интересно!😎
P.S. Видео для милоты и привлечения внимания. Ну как тут не влюбиться в видео модели???
Меня зовут Костя Соболев, и в этом канале я буду рассказывать о генеративных моделях и искусственном интеллекте, делиться новостями нашей команды и последними достижениями науки!
Немного обо мне
Я окончил МФТИ и аспирантуру Сколтеха. Мой путь в AI охватывал множество направлений — от анализа временных рядов до сжатия нейронных сетей. Однако три года назад я нашел свою настоящую страсть в генерации изображений и видео. Эта область меня невероятно вдохновляет! Ведь то, что сегодня можно создавать с помощью генеративных моделей, просто взрывает мозг и поражает воображение🤯
Сейчас я руковожу командой Video Generation AI в лаборатории FusionBrain AIRI
На волне этой мотивации и огромной любви к своему делу я решил создать канал, чтобы делиться своими знаниями, инсайтами и опытом
О канале
Здесь вы найдете:
🔸 Полезные материалы для глубокого погружения в методы генерации.
🔸 Новости из мира искусственного интеллекта.
🔸 Рассказы о проектах нашей команды и, конечно, немного закулисья нашей работы.
🔸 Информацию о том, где и как можно с нами поработать.
🔸 А иногда — мои размышления о науке в России и за рубежом.
Кроме того, в этом канале я буду делиться своими личными наблюдениями, экспериментами и инсайтами, которые вы вряд ли найдёте где-то ещё.
Посты будут выходить не слишком часто, но я постараюсь сделать их регулярными и максимально полезными.
Присоединяйтесь! Будет интересно!
P.S. Видео для милоты и привлечения внимания. Ну как тут не влюбиться в видео модели???
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6🎉2❤1
Вы когда-нибудь мечтали стать лучшей версией себя? А LoRA уже стала!😁
Рад представить вам нашу новую работу, написанную совместно с командой Controllable Generatinve AI: T-LoRA: Single Image Diffusion Model Customization Without Overfitting🎉
Представьте, что вы хотите дообучить модель генерировать новый объект, например, кошечку или чайник. Но у вас ВСЕГО ОДНА КАРТИНКА этого объекта. Вы обучаете LoRA. И что выходит? Полный провал. Модель переобучается: объект генерируется только в той позе, в которой он был на тренировочной картинке, а фон выглядит скудно и плохо соответствует тексту. 😤
Хорошо, что вы читаете этот пост и теперь знаете, что вам нужна T-LoRA!
В ходе нашей работы мы выяснили, что переобучение чаще всего происходит на самых шумных таймстепах. Именно они приводят к тому, что модель переобучается на фон и позу объекта. Мы предложили решение: ограничить ранг на шумных таймстепах, чтобы избежать переобучения, и дать больший ранг на средних и поздних таймстепах для точного запоминания объекта. На поздних таймстепах можно использовать высокие ранги без риска переобучения.
Эту идею мы реализовали с помощью маскирования столбцов LoRA, ограничивая тренировочный сигнал на шумных таймстепах. Более того, чтобы маскирование было эффективным, мы разработали ортогональную версию LoRA, которая сохраняет столбцы ортогональными на протяжении всего обучения.
И вот результат! Теперь ваша кошечка может не только стоять, но и сидеть, и кататься на велосипеде, бегать, принимать любые позы, которые вы захотите. А фоны стали яркими, насыщенными и разнообразными!
Мы будем очень благодарны, если вы поддержите нашу работу, поставив Upvote на 🤗HuggingFace. Это поможет как можно большему числу людей узнать, что делать в подобных тяжелых жизненных ситуациях! 😁
Спасибо за внимание!
📕Arxiv
🖥 GitHub
🤗HuggingFace
Рад представить вам нашу новую работу, написанную совместно с командой Controllable Generatinve AI: T-LoRA: Single Image Diffusion Model Customization Without Overfitting🎉
Представьте, что вы хотите дообучить модель генерировать новый объект, например, кошечку или чайник. Но у вас ВСЕГО ОДНА КАРТИНКА этого объекта. Вы обучаете LoRA. И что выходит? Полный провал. Модель переобучается: объект генерируется только в той позе, в которой он был на тренировочной картинке, а фон выглядит скудно и плохо соответствует тексту. 😤
Хорошо, что вы читаете этот пост и теперь знаете, что вам нужна T-LoRA!
В ходе нашей работы мы выяснили, что переобучение чаще всего происходит на самых шумных таймстепах. Именно они приводят к тому, что модель переобучается на фон и позу объекта. Мы предложили решение: ограничить ранг на шумных таймстепах, чтобы избежать переобучения, и дать больший ранг на средних и поздних таймстепах для точного запоминания объекта. На поздних таймстепах можно использовать высокие ранги без риска переобучения.
Эту идею мы реализовали с помощью маскирования столбцов LoRA, ограничивая тренировочный сигнал на шумных таймстепах. Более того, чтобы маскирование было эффективным, мы разработали ортогональную версию LoRA, которая сохраняет столбцы ортогональными на протяжении всего обучения.
И вот результат! Теперь ваша кошечка может не только стоять, но и сидеть, и кататься на велосипеде, бегать, принимать любые позы, которые вы захотите. А фоны стали яркими, насыщенными и разнообразными!
Мы будем очень благодарны, если вы поддержите нашу работу, поставив Upvote на 🤗HuggingFace. Это поможет как можно большему числу людей узнать, что делать в подобных тяжелых жизненных ситуациях! 😁
Спасибо за внимание!
📕Arxiv
🤗HuggingFace
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4💅4
This media is not supported in your browser
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
if-else
Вы когда-нибудь мечтали стать лучшей версией себя? А LoRA уже стала!😁 Рад представить вам нашу новую работу, написанную совместно с командой Controllable Generatinve AI: T-LoRA: Single Image Diffusion Model Customization Without Overfitting🎉 Представьте…
🚀 Выпустили пост на хабре, про нашу недавнюю работу T‑LoRA — легковесный метод, который позволяет дообучать диффузионку по одному изображению без переобучения
📌 Зачем это нужно?
- Быстрая персонализация генератора под конкретный стиль или объект
- Минимум данных — максимум результата
- Сохранения гибкой генерации модели
В статье на Хабре рассказали, как это работает, показали архитектуру, примеры и сравнение с другими fine‑tuning подходами.
🔗 Читать на Хабре
📌 Зачем это нужно?
- Быстрая персонализация генератора под конкретный стиль или объект
- Минимум данных — максимум результата
- Сохранения гибкой генерации модели
В статье на Хабре рассказали, как это работает, показали архитектуру, примеры и сравнение с другими fine‑tuning подходами.
🔗 Читать на Хабре
Хабр
T-LoRA: дообучить диффузионную модель на одной картинке и не переобучиться
Вы когда‑нибудь мечтали стать лучшей версией себя? Моложе, красивее, идеальнее… А вот LoRA уже стала! Меня зовут Вера Соболева, я научный сотрудник лаборатории FusionBrain Института AIRI,...
❤5🤩3
Forwarded from Dendi Math&AI (Денис Димитров)
🚀 Мы с командой открываем всю линейку генеративных моделей Kandinsky 5.0!
В сентябре мы выложили в open source Kandinsky 5.0 Video Lite, получили множество положительных отзывов и полезной обратной связи, большое спасибо всем!
Сегодня мы открываем всю линейку: как Video, так и Image модели. Дальше расскажу все подробности, но можно сначала сходить попробовать: модели доступны всем на открытых поверхностях ГигаЧат: Telegram, Max и giga.chat
🎬 Video Pro – мощные Text-to-Video и Image-to-Video – лучшие в мире open source модели, превосходящие по качеству Wan 2.2 A14B и работающие наравне с Veo 3 от Google по визуалу и динамике (в HD)
🖼 Image Lite – универсальные Text-to-Image и Image Editing модели c 6B параметров, которые нативно поддерживают промты на русском языке, знают культурный код и генерируют картинки с кириллическим текстом. Значительно превосходит FLUX.1 [dev] в задаче генерации изображений и работают на одном уровне с FLUX.1 Kontext [dev] в их редактировании
В открытом доступе: четыре версии Image Lite и пять версий Video Pro для разных задач (для генерации 5 сек и 10 сек видео, разрешение — SD и HD). Доступны как SFT-версии с максимальным качеством, так и Pretrain, для исследователей и дообучения
🔧 Как мы достигли этого (подробнее в нашем большом техрепорте):
🔘 Большой Pretrain-датасет 520 млн изображений и 250 млн видео-сцен
🔘 Фокус на SFT: художники и дизайнеры тщательно выбирали материалы с безупречной композицией, стилем и визуальным качеством
🔘 Разработали метод NABLA для стабильной 10-секундной генерации в HD-разрешении
🔘 Использовали архитектуру Kandinsky-DiT с flow matching
🚀 Доступность и информация:
🔘 Лицензия поддерживает коммерческое использование (MIT)
🔘 Все материалы можно найти на GitHub, HuggingFace и GitVerse
🔘 Техрепорт, кстати, уже сейчас #1 в Daily Papers, но ваша поддержка поможет укрепить эту позицию :)
@dendi_math_ai
В сентябре мы выложили в open source Kandinsky 5.0 Video Lite, получили множество положительных отзывов и полезной обратной связи, большое спасибо всем!
Сегодня мы открываем всю линейку: как Video, так и Image модели. Дальше расскажу все подробности, но можно сначала сходить попробовать: модели доступны всем на открытых поверхностях ГигаЧат: Telegram, Max и giga.chat
🎬 Video Pro – мощные Text-to-Video и Image-to-Video – лучшие в мире open source модели, превосходящие по качеству Wan 2.2 A14B и работающие наравне с Veo 3 от Google по визуалу и динамике (в HD)
🖼 Image Lite – универсальные Text-to-Image и Image Editing модели c 6B параметров, которые нативно поддерживают промты на русском языке, знают культурный код и генерируют картинки с кириллическим текстом. Значительно превосходит FLUX.1 [dev] в задаче генерации изображений и работают на одном уровне с FLUX.1 Kontext [dev] в их редактировании
В открытом доступе: четыре версии Image Lite и пять версий Video Pro для разных задач (для генерации 5 сек и 10 сек видео, разрешение — SD и HD). Доступны как SFT-версии с максимальным качеством, так и Pretrain, для исследователей и дообучения
🔧 Как мы достигли этого (подробнее в нашем большом техрепорте):
🚀 Доступность и информация:
@dendi_math_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥3🎉2
Выступил сегодня на AI Journey⚡️
Рассказывал о нашем свежем исследованни диффузионных трансформеров и новом методе Calibri, который позволяет, оптимизируя менее 100 параметров, в разы бустить качество любой Text to Image/Video модели и ускорять инференс аж в 2 раза🚀
Скоро ждите релиз!
Рассказывал о нашем свежем исследованни диффузионных трансформеров и новом методе Calibri, который позволяет, оптимизируя менее 100 параметров, в разы бустить качество любой Text to Image/Video модели и ускорять инференс аж в 2 раза🚀
Скоро ждите релиз!
🔥19💯8🎉7
🚀Стартовали год с поездки на AAAI в Сингапур
Так уж вышло, что моя аспирантура пришлась на ковид и трудные для путешествий года. Поэтому во всех конференциях я участвовал онлайн. Так что AAAI 2026 стала моим первым опытом офлайн поездки на большую конференцию.
Было интересно, но для себя сделал вывод, что на доменные конфы ездить, наверное, полезнее. Каждый день было 1000+ постеров, а релевантных моим задачам около 10.
Тем не менее, опыт международного научного общения бесценен и даже подойти и лично обсудить идеи на 10 постерах было супер полезно.
Наша постерная сессия тоже прошла отлично: много заинтересованных, несколько людей с очень близкими темами — надеюсь, из этого вырастет взаимовыгодное сотрудничество💪
Кстати, к конфе сделали красивый project page к нашей статье, добавили результаты на Flux-1 dev и скоро еще дозальем к нему код.Спойлер: T-LoRA для дообучения людей - это вообще бомба.
Так уж вышло, что моя аспирантура пришлась на ковид и трудные для путешествий года. Поэтому во всех конференциях я участвовал онлайн. Так что AAAI 2026 стала моим первым опытом офлайн поездки на большую конференцию.
Было интересно, но для себя сделал вывод, что на доменные конфы ездить, наверное, полезнее. Каждый день было 1000+ постеров, а релевантных моим задачам около 10.
Тем не менее, опыт международного научного общения бесценен и даже подойти и лично обсудить идеи на 10 постерах было супер полезно.
Наша постерная сессия тоже прошла отлично: много заинтересованных, несколько людей с очень близкими темами — надеюсь, из этого вырастет взаимовыгодное сотрудничество💪
Кстати, к конфе сделали красивый project page к нашей статье, добавили результаты на Flux-1 dev и скоро еще дозальем к нему код.
🔥11🤩3❤2