Complete AI
7.79K subscribers
506 photos
35 videos
10 files
271 links
Меня зовут Андрей Кузнецов

Директор FusionBrain Lab в AIRI, один из фаундеров моделей Kandinsky, к.т.н., 15+ лет опыта в Computer Vision, выступаю с лекциями и пишу о событиях в AI и ML
Download Telegram
🏁 Конференция ECCV’24 подошла к концу

За последние дни у меня в основном аккумулировались разные интересные постеры, которые сейчас хочу тематически разложить, сделать в облаке папку и пошарить её всем подписчикам — это будет своего рода персонализированная фильтрация всего того контента, который привлёк моё внимание и близок темам, которыми мы занимаемся в лаборатории:

1) мультимодальность и видео, визуальные энкодеры
2) генерация и редактирование изображений и видео
3) embodied AI, VLM в робототехнике
4) генеративное проектирование в задачах синтеза CAD объектов различных форматов
5) эффективные методы представления визуальной информации (отдельно от самих энкодеров)

Если получится сделать мини семинар с разбором интересных статей и просто обзором конференции, то его тоже распространю всем😉

А пока, предлагаю улыбнуться нескольким забавным постерам и необычным участника, которых я заметил за эти дни☝️
🥇 Экономный исследователь
🥈 «Я-свой-постер-оставлю-навечно-тут»
🥉 «Не жалею краску в плоттере»
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2215🔥11❤‍🔥1👍1
Помимо ECCV’24 прошлая неделя запомнилась ещё двумя крайне знаменательными событиями:

Один из ключевых исследователей в лаборатории FusionBrain, защитил PhD в Сколтехе. Руководителями работы выступили Александр Панченко и ваш покорный слуга

У нас успешно приняли статью «Kandinsky 3: text-to-image synthesis for multifunctional generative framework» на демо трек Core A* конфы EMNLP’24, которая пройдет в середине ноября в Майями🎉
🔥5410👍3👏1🤓1
Все мы немного физики💪
35🔥17👀16🌚5🏆4🤓4👍3😁3🤔1
Как пандемия позитивно складывается на некоторых отраслях: с 2020 года 2й альбом уже🤘

11й альбом с приходом нового барабанщика прямо отличным получился!
🎉14❤‍🔥6🔥5
Forwarded from Институт AIRI
Лекции «Лето с AIRI 2024» — в плейлисте в VK Видео 🔥

Выложили записи лекций и семинаров летней школы по искусственному интеллекту «Лето с AIRI» с ведущими исследователями научных организаций и технологических компаний.

📎Сохраняйте ссылку на плейлист
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2410👍8❤‍🔥1
Как вам темы международного совещания по ИИ 1977 года в Ленинграде? Большая часть является актуальной в современных статьях по мультимодальным и генеративным моделям😅

По ссылке скан приглашения профессора Стэнфорда на мероприятие
🔥43❤‍🔥9😁5👍4🙊2
😁60👍6
Forwarded from Labrats
2😁78💯175❤‍🔥3
На днях вышла интересная работа про учёт физики в генеративных text-to-video моделях и вообще возможности называть такие модели «моделями мира». Авторы показывают, что на исключительно на большом объёме наблюдений выучить закономерность модели не могут. Проверяют на законе сохранении энергии, законе инерции и 2м законе Ньютона в задачах на плоскости. Занимательные эксперименты и даже есть код для воспроизведения)

В целом, вопрос достаточно дискуссионный, и я планирую сделать мини обзор подходов к этой задаче в ближайшее время, потому что синтез видео в задачах аугментации или «расширения обзора» полезно и нужно в ряде направлений, особенно в робототехнике и беспилотном автотехе.
2💯23👍10🔥8
🚡Волею судеб оказался на горнолыжном курорте, но не катаюсь ни на чем, относящемся к спускам)))

Хочется, собственно, совет получить:
Anonymous Poll
59%
Лыжи
41%
Сноуборд
👾1
Complete AI pinned Deleted message
⚡️Компания Sony не так часто выходит с какими-то громкими релизами. Но вот анонсировали 2 модели на NeurIPS 2024: GenWarp и PaGoDA

Первая про синтез 3D сцен по одной картинке (судя по качеству интересно проверить для задач робототехники и 3D моделирования)

Вторая про генерацию картинок в высоком разрешении на базе low-res предобученной модели (вычислительно эффективно — максимум 32 карты A100, рост разрешения с 32x32 до 512x512 почти без потери качества)

Детали тут👇
Ссылка
29🔥4👀4👍2
⚡️Nvidia выкатила веса и демку text2image модели Sana

Демо
Код
Статья
❤‍🔥11🔥8👍5
Натальная карта появления AGI от лидеров мнений💪
😁16❤‍🔥9👍4😱1👾1
Выступал сегодня на фесте «Формула будущего» в Иннополисе. Разгоняли со студентами тему карьеры в науке: с чего начать, как выглядит карьерный трек, как построена работа у меня в лабе в AIRI, какие направления занимают пальму «популярности» сейчас в исследованиях, а также о симбиозе науки и бизнеса в современных реалиях.

Интересный опыт для меня — отличается от привычных tech talk выступлений на конференциях. Тем не менее получилось довольно интересно, искали ответы на непростые вопросы (и это не про цену контрактов) — тимлид экспертизой оказалось тоже приятно делиться💪

Встретились и пообщались на фесте с Егором Бугаенко (автор канала @yegor256news) и Валей Малых (автор канала @valuableai) — они тоже выступали с докладами, обсудил с ними карьерные пути студентов в исследованиях и разработке, кадровый голод в некоторых направлениях и ещё много всего. Кажется, вопросов хватит не на один подкаст😉

UPD: презентация доклада в комментариях 👇
218🔥146❤‍🔥3👍2
⚡️Reducio! Microsoft в соавторстве с Гарри Поттером на днях выпустил статью про свой новый image-conditioned VAE для видео

За счёт кодирования латентов движения удалось побить по сжатию обычный 2D VAE в 64 раза без потери качества (TxHxW: 1x8x8 -> 4x32x32)

Основной блок энкодера - это пространственно-временной 3D-VAE. Ключевая идея Reducio в том, что кадр из середины кодируемой видео последовательности (T/2, где T - длина видео) используется на этапе декодера при пирамидальной развёртке видеолатента через слой cross-attention. Проще говоря, средний кадр «помогает» восстановлению видео из сжатого пространства признаков (content image prior).
Кстати, похожий эффект с дополнительным image prior помог нам выбить лучшее качество при разработке Kandinsky 2.1.

Скорость работы Reducio очень высокая в разрешении 1024x1024 — 16 кадров генерируются 15.5 секунд на A100. При этом на обучение генеративной модели DiT по заявлениям потрачено всего 3.2k A100 часов!

По качеству даже побили свеженький Cosmos-VAE от Nvidia недельной давности🔥

Статья
Код
Веса
2🔥13105👍2