Complete AI
7.79K subscribers
505 photos
35 videos
10 files
270 links
Меня зовут Андрей Кузнецов

Директор FusionBrain Lab в AIRI, один из фаундеров моделей Kandinsky, к.т.н., 15+ лет опыта в Computer Vision, выступаю с лекциями и пишу о событиях в AI и ML
Download Telegram
Из того, что запомнилось особенно за сегодня на ECCV’24 — доклад лидера команды Wayve (которые в том году выпускали статью про свою модель Gaia-1 для генерации видео в стиле видеорегистратора — эдакая модель мира).

Сначала он рассказал про модели описания сцены Lingo, а также датасет LingoQA. Вторая версия (выпустили в апреле этого года) Lingo-2 умеет также решать задачу определения 3D положения объектов (граундинг), что добавляет к качеству текстовых описаний и ответам на вопросы.

И далее перешел к довольно свежей модели CarLLaVA, выпущенной в июне. Входные кадры с фронтальной камеры делятся на 2 части, кодируются визуальным энкодером LLaVA-Next, фичи объединяются и далее через проектор по классике добавляются в LLM. В итоге получается супер SoTA на CARLA челлендже (отрыв от прошлогодней соты — 458%). Видео демка тут

@complete_ai
🔥195💯3👎1😁1
⚡️Второй день воркшопов на ECCV’24 также оставил у меня в памяти несколько интересных инсайтов. Я постарался уделить время воркшопам по GenAI для видео, а также внутренним знаниям о визуальных концептах в генеративных моделях.

Из первого был интересный доклад профессора из University of Massachusetts Chuang Gan (H-index=69), который рассказывал о комбинации видео и дифференцируемой физики как способе построения моделей мира. Видео сами по себе не способны быть достоверным предсказанием каких-либо событий, но добавляя обуславливание на законы физики можно научить модель «прогнозировать будущее». Также он показал модель 3D-VLA, у которой помимо понимания видео на входе есть промежуточный блок с диффузией, который генерирует «воображение», то есть несколько шагов вперед относительно текущего состояния, чтобы лучше прогнозировать следующее действие.

Во втором воркшопе доклад бесспорного классика для многих специалистов в компьютерном зрении David Forsyth (H-index=88) был коротким, но максимально полезным. Он посвятил выступление открытым вопросам в части интерпретируемости моделей генерации изображений и как внутри моделей «располагаются» разные концепты, а также какими «знаниями» располагают модели синтеза изображений. А также почему с генерацией одних типов объектов модели справляются, а с другими нет. Ответами на эти вопросы сейчас занимаются многие ученые, поэтому это скорее был визионерский доклад о вызовах в области понимания «внутрянки» архитектур. Подсветил некоторые работы в этом направлении и исследовательские задачи на ближайшее время💪

В комментариях выложу фото избранных слайдов по обоим докладам👇

@complete_ai
👍21🔥15💯2😁1
1️⃣Начинается первый день основной конференции ECCV’24

Почти 7000 очных участников, 75 воркшопов, 30 демо, 650+ speed mentoring для студентов и много других красивых цифр (а еще очень модный свет)

Больше статистики на фотках☝️

@complete_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
19🔥10👍2💯1
Встретились на ECCV’24 с Артёмом @ai_newz

Обсудили развитие GenAI в мире, новые направления исследований, которые привлекают больше всего внимания на конференции и самые обсуждаемые проблемы в генеративном ИИ

Рад очной встрече с Артёмом и тому, что такие мероприятия как ECCV объединяют исследователей со всего мира и создают плодотворную площадку для коммуникации💪

На фотке радостно передаём привет подписчикам наших каналов👋
Please open Telegram to view this post
VIEW IN TELEGRAM
51👍2210👎6🔥4
💪Даёшь большие LLM в каждый чайник

На днях группа ученых из MBZUAI и UESTC выложила тех репорт фреймворка TPI-LLM, который позволяет запускать большие LLM на смартфонах значительно быстрее аналогичных фреймворков (на 80-90%). По памяти тоже выбили рекордные 3.1 Gb для модели LLaMA 2-70B. LLaMA 3.1-70B «кушает» уже 11.3 Gb (но кого сейчас это пугает на смартфонах)

👉Код выложили тут
👉Тех репорт на arXiv
👏1513😱6🔥42🌚1
🏁 Конференция ECCV’24 подошла к концу

За последние дни у меня в основном аккумулировались разные интересные постеры, которые сейчас хочу тематически разложить, сделать в облаке папку и пошарить её всем подписчикам — это будет своего рода персонализированная фильтрация всего того контента, который привлёк моё внимание и близок темам, которыми мы занимаемся в лаборатории:

1) мультимодальность и видео, визуальные энкодеры
2) генерация и редактирование изображений и видео
3) embodied AI, VLM в робототехнике
4) генеративное проектирование в задачах синтеза CAD объектов различных форматов
5) эффективные методы представления визуальной информации (отдельно от самих энкодеров)

Если получится сделать мини семинар с разбором интересных статей и просто обзором конференции, то его тоже распространю всем😉

А пока, предлагаю улыбнуться нескольким забавным постерам и необычным участника, которых я заметил за эти дни☝️
🥇 Экономный исследователь
🥈 «Я-свой-постер-оставлю-навечно-тут»
🥉 «Не жалею краску в плоттере»
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2215🔥11❤‍🔥1👍1