эйай ньюз
57.8K subscribers
1.38K photos
727 videos
7 files
1.71K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
А вот несколько слайдов с доклада "Efficient Text-to-Image Generation", где Снэп рассказывал про свою работу по ускорению Stable Diffusion.

Плюс демка, где они запускали генерации на телефоне.

Модель уменьшили, ускорили, дистиллировали и сконвертировали в Apple CoreML. Во время инференса использовали 8 шагов с DDIM семплером. Скорость генерации 1.9—2.0 сек / картинка на iPhone 14.

Представьте только. На GPU 50 шагов DDIM оригинальной Stable Diffusion в разрешении 512×512 работает примерно 1.7 сек. А тут сделали на мобиле почти за такое же время и без потери в качестве!

Сайт проекта SnapFusion

#конфа
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
CVPR День второй: воркшопы и туториалы

Словили Эндрю Ына в коридоре. Он несколько часов со всеми фоткался и отвечал на вопросы. Кажется, благодаря своим курсам по ML/DL, он стал даже более известным чем Хинтон, ЛеКун или Бенжио.

Сегодня моя команда огранизовывала воркшоп Efficient Deep Learning for Computer Vision. Вот пара понравившихся статей оттуда:
FastComposer. Метод для генерации людей по заданному текстовому промпту и референсным фоткам. Не требует дорогого файнтюнинга, как например Dreambooth и может генерить сразу несколько персон на одном фото.
DIME-FM: Distilling Multimodal and Efficient Foundation Models. Дистилляция фундаментальных Visual-Language моделей, которая требует меньше данных и в 10 раз меньше ресурсов чем оригинальные модели (например, дистиллировали CLIP).

Ещё заглянул на воркшоп про Egocentric Vision. Послушал доклад от Kristen Grauman: в недавней работе про Ego-exo video alignment они учили энкодер мэтчить кадры между видео от первого лица и видео с внешних камер.

#personal #конфа
@ai_newz
Сегодня был ещё на офигенном воркшопе Visual Pre-Training for Robotics.

Великий исследователь в области визуального восприятия Джеймс Гибсон сказал знаменитую фразу: «Мы видим, чтобы двигаться, и мы двигаемся, чтобы видеть». Но можем ли мы научиться видеть, прежде чем научимся двигаться? И как далеко мы сможем продвинуться, если сначала научимся видеть? — Так описывается этот воркшоп.

Было много классных докладов про применения компьютерного зрения и претренировки моделей на визуальных задачах перед тем как использовать их на задачах робототехники, например для планирования и управления роботами.

Особенно понравился доклад Сергея Левина про то, как они делают претрейн модели с offline RL на видеоданных, собранных с разных роботов (от машинок до квадрокоптера), а затем файнтюнят с помощью online policy learning. В итоге модель обобщается на нового робота и новое окружение всего за 20 мин. Это впечатляюще быстро!

Подробности в статье FastRLAP.

Постараюсь достать запись докладов для вас.

#конфа
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня в 10:30-12:30 по канадскому я буду презентовать наш постер Avatars Grow Legs

Узнаете как восстанавливать последовательность 3D поз человека в движении, зная только позицию головы и запястий (например во время игры в VR).

Постер #46, приходите поболтать если вы на CVPR. #конфа

❱❱ Подробный пост про статью.

@ai_newz
Media is too big
VIEW IN TELEGRAM
CVPR день третий: основная конференция, постеры и экспо

Сейчас готовлюсь к презентации постера, прошелся для вас по экспо со стендами компаний пока не набежала толпа.

Тут будут ходить тучи народа через 30 минут.

#конфа #personal
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Qualcomm запилили квантизацию для Stable Diffusion и запихнули ее на телефон с процессором Snapdragon. Я поговорил с их ресерчерами.

Работает прилично, но не молниеносно – 13 сек на картинку (20 шагов DPM++).

Int8 квантизация для весов и int16 для активаций.

Все это зарелизили как часть своего AI Engine SDK. Говорят, что их код можно использовать и для квантизации под GPU.

У снэпа получилось быстрее, но у них и трюков больше, и телефон мощнее плюс юзают Apple CoreML.

#конфа
@ai_newz
Media is too big
VIEW IN TELEGRAM
CVPR день четвертый: доклады, постеры и демо 🤖

Я сегодня дежурю на стенде Meta AI, болтаю с посетителями, рассказываю про наши работы.

Тем временем коллеги из команды робототехники показывают демо с робопёсиком Спотом, которого научили навигироваться в неизвестном пространстве (то есть у него нет карты помещения) и выполнять различные команды. Например собрать мягкие игрушки в комнате и закинуть их в корзину, как показано на видео. Он сам планирует, находит предметы и переносит их. И самое крутое — это то, что он был обучен только на синтетических данных.

К пёсику прикрутили языковую модель, что позволяет командовать им на английском языке (про похожую интеграцию GPT в Спота от компании Levatas я писал раньше тут).

Некоторые подробности про то, как этого пёсика дрессировали есть в блогпосте.

Как же классно, если есть возможность посмотреть как натренированные тобой нейронки работают в физическом мире. Жаль, я не занимаюсь робототехникой.

#конфа #карьера
@ai_newz
Нетворк, нетворкинг, нетворкович или почему вам нужно посещать конференции

Вернулся с ICCV. Еще раз осознал, что самый важный ресурс в работе - это человеческий капитал. Связи и знакомства существенно влияют на то, по какой карьерной траектории ты пойдешь, позовут ли тебя на стажировку в FAANG, предложат ли тебе участвовать в стартапе на ранней стадии и т.д. Поэтому крайне важно заводить новые знакомства (мы сейчас говорим как минимум в профессиональном контектсе), и стремиться знать как можно больше людей в своей сфере.

Конечно, глубокие знания и опыт в своей области критически важны для карьерного продвижения, но владение социальными аспектами может значительно ускорить ваш рост.

А где удобнее и проще всего знакомится с топовыми людьми из сферы AI и ML? Правильно, на конференциях. Можно поболтать с авторами лучших статей на постерах, сходить на ужин с группой новых людей, познакомиться и пообщаться с сайнтистами из топовых лаб в академии или FAANG на одной из вечеринок, организуемых компаниями. Это только несколько примеров как занетворкать на конференции. Я уже не говорю о про-левеле, когда вы сами организуете воркшоп и приглашаете докладчиков, сами даете доклад либо просто нетворкаете в тусовке эйай ньюз.

Например, приглашение на свою первую стажировку в Facebook AI Research я получил именно благодаря нетворкингу на конференции. В 2018 я выступал на European Conference on Computer Vision с пленарным докладом (фото внизу). После своей презентации я подошел познакомиться с автором заинтересовавшего меня доклада про DensePose от Facebook. Это была Наталия Неверова, которая как раз искала интернов на следующий год. Если бы я к ней не подошел, то и не получил бы приглашение пройти собеседование и не попал бы на стажировку в FAIR.

Так что, друзья, гоняйте на конференции и знакомьтесь - это очень важно!

#конфа #карьера #мойпуть #personal

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
ICCV 2023: Экспо и Демки.

На конфе я познакомился c классными парнями из стартапа Zero10. Попробовал на себе их демо по AR виртуальной примерке. Больше всего понравилось размахивать цепями😃.

С дивана, в этой демке оценивается 3D поза c помощью фитинга SMPL и накладывается отсмаштабированная мешь одежды поверх меши SMPL. Плюс к этому легкая симуляция движения меши при движении человека.

Парни делают AR виртуальную примерку и устанавливают AR-зеркала в торговых центрах. Например, на последнем видео - партнерство с Nike.

#конфа #personal

@ai_newz
На каждой крупной конференции выбираются несколько лучших статей и им вручают "призы". Обычно это статьи, которые перевернули область с ног на голову, либо те, что имеют потенциал очень сильно повлиять на ход будущих исследований. Еще отдельно выделяют лучшую статью, где первый автор - студет (включая аспирантов). #конфа

В этом году на ICCV 2023 победили следующие работы.

1️⃣ Лучшие статьи:
- ControlNet [Stanford]
- Passive Ultra-Wideband Single-Photon Imaging [UoT]

2️⃣ Почетное упоминание - Segment Anything (SAM) [Meta AI]

3️⃣ Лучшая студенческая статья - Tracking Everything Everywhere All At Once [Cornell + Berkeley + Google]

---

В разные года выбор лучших статей у меня вызывал сомнения, но ControlNet, хоть и технически простой, это действительно заслужил. От появляния на arxiv в феврале, до публикации на ICCV работа успела набрать 24k звезд на гитхабе, >300 цитирований, и используется в сотнях пет-проектах с SD.

SAM - тут просто без коментариев, работа супер влиятельная.

Tracking Everything - Универсальный трекер. Тоже крутая работа, по духу да и по названию похожа на Segment Anything.

Про Single-Photon Imaging ничего сказать не могу, не моя тема совсем. Разве что, коммиссия любит выбирать что-то неортодоксальное, но потенциально с большим импактом.

@ai_newz
Купил билеты на ECCV, которая пройдет в конце сентября в Милане.

European Conference on Computer Vision или ECCV – это топовая конференция по компьютерному зрению. Она проходит раз в два года, обычно в Европе. Но 2020 конфа была в Израиле, мне тогда там очень понравилось (пост1, пост2).

Билеты в кармане, так что теперь я точно в деле! Будем устраивать тусы, как я обычно это делаю на конференциях.

Ведь одна из основных целей посещения конференций для меня, если не самая главная – это нетворкинг (пост про это)!

Кто-то из вас тоже планирует поехать?

#конфа
@ai_newz
Уже мчусь на поезде в Милан, чтобы завтра пойти на конференцию ECCV24. Впереди много классных докладов и нетворкинга!

И уже создал чат, буду организовывать тусы - это то, что я особенно люблю во время конференций. Залетайте: https://t.iss.one/+ovvnxsSwBXkzMzky

---

На завтра я для себя выбрал следующие туториалы и воркшопы.

Туториалы:
- Large Multimodal Foundation Models - на доклады Джитендры и Тревора Дарела грех не пойти
- Efficient Text-to-Image and Text-to-3D modeling - будет интересный доклад про Parallel decoding for token-based image generation 11:30-12:00

Воркшопы:
- AI for Visual Arts Workshop and Challenges - Мне это близко, так как много над этой темой работал во время PhD. А в 09:30 будет выступать мой доктор-батя Бьёрн Оммер, надо сходить.

- The Second Perception Test Challenge - В 10:15-10:45 выступает Abhinav Gupta из CMU, всегда нравятся его доклады.

- 50SFM:Half-century of Structure-from-Motion - SFM алгоритму уже почти пол века, хочу пойти на доклад "A historical review of SfM - 300 years and counting" (14:30 - 15:00) или "My 30-year journey with SfM" (16:00 - 16:30) от Марка Полифейса.

- Self-Supervised Learning - What is next? - организует мой товарищ Миша Доркенвальд, и тема из моего PhD. "Vision Foundation Models (with academic compute)" 11:55-12:30

- Efficient Deep Learning for Foundation Models - очень класный лайнап докладов (14:10-5:40) по интересной мне теме.

- 3rd edition of Computer Vision for Metaverse - наша команда ко-организует.

- Autonomous Vehicles meet Multimodal Foundation Models - заскочить посмотреть, как VLLM пытаются использовать в автономном вождении и как справляются с длинном хвостом распределения редких объектов.

- Workshop on Unlearning and Model Editing - интересный докдлад про контроль генерации диффузией "Prompt Sliders for Fine-Grained Control, Editing and Erasing of Concepts in Diffusion Models" в 15:10-15:30

#personal #конфа
@ai_newz
Вчера собралась тусовка с ребятами из нашего ECCV чата. Я забронил итальянский рест недалеко от конференции, за вином и пастой очень здорово шла беседа.

Каждый раз радуюсь, какое же крутое комьюнити у нас образовалось за последние несколько лет! Все с кем вчера удалось пообщаться очень классные, крутые в своем деле, и в тоже время веселые ребята. Среди нас были и сайнтисты, и PhD студенты, и магистранты со статьями, и стартаперы, и C-левел чуваки, и VC инвесторы, и AI инженеры.

А после ужина было ещё афтерпати в баре с говорящим названием "Академия", не смотря на то что в Милане в вск все довольно рано закрывается) там тоже обсуждались важные вопросы – каково оно работать в академии 🍻, и какая окрошка вкуснее на квасе или на кефире.

Ну, а сейчас я уже опять на докладах, мой фаворит сегодня – воркшоп Knowledge in Generative Models.

Напишите в комментах, что бы вам хотелось, чтобы я транслировал с конференции.

#конфа
@ai_newz
Media is too big
VIEW IN TELEGRAM
Заснял как китайцы (unitree) показывают новую зверюгу на ECCV. Может и бегать, и ездить – удобно!

На нём человек может даже проехать верхом, робот выдерживает до 100 кг.

А внутри у него – видюха Nvidia Jetson Xavier NX, разработанная специально чтобы устанавливаться на роботов и всякие автономные давайсы.

Робопсом Спотом от Boston Dynamics уже никого не удивить, мы видим, что выходят все более и более навороченные зверюги.

#конфа
@ai_newz
На этой неделе происходило так много всего, что я не успевал обо всем постить. Навёрстываем.

В четверг я уехал с ECCV, на день раньше официального окончания. Я спешил на другой ивент.

Как только вернулся из Милана назад в Цюрих, сразу нужно было идти выступать на другую крупную конференцию – AI+X саммит. Это конфа, которую организует ETH AI Center, и где представлены ведущие Цюрихское научные AI лабы, стартапы и компании.

Было много про Computer Vision и Robotics (чем Цюрих особенно славится), а также AI в медицине и финансах.

Я выступал с докладом "Imagine Flash": Meta's real-time text-to-image synthesis diffusion model (пост про модель).

А затем меня пригласили на панельную дискуссию в треке Human-Centric Computing in the Age of AI Track. На панели также был Federico Tombari, Senior Staff Research Scientist из Цюрихского Гугла, и местные профессора.

Забавно что на панельной дискуссии со мной также сидел мой научный дед – Prof. Joachim Buhmann из ETH. В немецкоязычном научном мире есть такое понятие как Doktorvater (рус. Научный Отец) - это научник, у которого вы написали PhD. Так вот мой научник Björn Ommer писал диссер у Joachim Buhmann, поэтому Joachim получается моим научным дедом. Когда это выяснилось во время дискуссии, мы здорово посмеялись, что на конфе собралось наших 3 научных поколения, тем более Бьёрн в это время выступал в соседнем зале)

Но на этом насыщенная неделя не закончилась. Продолжение в следующем посте.

#personal #конфа
@ai_newz