эйай ньюз – Telegram

эйай ньюз

65.8K subscribers

1.49K photos

792 videos

7 files

1.81K links

Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow

Download Telegram

About

Blog

Apps

Platform

эйай ньюз

65.8K subscribers

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

CVPR День второй: воркшопы и туториалы

Словили Эндрю Ына в коридоре. Он несколько часов со всеми фоткался и отвечал на вопросы. Кажется, благодаря своим курсам по ML/DL, он стал даже более известным чем Хинтон, ЛеКун или Бенжио.

Сегодня моя команда огранизовывала воркшоп Efficient Deep Learning for Computer Vision. Вот пара понравившихся статей оттуда:
— FastComposer. Метод для генерации людей по заданному текстовому промпту и референсным фоткам. Не требует дорогого файнтюнинга, как например Dreambooth и может генерить сразу несколько персон на одном фото.
— DIME-FM: Distilling Multimodal and Efficient Foundation Models. Дистилляция фундаментальных Visual-Language моделей, которая требует меньше данных и в 10 раз меньше ресурсов чем оригинальные модели (например, дистиллировали CLIP).

Ещё заглянул на воркшоп про Egocentric Vision. Послушал доклад от Kristen Grauman: в недавней работе про Ego-exo video alignment они учили энкодер мэтчить кадры между видео от первого лица и видео с внешних камер.

#personal #конфа
@ai_newz

15.5K viewsedited 22:24

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Сегодня был ещё на офигенном воркшопе Visual Pre-Training for Robotics.

Великий исследователь в области визуального восприятия Джеймс Гибсон сказал знаменитую фразу: «Мы видим, чтобы двигаться, и мы двигаемся, чтобы видеть». Но можем ли мы научиться видеть, прежде чем научимся двигаться? И как далеко мы сможем продвинуться, если сначала научимся видеть? — Так описывается этот воркшоп.

Было много классных докладов про применения компьютерного зрения и претренировки моделей на визуальных задачах перед тем как использовать их на задачах робототехники, например для планирования и управления роботами.

Особенно понравился доклад Сергея Левина про то, как они делают претрейн модели с offline RL на видеоданных, собранных с разных роботов (от машинок до квадрокоптера), а затем файнтюнят с помощью online policy learning. В итоге модель обобщается на нового робота и новое окружение всего за 20 мин. Это впечатляюще быстро!

Подробности в статье FastRLAP.

Постараюсь достать запись докладов для вас.

#конфа
@ai_newz

14.0K views08:08

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

Сегодня в 10:30-12:30 по канадскому я буду презентовать наш постер Avatars Grow Legs

Узнаете как восстанавливать последовательность 3D поз человека в движении, зная только позицию головы и запястий (например во время игры в VR).

Постер #46, приходите поболтать если вы на CVPR. #конфа

❱❱ Подробный пост про статью.

@ai_newz

13.1K views15:57

эйай ньюз

Media is too big

VIEW IN TELEGRAM

CVPR день третий: основная конференция, постеры и экспо

Сейчас готовлюсь к презентации постера, прошелся для вас по экспо со стендами компаний пока не набежала толпа.

Тут будут ходить тучи народа через 30 минут.

#конфа #personal
@ai_newz

13.2K viewsedited 17:25

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

Qualcomm запилили квантизацию для Stable Diffusion и запихнули ее на телефон с процессором Snapdragon. Я поговорил с их ресерчерами.

Работает прилично, но не молниеносно – 13 сек на картинку (20 шагов DPM++).

Int8 квантизация для весов и int16 для активаций.

Все это зарелизили как часть своего AI Engine SDK. Говорят, что их код можно использовать и для квантизации под GPU.

У снэпа получилось быстрее, но у них и трюков больше, и телефон мощнее плюс юзают Apple CoreML.

#конфа
@ai_newz

14.5K viewsedited 17:45

эйай ньюз

Media is too big

VIEW IN TELEGRAM

CVPR день четвертый: доклады, постеры и демо 🤖

Я сегодня дежурю на стенде Meta AI, болтаю с посетителями, рассказываю про наши работы.

Тем временем коллеги из команды робототехники показывают демо с робопёсиком Спотом, которого научили навигироваться в неизвестном пространстве (то есть у него нет карты помещения) и выполнять различные команды. Например собрать мягкие игрушки в комнате и закинуть их в корзину, как показано на видео. Он сам планирует, находит предметы и переносит их. И самое крутое — это то, что он был обучен только на синтетических данных.

К пёсику прикрутили языковую модель, что позволяет командовать им на английском языке (про похожую интеграцию GPT в Спота от компании Levatas я писал раньше тут).

Некоторые подробности про то, как этого пёсика дрессировали есть в блогпосте.

Как же классно, если есть возможность посмотреть как натренированные тобой нейронки работают в физическом мире. Жаль, я не занимаюсь робототехникой.

#конфа #карьера
@ai_newz

14.3K viewsedited 20:49

эйай ньюз

Нетворк, нетворкинг, нетворкович или почему вам нужно посещать конференции

Вернулся с ICCV. Еще раз осознал, что самый важный ресурс в работе - это человеческий капитал. Связи и знакомства существенно влияют на то, по какой карьерной траектории ты пойдешь, позовут ли тебя на стажировку в FAANG, предложат ли тебе участвовать в стартапе на ранней стадии и т.д. Поэтому крайне важно заводить новые знакомства (мы сейчас говорим как минимум в профессиональном контектсе), и стремиться знать как можно больше людей в своей сфере.

Конечно, глубокие знания и опыт в своей области критически важны для карьерного продвижения, но владение социальными аспектами может значительно ускорить ваш рост.

А где удобнее и проще всего знакомится с топовыми людьми из сферы AI и ML? Правильно, на конференциях. Можно поболтать с авторами лучших статей на постерах, сходить на ужин с группой новых людей, познакомиться и пообщаться с сайнтистами из топовых лаб в академии или FAANG на одной из вечеринок, организуемых компаниями. Это только несколько примеров как занетворкать на конференции. Я уже не говорю о про-левеле, когда вы сами организуете воркшоп и приглашаете докладчиков, сами даете доклад либо просто нетворкаете в тусовке эйай ньюз.

Например, приглашение на свою первую стажировку в Facebook AI Research я получил именно благодаря нетворкингу на конференции. В 2018 я выступал на European Conference on Computer Vision с пленарным докладом (фото внизу). После своей презентации я подошел познакомиться с автором заинтересовавшего меня доклада про DensePose от Facebook. Это была Наталия Неверова, которая как раз искала интернов на следующий год. Если бы я к ней не подошел, то и не получил бы приглашение пройти собеседование и не попал бы на стажировку в FAIR.

Так что, друзья, гоняйте на конференции и знакомьтесь - это очень важно!

#конфа #карьера #мойпуть #personal

@ai_newz

18.6K viewsedited 10:39

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

ICCV 2023: Экспо и Демки.

На конфе я познакомился c классными парнями из стартапа Zero10. Попробовал на себе их демо по AR виртуальной примерке. Больше всего понравилось размахивать цепями😃.

С дивана, в этой демке оценивается 3D поза c помощью фитинга SMPL и накладывается отсмаштабированная мешь одежды поверх меши SMPL. Плюс к этому легкая симуляция движения меши при движении человека.

Парни делают AR виртуальную примерку и устанавливают AR-зеркала в торговых центрах. Например, на последнем видео - партнерство с Nike.

#конфа #personal

@ai_newz

21.5K viewsedited 14:00

эйай ньюз

На каждой крупной конференции выбираются несколько лучших статей и им вручают "призы". Обычно это статьи, которые перевернули область с ног на голову, либо те, что имеют потенциал очень сильно повлиять на ход будущих исследований. Еще отдельно выделяют лучшую статью, где первый автор - студет (включая аспирантов). #конфа

В этом году на ICCV 2023 победили следующие работы.

1️⃣ Лучшие статьи:
- ControlNet [Stanford]
- Passive Ultra-Wideband Single-Photon Imaging [UoT]

2️⃣ Почетное упоминание - Segment Anything (SAM) [Meta AI]

3️⃣ Лучшая студенческая статья - Tracking Everything Everywhere All At Once [Cornell + Berkeley + Google]

---

В разные года выбор лучших статей у меня вызывал сомнения, но ControlNet, хоть и технически простой, это действительно заслужил. От появляния на arxiv в феврале, до публикации на ICCV работа успела набрать 24k звезд на гитхабе, >300 цитирований, и используется в сотнях пет-проектах с SD.

SAM - тут просто без коментариев, работа супер влиятельная.

Tracking Everything - Универсальный трекер. Тоже крутая работа, по духу да и по названию похожа на Segment Anything.

Про Single-Photon Imaging ничего сказать не могу, не моя тема совсем. Разве что, коммиссия любит выбирать что-то неортодоксальное, но потенциально с большим импактом.

@ai_newz

18.3K viewsedited 12:48

эйай ньюз

Купил билеты на ECCV, которая пройдет в конце сентября в Милане.

European Conference on Computer Vision или ECCV – это топовая конференция по компьютерному зрению. Она проходит раз в два года, обычно в Европе. Но 2020 конфа была в Израиле, мне тогда там очень понравилось (пост1, пост2).

Билеты в кармане, так что теперь я точно в деле! Будем устраивать тусы, как я обычно это делаю на конференциях.

Ведь одна из основных целей посещения конференций для меня, если не самая главная – это нетворкинг (пост про это)!

Кто-то из вас тоже планирует поехать?

#конфа
@ai_newz

18.4K viewsedited 19:02

эйай ньюз

Уже мчусь на поезде в Милан, чтобы завтра пойти на конференцию ECCV24. Впереди много классных докладов и нетворкинга!

И уже создал чат, буду организовывать тусы - это то, что я особенно люблю во время конференций. Залетайте: https://t.iss.one/+ovvnxsSwBXkzMzky

---

На завтра я для себя выбрал следующие туториалы и воркшопы.

Туториалы:
- Large Multimodal Foundation Models - на доклады Джитендры и Тревора Дарела грех не пойти
- Efficient Text-to-Image and Text-to-3D modeling - будет интересный доклад про Parallel decoding for token-based image generation 11:30-12:00

Воркшопы:
- AI for Visual Arts Workshop and Challenges - Мне это близко, так как много над этой темой работал во время PhD. А в 09:30 будет выступать мой доктор-батя Бьёрн Оммер, надо сходить.

- The Second Perception Test Challenge - В 10:15-10:45 выступает Abhinav Gupta из CMU, всегда нравятся его доклады.

- 50SFM:Half-century of Structure-from-Motion - SFM алгоритму уже почти пол века, хочу пойти на доклад "A historical review of SfM - 300 years and counting" (14:30 - 15:00) или "My 30-year journey with SfM" (16:00 - 16:30) от Марка Полифейса.

- Self-Supervised Learning - What is next? - организует мой товарищ Миша Доркенвальд, и тема из моего PhD. "Vision Foundation Models (with academic compute)" 11:55-12:30

- Efficient Deep Learning for Foundation Models - очень класный лайнап докладов (14:10-5:40) по интересной мне теме.

- 3rd edition of Computer Vision for Metaverse - наша команда ко-организует.

- Autonomous Vehicles meet Multimodal Foundation Models - заскочить посмотреть, как VLLM пытаются использовать в автономном вождении и как справляются с длинном хвостом распределения редких объектов.

- Workshop on Unlearning and Model Editing - интересный докдлад про контроль генерации диффузией "Prompt Sliders for Fine-Grained Control, Editing and Erasing of Concepts in Diffusion Models" в 15:10-15:30

#personal #конфа
@ai_newz

22.0K views11:17

эйай ньюз

Вчера собралась тусовка с ребятами из нашего ECCV чата. Я забронил итальянский рест недалеко от конференции, за вином и пастой очень здорово шла беседа.

Каждый раз радуюсь, какое же крутое комьюнити у нас образовалось за последние несколько лет! Все с кем вчера удалось пообщаться очень классные, крутые в своем деле, и в тоже время веселые ребята. Среди нас были и сайнтисты, и PhD студенты, и магистранты со статьями, и стартаперы, и C-левел чуваки, и VC инвесторы, и AI инженеры.

А после ужина было ещё афтерпати в баре с говорящим названием "Академия", не смотря на то что в Милане в вск все довольно рано закрывается) там тоже обсуждались важные вопросы – каково оно работать в академии 🍻, и какая окрошка вкуснее на квасе или на кефире.

Ну, а сейчас я уже опять на докладах, мой фаворит сегодня – воркшоп Knowledge in Generative Models.

Напишите в комментах, что бы вам хотелось, чтобы я транслировал с конференции.

#конфа
@ai_newz

22.5K views11:42

эйай ньюз

Media is too big

VIEW IN TELEGRAM

Заснял как китайцы (unitree) показывают новую зверюгу на ECCV. Может и бегать, и ездить – удобно!

На нём человек может даже проехать верхом, робот выдерживает до 100 кг.

А внутри у него – видюха Nvidia Jetson Xavier NX, разработанная специально чтобы устанавливаться на роботов и всякие автономные давайсы.

Робопсом Спотом от Boston Dynamics уже никого не удивить, мы видим, что выходят все более и более навороченные зверюги.

#конфа
@ai_newz

20.6K views12:35

эйай ньюз

эйай ньюз

Заснял как китайцы (unitree) показывают новую зверюгу на ECCV. Может и бегать, и ездить – удобно! На нём человек может даже проехать верхом, робот выдерживает до 100 кг. А внутри у него – видюха Nvidia Jetson Xavier NX, разработанная специально чтобы устанавливаться…

This media is not supported in your browser

VIEW IN TELEGRAM

Вот так он людей катает, ещё и на двух ногах умеет – увидите, если досмотрите до конца.

Спасибо подписчику за видео.

#конфа
@ai_newz

21.0K viewsedited 12:50

эйай ньюз

эйай ньюз

Загадочная Blueberry 🫐 рвёт всех на Text to Image арене На арене засветилось две новые модели на уровне SOTA. Кто их натренировал - непонятно. У обеих ELO выше чем у остальных моделей на арене, но из-за малого размера выборки позиции могут ещё слегка поменяться.…

Загадочная модель Blueberry 🫐 оказалась новой версией Flux 1.1 [pro] от парней из Black Forest Labs.

Во время презентации статьи LADD (пост с разбором) один из авторов выдал эксклюзив и сказал, что Flux 1.1 зарелизят уже сегодня!

#конфа
@ai_newz

21.0K views13:51

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

На этой неделе происходило так много всего, что я не успевал обо всем постить. Навёрстываем.

В четверг я уехал с ECCV, на день раньше официального окончания. Я спешил на другой ивент.

Как только вернулся из Милана назад в Цюрих, сразу нужно было идти выступать на другую крупную конференцию – AI+X саммит. Это конфа, которую организует ETH AI Center, и где представлены ведущие Цюрихское научные AI лабы, стартапы и компании.

Было много про Computer Vision и Robotics (чем Цюрих особенно славится), а также AI в медицине и финансах.

Я выступал с докладом "Imagine Flash": Meta's real-time text-to-image synthesis diffusion model (пост про модель).

А затем меня пригласили на панельную дискуссию в треке Human-Centric Computing in the Age of AI Track. На панели также был Federico Tombari, Senior Staff Research Scientist из Цюрихского Гугла, и местные профессора.

Забавно что на панельной дискуссии со мной также сидел мой научный дед – Prof. Joachim Buhmann из ETH. В немецкоязычном научном мире есть такое понятие как Doktorvater (рус. Научный Отец) - это научник, у которого вы написали PhD. Так вот мой научник Björn Ommer писал диссер у Joachim Buhmann, поэтому Joachim получается моим научным дедом. Когда это выяснилось во время дискуссии, мы здорово посмеялись, что на конфе собралось наших 3 научных поколения, тем более Бьёрн в это время выступал в соседнем зале)

Но на этом насыщенная неделя не закончилась. Продолжение в следующем посте.

#personal #конфа
@ai_newz

22.6K views10:09

эйай ньюз

Пришли ревью с ICLR. Мы получили отличные рецензии! Но как всегда есть тот самый Reviewer #2, который порет какую-то фигню.

С поддержкой остальных ревьюеров, думаю, мы легко сможем опровергнуть R2, и, надеюсь, статья будет принята.

Что за статья пока точно сказать не могу :) Могу только сказать, что она про LLM.

А как ваши ревью, если сабмитили?

#конфа #резерч
@ai_newz

21.6K viewsedited 23:40