эйай ньюз
73.4K subscribers
1.63K photos
869 videos
7 files
1.95K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Ох, свершилось. Кто-то наконец-то сделал виртуальную примерочную. И не кто-то, а Google.

Над этой проблемой бились долго, и много стартапов полегло. А тут взяли диффузию, на вход – фото человека, вместо текстового промпта – фото целевой одежды, джынь-брынь и готово! На выходе получаем человека, переодетого в заданную одежду.

Попробовать можно прямо в Google Shopping

Кстати, примерно 2.5 года назад гугл выпустил похожий продукт — виртуальную примерку помад.

А вот ещё подборка постов, где я писал про попытки сделать виртуальную примерку а помощью ГАНов (это технология для генерации картинок, которая была актуальна до прихода диффузионок). Можете проследить, как сильно результаты улучшились всего за 2 года:
https://t.iss.one/ai_newz/60
https://t.iss.one/ai_newz/694
https://t.iss.one/ai_newz/733
https://t.iss.one/ai_newz/914


Сайт проекта (CVPR 2023)
Блогпост

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
CVPR 2023

Друзья, прямо сейчас я загружаюсь в самолёт и лечу на крупнейшую конференцию в мире — CVPR 2023 (Conference on Computer Vision and Pattern Recognition). Длится она целую неделю и ожидается порядка 10,000 участников. А в первый раз ее провели в1983 г.

На конференции одна из главных для меня вещей — это общение и знакомства. Для этого компании каждый день организуют свои тусовки. Ну, и конечно я буду посещать избранные доклады и постерные сессии, чтобы поговорить с авторами статей. Кроме того, я буду презентовать и свою статью Avatars Grow Legs!

Сделать канадскую визу для меня как и для многих других было отдельным приключением, и только вчера я смог забрать паспорт с заветной наклейкой.

А тех из вас, кто не попал на конфу, я постараюсь взять с собой виртуально и буду показывать самые интересные моменты с места событий.

Расскажите, чтобы бы вы больше всего хотели увидеть на конференции, и о чем мне рассказать. Напишите в комментах.

Если хотите пересечься в Ванкувере — тоже пишите.

@ai_newz
Нетворкинг на CVPR 2023

Друзья, у нас тут намечается критическая масса в Ванкувере. Поэтому я создал чатик для организации встреч. Добавляйтесь, если вы тоже тут.

https://t.iss.one/+mjlZoGcsH0dkNGMy

@ai_newz
Пока я летел до Ванкувера, слушал подкаст с Yoshua Bengio. Это канадский профессор, ещё один отец-основатель Глубокого Обучения, помимо Яна ЛеКуна и Джефа Хинтона.

Иошуа поговорил про большие языковые модели и высокоуровневое мышление. Очень интересно было послушать про ботлнек сознания человека — мы можем активно держать в уме только небольшое количество переменных, что концептуально сильно отличается от того как сейчас работают Deep Learning модели. С одной стороны, это ограничивает мощность человеческого мышления. С другой стороны это очень полезный регуляризатор, который, возможно, и позволил человеческому мозгу так быстро развиться в процессе эволюции и "заставил" человека учиться оперировать высокоуровневыми концептами.

Иошуа рассуждает о том, как было бы круто добавить такой индуктивный байес в обучение нейросетей и подводит к тому, что текущие авторегрессионные модели (как, например GPT-4) — это не совсем то, что может обрести интеллект равный человеческому. Он говорит, что не масштабированием единым мы достигнем AGI, и что нам предстоит ещё много чего концептуально улучшить в текущий моделях.

Ещё он много раз ссылается на свои недавние работы, где он со студентами пытается развивать новый тип моделей — Generative Flow Networks (GFlowNets). Я о них впервые услышал только в том подкасте, думаю стоит разобраться, что за они.

Уровень сложности подкаста — выше среднего. Но все равно очень рекомендую к прослушиванию.

Spotify | YouTube

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
CVPR День первый: воркшопы и туториалы

Держу вас в курсе. Начался первый день конфы.

Я уже посетил Efficient Neutral Network воркшоп от Снепа. Послушал про эффективные архитектуры трансформеров для мобилок и про SnapFusion — ускоренную Stable Diffusion для мобил. Ребята достигли скорости 1.9 сек 🔥 за картинку на iPhone 14.

Сейчас зашёл на туториал по диффузионным моделям. Это по сути развитие туториала с CVPR 2022, о котором я много раз писал. Очень классная штука, советую. Надеюсь, они выложат записи на ютуб.

#конфа
@ai_newz
А вот несколько слайдов с доклада "Efficient Text-to-Image Generation", где Снэп рассказывал про свою работу по ускорению Stable Diffusion.

Плюс демка, где они запускали генерации на телефоне.

Модель уменьшили, ускорили, дистиллировали и сконвертировали в Apple CoreML. Во время инференса использовали 8 шагов с DDIM семплером. Скорость генерации 1.9—2.0 сек / картинка на iPhone 14.

Представьте только. На GPU 50 шагов DDIM оригинальной Stable Diffusion в разрешении 512×512 работает примерно 1.7 сек. А тут сделали на мобиле почти за такое же время и без потери в качестве!

Сайт проекта SnapFusion

#конфа
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
CVPR День второй: воркшопы и туториалы

Словили Эндрю Ына в коридоре. Он несколько часов со всеми фоткался и отвечал на вопросы. Кажется, благодаря своим курсам по ML/DL, он стал даже более известным чем Хинтон, ЛеКун или Бенжио.

Сегодня моя команда огранизовывала воркшоп Efficient Deep Learning for Computer Vision. Вот пара понравившихся статей оттуда:
FastComposer. Метод для генерации людей по заданному текстовому промпту и референсным фоткам. Не требует дорогого файнтюнинга, как например Dreambooth и может генерить сразу несколько персон на одном фото.
DIME-FM: Distilling Multimodal and Efficient Foundation Models. Дистилляция фундаментальных Visual-Language моделей, которая требует меньше данных и в 10 раз меньше ресурсов чем оригинальные модели (например, дистиллировали CLIP).

Ещё заглянул на воркшоп про Egocentric Vision. Послушал доклад от Kristen Grauman: в недавней работе про Ego-exo video alignment они учили энкодер мэтчить кадры между видео от первого лица и видео с внешних камер.

#personal #конфа
@ai_newz
Сегодня был ещё на офигенном воркшопе Visual Pre-Training for Robotics.

Великий исследователь в области визуального восприятия Джеймс Гибсон сказал знаменитую фразу: «Мы видим, чтобы двигаться, и мы двигаемся, чтобы видеть». Но можем ли мы научиться видеть, прежде чем научимся двигаться? И как далеко мы сможем продвинуться, если сначала научимся видеть? — Так описывается этот воркшоп.

Было много классных докладов про применения компьютерного зрения и претренировки моделей на визуальных задачах перед тем как использовать их на задачах робототехники, например для планирования и управления роботами.

Особенно понравился доклад Сергея Левина про то, как они делают претрейн модели с offline RL на видеоданных, собранных с разных роботов (от машинок до квадрокоптера), а затем файнтюнят с помощью online policy learning. В итоге модель обобщается на нового робота и новое окружение всего за 20 мин. Это впечатляюще быстро!

Подробности в статье FastRLAP.

Постараюсь достать запись докладов для вас.

#конфа
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня в 10:30-12:30 по канадскому я буду презентовать наш постер Avatars Grow Legs

Узнаете как восстанавливать последовательность 3D поз человека в движении, зная только позицию головы и запястий (например во время игры в VR).

Постер #46, приходите поболтать если вы на CVPR. #конфа

❱❱ Подробный пост про статью.

@ai_newz
Media is too big
VIEW IN TELEGRAM
CVPR день третий: основная конференция, постеры и экспо

Сейчас готовлюсь к презентации постера, прошелся для вас по экспо со стендами компаний пока не набежала толпа.

Тут будут ходить тучи народа через 30 минут.

#конфа #personal
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Qualcomm запилили квантизацию для Stable Diffusion и запихнули ее на телефон с процессором Snapdragon. Я поговорил с их ресерчерами.

Работает прилично, но не молниеносно – 13 сек на картинку (20 шагов DPM++).

Int8 квантизация для весов и int16 для активаций.

Все это зарелизили как часть своего AI Engine SDK. Говорят, что их код можно использовать и для квантизации под GPU.

У снэпа получилось быстрее, но у них и трюков больше, и телефон мощнее плюс юзают Apple CoreML.

#конфа
@ai_newz
Media is too big
VIEW IN TELEGRAM
CVPR день четвертый: доклады, постеры и демо 🤖

Я сегодня дежурю на стенде Meta AI, болтаю с посетителями, рассказываю про наши работы.

Тем временем коллеги из команды робототехники показывают демо с робопёсиком Спотом, которого научили навигироваться в неизвестном пространстве (то есть у него нет карты помещения) и выполнять различные команды. Например собрать мягкие игрушки в комнате и закинуть их в корзину, как показано на видео. Он сам планирует, находит предметы и переносит их. И самое крутое — это то, что он был обучен только на синтетических данных.

К пёсику прикрутили языковую модель, что позволяет командовать им на английском языке (про похожую интеграцию GPT в Спота от компании Levatas я писал раньше тут).

Некоторые подробности про то, как этого пёсика дрессировали есть в блогпосте.

Как же классно, если есть возможность посмотреть как натренированные тобой нейронки работают в физическом мире. Жаль, я не занимаюсь робототехникой.

#конфа #карьера
@ai_newz
Утекли подробности про GPT-4.

Говорят, что это смесь из 8 экспертов, каждый по 220 млрд параметров. То есть в сумме 1.760 триллиона параметров! Соумит Чинтала (один из создателей PyTorch) тоже подтвердил слух.

Эксперты в этом случае — это просто копии модели GPT, на 220B параметров, которые тренировались отдельно и скорее всего на различных данных.

Во время инференса у них там какие-то хитрые трюки для того, чтобы выбрать ответы каких экспертов выдавать юзеру.

@ai_newz