KaravAI
520 subscribers
28 photos
9 videos
25 links
Личный блог Никиты Караева @nikitakaraev
PhD в Meta AI и Оксфорде 🤖

https://www.linkedin.com/in/nikitakaraev/
Download Telegram
Контент на 14 февраля, который мы заслужили.

Недавно я задался вопросом — а можно ли при помощи генеративного AI сделать из 10-15 фото пары с одной фотосессии сколько угодно новых фото с той же фотосессии, чтобы минимизировать страдания время съёмки и максимизировать результат.

Я обучил Stable Diffusion с DreamBooth (то, что делает Lensa) на нашей с @senyatut недавней фотосессии. Обычно сетку обучают на одном человеке как на одном объекте, я же попробовал использовать пару как объект.

Что бы вы думали, результат не заставил себя ждать: пары азиатов и трехруких маньяков были успешно сгенерированы!
Мою первую статью на PhD приняли на CVPR!
Здесь я писал, что такое CVPR и почему это круто.

В этой статье мы:
1. Создали синтетический датасет с 3д моделями животных и людей в офисах фейсбука (пример в первом видео, типичная ситуация в офисе).

2. Предложили метод для предсказания глубины по стерео видео (симуляция бинокулярного зрения, видео с двух камер, как на втором видео)

3. Обучили модель на нашем датасете и показали, что она дает более точные и консистентные во времени предсказания, чем прошлые модели. На последнем видео показана наша 3д-реконструкция, которую мы рендерим с разных точек для 3д-эффекта.

Я начал делать сайт проекта, на котором есть больше деталей, но пока нет ссылки на код и на саму статью:
https://dynamic-stereo.github.io

Если есть фидбэк или любые вопросы, вэлком в комменты или в лс!
На прошлой неделе Мета объявила о новой команде в генеративном AI. Мы в том числе попали в эту команду, так что генерация — это теперь основное направление, которое мы будем исследовать.

У меня давно чесались руки разобраться с деталями диффузионных моделей и пообучать их. Недавно искал ресурсы для быстрого погружения в область и наткнулся на открытый курс от Hugging face 🤗 с их библиотекой Diffusers.

Мне очень зашло! Можно посмотреть выжимку по теории и пообучать свои модели в Google Colab, экспериментируя с ними за счет гугла. Последний модуль курса вышел всего месяц назад. Очень советую, если вы тоже нуб в диффузии.

А пока пытаюсь побыстрее закончить с текущим проектом, чтобы перейти к генерации 😍

———
Картинки сгенерированы Stable Diffusion по промпту:
« Generative AI at Facebook »
Только что вернулся после почти месяца треккинга в Непале. Мы поднялись в Everest Base Camp (5360m) и на Kala Patthar (5650m). После такого отдыха нужен еще отдых, но я все же отдохнул от бесконечной AI-гонки.

Перед отъездом у меня было ощущение, что все в индустрии меняется каждую неделю и за этими изменениями невозможно угнаться, теперь стало поспокойнее.

Сейчас с новыми силами возьмусь за работу и буду пушить следующую статью на конференцию NeurIPS, ведь дедлайн через две недели!
Наткнулся на интересную статью, которую слили из гугла. Похоже, что гугл проиграл AI-гонку. Что более интересно, они считают, что Open AI ее тоже проигрывает. Все дело в open source моделях.

Что именно произошло?
Недавно в открытом доступе появилась Large Language Model (LLaMa), которую комьюнити начало поспешно улучшать. Так как стоимость улучшений сейчас ничтожна по сравнению с обучением такой модели с нуля, новые улучшенные модели стали выходить по несколько раз в неделю.

Одно улучшение наложилось на другое и вот уже есть опен сорс модели по качеству близкие к ChatGPT. И это только начало (прошло всего два месяца!)

Гугл считает, что за комьюнити угнаться уже невозможно и что ChatGPT вероятно ждет та же участь, что и модели Dall-E от Open AI, которые канули в небытие после выхода Stable Diffusion.

———
Картинка сгенерирована Stable Diffusion по промпту:
« Google lost the AI race »
В жизни Computer Vision исследователя каждый год есть два периода, когда начинает подгорать🔥 — ноябрь (дедлайн конференции CVPR) и март-май (ICCV, NeurIPS).

Вчера вечером мы отправили статью на NeurIPS, где я — первый автор.
Интересный факт: конференция раньше называлась NIPS, но ее решили переименовать из-за сходства с nipples (соски).

Как обычно, в последнюю неделю было очень много стресса и очень мало сна, но мы успели: последний апдейт я сделал за минуту до дедлайна 🤯

Хоть я и доволен этой статьей, я заметил, что в ресерче никогда не бываешь полностью удовлетворен результатом: всегда хочется еще что-то улучшить и доделать, будь то алгоритм или сама статья, но важно вовремя остановиться. Дедлайн в помощь.

Еще через неделю надо отправить дополнительный материал и можно будет насладиться законным отдыхом 😎и спокойно почитать статьи без ощущения нависшего дедлайна.
Похоже, что французы решили создать конкурента Open AI.

Оба основателя — инженеры из École Polytechnique (программа, на которой я учился в Париже).
После этого Guillaume Lample провел в парижском FAIR 6 лет: сначала как PhD студент, потом как Research Scientist. Он же — соавтор LLaMa, о которой я писал здесь.
Arthur Mensch сделал PhD в Париже и провел 3 года, работая Research Scientist в DeepMind.

Интересно, что с учетом инвестиций, о которых идет речь (80kk$), они явно собираются обучать свои модели с нуля. Думаю, что с учетом опыта основателей стартап выглядит многообещающе.

Однако инвестиции на начальном этапе — это конечно не гарант будущего успеха стартапа: стоит вспомнить тот же Magic Leap, который пытался сделать AR-очки и поднял сотни миллионов до выхода первого продукта. В итоге они продали всего 6000 устройств за полгода.
Я давно следил за компанией Synthesia: ни у кого больше не видел сгенерированных говорящих голов такого качества.🧑🏻‍💼

Вчера они подняли очередной раунд инвестиций в 90M$, что технически сделало их единорогом (компанией с оценкой в миллиард $)

Exciting times!

https://twitter.com/lourdesagapito/status/1668614754242527242?s=46&t=F3SY_P9IMTUhEttbJfLjYw
Сейчас в Ванкувере проходит CVPR 2023, крупнейшая конференция по Computer Vision и заодно по Computer Science.

Вчера я тут представил свою первую статью на PhD, где мы показали демо наших 3D реконструкций в Meta Quest Pro 🥽 Ресерчеры заценили!

CVPR продолжает расти и уже чисто физически сложно обойти все постеры за три дня: за каждую двухчасовую сессию одновременно презентуют 400 работ, это размер всей конференции 10 лет назад 🤯
В сети появился питч-дек гугл-док французского стартапа Mistral AI, который собирается конкурировать с OpenAI. Здесь я писал про их раунд инвестиций в 100M$.

В питче они делают упор на следующие вещи:

1. Рынок Generative AI вырастет в 10 раз до 2030 года.

2. Появилось очень много стартапов, которые используют ChatGPT. Однако Mistral считает, что основная ценность будет в создании самой технологии, а не ее использовании.

3. Бизнесы не захотят использовать модели типо ChatGPT из-за их закрытости. Компаниям важно иметь доступ к модели, чтобы обрабатывать приватные данные. Кроме того, важно знать, на каких данных модель обучена.

4. Очень мало людей в мире сейчас знают, как обучить языковые модели. Команда стартапа обучала их в Meta AI и DeepMind.

5. Mistral сфокусируется на европейском рынке и создаст в первую очередь европейского игрока.
Вчера стало известно, что MosaicML, AI-стартап из 60 человек, покупают за 1.3B$. Что же такого сделал этот стартап, спросите вы?

Они как раз решают проблему 3 из поста выше — персонализируют языковые модели для компаний и позволяют им обучать свои модели на своих данных.

Возможно, это не самый простой способ заработать 20М на человека, но звучит неплохо 🤔

https://techcrunch.com/2023/06/26/databricks-picks-up-mosaicml-an-openai-competitor-for-1-3b/
⚡️ Meta AI только что зарелизила модель LLaMa 2, которая теперь еще и доступна для коммерческого использования!

Первая модель LLaMa и так навела много шума (я писал о ней тут) и за несколько месяцев стала go-to языковой моделью в коммьюнити, а теперь на ее основе еще и можно будет создавать продукты!

https://ai.meta.com/llama/
Media is too big
VIEW IN TELEGRAM
🎉 На прошлой неделе мы наконец зарелизили проект, над которым я работал полгода!

Мы задизайнили модель для трекинга любого пикселя на видео.

Cайт проекта ➡️ co-tracker.github.io
Код ➡️ github.com/facebookresearch/co-tracker

Модель трекает одновременно от одного до нескольких тысяч пикселей даже через окклюжены (когда пиксель не виден из-за перекрытия другим объектом или выхода за границы) и работает сильно лучше, чем бейзлайн методы.

Мы собирались релизить метод в июне, но за неделю до этого дипмайнд зарелизил свой похожий метод для трекинга с результатами чуть лучше наших 🤯

Мне пришлось потратить несколько недель, чтобы улучшить алгоритм и частично переписать статью перед релизом, но похоже, что оно того стоило!

У нас получилось попасть в топ “trending research” на
https://paperswithcode.com

Чтобы там оставаться, нужно постоянно получать звезды на гитхабе. Так что буду благодарен звезде , это мне очень поможет! Звезду можно поставить здесь.
На прошлой неделе мы зарелизили мою последнюю статью на PhD - CoTracker3, следующую версию модели для трекинга точек на видео CoTracker (не спрашивайте где CoTracker2 - мы сами не поняли).

TLDR такой: мы сильно упростили архитектуру модели и дообучили ее на реальных видео с помощью псевдо-лейблинга другими моделями (прошлая модель обучена только на синтетических данных). У нас получилось обойти конкурирующую модель от DeepMind с X1000 раз меньше реальных видео, чему мой научрук был очень рад.

Нас даже успели потроллить по поводу того, что мы сами не знаем, кому и зачем эта модель нужна. Изначально это было слабо понятно, сейчас чуть лучше - трекинг точек оказался полезным для обучения роботов с помощью imitation learning. Тут, тут и тут используют нашу первую модель как раз для этого. Еще одно неожиданное применение - контролируемая видео генерация: раз, два, три.

https://www.linkedin.com/feed/update/urn:li:activity:7252361677868826624/?actorCompanyId=35482514
Также неделю назад был мой последний день в Мета (я ушел спустя 2 года и 9 месяцев, хотя контракт у меня был на 4 года). Я недавно рассказывал об этой PhD программе в нашем стриме с Артемом и Настей.

Я ушел, потому что давно хотел стартануть компанию, а тут появилась хорошая возможность и мы с кофаундером Юрой решили как можно быстрее доделать нашу статью в Мете и уйти в свободное плаванье.

С PhD я буду выпускаться в следующем году, а пока мы с Юрой пару месяцев поиграем в доту порефлексируем и будем готовиться к нашей январской поездке в Сан Франциско (мы прошли в топовый акселератор, расскажу об этом подробнее, как только до нас дойдет барсетка с кэшем).
Сейчас Мета активно набирает на PhD программу, которую я заканчиваю.
В недавнем стриме мы обсуждали как на нее попасть, а также ее плюсы и минусы. Вот выжимка того, что мы обсудили на этот счет:

Как попасть на PhD в Meta?
- Статьи. Большим плюсом будет наличие статей на топ конфах (NeurIPS, CVPR, ICLR,...), но у меня их на момент подачи не было. С каждым годом усиливается ощущение, что без статей теперь уж совсем никак не попасть на хорошее PhD, и так уже лет 8, а людей без статей все равно берут.

- Нетворкинг. Если подаваться без статей, стоит писать конкретному человеку, с которым хотите работать, как сделал я. Я познакомился со своим будущим менеджером на конференции, где она выступала, и спросил ее про стажировки и PhD. Затем я написал ей письмо, и это сработало - меня позвали на собесы. Многие из PhD студентов в Meta прошли туда благодаря нетворкингу, в том числе парижские студенты Яна Лекана (не ЛекУна!), которых ему порекомендовали их преподаватели во время учебы.

- Open source проекты. При подаче без статей крайне желательно иметь свои опенсорсные проекты или контрибьютить куда-то. Хоть у меня и не было статей, в свое время я реализовал и выложил на гитхаб сетку для классификации пойнт клаудов, а также написал туториал по ее имплементации на медуме. Проект тогда собрал 200 звезд на гитхабе. Не знаю, как это повлияло, но думаю, что такие проекты повышают шансы получить собес. Соревнования на Kaggle тоже могут быть хорошей практикой и строчкой в резюме.

В следующем посте расскажу про плюсы и минусы по сравнению с обычным PhD.