KaravAI
517 subscribers
28 photos
9 videos
25 links
Личный блог Никиты Караева @nikitakaraev
PhD в Meta AI и Оксфорде 🤖

https://www.linkedin.com/in/nikitakaraev/
Download Telegram
Держите подборку мемов со стены нашей лабы в Оксфорде🤖
Как можно поучаствовать в текущей AI-революции?
О позициях в индустриальном AI ресерче.


В индустриальных AI-лабах (OpenAI, DeepMind, Meta AI, Google Brain) существует две основных роли: Research Scientist (Исследователь) и Research Engineer (Инженер)

Исследователи должны понимать, как создать AGI как работают state-of-the-art алгоритмы, какие у них есть проблемы и как эти проблемы можно решить. Главный фокус исследователей обычно на том, чтобы двигать науку и публиковаться. Оценивают их соответственно по научному влиянию на компанию и на область. Насколько я знаю, DeepMind и Meta AI нанимают на эту позицию после PhD (с редкими исключениями). OpenAI, Google Brain и стартапы чаще берут исследователей без PhD, но с PhD туда все равно будет попасть проще.

Основной фокус инженеров — создание инфраструктуры для исследований, обработка данных и скейлинг моделей, иногда демки. Инженеры могут заниматься тем же, чем исследователи и оценивать их могут как по научному вкладу, так и по инженерному. Однако на практике инженеры сначала делают то, что нужно команде и пишут статьи уже в оставшееся время (если такое вообще есть). Для этой роли PhD иметь не обязательно ни в одной лабе, хотя оно есть у многих инженеров в Meta AI, например.

Так что если вы хотите создавать и обучать новые модели в крутых AI лабах, двигая наше понимание области, вполне можно обойтись без PhD. Хороший вариант — пойти на инженера, предварительно получив опыт в машинном обучении через стажировки или работу.

Если же вы уверены, что хотите стать исследователем, покопаться в кишках AI и погрузиться в одну проблему на несколько лет, есть смысл задуматься о PhD, особенно если есть вариант это делать совместно с индустриальной AI лабой. (Как моя текущая программа)

Цель этой программы — выбрать проблему на 3-4 года и двигаться к ее решению, параллельно публикуя статьи на топ конференциях и принося пользу компании и научному сообществу.

По моему совершенно непредвзятому мнению это один из лучших способов войти в серьезный AI ресерч. Это шанс познакомиться с наукой как в академии, так и в индустрии и взять лучшее от обоих миров.
В Meta AI эта роль называется Research Assistant. (Ассистент)
На практике я ношу кофе серьёзным ресерчерам занимаюсь тем же, чем Research Scientist, только с меньшей привязкой к целям моей команды.
Когда я только пришел в Meta AI (тогда еще Facebook AI Research), я наивно полагал, что уж тут-то у ресерчеров все проекты всегда готовы задолго до дедлайна. Оказалось, что это не совсем так.

Работа ресерчера во многом состоит в том, чтобы публиковаться. Считается крутым опубликовать свою статью на конференции, потому что это показатель качества работы: только 20% статей проходят отбор.

У конференций есть дедлайны. И огромная часть работы делается прямо перед дедлайном (прямо как в универе перед сессией). Это происходит, так как все пытаются до последнего выжать из своих методов максимум и получить заветные +0.1% на имэджнете, чтобы времени осталось ровно на написание статьи.
Сама статья часто пишется в последние пару недель, а иногда и в последние пару дней. Конечно круто, когда все готово и написано за неделю до дедлайна, но на практике это бывает довольно редко.

Мой первый такой серьезный дедлайн был в ноябре 2022 в 9 утра субботы (конференция CVPR). Я пришел в офис в пятницу утром, провел 20 часов перед компом и ушел почти через сутки — в субботу утром. Вместе со мной до утра сидела почти вся наша команда, а многие еще и ушли позже меня. Больше не хочу это повторять, но похоже, что это неизбежно 😀

Отправленная на конференцию статья проверяется коллегами учеными, которые пишут на нее рецензии. По результатам этих рецензий принимается решение, брать ли статью на конференцию.

Завтра выйдут рецензии на работу, которую мы отправили в ноябре🙀 У нас будет ровно неделя, чтобы отбиться от ревьюеров и показать, почему нашу статью стоит принять.

А через 40 дней будет уже следующий дедлайн для отправки работ (конференция ICCV)
Сейчас все опять потихоньку начинают ускоряться, чтобы успеть что-то отправить. А дальше опять все по кругу. Вот так и проходит большая часть работы AI ресерчера.

Бонус — How to write a good CVPR submission
Создатель известной ML библиотеки Ф. Шолле считает, что не существует одной задачи, решение которой позволит нам получить настоящий искусственный интеллект. Ни шахматы, ни го, ни предсказание следующего слова (привет, ChatGPT), ни даже классификация котиков не породят AGI, так как интеллект — это мера эффективности системы на разных задачах. Алгоритм должен оптимизироваться под обобщение (но как это сделать?), чтобы справляться с любыми новыми задачами.

Шолле даже создал бенчмарк, который измеряет интеллект системы. Бенчмарк очень похож на IQ тест для алгоритмов. Чтобы проверить, что этот тест нельзя обмануть, три года назад он запустил соревнование, в котором мы поучаствовали.

Никто из участников конечно же не смог написать достаточно общий алгоритм, чтобы решить большинство задач. Все пытались угадать, какие задачи в тест сете и скомбинировать решение из решений задач определенного типа. Победитель в итоге решил 20/100, мы остановились на 3/100, что позволило получить серебро 😀
Неделю назад Ф. Шолле запустил новое соревнование по этому бенчмарку с призовым фондом в 70к франков, настоящий шанс поучаствовать в создании AGI 🤖
Контент на 14 февраля, который мы заслужили.

Недавно я задался вопросом — а можно ли при помощи генеративного AI сделать из 10-15 фото пары с одной фотосессии сколько угодно новых фото с той же фотосессии, чтобы минимизировать страдания время съёмки и максимизировать результат.

Я обучил Stable Diffusion с DreamBooth (то, что делает Lensa) на нашей с @senyatut недавней фотосессии. Обычно сетку обучают на одном человеке как на одном объекте, я же попробовал использовать пару как объект.

Что бы вы думали, результат не заставил себя ждать: пары азиатов и трехруких маньяков были успешно сгенерированы!
Мою первую статью на PhD приняли на CVPR!
Здесь я писал, что такое CVPR и почему это круто.

В этой статье мы:
1. Создали синтетический датасет с 3д моделями животных и людей в офисах фейсбука (пример в первом видео, типичная ситуация в офисе).

2. Предложили метод для предсказания глубины по стерео видео (симуляция бинокулярного зрения, видео с двух камер, как на втором видео)

3. Обучили модель на нашем датасете и показали, что она дает более точные и консистентные во времени предсказания, чем прошлые модели. На последнем видео показана наша 3д-реконструкция, которую мы рендерим с разных точек для 3д-эффекта.

Я начал делать сайт проекта, на котором есть больше деталей, но пока нет ссылки на код и на саму статью:
https://dynamic-stereo.github.io

Если есть фидбэк или любые вопросы, вэлком в комменты или в лс!