KaravAI
521 subscribers
28 photos
9 videos
25 links
Личный блог Никиты Караева @nikitakaraev
PhD в Meta AI и Оксфорде 🤖

https://www.linkedin.com/in/nikitakaraev/
Download Telegram
Контент на 14 февраля, который мы заслужили.

Недавно я задался вопросом — а можно ли при помощи генеративного AI сделать из 10-15 фото пары с одной фотосессии сколько угодно новых фото с той же фотосессии, чтобы минимизировать страдания время съёмки и максимизировать результат.

Я обучил Stable Diffusion с DreamBooth (то, что делает Lensa) на нашей с @senyatut недавней фотосессии. Обычно сетку обучают на одном человеке как на одном объекте, я же попробовал использовать пару как объект.

Что бы вы думали, результат не заставил себя ждать: пары азиатов и трехруких маньяков были успешно сгенерированы!
Мою первую статью на PhD приняли на CVPR!
Здесь я писал, что такое CVPR и почему это круто.

В этой статье мы:
1. Создали синтетический датасет с 3д моделями животных и людей в офисах фейсбука (пример в первом видео, типичная ситуация в офисе).

2. Предложили метод для предсказания глубины по стерео видео (симуляция бинокулярного зрения, видео с двух камер, как на втором видео)

3. Обучили модель на нашем датасете и показали, что она дает более точные и консистентные во времени предсказания, чем прошлые модели. На последнем видео показана наша 3д-реконструкция, которую мы рендерим с разных точек для 3д-эффекта.

Я начал делать сайт проекта, на котором есть больше деталей, но пока нет ссылки на код и на саму статью:
https://dynamic-stereo.github.io

Если есть фидбэк или любые вопросы, вэлком в комменты или в лс!
На прошлой неделе Мета объявила о новой команде в генеративном AI. Мы в том числе попали в эту команду, так что генерация — это теперь основное направление, которое мы будем исследовать.

У меня давно чесались руки разобраться с деталями диффузионных моделей и пообучать их. Недавно искал ресурсы для быстрого погружения в область и наткнулся на открытый курс от Hugging face 🤗 с их библиотекой Diffusers.

Мне очень зашло! Можно посмотреть выжимку по теории и пообучать свои модели в Google Colab, экспериментируя с ними за счет гугла. Последний модуль курса вышел всего месяц назад. Очень советую, если вы тоже нуб в диффузии.

А пока пытаюсь побыстрее закончить с текущим проектом, чтобы перейти к генерации 😍

———
Картинки сгенерированы Stable Diffusion по промпту:
« Generative AI at Facebook »
Только что вернулся после почти месяца треккинга в Непале. Мы поднялись в Everest Base Camp (5360m) и на Kala Patthar (5650m). После такого отдыха нужен еще отдых, но я все же отдохнул от бесконечной AI-гонки.

Перед отъездом у меня было ощущение, что все в индустрии меняется каждую неделю и за этими изменениями невозможно угнаться, теперь стало поспокойнее.

Сейчас с новыми силами возьмусь за работу и буду пушить следующую статью на конференцию NeurIPS, ведь дедлайн через две недели!
Наткнулся на интересную статью, которую слили из гугла. Похоже, что гугл проиграл AI-гонку. Что более интересно, они считают, что Open AI ее тоже проигрывает. Все дело в open source моделях.

Что именно произошло?
Недавно в открытом доступе появилась Large Language Model (LLaMa), которую комьюнити начало поспешно улучшать. Так как стоимость улучшений сейчас ничтожна по сравнению с обучением такой модели с нуля, новые улучшенные модели стали выходить по несколько раз в неделю.

Одно улучшение наложилось на другое и вот уже есть опен сорс модели по качеству близкие к ChatGPT. И это только начало (прошло всего два месяца!)

Гугл считает, что за комьюнити угнаться уже невозможно и что ChatGPT вероятно ждет та же участь, что и модели Dall-E от Open AI, которые канули в небытие после выхода Stable Diffusion.

———
Картинка сгенерирована Stable Diffusion по промпту:
« Google lost the AI race »
В жизни Computer Vision исследователя каждый год есть два периода, когда начинает подгорать🔥 — ноябрь (дедлайн конференции CVPR) и март-май (ICCV, NeurIPS).

Вчера вечером мы отправили статью на NeurIPS, где я — первый автор.
Интересный факт: конференция раньше называлась NIPS, но ее решили переименовать из-за сходства с nipples (соски).

Как обычно, в последнюю неделю было очень много стресса и очень мало сна, но мы успели: последний апдейт я сделал за минуту до дедлайна 🤯

Хоть я и доволен этой статьей, я заметил, что в ресерче никогда не бываешь полностью удовлетворен результатом: всегда хочется еще что-то улучшить и доделать, будь то алгоритм или сама статья, но важно вовремя остановиться. Дедлайн в помощь.

Еще через неделю надо отправить дополнительный материал и можно будет насладиться законным отдыхом 😎и спокойно почитать статьи без ощущения нависшего дедлайна.
Похоже, что французы решили создать конкурента Open AI.

Оба основателя — инженеры из École Polytechnique (программа, на которой я учился в Париже).
После этого Guillaume Lample провел в парижском FAIR 6 лет: сначала как PhD студент, потом как Research Scientist. Он же — соавтор LLaMa, о которой я писал здесь.
Arthur Mensch сделал PhD в Париже и провел 3 года, работая Research Scientist в DeepMind.

Интересно, что с учетом инвестиций, о которых идет речь (80kk$), они явно собираются обучать свои модели с нуля. Думаю, что с учетом опыта основателей стартап выглядит многообещающе.

Однако инвестиции на начальном этапе — это конечно не гарант будущего успеха стартапа: стоит вспомнить тот же Magic Leap, который пытался сделать AR-очки и поднял сотни миллионов до выхода первого продукта. В итоге они продали всего 6000 устройств за полгода.
Я давно следил за компанией Synthesia: ни у кого больше не видел сгенерированных говорящих голов такого качества.🧑🏻‍💼

Вчера они подняли очередной раунд инвестиций в 90M$, что технически сделало их единорогом (компанией с оценкой в миллиард $)

Exciting times!

https://twitter.com/lourdesagapito/status/1668614754242527242?s=46&t=F3SY_P9IMTUhEttbJfLjYw
Сейчас в Ванкувере проходит CVPR 2023, крупнейшая конференция по Computer Vision и заодно по Computer Science.

Вчера я тут представил свою первую статью на PhD, где мы показали демо наших 3D реконструкций в Meta Quest Pro 🥽 Ресерчеры заценили!

CVPR продолжает расти и уже чисто физически сложно обойти все постеры за три дня: за каждую двухчасовую сессию одновременно презентуют 400 работ, это размер всей конференции 10 лет назад 🤯
В сети появился питч-дек гугл-док французского стартапа Mistral AI, который собирается конкурировать с OpenAI. Здесь я писал про их раунд инвестиций в 100M$.

В питче они делают упор на следующие вещи:

1. Рынок Generative AI вырастет в 10 раз до 2030 года.

2. Появилось очень много стартапов, которые используют ChatGPT. Однако Mistral считает, что основная ценность будет в создании самой технологии, а не ее использовании.

3. Бизнесы не захотят использовать модели типо ChatGPT из-за их закрытости. Компаниям важно иметь доступ к модели, чтобы обрабатывать приватные данные. Кроме того, важно знать, на каких данных модель обучена.

4. Очень мало людей в мире сейчас знают, как обучить языковые модели. Команда стартапа обучала их в Meta AI и DeepMind.

5. Mistral сфокусируется на европейском рынке и создаст в первую очередь европейского игрока.
Вчера стало известно, что MosaicML, AI-стартап из 60 человек, покупают за 1.3B$. Что же такого сделал этот стартап, спросите вы?

Они как раз решают проблему 3 из поста выше — персонализируют языковые модели для компаний и позволяют им обучать свои модели на своих данных.

Возможно, это не самый простой способ заработать 20М на человека, но звучит неплохо 🤔

https://techcrunch.com/2023/06/26/databricks-picks-up-mosaicml-an-openai-competitor-for-1-3b/