KaravAI

Контент на 14 февраля, который мы заслужили.

Недавно я задался вопросом — а можно ли при помощи генеративного AI сделать из 10-15 фото пары с одной фотосессии сколько угодно новых фото с той же фотосессии, чтобы минимизировать ~~страдания~~ время съёмки и максимизировать результат.

Я обучил Stable Diffusion с DreamBooth (то, что делает Lensa) на нашей с @senyatut недавней фотосессии. Обычно сетку обучают на одном человеке как на одном объекте, я же попробовал использовать пару как объект.

Что бы вы думали, результат не заставил себя ждать: пары азиатов и трехруких маньяков были успешно сгенерированы!

897 views11:48

KaravAI

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

0:01

This media is not supported in your browser

VIEW IN TELEGRAM

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

Мою первую статью на PhD приняли на CVPR!
Здесь я писал, что такое CVPR и почему это круто.

В этой статье мы:
1. Создали синтетический датасет с 3д моделями животных и людей в офисах фейсбука (пример в первом видео, типичная ситуация в офисе).

2. Предложили метод для предсказания глубины по стерео видео (симуляция бинокулярного зрения, видео с двух камер, как на втором видео)

3. Обучили модель на нашем датасете и показали, что она дает более точные и консистентные во времени предсказания, чем прошлые модели. На последнем видео показана наша 3д-реконструкция, которую мы рендерим с разных точек для 3д-эффекта.

Я начал делать сайт проекта, на котором есть больше деталей, но пока нет ссылки на код и на саму статью:
https://dynamic-stereo.github.io

Если есть фидбэк или любые вопросы, вэлком в комменты или в лс!

736 views22:54

KaravAI

На прошлой неделе Мета объявила о новой команде в генеративном AI. Мы в том числе попали в эту команду, так что генерация — это теперь основное направление, которое мы будем исследовать.

У меня давно чесались руки разобраться с деталями диффузионных моделей и пообучать их. Недавно искал ресурсы для быстрого погружения в область и наткнулся на открытый курс от Hugging face 🤗 с их библиотекой Diffusers.

Мне очень зашло! Можно посмотреть выжимку по теории и пообучать свои модели в Google Colab, экспериментируя с ними за счет гугла. Последний модуль курса вышел всего месяц назад. Очень советую, если вы тоже нуб в диффузии.

А пока пытаюсь побыстрее закончить с текущим проектом, чтобы перейти к генерации 😍

———
Картинки сгенерированы Stable Diffusion по промпту:
« Generative AI at Facebook »

681 views20:33

KaravAI

Только что вернулся после почти месяца треккинга в Непале. Мы поднялись в Everest Base Camp (5360m) и на Kala Patthar (5650m). После такого отдыха нужен еще отдых, но я все же отдохнул от бесконечной AI-гонки.

Перед отъездом у меня было ощущение, что все в индустрии меняется каждую неделю и за этими изменениями невозможно угнаться, теперь стало поспокойнее.

Сейчас с новыми силами возьмусь за работу и буду пушить следующую статью на конференцию NeurIPS, ведь дедлайн через две недели!

617 views13:07

KaravAI

Наткнулся на интересную статью, которую слили из гугла. Похоже, что гугл проиграл AI-гонку. Что более интересно, они считают, что Open AI ее тоже проигрывает. Все дело в open source моделях.

Что именно произошло?
Недавно в открытом доступе появилась Large Language Model (LLaMa), которую комьюнити начало поспешно улучшать. Так как стоимость улучшений сейчас ничтожна по сравнению с обучением такой модели с нуля, новые улучшенные модели стали выходить по несколько раз в неделю.

Одно улучшение наложилось на другое и вот уже есть опен сорс модели по качеству близкие к ChatGPT. И это только начало (прошло всего два месяца!)

Гугл считает, что за комьюнити угнаться уже невозможно и что ChatGPT вероятно ждет та же участь, что и модели Dall-E от Open AI, которые канули в небытие после выхода Stable Diffusion.

———
Картинка сгенерирована Stable Diffusion по промпту:
« Google lost the AI race »

811 views20:44

KaravAI

В жизни Computer Vision исследователя каждый год есть два периода, когда начинает подгорать🔥 — ноябрь (дедлайн конференции CVPR) и март-май (ICCV, NeurIPS).

Вчера вечером мы отправили статью на NeurIPS, где я — первый автор.

Интересный факт: конференция раньше называлась NIPS, но ее решили переименовать из-за сходства с nipples (соски).

Как обычно, в последнюю неделю было очень много стресса и очень мало сна, но мы успели: последний апдейт я сделал за минуту до дедлайна 🤯

Хоть я и доволен этой статьей, я заметил, что в ресерче никогда не бываешь полностью удовлетворен результатом: всегда хочется еще что-то улучшить и доделать, будь то алгоритм или сама статья, но важно вовремя остановиться. Дедлайн в помощь.

Еще через неделю надо отправить дополнительный материал и можно будет насладиться законным отдыхом 😎и спокойно почитать статьи без ощущения нависшего дедлайна.

671 views13:04

KaravAI

Похоже, что французы решили создать конкурента Open AI.

Оба основателя — инженеры из École Polytechnique (программа, на которой я учился в Париже).
После этого Guillaume Lample провел в парижском FAIR 6 лет: сначала как PhD студент, потом как Research Scientist. Он же — соавтор LLaMa, о которой я писал здесь.
Arthur Mensch сделал PhD в Париже и провел 3 года, работая Research Scientist в DeepMind.

Интересно, что с учетом инвестиций, о которых идет речь (80kk$), они явно собираются обучать свои модели с нуля. Думаю, что с учетом опыта основателей стартап выглядит многообещающе.

Однако инвестиции на начальном этапе — это конечно не гарант будущего успеха стартапа: стоит вспомнить тот же Magic Leap , который пытался сделать AR-очки и поднял сотни миллионов до выхода первого продукта. В итоге они продали всего 6000 устройств за полгода.

847 views16:30

KaravAI

Я давно следил за компанией Synthesia: ни у кого больше не видел сгенерированных говорящих голов такого качества.🧑🏻‍💼

Вчера они подняли очередной раунд инвестиций в 90M$, что технически сделало их единорогом (компанией с оценкой в миллиард $)

Exciting times!

https://twitter.com/lourdesagapito/status/1668614754242527242?s=46&t=F3SY_P9IMTUhEttbJfLjYw

913 viewsedited 14:11

KaravAI

Сейчас в Ванкувере проходит CVPR 2023, крупнейшая конференция по Computer Vision и заодно по Computer Science.

Вчера я тут представил свою первую статью на PhD, где мы показали демо наших 3D реконструкций в Meta Quest Pro 🥽 Ресерчеры заценили!

CVPR продолжает расти и уже чисто физически сложно обойти все постеры за три дня: за каждую двухчасовую сессию одновременно презентуют 400 работ, это размер всей конференции 10 лет назад 🤯

927 views22:11

KaravAI

В сети появился ~~питч-дек~~ гугл-док французского стартапа Mistral AI, который собирается конкурировать с OpenAI. Здесь я писал про их раунд инвестиций в 100M$.

В питче они делают упор на следующие вещи:

1. Рынок Generative AI вырастет в 10 раз до 2030 года.

2. Появилось очень много стартапов, которые используют ChatGPT. Однако Mistral считает, что основная ценность будет в создании самой технологии, а не ее использовании.

3. Бизнесы не захотят использовать модели типо ChatGPT из-за их закрытости. Компаниям важно иметь доступ к модели, чтобы обрабатывать приватные данные. Кроме того, важно знать, на каких данных модель обучена.

4. Очень мало людей в мире сейчас знают, как обучить языковые модели. Команда стартапа обучала их в Meta AI и DeepMind.

5. Mistral сфокусируется на европейском рынке и создаст в первую очередь европейского игрока.

Sifted

See the pitch memo that raised €105m for four-week-old startup Mistral

Reactions were mixed when Paris-based AI startup Mistral raised a whopping €105m with no product, four weeks after launching and just days after hiring its first employees. Some heralded it as a big milestone for European tech — with top talent from Meta…

1.3K viewsedited 03:42

KaravAI

Вчера стало известно, что MosaicML, AI-стартап из 60 человек, покупают за 1.3B$. Что же такого сделал этот стартап, спросите вы?

Они как раз решают проблему 3 из поста выше — персонализируют языковые модели для компаний и позволяют им обучать свои модели на своих данных.

Возможно, это не самый простой способ заработать 20М на человека, но звучит неплохо 🤔

https://techcrunch.com/2023/06/26/databricks-picks-up-mosaicml-an-openai-competitor-for-1-3b/

TechCrunch

Databricks picks up MosaicML, an OpenAI competitor, for $1.3B

MosaicML will become a part of the Databricks Lakehouse Platform, providing generative AI tooling alongside the Databricks' existing multi cloud offerings.

1.7K views11:03

About

Blog

Apps

Platform