Контент на 14 февраля, который мы заслужили.
Недавно я задался вопросом — а можно ли при помощи генеративного AI сделать из 10-15 фото пары с одной фотосессии сколько угодно новых фото с той же фотосессии, чтобы минимизироватьстрадания время съёмки и максимизировать результат.
Я обучил Stable Diffusion с DreamBooth (то, что делает Lensa) на нашей с @senyatut недавней фотосессии. Обычно сетку обучают на одном человеке как на одном объекте, я же попробовал использовать пару как объект.
Что бы вы думали, результат не заставил себя ждать: пары азиатов и трехруких маньяков были успешно сгенерированы!
Недавно я задался вопросом — а можно ли при помощи генеративного AI сделать из 10-15 фото пары с одной фотосессии сколько угодно новых фото с той же фотосессии, чтобы минимизировать
Я обучил Stable Diffusion с DreamBooth (то, что делает Lensa) на нашей с @senyatut недавней фотосессии. Обычно сетку обучают на одном человеке как на одном объекте, я же попробовал использовать пару как объект.
Что бы вы думали, результат не заставил себя ждать: пары азиатов и трехруких маньяков были успешно сгенерированы!
Мою первую статью на PhD приняли на CVPR!
Здесь я писал, что такое CVPR и почему это круто.
В этой статье мы:
1. Создали синтетический датасет с 3д моделями животных и людей в офисах фейсбука (пример в первом видео, типичная ситуация в офисе).
2. Предложили метод для предсказания глубины по стерео видео (симуляция бинокулярного зрения, видео с двух камер, как на втором видео)
3. Обучили модель на нашем датасете и показали, что она дает более точные и консистентные во времени предсказания, чем прошлые модели. На последнем видео показана наша 3д-реконструкция, которую мы рендерим с разных точек для 3д-эффекта.
Я начал делать сайт проекта, на котором есть больше деталей, но пока нет ссылки на код и на саму статью:
https://dynamic-stereo.github.io
Если есть фидбэк или любые вопросы, вэлком в комменты или в лс!
Здесь я писал, что такое CVPR и почему это круто.
В этой статье мы:
1. Создали синтетический датасет с 3д моделями животных и людей в офисах фейсбука (пример в первом видео, типичная ситуация в офисе).
2. Предложили метод для предсказания глубины по стерео видео (симуляция бинокулярного зрения, видео с двух камер, как на втором видео)
3. Обучили модель на нашем датасете и показали, что она дает более точные и консистентные во времени предсказания, чем прошлые модели. На последнем видео показана наша 3д-реконструкция, которую мы рендерим с разных точек для 3д-эффекта.
Я начал делать сайт проекта, на котором есть больше деталей, но пока нет ссылки на код и на саму статью:
https://dynamic-stereo.github.io
Если есть фидбэк или любые вопросы, вэлком в комменты или в лс!
На прошлой неделе Мета объявила о новой команде в генеративном AI. Мы в том числе попали в эту команду, так что генерация — это теперь основное направление, которое мы будем исследовать.
У меня давно чесались руки разобраться с деталями диффузионных моделей и пообучать их. Недавно искал ресурсы для быстрого погружения в область и наткнулся на открытый курс от Hugging face 🤗 с их библиотекой Diffusers.
Мне очень зашло! Можно посмотреть выжимку по теории и пообучать свои модели в Google Colab, экспериментируя с ними за счет гугла. Последний модуль курса вышел всего месяц назад. Очень советую, если вы тоже нуб в диффузии.
А пока пытаюсь побыстрее закончить с текущим проектом, чтобы перейти к генерации 😍
———
Картинки сгенерированы Stable Diffusion по промпту:
« Generative AI at Facebook »
У меня давно чесались руки разобраться с деталями диффузионных моделей и пообучать их. Недавно искал ресурсы для быстрого погружения в область и наткнулся на открытый курс от Hugging face 🤗 с их библиотекой Diffusers.
Мне очень зашло! Можно посмотреть выжимку по теории и пообучать свои модели в Google Colab, экспериментируя с ними за счет гугла. Последний модуль курса вышел всего месяц назад. Очень советую, если вы тоже нуб в диффузии.
А пока пытаюсь побыстрее закончить с текущим проектом, чтобы перейти к генерации 😍
———
Картинки сгенерированы Stable Diffusion по промпту:
« Generative AI at Facebook »
Только что вернулся после почти месяца треккинга в Непале. Мы поднялись в Everest Base Camp (5360m) и на Kala Patthar (5650m). После такого отдыха нужен еще отдых, но я все же отдохнул от бесконечной AI-гонки.
Перед отъездом у меня было ощущение, что все в индустрии меняется каждую неделю и за этими изменениями невозможно угнаться, теперь стало поспокойнее.
Сейчас с новыми силами возьмусь за работу и буду пушить следующую статью на конференцию NeurIPS, ведь дедлайн через две недели!
Перед отъездом у меня было ощущение, что все в индустрии меняется каждую неделю и за этими изменениями невозможно угнаться, теперь стало поспокойнее.
Сейчас с новыми силами возьмусь за работу и буду пушить следующую статью на конференцию NeurIPS, ведь дедлайн через две недели!
Наткнулся на интересную статью, которую слили из гугла. Похоже, что гугл проиграл AI-гонку. Что более интересно, они считают, что Open AI ее тоже проигрывает. Все дело в open source моделях.
Что именно произошло?
Недавно в открытом доступе появилась Large Language Model (LLaMa), которую комьюнити начало поспешно улучшать. Так как стоимость улучшений сейчас ничтожна по сравнению с обучением такой модели с нуля, новые улучшенные модели стали выходить по несколько раз в неделю.
Одно улучшение наложилось на другое и вот уже есть опен сорс модели по качеству близкие к ChatGPT. И это только начало (прошло всего два месяца!)
Гугл считает, что за комьюнити угнаться уже невозможно и что ChatGPT вероятно ждет та же участь, что и модели Dall-E от Open AI, которые канули в небытие после выхода Stable Diffusion.
———
Картинка сгенерирована Stable Diffusion по промпту:
« Google lost the AI race »
Что именно произошло?
Недавно в открытом доступе появилась Large Language Model (LLaMa), которую комьюнити начало поспешно улучшать. Так как стоимость улучшений сейчас ничтожна по сравнению с обучением такой модели с нуля, новые улучшенные модели стали выходить по несколько раз в неделю.
Одно улучшение наложилось на другое и вот уже есть опен сорс модели по качеству близкие к ChatGPT. И это только начало (прошло всего два месяца!)
Гугл считает, что за комьюнити угнаться уже невозможно и что ChatGPT вероятно ждет та же участь, что и модели Dall-E от Open AI, которые канули в небытие после выхода Stable Diffusion.
———
Картинка сгенерирована Stable Diffusion по промпту:
« Google lost the AI race »
В жизни Computer Vision исследователя каждый год есть два периода, когда начинает подгорать🔥 — ноябрь (дедлайн конференции CVPR) и март-май (ICCV, NeurIPS).
Вчера вечером мы отправили статью на NeurIPS, где я — первый автор.
Интересный факт: конференция раньше называлась NIPS, но ее решили переименовать из-за сходства с nipples (соски).
Как обычно, в последнюю неделю было очень много стресса и очень мало сна, но мы успели: последний апдейт я сделал за минуту до дедлайна 🤯
Хоть я и доволен этой статьей, я заметил, что в ресерче никогда не бываешь полностью удовлетворен результатом: всегда хочется еще что-то улучшить и доделать, будь то алгоритм или сама статья, но важно вовремя остановиться. Дедлайн в помощь.
Еще через неделю надо отправить дополнительный материал и можно будет насладиться законным отдыхом 😎и спокойно почитать статьи без ощущения нависшего дедлайна.
Вчера вечером мы отправили статью на NeurIPS, где я — первый автор.
Как обычно, в последнюю неделю было очень много стресса и очень мало сна, но мы успели: последний апдейт я сделал за минуту до дедлайна 🤯
Хоть я и доволен этой статьей, я заметил, что в ресерче никогда не бываешь полностью удовлетворен результатом: всегда хочется еще что-то улучшить и доделать, будь то алгоритм или сама статья, но важно вовремя остановиться. Дедлайн в помощь.
Еще через неделю надо отправить дополнительный материал и можно будет насладиться законным отдыхом 😎и спокойно почитать статьи без ощущения нависшего дедлайна.
Похоже, что французы решили создать конкурента Open AI.
Оба основателя — инженеры из École Polytechnique (программа, на которой я учился в Париже).
После этого Guillaume Lample провел в парижском FAIR 6 лет: сначала как PhD студент, потом как Research Scientist. Он же — соавтор LLaMa, о которой я писал здесь.
Arthur Mensch сделал PhD в Париже и провел 3 года, работая Research Scientist в DeepMind.
Интересно, что с учетом инвестиций, о которых идет речь (80kk$), они явно собираются обучать свои модели с нуля. Думаю, что с учетом опыта основателей стартап выглядит многообещающе.
Однако инвестиции на начальном этапе — это конечно не гарант будущего успеха стартапа: стоит вспомнить тот же Magic Leap, который пытался сделать AR-очки и поднял сотни миллионов до выхода первого продукта. В итоге они продали всего 6000 устройств за полгода.
Оба основателя — инженеры из École Polytechnique (программа, на которой я учился в Париже).
После этого Guillaume Lample провел в парижском FAIR 6 лет: сначала как PhD студент, потом как Research Scientist. Он же — соавтор LLaMa, о которой я писал здесь.
Arthur Mensch сделал PhD в Париже и провел 3 года, работая Research Scientist в DeepMind.
Интересно, что с учетом инвестиций, о которых идет речь (80kk$), они явно собираются обучать свои модели с нуля. Думаю, что с учетом опыта основателей стартап выглядит многообещающе.
Однако инвестиции на начальном этапе — это конечно не гарант будущего успеха стартапа: стоит вспомнить тот же Magic Leap, который пытался сделать AR-очки и поднял сотни миллионов до выхода первого продукта. В итоге они продали всего 6000 устройств за полгода.
Я давно следил за компанией Synthesia: ни у кого больше не видел сгенерированных говорящих голов такого качества.🧑🏻💼
Вчера они подняли очередной раунд инвестиций в 90M$, что технически сделало их единорогом (компанией с оценкой в миллиард $)
Exciting times!
https://twitter.com/lourdesagapito/status/1668614754242527242?s=46&t=F3SY_P9IMTUhEttbJfLjYw
Вчера они подняли очередной раунд инвестиций в 90M$, что технически сделало их единорогом (компанией с оценкой в миллиард $)
Exciting times!
https://twitter.com/lourdesagapito/status/1668614754242527242?s=46&t=F3SY_P9IMTUhEttbJfLjYw
Сейчас в Ванкувере проходит CVPR 2023, крупнейшая конференция по Computer Vision и заодно по Computer Science.
Вчера я тут представил свою первую статью на PhD, где мы показали демо наших 3D реконструкций в Meta Quest Pro 🥽 Ресерчеры заценили!
CVPR продолжает расти и уже чисто физически сложно обойти все постеры за три дня: за каждую двухчасовую сессию одновременно презентуют 400 работ, это размер всей конференции 10 лет назад 🤯
Вчера я тут представил свою первую статью на PhD, где мы показали демо наших 3D реконструкций в Meta Quest Pro 🥽 Ресерчеры заценили!
CVPR продолжает расти и уже чисто физически сложно обойти все постеры за три дня: за каждую двухчасовую сессию одновременно презентуют 400 работ, это размер всей конференции 10 лет назад 🤯
В сети появился питч-дек гугл-док французского стартапа Mistral AI, который собирается конкурировать с OpenAI. Здесь я писал про их раунд инвестиций в 100M$.
В питче они делают упор на следующие вещи:
1. Рынок Generative AI вырастет в 10 раз до 2030 года.
2. Появилось очень много стартапов, которые используют ChatGPT. Однако Mistral считает, что основная ценность будет в создании самой технологии, а не ее использовании.
3. Бизнесы не захотят использовать модели типо ChatGPT из-за их закрытости. Компаниям важно иметь доступ к модели, чтобы обрабатывать приватные данные. Кроме того, важно знать, на каких данных модель обучена.
4. Очень мало людей в мире сейчас знают, как обучить языковые модели. Команда стартапа обучала их в Meta AI и DeepMind.
5. Mistral сфокусируется на европейском рынке и создаст в первую очередь европейского игрока.
В питче они делают упор на следующие вещи:
1. Рынок Generative AI вырастет в 10 раз до 2030 года.
2. Появилось очень много стартапов, которые используют ChatGPT. Однако Mistral считает, что основная ценность будет в создании самой технологии, а не ее использовании.
3. Бизнесы не захотят использовать модели типо ChatGPT из-за их закрытости. Компаниям важно иметь доступ к модели, чтобы обрабатывать приватные данные. Кроме того, важно знать, на каких данных модель обучена.
4. Очень мало людей в мире сейчас знают, как обучить языковые модели. Команда стартапа обучала их в Meta AI и DeepMind.
5. Mistral сфокусируется на европейском рынке и создаст в первую очередь европейского игрока.
Sifted
See the pitch memo that raised €105m for four-week-old startup Mistral
Reactions were mixed when Paris-based AI startup Mistral raised a whopping €105m with no product, four weeks after launching and just days after hiring its first employees. Some heralded it as a big milestone for European tech — with top talent from Meta…
Вчера стало известно, что MosaicML, AI-стартап из 60 человек, покупают за 1.3B$. Что же такого сделал этот стартап, спросите вы?
Они как раз решают проблему 3 из поста выше — персонализируют языковые модели для компаний и позволяют им обучать свои модели на своих данных.
Возможно, это не самый простой способ заработать 20М на человека, но звучит неплохо 🤔
https://techcrunch.com/2023/06/26/databricks-picks-up-mosaicml-an-openai-competitor-for-1-3b/
Они как раз решают проблему 3 из поста выше — персонализируют языковые модели для компаний и позволяют им обучать свои модели на своих данных.
Возможно, это не самый простой способ заработать 20М на человека, но звучит неплохо 🤔
https://techcrunch.com/2023/06/26/databricks-picks-up-mosaicml-an-openai-competitor-for-1-3b/
TechCrunch
Databricks picks up MosaicML, an OpenAI competitor, for $1.3B
MosaicML will become a part of the Databricks Lakehouse Platform, providing generative AI tooling alongside the Databricks' existing multi cloud offerings.