🥩 A Cookbook of Self-Supervised Learning
Раз уж пошла такая пьянка про self-supervised learning для зрения, то вот вам ещё подарочек от моих коллег из Meta AI. Позавчера Ян Лекун в соавторстве с другими ребятами опубликовали книгу рецептов по self-supervised обучению.
Авторы отобрали плотную выжимку рецептов из топовых статей про self-supervised обучение за последние 5-6 лет и теперь представили в виде 44 страниц годноты. Кстати, таких маленьких, но плотных книг очень не хватает в других областях AI.
В книге вы найдете трюки и подходы к тому как правильно приготовить и обучить свою self-supervised модель на своих данных. Начиная от лоссов и заканчивая способами ускорить тренировку и методами оценки качества моделей. Также по этой книженции вы сможете лучше разобраться как работает тот же DINOv2 из поста выше.
Советую, однозначно.
❱❱ Книга на arXiv
@ai_newz
Раз уж пошла такая пьянка про self-supervised learning для зрения, то вот вам ещё подарочек от моих коллег из Meta AI. Позавчера Ян Лекун в соавторстве с другими ребятами опубликовали книгу рецептов по self-supervised обучению.
Авторы отобрали плотную выжимку рецептов из топовых статей про self-supervised обучение за последние 5-6 лет и теперь представили в виде 44 страниц годноты. Кстати, таких маленьких, но плотных книг очень не хватает в других областях AI.
В книге вы найдете трюки и подходы к тому как правильно приготовить и обучить свою self-supervised модель на своих данных. Начиная от лоссов и заканчивая способами ускорить тренировку и методами оценки качества моделей. Также по этой книженции вы сможете лучше разобраться как работает тот же DINOv2 из поста выше.
Советую, однозначно.
❱❱ Книга на arXiv
@ai_newz
🔥DeepFloyd IF: новая text-2-image модель
StablityAI выпустили новую модель, которая очень похожа на Imagen от Google, но работает лучше и в open-source.
Архитектура IF, как и у Imagen состоит из трех диффузионных моделей, каждая из которых работает в пространстве RGB и прогрессивно увеличивают картинку. Сначала Text→64×64, затем (Text+64×64)→256×256, и наконец (Text+256×256)→1024×1024. А текст кодируется с помощью текстового энкодера T5.
Почему это круто?
— IF неплохо умеет генерировать текст (я даже генерил в канале ранее), явно лучше чем StableDiffusion XL
— Нормальная открытая имплементация по типу Imagen, которой до сих пор не было. Возможно с какими-то трюками, о которых мы узнаем, когда авторы выпустят блогпост
— FID скор измеряет похожесть снеренированных картинок на реальные. Это чуть ли не основная метрика для качества генерации. У IF FID=6.7, тогда как у Imagen 7.3. Меньше — лучше. Разрыв не космический, но приличный.
Код выложили, веса ждем тут. И ждем подробной статьи от авторов.
@ai_newz
StablityAI выпустили новую модель, которая очень похожа на Imagen от Google, но работает лучше и в open-source.
Архитектура IF, как и у Imagen состоит из трех диффузионных моделей, каждая из которых работает в пространстве RGB и прогрессивно увеличивают картинку. Сначала Text→64×64, затем (Text+64×64)→256×256, и наконец (Text+256×256)→1024×1024. А текст кодируется с помощью текстового энкодера T5.
Почему это круто?
— IF неплохо умеет генерировать текст (я даже генерил в канале ранее), явно лучше чем StableDiffusion XL
— Нормальная открытая имплементация по типу Imagen, которой до сих пор не было. Возможно с какими-то трюками, о которых мы узнаем, когда авторы выпустят блогпост
— FID скор измеряет похожесть снеренированных картинок на реальные. Это чуть ли не основная метрика для качества генерации. У IF FID=6.7, тогда как у Imagen 7.3. Меньше — лучше. Разрыв не космический, но приличный.
Код выложили, веса ждем тут. И ждем подробной статьи от авторов.
@ai_newz
Италия: Блокирует доступ к ChatGPT.
Тоже Италия: майский выпуск Vogue выходит с обложкой, сгенерированной в DALLE-2.
Итальянцы, определитесь уже, можно ли использовать AI 🌚.
Фотограф Vogue сначала пытался сам сгенерировать фон в DALLE-2, но у него не получалось толком описать словами то, что он хочет. В итоге пригласили профессионального промт-инженера, который нагенерил им фонов.
Со слов редакции:
"Мы поняли, что создание эстетически приятных изображений для такого журнала, как Vogue, требует титанических усилий, до пяти раз превышающих студийное производство. Таким образом, с точки зрения экономической эффективности при нынешнем уровне развития техники все же стоит выбрать традиционную фотосессию, даже если для этого потребуется отправить весь экипаж на Северный полюс."
В общем, Vogue пока не готовы полность переходить на AI фото. Мало опыта в промптинге что ли? А нанимать промпт-инженера дорого, ведь поговаривают, что они сейчас зарабатывают $200k+ (кек).
@ai_newz
Тоже Италия: майский выпуск Vogue выходит с обложкой, сгенерированной в DALLE-2.
Итальянцы, определитесь уже, можно ли использовать AI 🌚.
Фотограф Vogue сначала пытался сам сгенерировать фон в DALLE-2, но у него не получалось толком описать словами то, что он хочет. В итоге пригласили профессионального промт-инженера, который нагенерил им фонов.
Со слов редакции:
"Мы поняли, что создание эстетически приятных изображений для такого журнала, как Vogue, требует титанических усилий, до пяти раз превышающих студийное производство. Таким образом, с точки зрения экономической эффективности при нынешнем уровне развития техники все же стоит выбрать традиционную фотосессию, даже если для этого потребуется отправить весь экипаж на Северный полюс."
В общем, Vogue пока не готовы полность переходить на AI фото. Мало опыта в промптинге что ли? А нанимать промпт-инженера дорого, ведь поговаривают, что они сейчас зарабатывают $200k+ (кек).
@ai_newz
🔥Появились веса и демка модельки DeepFloyd IF!
Погенерил животных с табличками. Получается хорошо, но очень медленно! На каждую картинку уходило по 2 минуты на A100. Минута на модель первого уровня и минута на апскейлер.
Модель жирненькая и медленная — 4.3 млрд параметров только базовая модель, которая генерит 64×64. Для сравнения, Stable Diffusion v2 имеет только ≈1 млрд параметров.
➕Скачать веса
➕Погонять демку
➕Блогпост с галлереей
@ai_newz
Погенерил животных с табличками. Получается хорошо, но очень медленно! На каждую картинку уходило по 2 минуты на A100. Минута на модель первого уровня и минута на апскейлер.
Модель жирненькая и медленная — 4.3 млрд параметров только базовая модель, которая генерит 64×64. Для сравнения, Stable Diffusion v2 имеет только ≈1 млрд параметров.
➕Скачать веса
➕Погонять демку
➕Блогпост с галлереей
@ai_newz
Media is too big
VIEW IN TELEGRAM
🦿Avatars Grow Legs: Generating Smooth Human Motion from Sparse Tracking Inputs with Diffusion Model
Друзья, спешу поделиться с вами своей статьей на CVPR 2023! Я написал ее со своим интерном в Meta Reality Labs до того, как мы перешли в GenAI.
Метод называется Avatars Grow Legs (AGRoL), и смысл его в том, чтобы научиться управлять всем телом 3D аватара в VR без дополнительных сенсоров. Обычно в VR вы пользуетесь шлемом и двумя джойстиками в руках. При этом сигнала с ног не поступает никакого. И даже несмотря на то, что в Quest есть камеры которые направлены вниз, ноги почти никогда полностью не видны, и уж тем более если у вы человек широкой кости.
Поэтому мы предложили своё решение — диффузионную модель, которая по трекингу рук и головы синтезирует движение всего тела в 3D. То есть по глобальной 3D позиция и 3D повороту трех точек можно предсказать как двигаются ноги, даже явно их не наблюдая.
❱❱ Мы опубликовали код и веса, так что можете позапускать сами.
❱❱ arXiv
❱❱ Сайт проекта с примерами
@ai_newz
Друзья, спешу поделиться с вами своей статьей на CVPR 2023! Я написал ее со своим интерном в Meta Reality Labs до того, как мы перешли в GenAI.
Метод называется Avatars Grow Legs (AGRoL), и смысл его в том, чтобы научиться управлять всем телом 3D аватара в VR без дополнительных сенсоров. Обычно в VR вы пользуетесь шлемом и двумя джойстиками в руках. При этом сигнала с ног не поступает никакого. И даже несмотря на то, что в Quest есть камеры которые направлены вниз, ноги почти никогда полностью не видны, и уж тем более если у вы человек широкой кости.
Поэтому мы предложили своё решение — диффузионную модель, которая по трекингу рук и головы синтезирует движение всего тела в 3D. То есть по глобальной 3D позиция и 3D повороту трех точек можно предсказать как двигаются ноги, даже явно их не наблюдая.
❱❱ Мы опубликовали код и веса, так что можете позапускать сами.
❱❱ arXiv
❱❱ Сайт проекта с примерами
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
...Продолжение про Avatars Grow Legs (CVPR 2023)
Наша модель AGRoL — это диффузионную модель, которая синтезирует motion последовательности полного скелета человека (координаты + поворот 26 точек) по трем входным точкам. Более того, мы задизайнили AGRoL с помощью эффективной архитектуры, которая состоит только из линейных слоёв, которые применяются попеременно по временной оси и по пространственной, что существенно увеличивает скорость семплинга.
Во время инференса, мы прогоняем 5 шагов DDIM. В итоге AGRoL работает со скоростью 30 FPS на V100, что довольно быстро для диффузионных моделей.
🔊Смотрите видео-презентацию со звуком. Полная версия тут.
@ai_newz
Наша модель AGRoL — это диффузионную модель, которая синтезирует motion последовательности полного скелета человека (координаты + поворот 26 точек) по трем входным точкам. Более того, мы задизайнили AGRoL с помощью эффективной архитектуры, которая состоит только из линейных слоёв, которые применяются попеременно по временной оси и по пространственной, что существенно увеличивает скорость семплинга.
Во время инференса, мы прогоняем 5 шагов DDIM. В итоге AGRoL работает со скоростью 30 FPS на V100, что довольно быстро для диффузионных моделей.
🔊Смотрите видео-презентацию со звуком. Полная версия тут.
@ai_newz
Если бы в футбол играли персонажи из Dota 2, то phygital-сборная России, созданная нейросетями, выглядела бы так.
Если вы тоже не знаете, что такое фиджитал, вам сюда: https://t.iss.one/myfuturesport
Промо
Если вы тоже не знаете, что такое фиджитал, вам сюда: https://t.iss.one/myfuturesport
Промо
This media is not supported in your browser
VIEW IN TELEGRAM
🐶Робопёсик Spot научился говорить
Ребята из Boston Dynamics, которые создают всем известных роботов, прикрутили ChatGPT к своему робопёсику. Это дало роботу возможность докладывать о результатах выполненных миссий и отвечать на любые вопросы о ходе выполнения задания на человеческом языке.
Например, миссией пса могла быть пройти по локации и проверить некоторые датчики.
ChatGPT на вход получает огромный json файл с конфигурацией миссии и данными, собранными во время выполнения. И бот отвечает на любые вопросы пользователя используя инфу из json. Т.к. данных много, вместить весь файл в контекст ChatGPT не получится (пока... я тут писал про попытки вместить до 1млн токенов). Поэтому файл разбивается на маленькие куски, для каждого из которых считается эмбединг. Во время инференса: по заданному вопросу быстро ищутся наиболее релевантные куски, используя расстояния между эмбедингами и отправляются
в контекст GPT, чтобы выдать наиболее точный ответ.
Для озвучки пёсика взяли text2speech API от Гугла.
@ai_newz
Ребята из Boston Dynamics, которые создают всем известных роботов, прикрутили ChatGPT к своему робопёсику. Это дало роботу возможность докладывать о результатах выполненных миссий и отвечать на любые вопросы о ходе выполнения задания на человеческом языке.
Например, миссией пса могла быть пройти по локации и проверить некоторые датчики.
ChatGPT на вход получает огромный json файл с конфигурацией миссии и данными, собранными во время выполнения. И бот отвечает на любые вопросы пользователя используя инфу из json. Т.к. данных много, вместить весь файл в контекст ChatGPT не получится (пока... я тут писал про попытки вместить до 1млн токенов). Поэтому файл разбивается на маленькие куски, для каждого из которых считается эмбединг. Во время инференса: по заданному вопросу быстро ищутся наиболее релевантные куски, используя расстояния между эмбедингами и отправляются
в контекст GPT, чтобы выдать наиболее точный ответ.
Для озвучки пёсика взяли text2speech API от Гугла.
@ai_newz