эйай ньюз
71.9K subscribers
1.56K photos
837 videos
7 files
1.89K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
🥩 A Cookbook of Self-Supervised Learning

Раз уж пошла такая пьянка про self-supervised learning для зрения, то вот вам ещё подарочек от моих коллег из Meta AI. Позавчера Ян Лекун в соавторстве с другими ребятами опубликовали книгу рецептов по self-supervised обучению.

Авторы отобрали плотную выжимку рецептов из топовых статей про self-supervised обучение за последние 5-6 лет и теперь представили в виде 44 страниц годноты. Кстати, таких маленьких, но плотных книг очень не хватает в других областях AI.

В книге вы найдете трюки и подходы к тому как правильно приготовить и обучить свою self-supervised модель на своих данных. Начиная от лоссов и заканчивая способами ускорить тренировку и методами оценки качества моделей. Также по этой книженции вы сможете лучше разобраться как работает тот же DINOv2 из поста выше.

Советую, однозначно.

❱❱ Книга на arXiv

@ai_newz
🔥DeepFloyd IF: новая text-2-image модель

StablityAI выпустили новую модель, которая очень похожа на Imagen от Google, но работает лучше и в open-source.

Архитектура IF, как и у Imagen состоит из трех диффузионных моделей, каждая из которых работает в пространстве RGB и прогрессивно увеличивают картинку. Сначала Text→64×64, затем (Text+64×64)→256×256, и наконец (Text+256×256)→1024×1024. А текст кодируется с помощью текстового энкодера T5.

Почему это круто?
— IF неплохо умеет генерировать текст (я даже генерил в канале ранее), явно лучше чем StableDiffusion XL

— Нормальная открытая имплементация по типу Imagen, которой до сих пор не было. Возможно с какими-то трюками, о которых мы узнаем, когда авторы выпустят блогпост

— FID скор измеряет похожесть снеренированных картинок на реальные. Это чуть ли не основная метрика для качества генерации. У IF FID=6.7, тогда как у Imagen 7.3. Меньше — лучше. Разрыв не космический, но приличный.

Код выложили, веса ждем тут. И ждем подробной статьи от авторов.

@ai_newz
Италия: Блокирует доступ к ChatGPT.

Тоже Италия: майский выпуск Vogue выходит с обложкой, сгенерированной в DALLE-2.

Итальянцы, определитесь уже, можно ли использовать AI 🌚.

Фотограф Vogue сначала пытался сам сгенерировать фон в DALLE-2, но у него не получалось толком описать словами то, что он хочет. В итоге пригласили профессионального промт-инженера, который нагенерил им фонов.

Со слов редакции:
"Мы поняли, что создание эстетически приятных изображений для такого журнала, как Vogue, требует титанических усилий, до пяти раз превышающих студийное производство. Таким образом, с точки зрения экономической эффективности при нынешнем уровне развития техники все же стоит выбрать традиционную фотосессию, даже если для этого потребуется отправить весь экипаж на Северный полюс."

В общем, Vogue пока не готовы полность переходить на AI фото. Мало опыта в промптинге что ли? А нанимать промпт-инженера дорого, ведь поговаривают, что они сейчас зарабатывают $200k+ (кек).

@ai_newz
🔥Появились веса и демка модельки DeepFloyd IF!

Погенерил животных с табличками. Получается хорошо, но очень медленно! На каждую картинку уходило по 2 минуты на A100. Минута на модель первого уровня и минута на апскейлер.

Модель жирненькая и медленная — 4.3 млрд параметров только базовая модель, которая генерит 64×64. Для сравнения, Stable Diffusion v2 имеет только ≈1 млрд параметров.

Скачать веса
Погонять демку
Блогпост с галлереей

@ai_newz
Media is too big
VIEW IN TELEGRAM
🦿Avatars Grow Legs: Generating Smooth Human Motion from Sparse Tracking Inputs with Diffusion Model

Друзья, спешу поделиться с вами своей статьей на CVPR 2023! Я написал ее со своим интерном в Meta Reality Labs до того, как мы перешли в GenAI.

Метод называется Avatars Grow Legs (AGRoL), и смысл его в том, чтобы научиться управлять всем телом 3D аватара в VR без дополнительных сенсоров. Обычно в VR вы пользуетесь шлемом и двумя джойстиками в руках. При этом сигнала с ног не поступает никакого. И даже несмотря на то, что в Quest есть камеры которые направлены вниз, ноги почти никогда полностью не видны, и уж тем более если у вы человек широкой кости.

Поэтому мы предложили своё решение — диффузионную модель, которая по трекингу рук и головы синтезирует движение всего тела в 3D. То есть по глобальной 3D позиция и 3D повороту трех точек можно предсказать как двигаются ноги, даже явно их не наблюдая.

❱❱ Мы опубликовали код и веса, так что можете позапускать сами.
❱❱ arXiv
❱❱ Сайт проекта с примерами

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
...Продолжение про Avatars Grow Legs (CVPR 2023)

Наша модель AGRoL — это диффузионную модель, которая синтезирует motion последовательности полного скелета человека (координаты + поворот 26 точек) по трем входным точкам. Более того, мы задизайнили AGRoL с помощью эффективной архитектуры, которая состоит только из линейных слоёв, которые применяются попеременно по временной оси и по пространственной, что существенно увеличивает скорость семплинга.

Во время инференса, мы прогоняем 5 шагов DDIM. В итоге AGRoL работает со скоростью 30 FPS на V100, что довольно быстро для диффузионных моделей.

🔊Смотрите видео-презентацию со звуком. Полная версия тут.

@ai_newz
Если бы в футбол играли персонажи из Dota 2, то phygital-сборная России, созданная нейросетями, выглядела бы так.

Если вы тоже не знаете, что такое фиджитал, вам сюда: https://t.iss.one/myfuturesport

Промо
This media is not supported in your browser
VIEW IN TELEGRAM
🐶Робопёсик Spot научился говорить

Ребята из Boston Dynamics, которые создают всем известных роботов, прикрутили ChatGPT к своему робопёсику. Это дало роботу возможность докладывать о результатах выполненных миссий и отвечать на любые вопросы о ходе выполнения задания на человеческом языке.

Например, миссией пса могла быть пройти по локации и проверить некоторые датчики.

ChatGPT на вход получает огромный json файл с конфигурацией миссии и данными, собранными во время выполнения. И бот отвечает на любые вопросы пользователя используя инфу из json. Т.к. данных много, вместить весь файл в контекст ChatGPT не получится (пока... я тут писал про попытки вместить до 1млн токенов). Поэтому файл разбивается на маленькие куски, для каждого из которых считается эмбединг. Во время инференса: по заданному вопросу быстро ищутся наиболее релевантные куски, используя расстояния между эмбедингами и отправляются
в контекст GPT, чтобы выдать наиболее точный ответ.

Для озвучки пёсика взяли text2speech API от Гугла.

@ai_newz