эйай ньюз
57.8K subscribers
1.38K photos
727 videos
7 files
1.71K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
🔥Stable Diffusion 3: статья с деталями

А вот и зарелизили папиру про SD3, о которой я уже хинтил ранее. Называется "Scaling Rectified Flow Transformers for High-Resolution Image Synthesis".

https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

@ai_newz
Media is too big
VIEW IN TELEGRAM
SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation

Китайци подвезли СОТУ по монокулярному Pose and Shape estimation. То есть по одному кадру предсказывается 3D поза и форма человека. Покадрово можо применить к любому видео-потоку.

Тут как всегда зарешал масштаб модели и данных. Взяли трансоформер ViT-H на 662M параметров и тренировали на 32 датасетах с 4.5М фреймов, что как бы тоже дохрена для этой задачи.

ViT-H по меркам современного CV не такой уж и большой, но больше чем, все что пробовали на задаче Shape&Pose Estimation до этого, да и довольно шустрый. Скорость инференса даже почти риалтаймовая получилась - 17.5 FPS на Nvidia V100.

Код и веса на гитхабе
Сайт проекта
Статья
Demo на HF

@ai_newz
Авторы попробовали вывести scaling law. Из графика видно, что если дальше докидывать тренировочные данные (ось X) либо увеличивать размер модели (размер кружочков), то ошибка продолжит падать.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
VastGaussian — SOTA по реконструкции огромных 3D сцен

Гауссовские сплаты конкретно заняли поляну Нерфов в 3D реконструкции. До этого момента были проблемы с использованием сплатов для больших сцен, но теперь и их решили. Получается рендеринг посто высочайшей детализации. Ещё и real-time! Смотрите видео.

Сайт проекта с деталями

@ai_newz
Никогда такого не было. В этот раз статья на ECCV была написана сильно заранее. Засабмитили одну из статей за 6 минут до дедлайна (буквально 5 минут назад).😀

Обычно все как-то в xx:59. Это мой личный рекорд!

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Друзья, я сейчас в Грузии! 🇬🇪 Обалденная страна.

Давайте устроим сходку сегодня вечером в Тбилиси. Напишите в комментариях, если вы тут и хотите пересечься. Много людей вместить не сможем, но на человеке 8-10, наверное, сможем найти место.

#personal
@ai_newz
Вчера в Тбилиси получилась отличная встреча в шикарной компании!

Было много интересных бесед про карьеру, работу в ресерче, учебу за границей, да и просто про жизни. Все были очень заряженные, обменивались опытом и идеями.

Ну, а во время всего этого было выпито немало замечательного грузинского вина!

Я часто бываю в разных странах, и мне очень нравится организовывать такие сходки. Спасибо всем, кто пришел вчера. А с теми, кто не смог прийти, надеюсь, ещё не раз пересечёмся в других локациях!

#personal
@ai_newz
🔥PIXART-Σ:
Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation


Китайцы из Huawei опубликовали новую text2image модель, которая может генерить картинки в 4к! Результаты выглядят очень достойно.

Архитектура основана на DiT (как и у Stable Diffusion 3), но с модифицированным аттеншеном. Кажется, теперь все новые text2img и yext2vid будут на базе DiT, UNet уходит в историю.

Сайт проекта
Демо (только в 1024p)
Кода пока нет

@ai_newz
А вот это интересно. Маск сказал, что они заопенсорсят свою LLM Grok на этой неделе.

Вы же слышали, что Маск пошел в атаку на OpenAI и даже подал в суд на них (если коротко, то из-за того, что они превратились из Open в Closed).

Любопытно увидеть, что же там у Grok под капотом. Модель, конечно, не Gpt4 и не Claude3 уровень, но опенсорс — это всегда замечательно.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Есть сомнения по поводу того, на каких данных тренировалась SORA.

Public data из инстаграма - это user data, на которой не очень-то легально тренироваться, без консента владельцев фотографий (особенно если там есть лица). Думаю, Мира потом могла пожалеть, что ляпнула это.

@ai_newz
Когда стараешься не наговорить на пару многомиллионных исков.

П.С. Это Мира Мурати, CTO OpenAI.

Она недавно давала итервью WS о Sora.

Несколько ключевых моментов оттуда (помимо сомнительных данных для обучения):

- Sora выйдет в течение 2024 года

- Вместо часов, Мира отметила, что требуется лишь несколько минут для создания 20-секундного видео в разрешении 720p.

- Самая большая проблема AI-генерируемого видео это консистентность между кадрами, и Sora особенно хороша в этом.

- Политика фильтрации контента, аналогичная Dall-E, будет применяться и к Sora для предотвращения дезинформации, включая ограничения, чтобы запретить Sora генерировать изображения публичных фигур.

Полное интервью.

@ai_newz
Media is too big
VIEW IN TELEGRAM
Mapillary - уличные карты на стеройдах

Думаю, что не все слышали о картах Mapillary (да я и сам не знал, что есть такой отдельный продукт).
Mapillary - это сервис который позволяет просматривать виды улиц, тыкнув на карту, основываясь на краудсорсинговых видео и фотках. Фирма существует с 2013 году и была приобретена Meta в 2020 году.

Mapillary предлагает изображения улиц, аналогичные Google Street View, причем позволяет пользователям загружать фотографии с любой камеры и использовать их для совместного создания вида улиц по всему миру. То есть там можно прогуляться не только по автодорогам, как в Google Street View, но и по мелким пешеходным улицам, т.к. любой пользователь может загрузить свое видео или фото.

Под капотом сервиса бегают алгоритмы CV, для создания консистентного экспириенса прогулки по улицам и склеивания фоток. А вчера на карту добавили еще и Нерфы! То есть любой может отснять локацию, следуя инструкциям, и через пару дней на карте появится 3D нерф, на основе его снимков!

Я снял для вас короткий видос о том, как работает апка. Вот тут можно потыкаться в карту самому https://mapillary.com/app

@ai_newz
В придачу вот NeRF (в 4K) с облетом по внутреннему дворику Швейцарского Национального Музея в Цюрихе (у нас как-то был корпоратив внутри этого двора 🙂).

Если откроете видео на ютубе, то сможете мышкой контролировать направление камеры.

Про нерфы подробнее я писал тут и тут.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Кажется, кто-то нащупал золотую жилу 🥹.

Мужикам с зоны есть чему поучиться у африканских гуру.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🎥Video Editing via Factorized Diffusion Distillation

Коллеги из Meta AI выпустили новый метод для редактирования видео. Все это поверх нашей модели Emu. Если вкратце, то архитектура представляет собой комбинацию Emu Edit и Emu Video (Temporal слои) поверх базовой модели Emu.

Тренируют модель с помощью двойной дистилляции с дискриминаторами. Студент состоит из комбинайии Emu Edit + Emu Video , то есть умеет и генерировать видео и менять изображения покадрово. А учителя два: 1) Это предобученный Emu Edit, который меняет каждый кадр по инструкции, 2) предобученный Emu Video, который тупо генерит видео по заданному промпту.

Таким образом, студент выучивает консистентно менять кадры на видео.

ArXiv
Сайт проекта с примерами

@ai_newz