эйай ньюз
57.8K subscribers
1.38K photos
727 videos
7 files
1.71K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
Staff Research Scientist: Персональный апдейт

У меня ещё есть классная новость, которой я бы хотел с вами поделиться! В понедельник я запромоутился до E6, иными словами я теперь Staff Research Scientist в Meta GenAI.

Удалось это благодаря очень широкому импакту от проекта в Generative AI, который я сам предложил, вел и завершил в прошлом году. Проект пока не публичный, поэтому я не могу рассказать о нем детально.

До этого я был на терминальном уровне - Senior Research Scientist, на котором многие застревают навсегда. Требуются дополнительные усилия и персональные качества (я о них писал тут), чтобы выйти из этого лимба и стать Стаффом. Зато теперь у меня открылся новый ladder E6+, качать таланты в котором на порядок сложнее чем между Джуном и Синьором. Но в этом есть и челлендж и возможность дальнейшего развития!

Exciting stuff!

#карьера #мойпуть

@ai_newz
Кажется, всем уже стало очевидно, что для создания топовых моделей кроме тысяч видеокарт нужны и петабайты хороших данных. И компании, которые имеют много данных будут стараться монетизировать это.

И вот как раз прошла новость о том, что Reddit заключил сделку с Google - им продают права тренировать модели на всем контенте с Reddit. По слухам, это будет стоить Гуглу $60M в год. Reddit выходит на IPO в ближайшее время, и им очень хочется подкачать свой кеш флоу перед этим, чтобы увеличить оценку (говорят, что она будет ~$5 млрд).

Так что, если вы хоть когда-то постили на Reddit, то новая итерация Gemini сможет заговорить вашими словами. Кстати, наверное все видео и картинки с Редитта тоже закинут в топку для тренировки гугловских Generative AI моделей. Не понятно только, как они будут отфильтровывать вещи, на которые у самих юзеров реддита не было прав копировать и постить на форуме. И обидно, что за тексты, которые юзеры нагенерили на сайте, они не получат ни копейки.

П.С. я думаю, Реддит и так уже спарсили все, кому не лень, но теперь это будут делать и крупные игроки официально.

@ai_newz
эйай ньюз
Photo
Кстати, нашу статью Cache Me if You Can по ускорению text2img диффузии приняли на CVPR 2024!

На прошлой неделе пришли финальные рецензии, но я забыл об этом написать. Вознаграждение за работу всегда приходит с небольшой задержкой, когда выносят решения о публикации статьи на конференции :)

Надеюсь, в этом году опять слетать на CVPR, на этот раз конфа будет в Сиэттле. Если будете там тоже — пересечёмся, обсудим папиры.

#карьера
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion

Тут подвезли диффузию для генерации 3d motion любых персонажей (людей и животных), обучаясь только на 2D данных!

Качественных Mocap 3D данных движения людей и животных очень мало. Например, их почти нет для таких видов спорта как баскетбол или танцев, а уж тем более для животных. Причина тому — дороговизна и недобство сбора таких данных (нужно оборудование, нацеплять трекеры на тело и тд.). А генерировать 3D motion очень хочется - например для анимации, игр и VR.

В этой статье предлагается научить дифуузию генерить 2d траектории движения, а затем использовать эту сетку, чтобы генерить 2d проекции трехмерного моушена с разных камер. Чтобы проекции были консистентными предлагается дополнительной блок, который после каждого шага диффузии решает задачу оптимизации и находит ближайший 3D скелет, который лучше всего удовлетворяет всем проекциям, затем это решение опять проецируется на все камеры и кормится в следующий шаг дифуузии. В итоге на выходе имеет полноценный 3D моушен, хотя в тренировке модель никода не видела 3D!

Сайт проекта
Статья

@ai_newz
🔥Stable Diffusion 3: статья с деталями

А вот и зарелизили папиру про SD3, о которой я уже хинтил ранее. Называется "Scaling Rectified Flow Transformers for High-Resolution Image Synthesis".

https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

@ai_newz
Media is too big
VIEW IN TELEGRAM
SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation

Китайци подвезли СОТУ по монокулярному Pose and Shape estimation. То есть по одному кадру предсказывается 3D поза и форма человека. Покадрово можо применить к любому видео-потоку.

Тут как всегда зарешал масштаб модели и данных. Взяли трансоформер ViT-H на 662M параметров и тренировали на 32 датасетах с 4.5М фреймов, что как бы тоже дохрена для этой задачи.

ViT-H по меркам современного CV не такой уж и большой, но больше чем, все что пробовали на задаче Shape&Pose Estimation до этого, да и довольно шустрый. Скорость инференса даже почти риалтаймовая получилась - 17.5 FPS на Nvidia V100.

Код и веса на гитхабе
Сайт проекта
Статья
Demo на HF

@ai_newz
Авторы попробовали вывести scaling law. Из графика видно, что если дальше докидывать тренировочные данные (ось X) либо увеличивать размер модели (размер кружочков), то ошибка продолжит падать.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
VastGaussian — SOTA по реконструкции огромных 3D сцен

Гауссовские сплаты конкретно заняли поляну Нерфов в 3D реконструкции. До этого момента были проблемы с использованием сплатов для больших сцен, но теперь и их решили. Получается рендеринг посто высочайшей детализации. Ещё и real-time! Смотрите видео.

Сайт проекта с деталями

@ai_newz
Никогда такого не было. В этот раз статья на ECCV была написана сильно заранее. Засабмитили одну из статей за 6 минут до дедлайна (буквально 5 минут назад).😀

Обычно все как-то в xx:59. Это мой личный рекорд!

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Друзья, я сейчас в Грузии! 🇬🇪 Обалденная страна.

Давайте устроим сходку сегодня вечером в Тбилиси. Напишите в комментариях, если вы тут и хотите пересечься. Много людей вместить не сможем, но на человеке 8-10, наверное, сможем найти место.

#personal
@ai_newz
Вчера в Тбилиси получилась отличная встреча в шикарной компании!

Было много интересных бесед про карьеру, работу в ресерче, учебу за границей, да и просто про жизни. Все были очень заряженные, обменивались опытом и идеями.

Ну, а во время всего этого было выпито немало замечательного грузинского вина!

Я часто бываю в разных странах, и мне очень нравится организовывать такие сходки. Спасибо всем, кто пришел вчера. А с теми, кто не смог прийти, надеюсь, ещё не раз пересечёмся в других локациях!

#personal
@ai_newz
🔥PIXART-Σ:
Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation


Китайцы из Huawei опубликовали новую text2image модель, которая может генерить картинки в 4к! Результаты выглядят очень достойно.

Архитектура основана на DiT (как и у Stable Diffusion 3), но с модифицированным аттеншеном. Кажется, теперь все новые text2img и yext2vid будут на базе DiT, UNet уходит в историю.

Сайт проекта
Демо (только в 1024p)
Кода пока нет

@ai_newz
А вот это интересно. Маск сказал, что они заопенсорсят свою LLM Grok на этой неделе.

Вы же слышали, что Маск пошел в атаку на OpenAI и даже подал в суд на них (если коротко, то из-за того, что они превратились из Open в Closed).

Любопытно увидеть, что же там у Grok под капотом. Модель, конечно, не Gpt4 и не Claude3 уровень, но опенсорс — это всегда замечательно.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Есть сомнения по поводу того, на каких данных тренировалась SORA.

Public data из инстаграма - это user data, на которой не очень-то легально тренироваться, без консента владельцев фотографий (особенно если там есть лица). Думаю, Мира потом могла пожалеть, что ляпнула это.

@ai_newz
Когда стараешься не наговорить на пару многомиллионных исков.

П.С. Это Мира Мурати, CTO OpenAI.

Она недавно давала итервью WS о Sora.

Несколько ключевых моментов оттуда (помимо сомнительных данных для обучения):

- Sora выйдет в течение 2024 года

- Вместо часов, Мира отметила, что требуется лишь несколько минут для создания 20-секундного видео в разрешении 720p.

- Самая большая проблема AI-генерируемого видео это консистентность между кадрами, и Sora особенно хороша в этом.

- Политика фильтрации контента, аналогичная Dall-E, будет применяться и к Sora для предотвращения дезинформации, включая ограничения, чтобы запретить Sora генерировать изображения публичных фигур.

Полное интервью.

@ai_newz
Media is too big
VIEW IN TELEGRAM
Mapillary - уличные карты на стеройдах

Думаю, что не все слышали о картах Mapillary (да я и сам не знал, что есть такой отдельный продукт).
Mapillary - это сервис который позволяет просматривать виды улиц, тыкнув на карту, основываясь на краудсорсинговых видео и фотках. Фирма существует с 2013 году и была приобретена Meta в 2020 году.

Mapillary предлагает изображения улиц, аналогичные Google Street View, причем позволяет пользователям загружать фотографии с любой камеры и использовать их для совместного создания вида улиц по всему миру. То есть там можно прогуляться не только по автодорогам, как в Google Street View, но и по мелким пешеходным улицам, т.к. любой пользователь может загрузить свое видео или фото.

Под капотом сервиса бегают алгоритмы CV, для создания консистентного экспириенса прогулки по улицам и склеивания фоток. А вчера на карту добавили еще и Нерфы! То есть любой может отснять локацию, следуя инструкциям, и через пару дней на карте появится 3D нерф, на основе его снимков!

Я снял для вас короткий видос о том, как работает апка. Вот тут можно потыкаться в карту самому https://mapillary.com/app

@ai_newz