🔥Stable Diffusion 3: статья с деталями
А вот и зарелизили папиру про SD3, о которой я уже хинтил ранее. Называется "Scaling Rectified Flow Transformers for High-Resolution Image Synthesis".
https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf
@ai_newz
А вот и зарелизили папиру про SD3, о которой я уже хинтил ранее. Называется "Scaling Rectified Flow Transformers for High-Resolution Image Synthesis".
https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf
@ai_newz
Media is too big
VIEW IN TELEGRAM
SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation
Китайци подвезли СОТУ по монокулярному Pose and Shape estimation. То есть по одному кадру предсказывается 3D поза и форма человека. Покадрово можо применить к любому видео-потоку.
Тут как всегда зарешал масштаб модели и данных. Взяли трансоформер ViT-H на 662M параметров и тренировали на 32 датасетах с 4.5М фреймов, что как бы тоже дохрена для этой задачи.
ViT-H по меркам современного CV не такой уж и большой, но больше чем, все что пробовали на задаче Shape&Pose Estimation до этого, да и довольно шустрый. Скорость инференса даже почти риалтаймовая получилась - 17.5 FPS на Nvidia V100.
Код и веса на гитхабе
Сайт проекта
Статья
Demo на HF
@ai_newz
Китайци подвезли СОТУ по монокулярному Pose and Shape estimation. То есть по одному кадру предсказывается 3D поза и форма человека. Покадрово можо применить к любому видео-потоку.
Тут как всегда зарешал масштаб модели и данных. Взяли трансоформер ViT-H на 662M параметров и тренировали на 32 датасетах с 4.5М фреймов, что как бы тоже дохрена для этой задачи.
ViT-H по меркам современного CV не такой уж и большой, но больше чем, все что пробовали на задаче Shape&Pose Estimation до этого, да и довольно шустрый. Скорость инференса даже почти риалтаймовая получилась - 17.5 FPS на Nvidia V100.
Код и веса на гитхабе
Сайт проекта
Статья
Demo на HF
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
VastGaussian — SOTA по реконструкции огромных 3D сцен
Гауссовские сплаты конкретно заняли поляну Нерфов в 3D реконструкции. До этого момента были проблемы с использованием сплатов для больших сцен, но теперь и их решили. Получается рендеринг посто высочайшей детализации. Ещё и real-time! Смотрите видео.
Сайт проекта с деталями
@ai_newz
Гауссовские сплаты конкретно заняли поляну Нерфов в 3D реконструкции. До этого момента были проблемы с использованием сплатов для больших сцен, но теперь и их решили. Получается рендеринг посто высочайшей детализации. Ещё и real-time! Смотрите видео.
Сайт проекта с деталями
@ai_newz
Никогда такого не было. В этот раз статья на ECCV была написана сильно заранее. Засабмитили одну из статей за 6 минут до дедлайна (буквально 5 минут назад).😀
Обычно все как-то в xx:59. Это мой личный рекорд!
@ai_newz
Обычно все как-то в xx:59. Это мой личный рекорд!
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Вчера в Тбилиси получилась отличная встреча в шикарной компании!
Было много интересных бесед про карьеру, работу в ресерче, учебу за границей, да и просто про жизни. Все были очень заряженные, обменивались опытом и идеями.
Ну, а во время всего этого было выпито немало замечательного грузинского вина!
Я часто бываю в разных странах, и мне очень нравится организовывать такие сходки. Спасибо всем, кто пришел вчера. А с теми, кто не смог прийти, надеюсь, ещё не раз пересечёмся в других локациях!
#personal
@ai_newz
Было много интересных бесед про карьеру, работу в ресерче, учебу за границей, да и просто про жизни. Все были очень заряженные, обменивались опытом и идеями.
Ну, а во время всего этого было выпито немало замечательного грузинского вина!
Я часто бываю в разных странах, и мне очень нравится организовывать такие сходки. Спасибо всем, кто пришел вчера. А с теми, кто не смог прийти, надеюсь, ещё не раз пересечёмся в других локациях!
#personal
@ai_newz
🔥PIXART-Σ:
Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
Китайцы из Huawei опубликовали новую text2image модель, которая может генерить картинки в 4к! Результаты выглядят очень достойно.
Архитектура основана на DiT (как и у Stable Diffusion 3), но с модифицированным аттеншеном. Кажется, теперь все новые text2img и yext2vid будут на базе DiT, UNet уходит в историю.
Сайт проекта
Демо (только в 1024p)
Кода пока нет
@ai_newz
Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
Китайцы из Huawei опубликовали новую text2image модель, которая может генерить картинки в 4к! Результаты выглядят очень достойно.
Архитектура основана на DiT (как и у Stable Diffusion 3), но с модифицированным аттеншеном. Кажется, теперь все новые text2img и yext2vid будут на базе DiT, UNet уходит в историю.
Сайт проекта
Демо (только в 1024p)
Кода пока нет
@ai_newz
А вот это интересно. Маск сказал, что они заопенсорсят свою LLM Grok на этой неделе.
Вы же слышали, что Маск пошел в атаку на OpenAI и даже подал в суд на них (если коротко, то из-за того, что они превратились из Open в Closed).
Любопытно увидеть, что же там у Grok под капотом. Модель, конечно, не Gpt4 и не Claude3 уровень, но опенсорс — это всегда замечательно.
@ai_newz
Вы же слышали, что Маск пошел в атаку на OpenAI и даже подал в суд на них (если коротко, то из-за того, что они превратились из Open в Closed).
Любопытно увидеть, что же там у Grok под капотом. Модель, конечно, не Gpt4 и не Claude3 уровень, но опенсорс — это всегда замечательно.
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Когда стараешься не наговорить на пару многомиллионных исков.
П.С. Это Мира Мурати, CTO OpenAI.
Она недавно давала итервью WS о Sora.
Несколько ключевых моментов оттуда (помимо сомнительных данных для обучения):
- Sora выйдет в течение 2024 года
- Вместо часов, Мира отметила, что требуется лишь несколько минут для создания 20-секундного видео в разрешении 720p.
- Самая большая проблема AI-генерируемого видео это консистентность между кадрами, и Sora особенно хороша в этом.
- Политика фильтрации контента, аналогичная Dall-E, будет применяться и к Sora для предотвращения дезинформации, включая ограничения, чтобы запретить Sora генерировать изображения публичных фигур.
Полное интервью.
@ai_newz
П.С. Это Мира Мурати, CTO OpenAI.
Она недавно давала итервью WS о Sora.
Несколько ключевых моментов оттуда (помимо сомнительных данных для обучения):
- Sora выйдет в течение 2024 года
- Вместо часов, Мира отметила, что требуется лишь несколько минут для создания 20-секундного видео в разрешении 720p.
- Самая большая проблема AI-генерируемого видео это консистентность между кадрами, и Sora особенно хороша в этом.
- Политика фильтрации контента, аналогичная Dall-E, будет применяться и к Sora для предотвращения дезинформации, включая ограничения, чтобы запретить Sora генерировать изображения публичных фигур.
Полное интервью.
@ai_newz
Media is too big
VIEW IN TELEGRAM
Mapillary - уличные карты на стеройдах
Думаю, что не все слышали о картах Mapillary (да я и сам не знал, что есть такой отдельный продукт).
Mapillary - это сервис который позволяет просматривать виды улиц, тыкнув на карту, основываясь на краудсорсинговых видео и фотках. Фирма существует с 2013 году и была приобретена Meta в 2020 году.
Mapillary предлагает изображения улиц, аналогичные Google Street View, причем позволяет пользователям загружать фотографии с любой камеры и использовать их для совместного создания вида улиц по всему миру. То есть там можно прогуляться не только по автодорогам, как в Google Street View, но и по мелким пешеходным улицам, т.к. любой пользователь может загрузить свое видео или фото.
Под капотом сервиса бегают алгоритмы CV, для создания консистентного экспириенса прогулки по улицам и склеивания фоток. А вчера на карту добавили еще и Нерфы! То есть любой может отснять локацию, следуя инструкциям, и через пару дней на карте появится 3D нерф, на основе его снимков!
Я снял для вас короткий видос о том, как работает апка. Вот тут можно потыкаться в карту самому https://mapillary.com/app
@ai_newz
Думаю, что не все слышали о картах Mapillary (да я и сам не знал, что есть такой отдельный продукт).
Mapillary - это сервис который позволяет просматривать виды улиц, тыкнув на карту, основываясь на краудсорсинговых видео и фотках. Фирма существует с 2013 году и была приобретена Meta в 2020 году.
Mapillary предлагает изображения улиц, аналогичные Google Street View, причем позволяет пользователям загружать фотографии с любой камеры и использовать их для совместного создания вида улиц по всему миру. То есть там можно прогуляться не только по автодорогам, как в Google Street View, но и по мелким пешеходным улицам, т.к. любой пользователь может загрузить свое видео или фото.
Под капотом сервиса бегают алгоритмы CV, для создания консистентного экспириенса прогулки по улицам и склеивания фоток. А вчера на карту добавили еще и Нерфы! То есть любой может отснять локацию, следуя инструкциям, и через пару дней на карте появится 3D нерф, на основе его снимков!
Я снял для вас короткий видос о том, как работает апка. Вот тут можно потыкаться в карту самому https://mapillary.com/app
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
NeRF 360 on Mapillary: Swiss National Museum
Кажется, кто-то нащупал золотую жилу 🥹 .
Мужикам с зоны есть чему поучиться у африканских гуру.
@ai_newz
Мужикам с зоны есть чему поучиться у африканских гуру.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🎥Video Editing via Factorized Diffusion Distillation
Коллеги из Meta AI выпустили новый метод для редактирования видео. Все это поверх нашей модели Emu. Если вкратце, то архитектура представляет собой комбинацию Emu Edit и Emu Video (Temporal слои) поверх базовой модели Emu.
Тренируют модель с помощью двойной дистилляции с дискриминаторами. Студент состоит из комбинайии Emu Edit + Emu Video , то есть умеет и генерировать видео и менять изображения покадрово. А учителя два: 1) Это предобученный Emu Edit, который меняет каждый кадр по инструкции, 2) предобученный Emu Video, который тупо генерит видео по заданному промпту.
Таким образом, студент выучивает консистентно менять кадры на видео.
ArXiv
Сайт проекта с примерами
@ai_newz
Коллеги из Meta AI выпустили новый метод для редактирования видео. Все это поверх нашей модели Emu. Если вкратце, то архитектура представляет собой комбинацию Emu Edit и Emu Video (Temporal слои) поверх базовой модели Emu.
Тренируют модель с помощью двойной дистилляции с дискриминаторами. Студент состоит из комбинайии Emu Edit + Emu Video , то есть умеет и генерировать видео и менять изображения покадрово. А учителя два: 1) Это предобученный Emu Edit, который меняет каждый кадр по инструкции, 2) предобученный Emu Video, который тупо генерит видео по заданному промпту.
Таким образом, студент выучивает консистентно менять кадры на видео.
ArXiv
Сайт проекта с примерами
@ai_newz