Мишин Лернинг 🇺🇦🇮🇱

🥑🎓 DALL•E 2 от OpenAI

Походу OpenAI выкатила действительно NextGen

https://openai.com/dall-e-2/

❤23👍3

4.16K viewsedited 15:34

🥑😈 DALL•E 2 от OpenAI: Hierarchical Text-Conditional Image Generation with CLIP Latents

2021 год показал, что contrastive модели, такие как CLIP, выучивают качественное пространство визуальных и текстовых репрезентаций.

Ресерчеры из OpenAI решили использовать эти репрезентации для генерации изображений! Встречайте двухэтапную модель DALL•E 2, которая скрещивает диффузионный декодер и диффузионную визуальную модель DALL-E (ребята, кстати, показали, что диффузия таки более вычислительно выгодная и качественная нежели авторегрессия) и контрастный CLIP!

🧪 Если проще, то это очень изящный вариант, чтобы скрестить CLIP и DALL•E, где можно пользоваться векторам (эммбедингами) CLIP’a, и создавать новые изображения на основании и изображений примеров (доноров) и текстовых описаний. Такой подход позволяет не только генерировать превосходные изображения, но и изменять существующие!

p.s.: да, OpenAI все еще ClosedAI, так что надежда или на крутой клон от Stability.AI, ну или на waitlist 🙃

📰 Paper 🎓 Blog 🎥 Янык

❤19👍10

30K viewsedited 16:04

Мишин Лернинг 🇺🇦🇮🇱

Forwarded from Нейроэстетика

🥑 DALL•E 2 text-to-image examples from OpenAI researchers

▪️A rabbit detective sitting on a park bench and reading a newspaper in a victorian setting

▪️Rabbits attending a college seminar on human anatomy

▪️A vacuum listening to music on its headphones while cleaning the room

▪️A raccoon wearing a with a lightsaber

▪️A raccoon wearing a hoodie working on his
laptop late into the night in Los Angeles making a 'yes'

▪️A raccoon wearing a hoodie working on his
laptop late into the night

▪️A kid and a dog staring at the stars

▪️An elephant tea party on a grass lawn

▪️A panda wearing red bandana and sunglasses on the motorcycle in the desert

❤50👍19

4.25K views17:24

Мишин Лернинг 🇺🇦🇮🇱

Мне кажется, что с прагматической точки зрения наступает время, в которое делать арт нейронными сетями станет попросту дешевле и быстрее.

👍86😢18❤15

4.48K views09:32

Мишин Лернинг 🇺🇦🇮🇱

This media is not supported in your browser

VIEW IN TELEGRAM

🥑 DALL-E 2 позволяет не только генерировать новые изображение, но и скрещивать реальные!

DALL-E 2 сочетает лучшее из двух миров:
▪️Zero-Shot способность генерации изображений практически во всех доменах
▪️И способность интерполяции между изображениями (между векторами их эмбедингов)

На gif'ке — DALL-E 2 вариации между двумя изображениями: логотипом OpenAI и картиной "Изучение цвета квадратов и кругов" Кандинского; путем интерполяции их CLIP эмбедингов, а затем декодирования с помощью диффузионной модели unСLIP (декодер части модели DALL-E 2).

Так что все прелести StyleGAN-интерполяции поставляются в DALL-E 2 "из коробки"

❤30👍7

6.1K viewsedited 08:35

Мишин Лернинг 🇺🇦🇮🇱

Forwarded from Denis Sexy IT 🤖

This media is not supported in your browser

VIEW IN TELEGRAM

Если помните, Nvidia не так давно показала свою новую нейронку (iNGP) – скармливаешь ей кучу фоток и она дает тебе 3D пространство этого помещения, в котором можно «перемещать камеру».

Один из интересных побочных эффектов этого алгоритма, это то, что можно «залетать» в отражения, в данном случае в зеркало — и летать там смотреть чего как.

Вход в зазеркалье открывается только с помощью нейронок, теперь все понятно ¯\_(ツ)_/¯

UPD для нердов: Эта сцена тренировалась на 134 фотографиях

❤60👍21🔥2

3.17K views17:22

Мишин Лернинг 🇺🇦🇮🇱

🚵 Transformers for Referring Video Object Segmentation | Zero-Shot, VideoSWIN, MDETR, MTTR | YouTube Lecture

Представляете себе трансформер для zero-shot стабильной детекции объектов на видео по текстовому описанию? Если Ваш мозг уже начал рисовать MDETR, базирующийся на Video Swin на стероидах, то поздравляю, Вы на правильном пути!

🎥 MTTR — Evgenii Zheltonozhskii (coathor) | Transformer Community | YouTube

Надеюсь, вы помните про мой проект:
Transformer | Прогрессивное ML Комьюнити
В ближайшие месяцы я планирую возобновить работу Transformer'a: продолжить лекции, приглашать специалистов, и делать контент!

А уже сегодня стала доступна запись лекции от соавтора популярной нейростети MTTR:

Evgenii Zheltonozhskii, M.Sc. in Technion | Телеграм Канал автора

Что вас ждет на лекции:
▪️ Short intro, reminder on Transformers
▪️ Intro to RVOS task, explanation and challenges
▪️ Related work: short overview of previous approaches to RVOS, DETR, VisTR, MDETR
▪️ Our approach overview
▪️ Real life samples, discussion of challenges, limitations and future directions

📄 MTTR paper
💻 MTTR code
🚀 MTTR demo
🔮 MTTR colab

P.S.: Буду очень рад, если подпишетесь на мой YouTube канал Transformer 🔔 ML и AI лекции от топовых ресерчеров и специалистов!

YouTube

Transformers for Referring Video Object Segmentation | Zero-Shot, VideoSWIN, MDETR, MTTR [eng]

Evgenii Zheltonozhskii, M.Sc. in Technion https://evgeniizh.com | Telegram Blog: https://t.iss.one/j_links
Transfomer: https://transformer.community
MTTR paper: https://arxiv.org/abs/2111.14821
MTTR code: https://github.com/mttr2021/MTTR
MTTR demo: https://h…

❤12👍3

4.87K viewsedited 09:54

Мишин Лернинг 🇺🇦🇮🇱

🥑 lucidrains уже пилит имплементацию DALL-E 2

💻 DALL-E 2 PyTorch

❤27👍5

3.65K viewsedited 11:01

Мишин Лернинг 🇺🇦🇮🇱

Выкатили код LiT🔥: Новационный подход contrastive-tuning от Google Research, Brain Team, Zurich обходит CLIP и ALIGN

Помните, в ноябре 2021го выходила статья LiT🔥?
Сегодня стал доступен не только код, но и блог пост в googleblog, colab и онлайн демо, которое, кстати, очень и очень удачно демонстрирует силу подхода на известных примерах и контрпримерах!

🔓 В CLIP и текстовая и визуальная “башня” контрастив модели учились с нуля. u - unlocked from-scratch

🔐 Возникает вопрос: не будет ли лучше взять претрейны моделей (e.g.: ResNet, ViT, MLP-Mixer), и дальше файнтюнить их в режиме contrastive language–image? U - unlocked from a pre-trained model

🔒 Авторы показали, что лучше всего работает подход с полностью замороженной обученной визуальной “башней”!

Модель ViT-G/14, обученная в режиме contrastive-tuning LiT, обходит такой же CLIP в zero-shot на ImageNet: 84.5% vs 76.2%, соответсвенно.

📄 Paper LiT🔥
🎲 Online Demo
📇 Google Blog
💻 LiT code
🔮 LiT Colab

❤16👍6

6.76K viewsedited 22:26

Мишин Лернинг 🇺🇦🇮🇱

👾 Вышел пейпер: GPT-NeoX-20B: An Open-Source Autoregressive Language Model

У вас есть доступ к DALL-E 2? Ответ может быть «да», если вы один из немногих привилегированных юзеров или вы один из создателей) К сожалению AI движется по пути корпоратократии.

GPT-NeoX-20B — отличный пример того, как независимые ресерчеры натренировали и предоставили в открытый доступ достаточно большую модель с очень хорошими метриками!

В пейпере очень много полезных деталей, касающихся тренировки модели. Описаны и архитектурные трюки и детали тренировки!

Надеюсь, что в бушующем все больше независимых AI ресерч компаний смогут составить конкуренцию корпорациям. А пока наслаждаемся 20B в эпоху 540B.

📄 paper
💻 code

❤30👍9

4.32K viewsedited 18:37

Мишин Лернинг 🇺🇦🇮🇱

Forwarded from Нейроэстетика

Hag Pessah Sameah!

❤53👎10👍8

3.86K views20:10

Мишин Лернинг 🇺🇦🇮🇱

This media is not supported in your browser

VIEW IN TELEGRAM

🐂 DALL-E 2 Picasso's deconstruction

«Бык» Пабло Пикассо — это серия литографий, созданных в 1945 году. На ней изображен бык в стадиях "абстракции", если позволите, начиная с достаточно реалистичного изображения и заканчивая всего лишь несколькими линиями.

На видео интерполяция (последовательный переход между изображениями) и галлюцинация выполненная на тему деконструкции Пикассо при помощи нейронной сети DALL-E 2 от OpenAI.

p.s.: Технически все очень просто: картинки со всеми стадиями абстракции «Быка» Пикассо проходят через CLIP для получения их векторов, между которыми и создается интерполяция, а затем рендеринг через unCLIP и 2 диффузионных апскейлера.

❤42👍8😢2

5.68K views11:18

About

Blog

Apps

Platform