Мишин Лернинг 🇺🇦🇮🇱

🌄 Новый GAN от Facebook Research IC-GAN: Instance-Conditioned GAN

Новый conditional GAN (instance-conditioned), да ещё в бонус к нему нативно прикрутили CLIP, дабы zero-shot’ил по-честному, а не только по классам генерил свой мультимодальный перевод.

GAN есть, код есть, CLIP сами прикрутили, и даже colab есть. А что это значит? Значит, что fb красавцы. Го тестить сеть? Сравним с biggan и diffusion.

📰 paper 💻 git 🔮colab

14.9K viewsedited 15:07

Мишин Лернинг 🇺🇦🇮🇱

💡 Какая тема была бы Вам более интересна? Чтобы я уделил ей больше времени в рамках лекции Zero-Shot — Zero Problem

Final Results

32%

NLP Zero-Shot: BERT, GPT

23%

CV Zero-Shot: CLIP, SimVLM

Zero-Shot Coding | Codex

10%

GPT vs WuDao2.0

Zero-Shot Image Generation: Dall•E and future Dall•E

11%

Zero-Shot Image Transfer and Generation, e.g.: VQGAN+CLIP, text2pixelart

10%

Multimodal Zero-Shot

345 voters2.53K views15:13

Мишин Лернинг 🇺🇦🇮🇱

Forwarded from Denis Sexy IT 🤖

Снова художники на Новом Арбате под угрозой – вышла очередная нейронка которая пытается сделать карикатуру по фото которое вы ей даете.

Работает невыносимо медленно и на основе StyleGan2, но я все же смог запустить и поиграться.

Вот тут код StyleCariGAN, а тут я сделал колаб и можете сами поиграться (но я ленивый и пути к картинками самим прописывать придется).

2.1K views17:41

Мишин Лернинг 🇺🇦🇮🇱

🎓 Сегодня в 19-30: Zero-Shot Zero Problem

Я скину ссылку на лекцию в 17-00, и сделаю напоминание в 18-55

Ссылки на полезные материалы придут после лекции!

До встречи вечером!

👉 на лекцию

2.72K views10:28

Мишин Лернинг 🇺🇦🇮🇱

Лекция Zero-Shot - Zero Problem от «Мишин Лернинг»

Что на лекции: Zero-Shot, BERT, GPT3, ViT, CLIP, SimVLM, WuDao2.0, Dall-E, CLIP + VQGAN, Codex и многое другое

https://youtu.be/-fpQLPAkIN0

YouTube

Нейронные сети: Zero-Shot — Zero Problem | Bert, GPT-3, CLIP, DALL-E, WuDao2.0, Codex | Transformer

Лекция: Zero-Shot — Zero Problem от автора блога «Мишин Лернинг» о начале новой эпохи в современном AI. Transformer | Прогрессивное ML комьюнити

▪️ Что такое Zero-Shot?
▪️ Какие сферы жизни затронет этот подход?
▪️ Почему важно понимать как работает GPT…

5.35K viewsedited 14:04

Мишин Лернинг 🇺🇦🇮🇱

25 сентября, 115 лет со дня рождения Дмитрия Шостаковича

Картина подверглась нейростевому Zero-Shot Image Transfer по текстовому описанию: «Шостакович переносит себя в ноты. Фотореалистичный кубизм»

Предлагаю послушать одно из моих самых любимых произведений: cello concerto no.2 в современном исполнении виолончелистки Sol Gabetta.

2.66K viewsedited 15:28

Мишин Лернинг 🇺🇦🇮🇱

💐🤖 Новая SOTA на ImageNet: CoAtNet. Свадьба свертки и трансформера

Ресерчеры из Google Research, Brain Team создали архитектуру CoAtNet (depthwise Convolution and self-Attention Network) и выпустили пейпер с чудным названием: Marrying Convolution and Attention for All Data Sizes.

Проблема была в том, что огромные трансформеры, которые бьют SOTA на ImageNet, раскрывают свой потенциал на огромных датасетах (e.g.: ViT Huge на JFT-300M, 88.56% top-1), но не могут генерализировать знания и на обычном ImageNet (1.28M изображений), и даже на ImageNet-21 K (12.7M)

CoAtNet же показывает отличное ImageNet top-1 accuracy на всех претрейнах (и даже на самом ImageNet):
▪️ 86.00% - ImageNet
▪️ 88.56% - ImageNet-21 K
▪️ 90.88% - JFT-3B | SOTA 🏆

🤖 Архитектура проста: за residual блоками depthwise сверток следуют блоки residual multi-head relative attention. Генерализации добиваются возвращая сверку, обладающую известным inductive bias для изображений: трансляционной эквивалентностью фичей.

📰 paper 💻 кода нет

3.09K views14:22

Мишин Лернинг 🇺🇦🇮🇱

⚠️🤖 Лекция от «Мишин Лернинг» Zero-Shot — Zero Problem о начале новой эпохи в современном AI Недавно я запустил проект Трансформер | Прогрессивное ML Комьюнити и уже в этот четверг мы проведем нашу первую лекцию про самые важные технологии эпохи Zero-Shot.…

⚠️🤖 Лекция Attention: Vision Transformer | ViT & Beyond от Дениса Драбчука

Освободи вечер четверга и погрузись в мир трансформеров для задач компьютерного зрения! Узнай все плюсы, минусы и детали сверточных сетей и vision тренсфомеров.

Что будет на лекции:
▪️ Why CNNs are good for Computer Vision?
▪️ The Dawn of Convolution from LeNet to EfficientNet
▪️ Giant Steps: AlexNet, VGG, Inception, ResNet, MobileNet
▪️ CNNs for classification, detection, segmentation, image captioning
▪️ ImageNet is not enough for ImageNet: BiT Big Transfer
▪️ Why CNNs are bad for Computer Vision?
▪️ Attention mechanism
▪️ Attention is all you need!
▪️ From BiT to ViT: An Image is Worth 16x16 Words
▪️ Future of ViT
▪️ Swin Transformer
▪️ Do Vision Transformers See Like CNNs?
▪️ MLP, CNN, Transformer, Mixer, What next?

Ссылки и полезные материалы (колабы, ресурсы, статьи) придут по почте по итогам лекции

📅 19-30 (этот четверг) 30.09
🎓 Онлайн и бесплатно (по регистрации)
👉 ссылка на лекцию в Transformer

2.48K views12:00

Мишин Лернинг 🇺🇦🇮🇱

Планируем тайминг. На лекции в Transformer по ViT: Vision Transformer от Дениса Драбчука, я бы хотел/а больше узнать:

Final Results

54%

Как устроена архитектура трансформер? key/query/value, multihead self-attention, positional encoding

34%

Как устроены сверточные сети? В чем их плюсы и минусы? Когда лучше юзать свертку, а когда внимание?

12%

Узнать историю глубоких нейронных сетей для задач компьютерного зрения. От AlexNet до ViT & beyond

19%

Узнать про претрейны ViT, включая как и датасеты e.g.: 21 K, JFT-300M, так и методы e.g. CLIP

31%

Разбор пейпера ViT: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

44%

Анализ ViT: Видят ли трансформеры так же, как и сверточные нейронные сети? Структура репрезентаций

53%

Трансформеры в компьютерном зрении для задач детекции, zero-shot, QA и т.д.: Swin, CLIP, SimVLM

44%

Post ViT. Заглянуть в будущее и рассмотреть новые подходы: Mixer, Perceiver, CoAtNets

274 voters2.2K views15:36

Мишин Лернинг 🇺🇦🇮🇱

🕵🏻‍♂️ Detecting Rotated Objects Using the NVIDIA Object Detection Toolkit

Супер изящная и простая, хотя и не супер новая идея для object detection. А что если повернуть bbox так, чтобы он более адекватно описывал детектируемый объект, занимая лишь необходимую площадь?

📇 nvidia blog

2.34K viewsedited 14:00

Мишин Лернинг 🇺🇦🇮🇱

This media is not supported in your browser

VIEW IN TELEGRAM

🎓 Сегодня в 19-30 | Attention: Vision Transformer | ViT, CLIP, Swin, CoAtNet, MLP Mixer | Transformer

Я скину ссылку на лекцию в 17-00, и сделаю напоминание в 19-20

Ссылки на полезные материалы с этой и предыдущей лекции уже вместе придут на почту!

p.s.: Напоминаю, что мы учитываем Ваши пожелания и интересы [голосование] при составлении тайминга.

До встречи вечером!

👉 на лекцию

2.3K viewsedited 10:30

Мишин Лернинг 🇺🇦🇮🇱

⚠️ Лекция Attention: Vision Transformer «Мишин Лернинг»

Что на лекции: ViT, CLIP, ResNet with Attention, BiT, Swin, CoAtNet, MLP Mixer и многое другое

link: https://youtu.be/uQC5EsSV9xs

YouTube

Нейронные сети: Attention: Vision Transformer (ViT) | CLIP, Swin, CoAtNet, MLP Mixer | Transformer

Лекция Attention: Vision Transformer | ViT & Beyond от Дениса Драбчука Senior Deep Learning Researcher at SQUAD. Transformer | Прогрессивное ML комьюнити

Освободи вечер четверга и погрузись в мир трансформеров для задач компьютерного зрения! Узнай все плюсы…

2.94K viewsedited 14:01

Мишин Лернинг 🇺🇦🇮🇱

Forwarded from эйай ньюз

Братья и сéстры, золотой молоток U-Net вернулся к нам в новом виде! Теперь в шкуре трансформера.

Берем self-attention блоки, разбавляем их даунсэмплингами, апсэмплингами и depth-wise конволюциями. Ну, и, по классике, пробрасываем скип-конэкшены между энкодером и декодером. И вот, у нас получился U-former.

Китайцы предлагают его использовать для низкоуровневых vision задач, как то: восстановление изображений, энхансинг, деблюринг, денойзинг. Улучшения кажутся маргинальными, но я не супер эксперт в теме восстановления изображений (может я чего-то не понял?). Все равно архитектура стоит внимания.

Статья | GitHub

2.01K views07:28

About

Blog

Apps

Platform