Мишин Лернинг 🇺🇦🇮🇱
⚠️🤖 Лекция от «Мишин Лернинг» Zero-Shot — Zero Problem о начале новой эпохи в современном AI Недавно я запустил проект Трансформер | Прогрессивное ML Комьюнити и уже в этот четверг мы проведем нашу первую лекцию про самые важные технологии эпохи Zero-Shot.…
⚠️🤖 Лекция Attention: Vision Transformer | ViT & Beyond от Дениса Драбчука
Освободи вечер четверга и погрузись в мир трансформеров для задач компьютерного зрения! Узнай все плюсы, минусы и детали сверточных сетей и vision тренсфомеров.
Что будет на лекции:
▪️ Why CNNs are good for Computer Vision?
▪️ The Dawn of Convolution from LeNet to EfficientNet
▪️ Giant Steps: AlexNet, VGG, Inception, ResNet, MobileNet
▪️ CNNs for classification, detection, segmentation, image captioning
▪️ ImageNet is not enough for ImageNet: BiT Big Transfer
▪️ Why CNNs are bad for Computer Vision?
▪️ Attention mechanism
▪️ Attention is all you need!
▪️ From BiT to ViT: An Image is Worth 16x16 Words
▪️ Future of ViT
▪️ Swin Transformer
▪️ Do Vision Transformers See Like CNNs?
▪️ MLP, CNN, Transformer, Mixer, What next?
Ссылки и полезные материалы (колабы, ресурсы, статьи) придут по почте по итогам лекции
📅 19-30 (этот четверг) 30.09
🎓 Онлайн и бесплатно (по регистрации)
👉 ссылка на лекцию в Transformer
Освободи вечер четверга и погрузись в мир трансформеров для задач компьютерного зрения! Узнай все плюсы, минусы и детали сверточных сетей и vision тренсфомеров.
Что будет на лекции:
▪️ Why CNNs are good for Computer Vision?
▪️ The Dawn of Convolution from LeNet to EfficientNet
▪️ Giant Steps: AlexNet, VGG, Inception, ResNet, MobileNet
▪️ CNNs for classification, detection, segmentation, image captioning
▪️ ImageNet is not enough for ImageNet: BiT Big Transfer
▪️ Why CNNs are bad for Computer Vision?
▪️ Attention mechanism
▪️ Attention is all you need!
▪️ From BiT to ViT: An Image is Worth 16x16 Words
▪️ Future of ViT
▪️ Swin Transformer
▪️ Do Vision Transformers See Like CNNs?
▪️ MLP, CNN, Transformer, Mixer, What next?
Ссылки и полезные материалы (колабы, ресурсы, статьи) придут по почте по итогам лекции
📅 19-30 (этот четверг) 30.09
🎓 Онлайн и бесплатно (по регистрации)
👉 ссылка на лекцию в Transformer
Планируем тайминг. На лекции в Transformer по ViT: Vision Transformer от Дениса Драбчука, я бы хотел/а больше узнать:
Final Results
54%
Как устроена архитектура трансформер? key/query/value, multihead self-attention, positional encoding
34%
Как устроены сверточные сети? В чем их плюсы и минусы? Когда лучше юзать свертку, а когда внимание?
12%
Узнать историю глубоких нейронных сетей для задач компьютерного зрения. От AlexNet до ViT & beyond
19%
Узнать про претрейны ViT, включая как и датасеты e.g.: 21 K, JFT-300M, так и методы e.g. CLIP
31%
Разбор пейпера ViT: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
44%
Анализ ViT: Видят ли трансформеры так же, как и сверточные нейронные сети? Структура репрезентаций
53%
Трансформеры в компьютерном зрении для задач детекции, zero-shot, QA и т.д.: Swin, CLIP, SimVLM
44%
Post ViT. Заглянуть в будущее и рассмотреть новые подходы: Mixer, Perceiver, CoAtNets
🕵🏻♂️ Detecting Rotated Objects Using the NVIDIA Object Detection Toolkit
Супер изящная и простая, хотя и не супер новая идея для object detection. А что если повернуть bbox так, чтобы он более адекватно описывал детектируемый объект, занимая лишь необходимую площадь?
📇 nvidia blog
Супер изящная и простая, хотя и не супер новая идея для object detection. А что если повернуть bbox так, чтобы он более адекватно описывал детектируемый объект, занимая лишь необходимую площадь?
📇 nvidia blog
This media is not supported in your browser
VIEW IN TELEGRAM
🎓 Сегодня в 19-30 | Attention: Vision Transformer | ViT, CLIP, Swin, CoAtNet, MLP Mixer | Transformer
Я скину ссылку на лекцию в 17-00, и сделаю напоминание в 19-20
Ссылки на полезные материалы с этой и предыдущей лекции уже вместе придут на почту!
p.s.: Напоминаю, что мы учитываем Ваши пожелания и интересы [голосование] при составлении тайминга.
До встречи вечером!
👉 на лекцию
Я скину ссылку на лекцию в 17-00, и сделаю напоминание в 19-20
Ссылки на полезные материалы с этой и предыдущей лекции уже вместе придут на почту!
p.s.: Напоминаю, что мы учитываем Ваши пожелания и интересы [голосование] при составлении тайминга.
До встречи вечером!
👉 на лекцию
⚠️ Лекция Attention: Vision Transformer «Мишин Лернинг»
Что на лекции: ViT, CLIP, ResNet with Attention, BiT, Swin, CoAtNet, MLP Mixer и многое другое
link: https://youtu.be/uQC5EsSV9xs
Что на лекции: ViT, CLIP, ResNet with Attention, BiT, Swin, CoAtNet, MLP Mixer и многое другое
link: https://youtu.be/uQC5EsSV9xs
YouTube
Нейронные сети: Attention: Vision Transformer (ViT) | CLIP, Swin, CoAtNet, MLP Mixer | Transformer
Лекция Attention: Vision Transformer | ViT & Beyond от Дениса Драбчука Senior Deep Learning Researcher at SQUAD. Transformer | Прогрессивное ML комьюнити
Освободи вечер четверга и погрузись в мир трансформеров для задач компьютерного зрения! Узнай все плюсы…
Освободи вечер четверга и погрузись в мир трансформеров для задач компьютерного зрения! Узнай все плюсы…
Forwarded from эйай ньюз
Братья и сéстры, золотой молоток U-Net вернулся к нам в новом виде! Теперь в шкуре трансформера.
Берем self-attention блоки, разбавляем их даунсэмплингами, апсэмплингами и depth-wise конволюциями. Ну, и, по классике, пробрасываем скип-конэкшены между энкодером и декодером. И вот, у нас получился U-former.
Китайцы предлагают его использовать для низкоуровневых vision задач, как то: восстановление изображений, энхансинг, деблюринг, денойзинг. Улучшения кажутся маргинальными, но я не супер эксперт в теме восстановления изображений (может я чего-то не понял?). Все равно архитектура стоит внимания.
Статья | GitHub
Берем self-attention блоки, разбавляем их даунсэмплингами, апсэмплингами и depth-wise конволюциями. Ну, и, по классике, пробрасываем скип-конэкшены между энкодером и декодером. И вот, у нас получился U-former.
Китайцы предлагают его использовать для низкоуровневых vision задач, как то: восстановление изображений, энхансинг, деблюринг, денойзинг. Улучшения кажутся маргинальными, но я не супер эксперт в теме восстановления изображений (может я чего-то не понял?). Все равно архитектура стоит внимания.
Статья | GitHub
This media is not supported in your browser
VIEW IN TELEGRAM
Нейромодерн или основная мысль пейпера CoAtNet
🎴 Diffusion + CLIP + Real-ESRGAN
Решил прогнать через супер-резолюшн картины, созданные по текстовому описанию «Киберпанк-церковь, напоминающая карту таро Смерть в стиле Грега Рутковски». Увидел изображения у Denis Sexy IT в этом посте.
Сами картины сгенерированны программистской, прикрутившей CLIP к Diffusion
🔮 актуальный colab
p.s.: такой пайплайн — my personal SOTA по zero-shot text2image
Решил прогнать через супер-резолюшн картины, созданные по текстовому описанию «Киберпанк-церковь, напоминающая карту таро Смерть в стиле Грега Рутковски». Увидел изображения у Denis Sexy IT в этом посте.
Сами картины сгенерированны программистской, прикрутившей CLIP к Diffusion
🔮 актуальный colab
p.s.: такой пайплайн — my personal SOTA по zero-shot text2image
Forwarded from Neural Shit
О, тут выкатили веб интерфейс Stylegan-Nada, можно потестить прям онлайн. Работает быстро (но под нагрузкой может и тупить). На прикреплённом фото пример с Ельциным и всеми поддерживаемыми стилями
Понажимать можно тут: https://replicate.ai/rinongal/stylegan-nada
Ежели под нагрузкой будет тупить, а вам не лень пердолиться с колабом, то вот ссылка
Если получится что-то годное, делитесь в личку
Понажимать можно тут: https://replicate.ai/rinongal/stylegan-nada
Ежели под нагрузкой будет тупить, а вам не лень пердолиться с колабом, то вот ссылка
Если получится что-то годное, делитесь в личку
This media is not supported in your browser
VIEW IN TELEGRAM
⚠️🎓 Лекция от Kha Vu, Microsoft | Deep Metric Learning
В этот четверг мы ждем тебя на крутейшем вебинаре!
Лектор: Kha Vu, Microsoft
🔍 Отвечает за поисковой движок и ранжирование изображений в Bing Image Search
📇 Блог Kha Vu
Что будет на лекции:
▪️ What is Metric Learning, and why do we need it?
▪️ Contrastive approaches
▪️ When can they produce good results, and what are their limitations?
▪️Contrastive, Triplet, and N-Pair losses
▪️Angular margin approaches
▪️In which cases are they better than Contrastive approaches?
▪️ArcFace, CosFace, and other SOTA methods
▪️A survey of how Metric Learning is used to solve real-world and Kaggle problems
Ссылки и полезные материалы придут по почте по итогам лекции
📅 19-30 (этот четверг) 7 октября
🎓 Онлайн и бесплатно (по регистрации)
👉 ссылка на лекцию в Transformer
В этот четверг мы ждем тебя на крутейшем вебинаре!
Лектор: Kha Vu, Microsoft
🔍 Отвечает за поисковой движок и ранжирование изображений в Bing Image Search
📇 Блог Kha Vu
Что будет на лекции:
▪️ What is Metric Learning, and why do we need it?
▪️ Contrastive approaches
▪️ When can they produce good results, and what are their limitations?
▪️Contrastive, Triplet, and N-Pair losses
▪️Angular margin approaches
▪️In which cases are they better than Contrastive approaches?
▪️ArcFace, CosFace, and other SOTA methods
▪️A survey of how Metric Learning is used to solve real-world and Kaggle problems
Ссылки и полезные материалы придут по почте по итогам лекции
📅 19-30 (этот четверг) 7 октября
🎓 Онлайн и бесплатно (по регистрации)
👉 ссылка на лекцию в Transformer