Data Blog

Картинки 1, 2

362 views12:11

CV the main things in 2022

Ну, а мы продолжим!
Вторая часть доклада была посвящена во-первых, задаче masked modeling — обучение, при котором мы учимся прогнозировать замаскированную часть входных данных (целевая переменная здесь — маска). Для картинок это значит, что мы пытаемся восстановить замаскированный патч.

Во-вторых, мультимодальным моделям.

Начнем с “во-первых”. Здесь автор выделил:

- фреймворк simMIM (simple mask image modeling), статья, гитхаб

- подход к обучению MAE + videoMAE (masked autoencoder) — во время обучения часть encoder-a получает только незамаскированные патчи,а декодер получает входные данные целиком, включающие замаскированные части (статья, объяснение на medium (simMIM + MAE), туториал на kaggle)

Статья видео, гитхаб видео

- Masked Feature Prediction — тотально элегантный метод претрайнинга, красиво вывозящий задачи video recognition. Авторы статьи тестировали несколько разных hand-crafting признаков, и оказалось, что претрейнинг модели на HOG (Histograms of Oriented Gradients) особенно хорош (а ещё как красив! Я аж прикрепила скрин (1) из статьи)

Статья, гитхаб (увы, совсем простой)

- BeiT v2 — моделька продолжение BeiT с новым подходом к токенизации — обогащение визуального трансформера семантическими токенами. Лучше других показала себя на ImageNet в задачах семантической сегментации и классификации. Статья, гитхаб

-EVA — даже не знаю, как эту модель описать. Масштабированный CLIP, переносимый на задачи классификации (images, video action), детекции, сегментациии и др (статья, гитхаб)

Справка: CLIP — подход к обучению, во время которого на input мы подаем image+text данные — чтобы построить мост между изображением и текстом

Освещение других работ, а также объяснение задачи masked image modelling в целом, я отыскала ещё здесь... И в этом блоке напоследок привожу

- MaskGIT — генеративочка! Причем склеенная с подходом использования масок для обучения и инференса. Много прикольных примеров, надо это стоит даже просто посмотреть — прикрепляю вам котика.

Статья, гитхаб

И пару-моделек с прикруткой трансформеров к задаче детекции с комбинацией описанных выше подходов:

vitDet (MAE-based) (статья, гитхаб) и viLD — open vocabularary detecor — детектор, поддерживающий произвольные текстовые запросы, как OWL-ViT выше (статья)

Плюс фреймворк pix2seq — Pix2Seq casts object detection as a language modeling task conditioned on the observed pixel inputs — интересный подход к формулировке задаче детекции (статья, гитхаб — фреймворк дорабатывается до multi-task формата)

GitHub

GitHub - microsoft/SimMIM: This is an official implementation for "SimMIM: A Simple Framework for Masked Image Modeling".

This is an official implementation for "SimMIM: A Simple Framework for Masked Image Modeling". - GitHub - microsoft/SimMIM: This is an official implementation for "SimMIM...

🔥2

358 views16:08