Data Blog
1.36K subscribers
98 photos
3 videos
4 files
164 links
Канал про интерпретируемость моделей и путь до phD, если автор не уйдет пасти овец.
Download Telegram
Картинки 1, 2
CV the main things in 2022

Ну, а мы продолжим!
Вторая часть доклада была посвящена во-первых, задаче masked modeling — обучение, при котором мы учимся прогнозировать замаскированную часть входных данных (целевая переменная здесь — маска). Для картинок это значит, что мы пытаемся восстановить замаскированный патч.

Во-вторых, мультимодальным моделям.

Начнем с “во-первых”. Здесь автор выделил:

- фреймворк simMIM (simple mask image modeling), статья, гитхаб

- подход к обучению MAE + videoMAE (masked autoencoder) — во время обучения часть encoder-a получает только незамаскированные патчи,а декодер получает входные данные целиком, включающие замаскированные части (статья, объяснение на medium (simMIM + MAE), туториал на kaggle)

Статья видео, гитхаб видео

- Masked Feature Prediction — тотально элегантный метод претрайнинга, красиво вывозящий задачи video recognition. Авторы статьи тестировали несколько разных hand-crafting признаков, и оказалось, что претрейнинг модели на HOG (Histograms of Oriented Gradients) особенно хорош (а ещё как красив! Я аж прикрепила скрин (1) из статьи)

Статья, гитхаб (увы, совсем простой)


- BeiT v2 — моделька продолжение BeiT с новым подходом к токенизации — обогащение визуального трансформера семантическими токенами. Лучше других показала себя на ImageNet в задачах семантической сегментации и классификации. Статья, гитхаб


-EVA — даже не знаю, как эту модель описать. Масштабированный CLIP, переносимый на задачи классификации (images, video action), детекции, сегментациии и др (статья, гитхаб)


Справка: CLIP — подход к обучению, во время которого на input мы подаем image+text данные — чтобы построить мост между изображением и текстом

Освещение других работ, а также объяснение задачи masked image modelling в целом, я отыскала ещё здесь... И в этом блоке напоследок привожу


- MaskGIT — генеративочка! Причем склеенная с подходом использования масок для обучения и инференса. Много прикольных примеров, надо это стоит даже просто посмотреть — прикрепляю вам котика.

Статья, гитхаб

И пару-моделек с прикруткой трансформеров к задаче детекции с комбинацией описанных выше подходов:

vitDet (MAE-based) (статья, гитхаб) и viLD — open vocabularary detecor — детектор, поддерживающий произвольные текстовые запросы, как OWL-ViT выше (статья)

Плюс фреймворк pix2seq — Pix2Seq casts object detection as a language modeling task conditioned on the observed pixel inputs — интересный подход к формулировке задаче детекции (статья, гитхаб — фреймворк дорабатывается до multi-task формата)
🔥2
И, ура! (Вы ещё читаете? Я вас люблю) Переходим к “во-вторых” — мультимодальности моделек.

Начем с модальности image+text

visual question-answering + captioning tasks + multiple-choice visual question-answering = flamingo (статья, гитхаб)

visual recognition + crossmodal retrieval +multimodal understanding+ image captioning = CoCa (статья, гитхаб)

image captioning+visual question- answering + scene-text understanding = PaLI (статья)


Дальше — универсализация сегментаций в виде Mask2former – архитектуры. Справляется с задачами panoptic, instance or semantic segmentation (статья, гитхаб)

Кстати, с серией про сегментацию была затронута модификация лосса PACL (статья).

UViM — универсализация для задач компьютерного зрения, показавшая state-of-the-art эффективность на panoptic segmentation, depth prediction and image colorization (статья)

И самое вкусное:

-Unified-IO — модель, употребившая в себя универсальность для всего — от classical computer vision ( object detection, segmentation, and depth estimation), до image synthesis ( image generation and image in-painting), vision-and-language (like visual question answering, image captioning, and referring expression) и NLP (such as question answering and paraphrasing). Статья тут, демо тут.

И напоследок про все эти мультимодальности:

- data2vec — фреймворк, с заявкой на обобщение обучения в режиме self-supervised для данных разных модальностей — звук, изображения, аудио. Внутри трансформеры и masking.

Статья, гитхаб, huggifance

(Много и)...

Также докладчик затронул Plenoxels и Decomposing NeRF for Editing via Feature Field Distillation. Если вам близка тема зрения очень — можете глянуть, я пока разбираться не лезла.
🔥2
HOG (masked feature prediction) и обещанный котик 💙
А теперь — вы видите многобукв и боитесь читать. Что делать?

Первое — краткое содержание. 2022 правят visual transformers and multimodal architectures.

Второе. Что с этим текстом делать.

Вся эта информация является просто ознакомительной. Серьезно. Даже беглого взгляда достаточно, чтобы втянуться и просто знать, чего вышло в 2022, а потом, если вдруг понадобится — знать куда копать. Не нужно открывать статьи даже, моя цель с ними — сделать удобную базу "на почитать".

Я искренне плевалась, разбирая кучу статей и делая выжимки и чувствовала себя примерно тупой отставшей и всегда удивленной. Однако я получила кучу удовольсвия и новых знаний.

Вам предлагаю тот же подход!)

Буду рада услышать обратную связь и увидеть огонечки — в моих планах организовать подобное на NLP и обучение с подкреплением.

С любовью,
Ваш дата-автор 😌
👍5🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Друзья! Начала готовить “главные вещи в NLP” — не могу не поделиться кусочком конференции — такой уж он жизненный))

Лектор-докладчик — Михаил Бурцев. Безумно крут — по его лекциям можно расти не только теоретически, но и с точки зрения подачи материала. 🥹🤌🏼

Спойлер: нет, главные вещи — это не только про GPT!) Хотя GPT-шки — некоторый центр.

Постараюсь на этой неделе подговить и NLP, и Reinforcement Learning, но «постараюсь» тут, конечно, важное слово.

Добрых ночи, дня и любого времени!
Ваш Дата-автор.
🔥51👍1
Быстрое включение:

Я сейчас просто ору от счастья — маме поорала, подруге поорала и сюда тоже поору — еду на конференцию в СПБГУ с докладом прости господи! 🥹🤌🏼
👍8🔥5🎉21🤮1
Друзья, по итогу стараюсь подготовить хотя бы часть из обещанного, но готовлю!

Просто много беготни с бумагами, университетом и «что мне вам сдать, чтобы вы не считали за пропуск моё отсутствие» 😄

Из интересного: у конференции СПбГУ будет трансляция. Так что если вы найдете для себя что-то в программе, то можете послушать по ссылкам на запись.

После конференции ещё поделюсь некоторыми материалами выступления и работы — чесслово поделюсь, с ними я уже успела 😅

Отличной вам субботы,
Ваш Дата-автор
3
Привет, друзья! Я наконец-то выступила.

Опуская то, что я тот ещё пирожок и могла лучше, делюсь с вами итогом моей работы и начальным продуктом моих исследований.

Что это — репозиторий, который содержит библиотеки интерпретации моделек, проанализированные в трех разрезах:

- возможность интерпретировать модель в зависимости от типа данных, на которых она обучалась

- возможность интерпретировать модель в зависимости от фреймворка, с помощью которого вы обучили модель

- возможность интерпретировать специфической методикой

Буду рада вашей обратной связи!
И буду рада, если вам удастся распространить эту штуку среди тех, кому она может быть полезна.

Ссылка: https://github.com/SadSabrina/XAI
(А статья ещё месяц будет плавать на рецензировании, но её потом тоже подтяну (если опубликуют))

Со всей радостной усталостью и моргая синяками под глазами,
Ваш Дата-автор!
❤‍🔥6👍21
Здесь-там повыше должно было быть какое-то интро на тему важности интерпретации, но мне так лень, поэтому потом напишу...
А если есть вопросы можете задать, я постепенно поотвечаю)
😁2
Привет, друзья!

И так, я привела свои мешки под глазами в порядок и готова раздавать долги. На повестке дня тема — главные NLP-вещи в 2022! Но больше мне понравилось (и после прочтения всех постов вы поймете, почему), название доклада, предложенное самим Михаилом Бурцевым — Large language models, like a universal AI acid (Большие языковые модели, как универсальная кислота искусственного интеллекта).

Сегодня у нас будет 1 часть — небольшое введение. Завтра — пройдемся по конкретным моделям, недостаткам LLM и решениям этих недостатков. Послезавтра или также завтра (как успею) обсудим вещи, названные Михаилом "интереснее GPT" (и он прав!).

И так, для начала аккуратное введение:

Кто такие LLM?

Если вы занимаетесь машин-лергингом, вам сто процентов известно семейство BERTов.Если же машин-лернингом вы не занимаетесь или BERTы были в стороне от вашей ветки исследование, то вам сто, двести, триста процентов известны GPT =)

BERTы и GPT-шки — самые известные подходы, относящиеся к LLM.

В чем разница:

BERT (статья) (Bidirectional Encoder Representations from Transformers) — относится к mask language models — модели, костяки которых обучаются на восстановлении замаскированных токенов. (Было предложение “Мама мыла раму”, учимся в “Мама ___ раму” восстанавливать слово “мыло”, но можно и другое, годное по контексту).


К этому пред обученному костяку добавляется то, что называется “голова”, которая уже дообучается на конкретную задачу.

GPT (статья) — generative pretrained transformers. Здесь задача обучения исходной модели строится не как восстановление токенов, а как предсказание следующего токена последовательности. (Как это работает “Мама ___ ___”, учимся предсказывать, что там мама делала).

Плюшка такого подхода состоит в том, что можно формулировать модели на вход задачу, а она, тк обучена предсказывать следующий токен, естественным outputом генерит решение задачи (привет наш chat-с-GPT).

И то, и то позволяет обучаться в режиме self supervised learning. Плюсы GPT — удобное использование в формате “zero-shot” (без до обучения на конкретную задачу). Кроме того, при “дообучении” тут выяснено,что при подаче даже только одного примера (“one-shot”), качество решения может возрасти до 4х раз, но это справедливо только при достаточно большом количестве внутренних параметров модели. Ну и с подачей бОльшего числа примеров (“few-shot”), качество решения растет дальше.

И для введения это всё.
Отдельно подмечу, что в LLM-ках архитектуру трансформер и подход масок можно сейчас встречать почти всегда.

До второй части,
Ваш дата-автор!
👍4👨‍💻1
Было бы вам интересноо узнать, как проходила конференция в СПбГУ?
Anonymous Poll
80%
Да
20%
Нет
И ещё вопрос-опрос выше)
Data Blog pinned «Привет, друзья! Я наконец-то выступила. Опуская то, что я тот ещё пирожок и могла лучше, делюсь с вами итогом моей работы и начальным продуктом моих исследований. Что это — репозиторий, который содержит библиотеки интерпретации моделек, проанализированные…»
Привет, друзья! Сегодня я закончу (ура) с NLP. Сложная неделя была — готовилась к ещё одной конференции (схожий доклад, 2 место 🤓).

Теперь, к делу:

На 2022 были отмечены публикации некоторых LLM моделек в open-source.

Одной такой красоткой была BLOOM (176 миллиардов параметров, обучена на ROOTS corpus, 46 естественных языков и 13 языков). Её архитектура аналогична GPT-3 – авторегрессионная модель для прогнозирования следующего токена. (статья, huggifance).

Второй была GLM-130B (статья) — моделька-билингв с интересностью в процессе обучения. Учится не только предсказывать следующий токен, но и делать это в формате авторегрессионного предсказания нескольких следующих друг за другом токенов, в произвольном порядке (подробнее в статье). (huggifance (онлайн-запуск модели), гитхаб). Но она была больше попыткой.

И очень крутой (хоть и не в open'e) тут была Gato (статья) — кросс-модальная универсальная модель с 1.2 миллиардами параметров. Может выполнять более 600 задач, таких как воспроизведение видеоигр, создание субтитров к изображениям и управление роботами. Но количество не дало наилучшего качества для каждой отдельной задачи

Дальше, на духу GPT-vawe, на самом деле больших моделек показывали многие компании. Как примеры — модельки PaLM и LLaMA:


- PaLM (Pathways Language Model, статья). Суммарно решает задачи языковых бенчмарков на уровне среднестатистического человека, но при этом есть задачи, которая она решает как лучше, так и хуже (отсюда некоторая магия среднего).

Но я чуть покопалась и меня затронуло вот что — в публикациях, описывающих подход к обучению Pathways models, авторы модели называют свой подход “новой эрой”.

“Pathways will enable a single AI system to generalize across thousands or millions of tasks, to understand different types of data, and to do so with remarkable efficiency – advancing us from the era of single-purpose models that merely recognize patterns to one in which more general-purpose intelligent systems reflect a deeper understanding of our world and can adapt to new needs.” [source] — интересно, что из этого выйдет дальше!


- LLaMA (статья, huggifance). Но про нее ничего особенно сказать не могу. Большая моделька и большая моделька с хороших качеством.

Не обошла волна и научное сообщество! Были попытки сделать модели для научных задач — они обучались как на решении теорем, так и на разных областях (например, была даже bioGPT).

Самая вкусная тут (была выделена в докладе) — Galactica (статья, сайт (open use)) обученная на именно на статьях. Интересно то, что в ходе обучения исследователи META AI предложили вариант решения задачи представления изображений, последовательностей днк, кода и пр. в виде общей последовательности токенов, что описано в статье. Вот.
1🔥1
Однако, вопреки тому что LLM (хорошо) работают, они не существуют без проблем. И на мой субъективный взгляд — проблемы чуть ли не интереснее самих LLM!

Например, даже если модель дает верный текстовый ответ (GPT вот недавно поставил моей подруге те же диагнозы, что и врач!), очень важно проследить причинно-следственную связь её инференса. (Здесь я должна машу бумажкой с темой моих научных интересов — explainable AI)

Проблемы породили новые исследования — касаемые управления LLM.

В докладе были приведены два:

- Chain of thought reasoning (статья). Обучение моделей генерировать не только ответ, но и рассуждение.

- Reinforcement learning for human feedback (RLHF). Метод от которого растут ноги улучшения качества ответов GPT во времени. Дообучение в этом подходе происходит как сбор данных с диалогом по решению задачи, которую мы хотели бы решить.

Как это:

1. Данные — X = формулировка задачи, Y — человеческий ответ;
2. Сбор всех возможных решений similar задач;
3. Ранжирование ответов человеком — от самого релевантного к менее релевантному;
4. Определение функции наград как максимизирующую предпочтения человека;
5. Дообучение и profit.

Ещё галопом прошлись по докладам, связанным с применением LLM вместе с роботами.

Доклад 1: Использование языковых моделей с моделью контекста, в котором находится работ. Как это работает — получаем решение задачи как выход языковых моделей, Ранжируем и выбираем решение моделью контекста. SayCan (статья).

Доклад 2 (понравился мне невероятно)!: Socratic models (статья). Языковая модель, аудио-языковая модель и видео-языковая модель. Как это работает — одна модель спрашивает — что имеет ввиду человек. Языковая отвечает “это пульт”. Визуальная ищет мульт в записанном видеопотоке. Ещё одна модель спрашивает — где этот пульт (и тд)).

Плюс туда подкручено использование внешних источников. Например, если пользователь что-то готовит и не понимает текстуру, то он может спросить “а какое должно быть безе и модель,обращаясь к внешнему источнику, выдает видео-картинку с нужной текстурой.

Оба доклада, отмечу, тоже имеют небольшой задел на контроль модели и попытку сделать решение не только корректным, но и прозрачным!

Вот так, друзья,
она долго писала и дописала. Сейчас уже 23й, новые исследования, и новые публикации, но чувствую (это предикт) нас ждёт мощная волна на мультимодальность, мультизадачность и попытку, но только попытку, решения проблем.

Про выступление в Питере напишу быстро-кратко на неделе) Надеюсь. Про RL, думаю, выпускать уже не буду — не успеваю вообще 🙈

И! С праздником вас!🙏🏻
Ваша дата-автор.
6
О конференции СПбГУ.

Привет, друзья! И у меня руки дошли, и даже через не совсем долгое время.

Что можно сказать о конференции в не родных стенах:

Другие уровень и формат.

Насчет уровня — впервые публикуюсь в сборнике с историей в 20+ лет. Соответственно требования к формату работы (шрифты, переносы, стиль, запятые) мне выдвигаются тоже впервые.

Вычитывать было не так сложно, как ощущать свою работу пороховой бочкой, где ещё одна запятая может сдвинуть страницу на миллиметр, который не будет вписываться в формат страницы. Впрочем, такие ощущения только от первого раза. Ну и ещё я начала чуть-чуть любить Латех.

Касаемо формата - конференция нашего ВУЗа, хоть тоже и аккумулирует в основном магистров и аспирантов, отличается по правилам и структуре. У нас, например, есть места и всё всё равно немного по «домашнему». Здесь же выше и серьезнее ощущался градус какой-то ответственности.

Дальше.

Из неприятного:

1. Давление — у нас выступал приглашенный спикер с богатым опытом работ (и набором публикаций). Он давил каждого выступавшего, не досталась только одному человеку (из 23). В первый день я невероятно «сдала», особенно после фразы «а вы уверенны в своей литературе?». К сожалению, отстаивать свой труд даже перед людьми «старше по степени» — это навык, который мне надо развивать.

2. Мизогиния (это называется так?😅). После фразы «для девушек есть мастер-классы проще» — мы с ещё двумя дамами в аудитории улыбнулись от души. (Ну пожалуйста, ну не надо так!)

3. Волнение. От него не сказала много содержательного.

Из приятного:

1. Прочувствовала навык важности качественной вычитки и единого формата.

Когда запятая к запятой и буква к букве — чувствуется, будто наряжаешь свою работу в лучший костюм)

2. Познакомилась с новым типом людей и получила плюс в интеллектуальную самооценку.

Тот самый «человек с большим опытом», который задавил меня в первый день, подошел во второй и попросил «писать дальше всё, что вижу».

Вот так вот, и я продолжаю работать)

Область explainable AI, увлекла меня очень сильно, так что внимаю и смотрю, что я ещё могу исследовать и сделать.

А на второй, своей родной конференции выступила сильно увереннее и взяла диплом 2 степени. Учла ошибки из Питера.

Главный вывод:

Вычитка, спокойствие и уверенность — эти три вещи перед докладами лучше не опускать)

Такой лонгрид.

Отличного дня!
Ваш Дата-автор :)
👍74🔥2
Новые конференции и продуктивный дата-автор.

Привет, друзья!


Вас стало больше, рада видеть! У меня сессия на носу, поэтому я уже готовлюсь.

Но пишу с новостью!)

3-4 июня
буду выступать на DataFest2023, как спикер секции Reliable ML.

Точное время сообщу, как утрясется расписание.

Счастья полные штаны.

Кажется, постепенно я потерялась с контентом, который сюда вымещать. Поэтому, с целью максимизации полезности вашего тут пребывания, прошу тыкнуть в опросе:
🔥5