И про Patch Embedding.
Patch Embedding — преобразование картинки в матрицу признаков размерностью (n+1, d).
Simple описание преобразования (все цифры 1-7 на картинке 1:
1. Берем картинку (H, W, C) – высота, ширина, число каналов (1)
2. Режем её на N патчей (патч — квадрат меньшего размера), с размерностями (p, p, c), где p — сторона квадрата (2)
3. Эти патчи разглаживаем в вектор, выходит N векторов размерностью p*2xC (3)
4. Массив патчей, размерностью (N, p*2xC) умножается на обучаемый тензор
с размерностями (p*2xC, d) (4)
5. В результате получаем N патчей с размерностями (1, d) (5)
6. Добавляем [cls] токен, аналогичный BERT (картинка и интуитивный ответ тут, храни боже stack overflow) с размерностью (1, d), итого у нас вход – (N+1, d) (6)
6. К каждому патчу добавляем позиционный эмбеддинг с такой-же размерностью (1, d) (7)
Получаем z0 (картинка 2, 1) , вход, который далее проходит в слои энкодера (изучаем более абстрактные признаки в патчах) следующего вида (картинка 2, 2, 3):
MSA здесь multiheaded self-attention, слой же MLP — Multilayer perceptron c двумя слоями. Процесс совсем подробнее можно изучить в оригинале - статье, подробнее также про MSA в ViT описано здесь.
Patch Embedding — преобразование картинки в матрицу признаков размерностью (n+1, d).
Simple описание преобразования (все цифры 1-7 на картинке 1:
1. Берем картинку (H, W, C) – высота, ширина, число каналов (1)
2. Режем её на N патчей (патч — квадрат меньшего размера), с размерностями (p, p, c), где p — сторона квадрата (2)
3. Эти патчи разглаживаем в вектор, выходит N векторов размерностью p*2xC (3)
4. Массив патчей, размерностью (N, p*2xC) умножается на обучаемый тензор
с размерностями (p*2xC, d) (4)
5. В результате получаем N патчей с размерностями (1, d) (5)
6. Добавляем [cls] токен, аналогичный BERT (картинка и интуитивный ответ тут, храни боже stack overflow) с размерностью (1, d), итого у нас вход – (N+1, d) (6)
6. К каждому патчу добавляем позиционный эмбеддинг с такой-же размерностью (1, d) (7)
Получаем z0 (картинка 2, 1) , вход, который далее проходит в слои энкодера (изучаем более абстрактные признаки в патчах) следующего вида (картинка 2, 2, 3):
MSA здесь multiheaded self-attention, слой же MLP — Multilayer perceptron c двумя слоями. Процесс совсем подробнее можно изучить в оригинале - статье, подробнее также про MSA в ViT описано здесь.
Stack Overflow
Why Bert transformer uses [CLS] token for classification instead of average over all tokens?
I am doing experiments on bert architecture and found out that most of the fine-tuning task takes the final hidden layer as text representation and later they pass it to other models for the further
🔥3
CV the main things in 2022
Ну, а мы продолжим!
Вторая часть доклада была посвящена во-первых, задаче masked modeling — обучение, при котором мы учимся прогнозировать замаскированную часть входных данных (целевая переменная здесь — маска). Для картинок это значит, что мы пытаемся восстановить замаскированный патч.
Во-вторых, мультимодальным моделям.
Начнем с “во-первых”. Здесь автор выделил:
- фреймворк simMIM (simple mask image modeling), статья, гитхаб
- подход к обучению MAE + videoMAE (masked autoencoder) — во время обучения часть encoder-a получает только незамаскированные патчи,а декодер получает входные данные целиком, включающие замаскированные части (статья, объяснение на medium (simMIM + MAE), туториал на kaggle)
Статья видео, гитхаб видео
- Masked Feature Prediction — тотально элегантный метод претрайнинга, красиво вывозящий задачи video recognition. Авторы статьи тестировали несколько разных hand-crafting признаков, и оказалось, что претрейнинг модели на HOG (Histograms of Oriented Gradients) особенно хорош (а ещё как красив! Я аж прикрепила скрин (1) из статьи)
Статья, гитхаб (увы, совсем простой)
- BeiT v2 — моделька продолжение BeiT с новым подходом к токенизации — обогащение визуального трансформера семантическими токенами. Лучше других показала себя на ImageNet в задачах семантической сегментации и классификации. Статья, гитхаб
-EVA — даже не знаю, как эту модель описать. Масштабированный CLIP, переносимый на задачи классификации (images, video action), детекции, сегментациии и др (статья, гитхаб)
Справка: CLIP — подход к обучению, во время которого на input мы подаем image+text данные — чтобы построить мост между изображением и текстом
Освещение других работ, а также объяснение задачи masked image modelling в целом, я отыскала ещё здесь... И в этом блоке напоследок привожу
- MaskGIT — генеративочка! Причем склеенная с подходом использования масок для обучения и инференса. Много прикольных примеров, надо это стоит даже просто посмотреть — прикрепляю вам котика.
Статья, гитхаб
И пару-моделек с прикруткой трансформеров к задаче детекции с комбинацией описанных выше подходов:
vitDet (MAE-based) (статья, гитхаб) и viLD — open vocabularary detecor — детектор, поддерживающий произвольные текстовые запросы, как OWL-ViT выше (статья)
Плюс фреймворк pix2seq — Pix2Seq casts object detection as a language modeling task conditioned on the observed pixel inputs — интересный подход к формулировке задаче детекции (статья, гитхаб — фреймворк дорабатывается до multi-task формата)
Ну, а мы продолжим!
Вторая часть доклада была посвящена во-первых, задаче masked modeling — обучение, при котором мы учимся прогнозировать замаскированную часть входных данных (целевая переменная здесь — маска). Для картинок это значит, что мы пытаемся восстановить замаскированный патч.
Во-вторых, мультимодальным моделям.
Начнем с “во-первых”. Здесь автор выделил:
- фреймворк simMIM (simple mask image modeling), статья, гитхаб
- подход к обучению MAE + videoMAE (masked autoencoder) — во время обучения часть encoder-a получает только незамаскированные патчи,а декодер получает входные данные целиком, включающие замаскированные части (статья, объяснение на medium (simMIM + MAE), туториал на kaggle)
Статья видео, гитхаб видео
- Masked Feature Prediction — тотально элегантный метод претрайнинга, красиво вывозящий задачи video recognition. Авторы статьи тестировали несколько разных hand-crafting признаков, и оказалось, что претрейнинг модели на HOG (Histograms of Oriented Gradients) особенно хорош (а ещё как красив! Я аж прикрепила скрин (1) из статьи)
Статья, гитхаб (увы, совсем простой)
- BeiT v2 — моделька продолжение BeiT с новым подходом к токенизации — обогащение визуального трансформера семантическими токенами. Лучше других показала себя на ImageNet в задачах семантической сегментации и классификации. Статья, гитхаб
-EVA — даже не знаю, как эту модель описать. Масштабированный CLIP, переносимый на задачи классификации (images, video action), детекции, сегментациии и др (статья, гитхаб)
Справка: CLIP — подход к обучению, во время которого на input мы подаем image+text данные — чтобы построить мост между изображением и текстом
Освещение других работ, а также объяснение задачи masked image modelling в целом, я отыскала ещё здесь... И в этом блоке напоследок привожу
- MaskGIT — генеративочка! Причем склеенная с подходом использования масок для обучения и инференса. Много прикольных примеров, надо это стоит даже просто посмотреть — прикрепляю вам котика.
Статья, гитхаб
И пару-моделек с прикруткой трансформеров к задаче детекции с комбинацией описанных выше подходов:
vitDet (MAE-based) (статья, гитхаб) и viLD — open vocabularary detecor — детектор, поддерживающий произвольные текстовые запросы, как OWL-ViT выше (статья)
Плюс фреймворк pix2seq — Pix2Seq casts object detection as a language modeling task conditioned on the observed pixel inputs — интересный подход к формулировке задаче детекции (статья, гитхаб — фреймворк дорабатывается до multi-task формата)
GitHub
GitHub - microsoft/SimMIM: This is an official implementation for "SimMIM: A Simple Framework for Masked Image Modeling".
This is an official implementation for "SimMIM: A Simple Framework for Masked Image Modeling". - GitHub - microsoft/SimMIM: This is an official implementation for "SimMIM...
🔥2
И, ура! (Вы ещё читаете? Я вас люблю) Переходим к “во-вторых” — мультимодальности моделек.
Начем с модальности image+text
visual question-answering + captioning tasks + multiple-choice visual question-answering = flamingo (статья, гитхаб)
visual recognition + crossmodal retrieval +multimodal understanding+ image captioning = CoCa (статья, гитхаб)
image captioning+visual question- answering + scene-text understanding = PaLI (статья)
Дальше — универсализация сегментаций в виде Mask2former – архитектуры. Справляется с задачами panoptic, instance or semantic segmentation (статья, гитхаб)
Кстати, с серией про сегментацию была затронута модификация лосса PACL (статья).
UViM — универсализация для задач компьютерного зрения, показавшая state-of-the-art эффективность на panoptic segmentation, depth prediction and image colorization (статья)
И самое вкусное:
-Unified-IO — модель, употребившая в себя универсальность для всего — от classical computer vision ( object detection, segmentation, and depth estimation), до image synthesis ( image generation and image in-painting), vision-and-language (like visual question answering, image captioning, and referring expression) и NLP (such as question answering and paraphrasing). Статья тут, демо тут.
И напоследок про все эти мультимодальности:
- data2vec — фреймворк, с заявкой на обобщение обучения в режиме self-supervised для данных разных модальностей — звук, изображения, аудио. Внутри трансформеры и masking.
Статья, гитхаб, huggifance
(Много и)...
Также докладчик затронул Plenoxels и Decomposing NeRF for Editing via Feature Field Distillation. Если вам близка тема зрения очень — можете глянуть, я пока разбираться не лезла.
Начем с модальности image+text
visual question-answering + captioning tasks + multiple-choice visual question-answering = flamingo (статья, гитхаб)
visual recognition + crossmodal retrieval +multimodal understanding+ image captioning = CoCa (статья, гитхаб)
image captioning+visual question- answering + scene-text understanding = PaLI (статья)
Дальше — универсализация сегментаций в виде Mask2former – архитектуры. Справляется с задачами panoptic, instance or semantic segmentation (статья, гитхаб)
Кстати, с серией про сегментацию была затронута модификация лосса PACL (статья).
UViM — универсализация для задач компьютерного зрения, показавшая state-of-the-art эффективность на panoptic segmentation, depth prediction and image colorization (статья)
И самое вкусное:
-Unified-IO — модель, употребившая в себя универсальность для всего — от classical computer vision ( object detection, segmentation, and depth estimation), до image synthesis ( image generation and image in-painting), vision-and-language (like visual question answering, image captioning, and referring expression) и NLP (such as question answering and paraphrasing). Статья тут, демо тут.
И напоследок про все эти мультимодальности:
- data2vec — фреймворк, с заявкой на обобщение обучения в режиме self-supervised для данных разных модальностей — звук, изображения, аудио. Внутри трансформеры и masking.
Статья, гитхаб, huggifance
(Много и)...
Также докладчик затронул Plenoxels и Decomposing NeRF for Editing via Feature Field Distillation. Если вам близка тема зрения очень — можете глянуть, я пока разбираться не лезла.
GitHub
GitHub - lucidrains/flamingo-pytorch: Implementation of 🦩 Flamingo, state-of-the-art few-shot visual question answering attention…
Implementation of 🦩 Flamingo, state-of-the-art few-shot visual question answering attention net out of Deepmind, in Pytorch - GitHub - lucidrains/flamingo-pytorch: Implementation of 🦩 Flamingo, sta...
🔥2
А теперь — вы видите многобукв и боитесь читать. Что делать?
Первое — краткое содержание. 2022 правят visual transformers and multimodal architectures.
Второе. Что с этим текстом делать.
Вся эта информация является просто ознакомительной. Серьезно. Даже беглого взгляда достаточно, чтобы втянуться и просто знать, чего вышло в 2022, а потом, если вдруг понадобится — знать куда копать. Не нужно открывать статьи даже, моя цель с ними — сделать удобную базу "на почитать".
Я искренне плевалась, разбирая кучу статей и делая выжимки и чувствовала себяпримерно тупой отставшей и всегда удивленной. Однако я получила кучу удовольсвия и новых знаний.
Вам предлагаю тот же подход!)
Буду рада услышать обратную связь и увидеть огонечки — в моих планах организовать подобное на NLP и обучение с подкреплением.
С любовью,
Ваш дата-автор 😌
Первое — краткое содержание. 2022 правят visual transformers and multimodal architectures.
Второе. Что с этим текстом делать.
Вся эта информация является просто ознакомительной. Серьезно. Даже беглого взгляда достаточно, чтобы втянуться и просто знать, чего вышло в 2022, а потом, если вдруг понадобится — знать куда копать. Не нужно открывать статьи даже, моя цель с ними — сделать удобную базу "на почитать".
Я искренне плевалась, разбирая кучу статей и делая выжимки и чувствовала себя
Вам предлагаю тот же подход!)
Буду рада услышать обратную связь и увидеть огонечки — в моих планах организовать подобное на NLP и обучение с подкреплением.
С любовью,
Ваш дата-автор 😌
👍5🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Друзья! Начала готовить “главные вещи в NLP” — не могу не поделиться кусочком конференции — такой уж он жизненный))
Лектор-докладчик — Михаил Бурцев. Безумно крут — по его лекциям можно расти не только теоретически, но и с точки зрения подачи материала. 🥹🤌🏼
Спойлер: нет, главные вещи — это не только про GPT!) Хотя GPT-шки — некоторый центр.
Постараюсь на этой неделе подговить и NLP, и Reinforcement Learning, но «постараюсь» тут, конечно, важное слово.
Добрых ночи, дня и любого времени!
Ваш Дата-автор.
Лектор-докладчик — Михаил Бурцев. Безумно крут — по его лекциям можно расти не только теоретически, но и с точки зрения подачи материала. 🥹🤌🏼
Спойлер: нет, главные вещи — это не только про GPT!) Хотя GPT-шки — некоторый центр.
Постараюсь на этой неделе подговить и NLP, и Reinforcement Learning, но «постараюсь» тут, конечно, важное слово.
Добрых ночи, дня и любого времени!
Ваш Дата-автор.
🔥5❤1👍1
Быстрое включение:
Я сейчас просто ору от счастья — маме поорала, подруге поорала и сюда тоже поору — еду на конференцию в СПБГУ с докладом прости господи! 🥹🤌🏼
Я сейчас просто ору от счастья — маме поорала, подруге поорала и сюда тоже поору — еду на конференцию в СПБГУ с докладом прости господи! 🥹🤌🏼
👍8🔥5🎉2❤1🤮1
Друзья, по итогу стараюсь подготовить хотя бы часть из обещанного, но готовлю!
Просто много беготни с бумагами, университетом и «что мне вам сдать, чтобы вы не считали за пропуск моё отсутствие» 😄
Из интересного: у конференции СПбГУ будет трансляция. Так что если вы найдете для себя что-то в программе, то можете послушать по ссылкам на запись.
После конференции ещё поделюсь некоторыми материалами выступления и работы — чесслово поделюсь, с ними я уже успела 😅
Отличной вам субботы,
Ваш Дата-автор
Просто много беготни с бумагами, университетом и «что мне вам сдать, чтобы вы не считали за пропуск моё отсутствие» 😄
Из интересного: у конференции СПбГУ будет трансляция. Так что если вы найдете для себя что-то в программе, то можете послушать по ссылкам на запись.
После конференции ещё поделюсь некоторыми материалами выступления и работы — чесслово поделюсь, с ними я уже успела 😅
Отличной вам субботы,
Ваш Дата-автор
❤3
Привет, друзья! Я наконец-то выступила.
Опуская то, что я тот ещё пирожок и могла лучше, делюсь с вами итогом моей работы и начальным продуктом моих исследований.
Что это — репозиторий, который содержит библиотеки интерпретации моделек, проанализированные в трех разрезах:
- возможность интерпретировать модель в зависимости от типа данных, на которых она обучалась
- возможность интерпретировать модель в зависимости от фреймворка, с помощью которого вы обучили модель
- возможность интерпретировать специфической методикой
Буду рада вашей обратной связи!
И буду рада, если вам удастся распространить эту штуку среди тех, кому она может быть полезна.
Ссылка: https://github.com/SadSabrina/XAI
(А статья ещё месяц будет плавать на рецензировании, но её потом тоже подтяну (если опубликуют))
Со всей радостной усталостью и моргая синяками под глазами,
Ваш Дата-автор!
Опуская то, что я тот ещё пирожок и могла лучше, делюсь с вами итогом моей работы и начальным продуктом моих исследований.
Что это — репозиторий, который содержит библиотеки интерпретации моделек, проанализированные в трех разрезах:
- возможность интерпретировать модель в зависимости от типа данных, на которых она обучалась
- возможность интерпретировать модель в зависимости от фреймворка, с помощью которого вы обучили модель
- возможность интерпретировать специфической методикой
Буду рада вашей обратной связи!
И буду рада, если вам удастся распространить эту штуку среди тех, кому она может быть полезна.
Ссылка: https://github.com/SadSabrina/XAI
(А статья ещё месяц будет плавать на рецензировании, но её потом тоже подтяну (если опубликуют))
Со всей радостной усталостью и моргая синяками под глазами,
Ваш Дата-автор!
GitHub
GitHub - SadSabrina/XAI-open_materials
Contribute to SadSabrina/XAI-open_materials development by creating an account on GitHub.
❤🔥6👍2❤1
Здесь-там повыше должно было быть какое-то интро на тему важности интерпретации, но мне так лень, поэтому потом напишу...
А если есть вопросы можете задать, я постепенно поотвечаю)
А если есть вопросы можете задать, я постепенно поотвечаю)
😁2
Привет, друзья!
И так, я привела свои мешки под глазами в порядок и готова раздавать долги. На повестке дня тема — главные NLP-вещи в 2022! Но больше мне понравилось (и после прочтения всех постов вы поймете, почему), название доклада, предложенное самим Михаилом Бурцевым — Large language models, like a universal AI acid (Большие языковые модели, как универсальная кислота искусственного интеллекта).
Сегодня у нас будет 1 часть — небольшое введение. Завтра — пройдемся по конкретным моделям, недостаткам LLM и решениям этих недостатков. Послезавтра или также завтра (как успею) обсудим вещи, названные Михаилом "интереснее GPT" (и он прав!).
И так, для начала аккуратное введение:
Кто такие LLM?
Если вы занимаетесь машин-лергингом, вам сто процентов известно семейство BERTов.Если же машин-лернингом вы не занимаетесь или BERTы были в стороне от вашей ветки исследование, то вам сто, двести, триста процентов известны GPT =)
BERTы и GPT-шки — самые известные подходы, относящиеся к LLM.
В чем разница:
BERT (статья) (Bidirectional Encoder Representations from Transformers) — относится к mask language models — модели, костяки которых обучаются на восстановлении замаскированных токенов. (Было предложение “Мама мыла раму”, учимся в “Мама ___ раму” восстанавливать слово “мыло”, но можно и другое, годное по контексту).
К этому пред обученному костяку добавляется то, что называется “голова”, которая уже дообучается на конкретную задачу.
GPT (статья) — generative pretrained transformers. Здесь задача обучения исходной модели строится не как восстановление токенов, а как предсказание следующего токена последовательности. (Как это работает “Мама ___ ___”, учимся предсказывать, что там мама делала).
Плюшка такого подхода состоит в том, что можно формулировать модели на вход задачу, а она, тк обучена предсказывать следующий токен, естественным outputом генерит решение задачи (привет наш chat-с-GPT).
И то, и то позволяет обучаться в режиме self supervised learning. Плюсы GPT — удобное использование в формате “zero-shot” (без до обучения на конкретную задачу). Кроме того, при “дообучении” тут выяснено,что при подаче даже только одного примера (“one-shot”), качество решения может возрасти до 4х раз, но это справедливо только при достаточно большом количестве внутренних параметров модели. Ну и с подачей бОльшего числа примеров (“few-shot”), качество решения растет дальше.
И для введения это всё.
Отдельно подмечу, что в LLM-ках архитектуру трансформер и подход масок можно сейчас встречать почти всегда.
До второй части,
Ваш дата-автор!
И так, я привела свои мешки под глазами в порядок и готова раздавать долги. На повестке дня тема — главные NLP-вещи в 2022! Но больше мне понравилось (и после прочтения всех постов вы поймете, почему), название доклада, предложенное самим Михаилом Бурцевым — Large language models, like a universal AI acid (Большие языковые модели, как универсальная кислота искусственного интеллекта).
Сегодня у нас будет 1 часть — небольшое введение. Завтра — пройдемся по конкретным моделям, недостаткам LLM и решениям этих недостатков. Послезавтра или также завтра (как успею) обсудим вещи, названные Михаилом "интереснее GPT" (и он прав!).
И так, для начала аккуратное введение:
Кто такие LLM?
Если вы занимаетесь машин-лергингом, вам сто процентов известно семейство BERTов.Если же машин-лернингом вы не занимаетесь или BERTы были в стороне от вашей ветки исследование, то вам сто, двести, триста процентов известны GPT =)
BERTы и GPT-шки — самые известные подходы, относящиеся к LLM.
В чем разница:
BERT (статья) (Bidirectional Encoder Representations from Transformers) — относится к mask language models — модели, костяки которых обучаются на восстановлении замаскированных токенов. (Было предложение “Мама мыла раму”, учимся в “Мама ___ раму” восстанавливать слово “мыло”, но можно и другое, годное по контексту).
К этому пред обученному костяку добавляется то, что называется “голова”, которая уже дообучается на конкретную задачу.
GPT (статья) — generative pretrained transformers. Здесь задача обучения исходной модели строится не как восстановление токенов, а как предсказание следующего токена последовательности. (Как это работает “Мама ___ ___”, учимся предсказывать, что там мама делала).
Плюшка такого подхода состоит в том, что можно формулировать модели на вход задачу, а она, тк обучена предсказывать следующий токен, естественным outputом генерит решение задачи (привет наш chat-с-GPT).
И то, и то позволяет обучаться в режиме self supervised learning. Плюсы GPT — удобное использование в формате “zero-shot” (без до обучения на конкретную задачу). Кроме того, при “дообучении” тут выяснено,что при подаче даже только одного примера (“one-shot”), качество решения может возрасти до 4х раз, но это справедливо только при достаточно большом количестве внутренних параметров модели. Ну и с подачей бОльшего числа примеров (“few-shot”), качество решения растет дальше.
И для введения это всё.
Отдельно подмечу, что в LLM-ках архитектуру трансформер и подход масок можно сейчас встречать почти всегда.
До второй части,
Ваш дата-автор!
👍4👨💻1
Привет, друзья! Сегодня я закончу (ура) с NLP. Сложная неделя была — готовилась к ещё одной конференции (схожий доклад, 2 место 🤓).
Теперь, к делу:
На 2022 были отмечены публикации некоторых LLM моделек в open-source.
Одной такой красоткой была BLOOM (176 миллиардов параметров, обучена на ROOTS corpus, 46 естественных языков и 13 языков). Её архитектура аналогична GPT-3 – авторегрессионная модель для прогнозирования следующего токена. (статья, huggifance).
Второй была GLM-130B (статья) — моделька-билингв с интересностью в процессе обучения. Учится не только предсказывать следующий токен, но и делать это в формате авторегрессионного предсказания нескольких следующих друг за другом токенов, в произвольном порядке (подробнее в статье). (huggifance (онлайн-запуск модели), гитхаб). Но она была больше попыткой.
И очень крутой (хоть и не в open'e) тут была Gato (статья) — кросс-модальная универсальная модель с 1.2 миллиардами параметров. Может выполнять более 600 задач, таких как воспроизведение видеоигр, создание субтитров к изображениям и управление роботами. Но количество не дало наилучшего качества для каждой отдельной задачи
Дальше, на духу GPT-vawe, на самом деле больших моделек показывали многие компании. Как примеры — модельки PaLM и LLaMA:
- PaLM (Pathways Language Model, статья). Суммарно решает задачи языковых бенчмарков на уровне среднестатистического человека, но при этом есть задачи, которая она решает как лучше, так и хуже (отсюда некоторая магия среднего).
Но я чуть покопалась и меня затронуло вот что — в публикациях, описывающих подход к обучению Pathways models, авторы модели называют свой подход “новой эрой”.
“Pathways will enable a single AI system to generalize across thousands or millions of tasks, to understand different types of data, and to do so with remarkable efficiency – advancing us from the era of single-purpose models that merely recognize patterns to one in which more general-purpose intelligent systems reflect a deeper understanding of our world and can adapt to new needs.” [source] — интересно, что из этого выйдет дальше!
- LLaMA (статья, huggifance). Но про нее ничего особенно сказать не могу. Большая моделька и большая моделька с хороших качеством.
Не обошла волна и научное сообщество! Были попытки сделать модели для научных задач — они обучались как на решении теорем, так и на разных областях (например, была даже bioGPT).
Самая вкусная тут (была выделена в докладе) — Galactica (статья, сайт (open use)) обученная на именно на статьях. Интересно то, что в ходе обучения исследователи META AI предложили вариант решения задачи представления изображений, последовательностей днк, кода и пр. в виде общей последовательности токенов, что описано в статье. Вот.
Теперь, к делу:
На 2022 были отмечены публикации некоторых LLM моделек в open-source.
Одной такой красоткой была BLOOM (176 миллиардов параметров, обучена на ROOTS corpus, 46 естественных языков и 13 языков). Её архитектура аналогична GPT-3 – авторегрессионная модель для прогнозирования следующего токена. (статья, huggifance).
Второй была GLM-130B (статья) — моделька-билингв с интересностью в процессе обучения. Учится не только предсказывать следующий токен, но и делать это в формате авторегрессионного предсказания нескольких следующих друг за другом токенов, в произвольном порядке (подробнее в статье). (huggifance (онлайн-запуск модели), гитхаб). Но она была больше попыткой.
И очень крутой (хоть и не в open'e) тут была Gato (статья) — кросс-модальная универсальная модель с 1.2 миллиардами параметров. Может выполнять более 600 задач, таких как воспроизведение видеоигр, создание субтитров к изображениям и управление роботами. Но количество не дало наилучшего качества для каждой отдельной задачи
Дальше, на духу GPT-vawe, на самом деле больших моделек показывали многие компании. Как примеры — модельки PaLM и LLaMA:
- PaLM (Pathways Language Model, статья). Суммарно решает задачи языковых бенчмарков на уровне среднестатистического человека, но при этом есть задачи, которая она решает как лучше, так и хуже (отсюда некоторая магия среднего).
Но я чуть покопалась и меня затронуло вот что — в публикациях, описывающих подход к обучению Pathways models, авторы модели называют свой подход “новой эрой”.
“Pathways will enable a single AI system to generalize across thousands or millions of tasks, to understand different types of data, and to do so with remarkable efficiency – advancing us from the era of single-purpose models that merely recognize patterns to one in which more general-purpose intelligent systems reflect a deeper understanding of our world and can adapt to new needs.” [source] — интересно, что из этого выйдет дальше!
- LLaMA (статья, huggifance). Но про нее ничего особенно сказать не могу. Большая моделька и большая моделька с хороших качеством.
Не обошла волна и научное сообщество! Были попытки сделать модели для научных задач — они обучались как на решении теорем, так и на разных областях (например, была даже bioGPT).
Самая вкусная тут (была выделена в докладе) — Galactica (статья, сайт (open use)) обученная на именно на статьях. Интересно то, что в ходе обучения исследователи META AI предложили вариант решения задачи представления изображений, последовательностей днк, кода и пр. в виде общей последовательности токенов, что описано в статье. Вот.
❤1🔥1
Однако, вопреки тому что LLM (хорошо) работают, они не существуют без проблем. И на мой субъективный взгляд — проблемы чуть ли не интереснее самих LLM!
Например, даже если модель дает верный текстовый ответ (GPT вот недавно поставил моей подруге те же диагнозы, что и врач!), очень важно проследить причинно-следственную связь её инференса. (Здесь я должна машу бумажкой с темой моих научных интересов — explainable AI)
Проблемы породили новые исследования — касаемые управления LLM.
В докладе были приведены два:
- Chain of thought reasoning (статья). Обучение моделей генерировать не только ответ, но и рассуждение.
- Reinforcement learning for human feedback (RLHF). Метод от которого растут ноги улучшения качества ответов GPT во времени. Дообучение в этом подходе происходит как сбор данных с диалогом по решению задачи, которую мы хотели бы решить.
Как это:
1. Данные — X = формулировка задачи, Y — человеческий ответ;
2. Сбор всех возможных решений similar задач;
3. Ранжирование ответов человеком — от самого релевантного к менее релевантному;
4. Определение функции наград как максимизирующую предпочтения человека;
5. Дообучение и profit.
Ещё галопом прошлись по докладам, связанным с применением LLM вместе с роботами.
Доклад 1: Использование языковых моделей с моделью контекста, в котором находится работ. Как это работает — получаем решение задачи как выход языковых моделей, Ранжируем и выбираем решение моделью контекста. SayCan (статья).
Доклад 2 (понравился мне невероятно)!: Socratic models (статья). Языковая модель, аудио-языковая модель и видео-языковая модель. Как это работает — одна модель спрашивает — что имеет ввиду человек. Языковая отвечает “это пульт”. Визуальная ищет мульт в записанном видеопотоке. Ещё одна модель спрашивает — где этот пульт (и тд)).
Плюс туда подкручено использование внешних источников. Например, если пользователь что-то готовит и не понимает текстуру, то он может спросить “а какое должно быть безе и модель,обращаясь к внешнему источнику, выдает видео-картинку с нужной текстурой.
Оба доклада, отмечу, тоже имеют небольшой задел на контроль модели и попытку сделать решение не только корректным, но и прозрачным!
Вот так, друзья,
она долго писала и дописала. Сейчас уже 23й, новые исследования, и новые публикации, но чувствую (это предикт) нас ждёт мощная волна на мультимодальность, мультизадачность и попытку, но только попытку, решения проблем.
Про выступление в Питере напишу быстро-кратко на неделе) Надеюсь. Про RL, думаю, выпускать уже не буду — не успеваю вообще 🙈
И! С праздником вас!🙏🏻
Ваша дата-автор.
Например, даже если модель дает верный текстовый ответ (GPT вот недавно поставил моей подруге те же диагнозы, что и врач!), очень важно проследить причинно-следственную связь её инференса. (Здесь я должна машу бумажкой с темой моих научных интересов — explainable AI)
Проблемы породили новые исследования — касаемые управления LLM.
В докладе были приведены два:
- Chain of thought reasoning (статья). Обучение моделей генерировать не только ответ, но и рассуждение.
- Reinforcement learning for human feedback (RLHF). Метод от которого растут ноги улучшения качества ответов GPT во времени. Дообучение в этом подходе происходит как сбор данных с диалогом по решению задачи, которую мы хотели бы решить.
Как это:
1. Данные — X = формулировка задачи, Y — человеческий ответ;
2. Сбор всех возможных решений similar задач;
3. Ранжирование ответов человеком — от самого релевантного к менее релевантному;
4. Определение функции наград как максимизирующую предпочтения человека;
5. Дообучение и profit.
Ещё галопом прошлись по докладам, связанным с применением LLM вместе с роботами.
Доклад 1: Использование языковых моделей с моделью контекста, в котором находится работ. Как это работает — получаем решение задачи как выход языковых моделей, Ранжируем и выбираем решение моделью контекста. SayCan (статья).
Доклад 2 (понравился мне невероятно)!: Socratic models (статья). Языковая модель, аудио-языковая модель и видео-языковая модель. Как это работает — одна модель спрашивает — что имеет ввиду человек. Языковая отвечает “это пульт”. Визуальная ищет мульт в записанном видеопотоке. Ещё одна модель спрашивает — где этот пульт (и тд)).
Плюс туда подкручено использование внешних источников. Например, если пользователь что-то готовит и не понимает текстуру, то он может спросить “а какое должно быть безе и модель,обращаясь к внешнему источнику, выдает видео-картинку с нужной текстурой.
Оба доклада, отмечу, тоже имеют небольшой задел на контроль модели и попытку сделать решение не только корректным, но и прозрачным!
Вот так, друзья,
она долго писала и дописала. Сейчас уже 23й, новые исследования, и новые публикации, но чувствую (это предикт) нас ждёт мощная волна на мультимодальность, мультизадачность и попытку, но только попытку, решения проблем.
Про выступление в Питере напишу быстро-кратко на неделе) Надеюсь. Про RL, думаю, выпускать уже не буду — не успеваю вообще 🙈
И! С праздником вас!🙏🏻
Ваша дата-автор.
❤6