Сергей Марков: машинное обучение, искусство и шитпостинг
8.28K subscribers
3.05K photos
238 videos
15 files
735 links
Машинное обучение, искусственный интеллект, искусство, мемасы, всякое личное и странноэ
Download Telegram
Forwarded from Kali Novskaya (Tatiana Shavrina)
#nlp #про_nlp #nlp_papers
🌸Оцениваем генеративные языковые модели на русском языке🌸

В воскресенье на Datafest представили нашу статью 2022 про первый генеративный бенчмарк для русского языка:
TAPE: Assessing Few-shot Russian Language Understanding

TAPE (Text Attack and Perturbation Evaluation) — это бенчмарк, в котором собраны 6 новых задач на русском, генеративные метрики для оценки результатов и все зафиксированные условия для zero-shot и few-shot оценки моделей в равных условиях.
🟣Все задачи — это различный reasoning: knowledge-based, multihop, commonsense, ethical decision making
Идея бенчмарка еще и в том, чтобы зафиксировать различные примеры в few-shot prompting и померить не только срелний результат на нескольких комбинациях затравок, но и увидеть стандартное отклонение. Из-за этой особенности по бейзлайнам видно, что zero-shot часто работает стабильнее, чем few-shot, который подвержен влиянию выбора удачных примеров для затравки.

Видео доклада доступно по ссылке на youtube

🖥Arxiv https://arxiv.org/abs/2210.12813
🌸Сайт бенчмарка https://tape-benchmark.com/
🖥Github https://github.com/RussianNLP/TAPE
🤗Huggingface https://huggingface.co/datasets/RussianNLP/tape
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Kali Novskaya (Tatiana Shavrina)
#nlp #про_nlp #длиннопост #nlp_papers #agi_russia
🌸Обобщение навыков и знаний у языковых моделей: обзор🌸

Давно хотела с вами вместе прочитать большой обзор от авторов GenBenchState-of-the-art generalisation research in NLP: A taxonomy and review
Пусть это будет большим динамическим конспектом с ссылками на все крупнейшие работы.

Сегодня мы посмотрим на разные способы обобщения знаний, навыков и доменов у языковых моделей.
Часть 1. Интро про обобщение

Способность
обобщать является одним из основных требований в ИИ вообще и в моделировании языка в частности. Тем не менее, что влечет за собой «хорошее обобщение» и как его следует оценивать, не совсем понятно, и не существует каких-либо стандартов оценки для обобщения. Авторы закладывают основу для решения обеих этих проблем — таксономию для характеристики и понимания исследований обобщения в ИИ.

Зачем вообще нужно обобщение, если всегда нужно решать конкретные прикладные задачи?
Мотиваций для обобщения, в общем-то, можно назвать две:
— лучшее качество на прикладных задачах, которые интересны и бизнесу, и ученым (обобщение уже не раз приносило такой эффект: те же трансформеры мы предобучаем на всем подряд)
— более человекообразное поведение: люди известны тем, что обобщают хорошо, и мы хотим от ИИ того же, и даже лучше.

Более 1200 статей за последние 5 лет так или иначе заьтрагивали вопрос обобщения. В классическом понимании, обобщение тестируется в рамках отношений "обучающие данные — модель — тестовые данные", где тестовые данные всячески меняются.
Множество работ показывает (да, научпоп клише чтобы не писать источники — в обзоре их более 20), что большие языковые модели
— сбиваются при рандомизации обучающих и тестовых данных;
— не могут обобщить свои навыки на похожих задачах, даже выбив высокие баллы на аналогичных тестах;
— часто опираются на простые эвристики из данных, вместо обобщения;
— воспроизводят стереотипы из данных;
— запоминают примеры вместо их обобщения;
— не могут выйти за пределы основного языка, задачи, жанра в обучающих данных.

Все это многообразие хорошо бы как-то обобщить и оценить. Как?

Авторы обзора провели метаанализ существующих исследований обобщающих способностей и вывели 6 направлений, по которым можно классифицировать все научные работы:
🌸 Обобщение на доменах: тренируем на новостях, тестируем на твиттере. Сюда же отнесем любые манипуляции с частично сгенерированными данными и их объемом (примеры: Blodgett et al. 2016, Gururangan et al., 2020, Lazaridou et al., 2021)
🌸 Обобщение на языках мира: тренируем на английском, тестируем на суахили, и наоборот (многоязычное обучение — Zhou et al., 2018, Aharoni et al., 2019; кросс-язычное — Pires et al., 2019; Wu and Dredze, 2019)
🌸 Обобщение на задачах: тренируем языковую модель предсказывать следующий токен, а сами потом тестируем ее на машинном переводе, классификации сентимента или тематик текста (работ миллион: Collobert and Weston, 2008, а также все популярные бенчмарки DecaNLP (McCann et al., 2018), GLUE (Wang et al., 2018), SuperGLUE (Wang et al., 2019))
🌸 Обобщение композициональности: тренируем на одних условиях задачи, а тестируем на измененных условиях — например, меняем распределение классов, перекомбинируем элементы для дизайна задачи и т.д. (Schmidhuber, 1990, Chaabouni et al., 2021; Linzen, 2020)
🌸 Обобщение на структуре: самый лингвистически мотивированный тип. Смотрим на распределение некоторых свойств языка в обучении, и намеренно меняем их в тесте. (работы: Jumelet et al. 2021, Weber et al. 2021; Wei et al. 2021)
🌸 Обобщение робастности: тренируем на чем угодно, а потом смотрим, насколько модель хорошо себя чувствует на конкретных тестовых задачах, не выучила ли простые эвристики на данных, насколько шумный результат. (работы: Gururangan et al., 2018; McCoy et al., 2019; Talman and Chatzikyriakidis, 2019)

В следующих постах посмотрим подробно на все, что просиходит в каждом из направлений!

🟣Статья
🟣Воркшоп (EMNLP 2023, 6 декабря в Сингапуре)
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Kali Novskaya (Tatiana Shavrina)
#nlp #про_nlp #nlp_papers
🌸Зоопарк русскоязычных NLP-моделей🌸

Вышел препринт, объединяющий всю работу AI Forever над семейством языковых моделей для русского языка!
A Family of Pretrained Transformer Language Models for Russian

13 русскоязычных трансформеров описаны и провалидированы в одной статье:
— encoder (ruBERT, ruRoBERTa, ruELECTRA)
— decoder (ruGPT-3)
— encoder-decoder (ruT5, FRED-T5)
+ их версии разных размеров.

Результаты приводятся для всех моделей, а также в сравненнии с бейзлайнами, например, YaLM P-tune и RuLeanALBERT.
Бенчмарки и тесты: интеллектуальные навыки (RussianSuperGLUE), оценка способности к языку (RuCoLA), оценка токсичности, а также тесты суммаризации, симпликифации и детоксификации текста.

🟣Статья на Arxiv
🟣Хаб моделей на HuggingFace
🟣Все модели: ruBERT-base, ruBERT-large, ruRoBERTa-large, ruELECTRA-small, ruELECTRA-medium, ruELECTRA-large, ruGPT-3-small, ruGPT3-medium, ruGPT-3-large, ruT5-base, ruT5-large, FRED-T5-large, FRED-T5-XL
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Kali Novskaya (Tatiana Shavrina)
🌸mGPT paper — расширенная версия🌸
#nlp #про_nlp #nlp_papers

В MIT Press вышла расширенная версия нашей статьи про семейство моделей mGPT!
mGPT: Few-Shot Learners Go Multilingual

Использую это как повод наконец заставить себя делать нормальные файнтюны сверху.
Статья Open Access, модели все под открытой лицензией

🟣MIT Press link
🟣Она же на Arxiv
🟣mGPT 13B huggingface
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Kali Novskaya
🌸Ежегодный спич AGI Russia 🌸
#nlp #про_nlp #nlp_papers

В четверг буду делать ежегодный (уже традиционный) обзор работ и тенденций, которые прокладываюь наш путь к AGI

На пути к AGI: Обзор работ 2024-2025 года

6 февраля 2025, 18:00 (время московское)

Регистрация:
🟣https://aigents.timepad.ru/event/1412596/
Please open Telegram to view this post
VIEW IN TELEGRAM