Forwarded from Kali Novskaya (Tatiana Shavrina)
#nlp #про_nlp #nlp_papers
🌸Оцениваем генеративные языковые модели на русском языке🌸
В воскресенье на Datafest представили нашу статью 2022 про первый генеративный бенчмарк для русского языка:
TAPE: Assessing Few-shot Russian Language Understanding
TAPE (Text Attack and Perturbation Evaluation) — это бенчмарк, в котором собраны 6 новых задач на русском, генеративные метрики для оценки результатов и все зафиксированные условия для zero-shot и few-shot оценки моделей в равных условиях.
🟣 Все задачи — это различный reasoning: knowledge-based, multihop, commonsense, ethical decision making
Идея бенчмарка еще и в том, чтобы зафиксировать различные примеры в few-shot prompting и померить не только срелний результат на нескольких комбинациях затравок, но и увидеть стандартное отклонение. Из-за этой особенности по бейзлайнам видно, что zero-shot часто работает стабильнее, чем few-shot, который подвержен влиянию выбора удачных примеров для затравки.
Видео доклада доступно по ссылке на youtube
🖥 Arxiv https://arxiv.org/abs/2210.12813
🌸Сайт бенчмарка https://tape-benchmark.com/
🖥 Github https://github.com/RussianNLP/TAPE
🤗Huggingface https://huggingface.co/datasets/RussianNLP/tape
🌸Оцениваем генеративные языковые модели на русском языке🌸
В воскресенье на Datafest представили нашу статью 2022 про первый генеративный бенчмарк для русского языка:
TAPE: Assessing Few-shot Russian Language Understanding
TAPE (Text Attack and Perturbation Evaluation) — это бенчмарк, в котором собраны 6 новых задач на русском, генеративные метрики для оценки результатов и все зафиксированные условия для zero-shot и few-shot оценки моделей в равных условиях.
Идея бенчмарка еще и в том, чтобы зафиксировать различные примеры в few-shot prompting и померить не только срелний результат на нескольких комбинациях затравок, но и увидеть стандартное отклонение. Из-за этой особенности по бейзлайнам видно, что zero-shot часто работает стабильнее, чем few-shot, который подвержен влиянию выбора удачных примеров для затравки.
Видео доклада доступно по ссылке на youtube
🌸Сайт бенчмарка https://tape-benchmark.com/
🤗Huggingface https://huggingface.co/datasets/RussianNLP/tape
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
М.Тихонова, А. Феногенова, Т. Шаврина и Е. Такташева - Tape:a new benchmark for few-shot Nat.Lang-ge
Tape: a new benchmark for few-shot Natural Language Understanding Evaluation
Data Fest 2023:
https://ods.ai/events/datafestonline2023
Трек "NLP ":
https://ods.ai/tracks/df23-nlp
Наши соц.сети:
Telegram: https://t.iss.one/datafest
Вконтакте: https://vk.com/datafest
Data Fest 2023:
https://ods.ai/events/datafestonline2023
Трек "NLP ":
https://ods.ai/tracks/df23-nlp
Наши соц.сети:
Telegram: https://t.iss.one/datafest
Вконтакте: https://vk.com/datafest
Forwarded from Kali Novskaya (Tatiana Shavrina)
#nlp #про_nlp #длиннопост #nlp_papers #agi_russia
🌸Обобщение навыков и знаний у языковых моделей: обзор🌸
Давно хотела с вами вместе прочитать большой обзор от авторов GenBench — State-of-the-art generalisation research in NLP: A taxonomy and review
Пусть это будет большим динамическим конспектом с ссылками на все крупнейшие работы.
Сегодня мы посмотрим на разные способы обобщения знаний, навыков и доменов у языковых моделей.
Часть 1. Интро про обобщение
Способность обобщать является одним из основных требований в ИИ вообще и в моделировании языка в частности. Тем не менее, что влечет за собой «хорошее обобщение» и как его следует оценивать, не совсем понятно, и не существует каких-либо стандартов оценки для обобщения. Авторы закладывают основу для решения обеих этих проблем — таксономию для характеристики и понимания исследований обобщения в ИИ.
Зачем вообще нужно обобщение, если всегда нужно решать конкретные прикладные задачи?
Мотиваций для обобщения, в общем-то, можно назвать две:
— лучшее качество на прикладных задачах, которые интересны и бизнесу, и ученым (обобщение уже не раз приносило такой эффект: те же трансформеры мы предобучаем на всем подряд)
— более человекообразное поведение: люди известны тем, что обобщают хорошо, и мы хотим от ИИ того же, и даже лучше.
Более 1200 статей за последние 5 лет так или иначе заьтрагивали вопрос обобщения. В классическом понимании, обобщение тестируется в рамках отношений "обучающие данные — модель — тестовые данные", где тестовые данные всячески меняются.
Множество работ показывает (да, научпоп клише чтобы не писать источники — в обзоре их более 20), что большие языковые модели
— сбиваются при рандомизации обучающих и тестовых данных;
— не могут обобщить свои навыки на похожих задачах, даже выбив высокие баллы на аналогичных тестах;
— часто опираются на простые эвристики из данных, вместо обобщения;
— воспроизводят стереотипы из данных;
— запоминают примеры вместо их обобщения;
— не могут выйти за пределы основного языка, задачи, жанра в обучающих данных.
Все это многообразие хорошо бы как-то обобщить и оценить. Как?
Авторы обзора провели метаанализ существующих исследований обобщающих способностей и вывели 6 направлений, по которым можно классифицировать все научные работы:
🌸 Обобщение на доменах: тренируем на новостях, тестируем на твиттере. Сюда же отнесем любые манипуляции с частично сгенерированными данными и их объемом (примеры: Blodgett et al. 2016, Gururangan et al., 2020, Lazaridou et al., 2021)
🌸 Обобщение на языках мира: тренируем на английском, тестируем на суахили, и наоборот (многоязычное обучение — Zhou et al., 2018, Aharoni et al., 2019; кросс-язычное — Pires et al., 2019; Wu and Dredze, 2019)
🌸 Обобщение на задачах: тренируем языковую модель предсказывать следующий токен, а сами потом тестируем ее на машинном переводе, классификации сентимента или тематик текста (работ миллион: Collobert and Weston, 2008, а также все популярные бенчмарки DecaNLP (McCann et al., 2018), GLUE (Wang et al., 2018), SuperGLUE (Wang et al., 2019))
🌸 Обобщение композициональности: тренируем на одних условиях задачи, а тестируем на измененных условиях — например, меняем распределение классов, перекомбинируем элементы для дизайна задачи и т.д. (Schmidhuber, 1990, Chaabouni et al., 2021; Linzen, 2020)
🌸 Обобщение на структуре: самый лингвистически мотивированный тип. Смотрим на распределение некоторых свойств языка в обучении, и намеренно меняем их в тесте. (работы: Jumelet et al. 2021, Weber et al. 2021; Wei et al. 2021)
🌸 Обобщение робастности: тренируем на чем угодно, а потом смотрим, насколько модель хорошо себя чувствует на конкретных тестовых задачах, не выучила ли простые эвристики на данных, насколько шумный результат. (работы: Gururangan et al., 2018; McCoy et al., 2019; Talman and Chatzikyriakidis, 2019)
В следующих постах посмотрим подробно на все, что просиходит в каждом из направлений!
🟣 Статья
🟣 Воркшоп (EMNLP 2023, 6 декабря в Сингапуре)
🌸Обобщение навыков и знаний у языковых моделей: обзор🌸
Давно хотела с вами вместе прочитать большой обзор от авторов GenBench — State-of-the-art generalisation research in NLP: A taxonomy and review
Пусть это будет большим динамическим конспектом с ссылками на все крупнейшие работы.
Сегодня мы посмотрим на разные способы обобщения знаний, навыков и доменов у языковых моделей.
Часть 1. Интро про обобщение
Способность обобщать является одним из основных требований в ИИ вообще и в моделировании языка в частности. Тем не менее, что влечет за собой «хорошее обобщение» и как его следует оценивать, не совсем понятно, и не существует каких-либо стандартов оценки для обобщения. Авторы закладывают основу для решения обеих этих проблем — таксономию для характеристики и понимания исследований обобщения в ИИ.
Зачем вообще нужно обобщение, если всегда нужно решать конкретные прикладные задачи?
Мотиваций для обобщения, в общем-то, можно назвать две:
— лучшее качество на прикладных задачах, которые интересны и бизнесу, и ученым (обобщение уже не раз приносило такой эффект: те же трансформеры мы предобучаем на всем подряд)
— более человекообразное поведение: люди известны тем, что обобщают хорошо, и мы хотим от ИИ того же, и даже лучше.
Более 1200 статей за последние 5 лет так или иначе заьтрагивали вопрос обобщения. В классическом понимании, обобщение тестируется в рамках отношений "обучающие данные — модель — тестовые данные", где тестовые данные всячески меняются.
Множество работ показывает (да, научпоп клише чтобы не писать источники — в обзоре их более 20), что большие языковые модели
— сбиваются при рандомизации обучающих и тестовых данных;
— не могут обобщить свои навыки на похожих задачах, даже выбив высокие баллы на аналогичных тестах;
— часто опираются на простые эвристики из данных, вместо обобщения;
— воспроизводят стереотипы из данных;
— запоминают примеры вместо их обобщения;
— не могут выйти за пределы основного языка, задачи, жанра в обучающих данных.
Все это многообразие хорошо бы как-то обобщить и оценить. Как?
Авторы обзора провели метаанализ существующих исследований обобщающих способностей и вывели 6 направлений, по которым можно классифицировать все научные работы:
🌸 Обобщение на доменах: тренируем на новостях, тестируем на твиттере. Сюда же отнесем любые манипуляции с частично сгенерированными данными и их объемом (примеры: Blodgett et al. 2016, Gururangan et al., 2020, Lazaridou et al., 2021)
🌸 Обобщение на языках мира: тренируем на английском, тестируем на суахили, и наоборот (многоязычное обучение — Zhou et al., 2018, Aharoni et al., 2019; кросс-язычное — Pires et al., 2019; Wu and Dredze, 2019)
🌸 Обобщение на задачах: тренируем языковую модель предсказывать следующий токен, а сами потом тестируем ее на машинном переводе, классификации сентимента или тематик текста (работ миллион: Collobert and Weston, 2008, а также все популярные бенчмарки DecaNLP (McCann et al., 2018), GLUE (Wang et al., 2018), SuperGLUE (Wang et al., 2019))
🌸 Обобщение композициональности: тренируем на одних условиях задачи, а тестируем на измененных условиях — например, меняем распределение классов, перекомбинируем элементы для дизайна задачи и т.д. (Schmidhuber, 1990, Chaabouni et al., 2021; Linzen, 2020)
🌸 Обобщение на структуре: самый лингвистически мотивированный тип. Смотрим на распределение некоторых свойств языка в обучении, и намеренно меняем их в тесте. (работы: Jumelet et al. 2021, Weber et al. 2021; Wei et al. 2021)
🌸 Обобщение робастности: тренируем на чем угодно, а потом смотрим, насколько модель хорошо себя чувствует на конкретных тестовых задачах, не выучила ли простые эвристики на данных, насколько шумный результат. (работы: Gururangan et al., 2018; McCoy et al., 2019; Talman and Chatzikyriakidis, 2019)
В следующих постах посмотрим подробно на все, что просиходит в каждом из направлений!
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Kali Novskaya
#nlp #про_nlp #agi_russia
🌸 Генерализация ИИ через языковые модели🦾 🌸
Прекрасная новость начала недели: стартовал прием новых задач и тестов для больших языковых моделей: открытая инициатива и воркшоп GenBench!
Инициатива ставит целью коллаборативное…
🌸 Генерализация ИИ через языковые модели🦾 🌸
Прекрасная новость начала недели: стартовал прием новых задач и тестов для больших языковых моделей: открытая инициатива и воркшоп GenBench!
Инициатива ставит целью коллаборативное…
Forwarded from Kali Novskaya (Tatiana Shavrina)
#nlp #про_nlp #nlp_papers
🌸Зоопарк русскоязычных NLP-моделей🌸
Вышел препринт, объединяющий всю работу AI Forever над семейством языковых моделей для русского языка!
A Family of Pretrained Transformer Language Models for Russian
13 русскоязычных трансформеров описаны и провалидированы в одной статье:
— encoder (ruBERT, ruRoBERTa, ruELECTRA)
— decoder (ruGPT-3)
— encoder-decoder (ruT5, FRED-T5)
+ их версии разных размеров.
Результаты приводятся для всех моделей, а также в сравненнии с бейзлайнами, например, YaLM P-tune и RuLeanALBERT.
Бенчмарки и тесты: интеллектуальные навыки (RussianSuperGLUE), оценка способности к языку (RuCoLA), оценка токсичности, а также тесты суммаризации, симпликифации и детоксификации текста.
🟣 Статья на Arxiv
🟣 Хаб моделей на HuggingFace
🟣 Все модели: ruBERT-base, ruBERT-large, ruRoBERTa-large, ruELECTRA-small, ruELECTRA-medium, ruELECTRA-large, ruGPT-3-small, ruGPT3-medium, ruGPT-3-large, ruT5-base, ruT5-large, FRED-T5-large, FRED-T5-XL
🌸Зоопарк русскоязычных NLP-моделей🌸
Вышел препринт, объединяющий всю работу AI Forever над семейством языковых моделей для русского языка!
A Family of Pretrained Transformer Language Models for Russian
13 русскоязычных трансформеров описаны и провалидированы в одной статье:
— encoder (ruBERT, ruRoBERTa, ruELECTRA)
— decoder (ruGPT-3)
— encoder-decoder (ruT5, FRED-T5)
+ их версии разных размеров.
Результаты приводятся для всех моделей, а также в сравненнии с бейзлайнами, например, YaLM P-tune и RuLeanALBERT.
Бенчмарки и тесты: интеллектуальные навыки (RussianSuperGLUE), оценка способности к языку (RuCoLA), оценка токсичности, а также тесты суммаризации, симпликифации и детоксификации текста.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Kali Novskaya (Tatiana Shavrina)
🌸mGPT paper — расширенная версия🌸
#nlp #про_nlp #nlp_papers
В MIT Press вышла расширенная версия нашей статьи про семейство моделей mGPT!
mGPT: Few-Shot Learners Go Multilingual
Использую это как повод наконец заставить себя делать нормальные файнтюны сверху.
Статья Open Access, модели все под открытой лицензией✅
🟣 MIT Press link
🟣 Она же на Arxiv
🟣 mGPT 13B huggingface
#nlp #про_nlp #nlp_papers
В MIT Press вышла расширенная версия нашей статьи про семейство моделей mGPT!
mGPT: Few-Shot Learners Go Multilingual
Использую это как повод наконец заставить себя делать нормальные файнтюны сверху.
Статья Open Access, модели все под открытой лицензией
Please open Telegram to view this post
VIEW IN TELEGRAM
MIT Press
mGPT: Few-Shot Learners Go Multilingual
Abstract. This paper introduces mGPT, a multilingual variant of GPT-3, pretrained on 61 languages from 25 linguistically diverse language families using Wikipedia and the C4 Corpus. We detail the design and pretraining procedure. The models undergo an intrinsic…
Forwarded from Kali Novskaya
🌸Ежегодный спич AGI Russia 🌸
#nlp #про_nlp #nlp_papers
В четверг буду делать ежегодный (уже традиционный) обзор работ и тенденций, которые прокладываюь наш путь к AGI
На пути к AGI: Обзор работ 2024-2025 года
6 февраля 2025, 18:00 (время московское)
Регистрация:
🟣 https://aigents.timepad.ru/event/1412596/
#nlp #про_nlp #nlp_papers
В четверг буду делать ежегодный (уже традиционный) обзор работ и тенденций, которые прокладываюь наш путь к AGI
На пути к AGI: Обзор работ 2024-2025 года
6 февраля 2025, 18:00 (время московское)
Регистрация:
Please open Telegram to view this post
VIEW IN TELEGRAM
aigents.timepad.ru
Семинар русскоязычного сообщества AGI / События на TimePad.ru
На пути к AGI: Обзор работ 2024-2025 года — Татьяна Шаврина (Llama, Главный научный сотрудник Института Языкознания РАН)