DL in NLP

Life after BERT: What do Other Muppets Understand about Language?
Lialin, Zhao, et al
arxiv.org/abs/2205.10696

Наша новая статья по анализу моделей 🔎. В NLP много кто забывает, что BERT дичайше устарел и зоопарк предтренированных моделей очень большой. В особенности это заметно в статьях по пробингу, где в лучшем случае можно увидеть 3 семейств моделей в одной статье.

Мы решили что так жить нельзя и запробили 29 предобученных моделей (8 семейств) в zero-shot режиме на простых лингвистических / common sense задачах, таких как сравнение возрастов "26 year old is younger/older than 42 year old", antonym negation "It was not/really a fracture, it was a break", и ещё 7 других. Мы хотели понять как архитектура модели, число параметров, pre-training objective, и размер датасета используемого для предобучения влияет на лингвистические способности модели.

И они не влияют. Мы не смогли найти никакой зависимости между тем какие задачи лучше решают encoder-decoder модели чем encoder-only. Или что LM работает лучше чем MLM или Sentence Restoration на каких-то определённых задачах. Но самое главное: число параметров не коррелирует с метриками ни на одной из наших задач, ни у одного класса моделей (кроме T5). Ладно, бывает. Но может быть важен размер датасета? Потому что если модель видела больше данных, уж точно она будет лучше понимать как работает английский. Нет. Например, наши top-2 модели T5-XL и ALBERT-XXL, и T5 был натренирован на 750Gb текста, а ALBERT на 16Gb.

Дальше только лучше. У T5 есть версия T51.1,. Отличия между моделями небольшие, но T51.1 хуже T5 аж на 15 пунктов. И подобных примеров несколько: RoBERTa одна из самых топовых моделей, но она жутко похожа на BERT (архитектура и objective) и на BART (датасет), при этом она сильно обходит эти две модели.

То есть с одной стороны за последние 3 года мы сильно продвинулись по тому как хорошо модели решают прикладные задачи. Но с другой стороны кажется что это происходит не от того, что модели улучшают своё понимание языка. А наше текущее понимание того, какие модели лучше понимают язык не очень верны и небольшие детали в оптимизации или маскинге могут быть более важны чем архитектура, pre-training objective, датасет и число параметров.

Кто виртуально посещает ACL, приходите завтра на Virsual Poster Session 4 в 21 МСК. Я буду презентовать эту статью в секции Interpretability and Analysis of Models for NLP.

👏52👍12🔥11😢1

5.99K viewsVlad Lialin, 18:40