DL in NLP
12.4K subscribers
547 photos
13 videos
27 files
1.1K links
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
Download Telegram
🤗 зарелизил nlp (не самое удачное название)
Либа для датасетов и метрик. Сейчас доступно 95 датасетов включая Cornell Movie Dialog, WinoGrande, Xtreme и ещё кучу тех, что не GLUE.

Работает примерно так:
xquad_dataset = nlp.load_dataset('xquad', split='validation[:10%]')
xquad_metric = nlp.load_metric('xquad')


твиттер-тред: тык,
колаб поиграться: тык,
гитхаб: тык,
DeepMind постит у себя в твитере рекомендации от их рисёчеров на почитать

Из интересного нашёл:
1. d2l.ai - книга по DL с примерами кода на вообще всё. Вот главы про attention и transformer для примера (осторожно MXNet)
1. The Scientist in the Crib - научпоп книжка о том как люди (очень маленькие люди) учатся и чему это может научить нас
1. Лекция про bias на NIPS 2017
1. Ещё лекция: 21 definitions of fairness and their politics
1. Курс MIT Introduction to Deep Learning - на мой взгляд слишком поверхностный, но есть весёлые домашки
1. Внезапно, курс о том, как деплоить модельки - очень советую всем джунам да и не только смотреть в эту область более пристально. Это сложная тема.

Всё тут не опишу, лучше следите за DeepMind в твиттере и за хештегом #AtHomeWithAI.
Accelerate your NLP pipelines using Hugging Face Transformers and ONNX Runtime
🤗 + ONNX = ❤️
You can now use ONNX Runtime and Hugging Face Transformers together to improve the experience of training and deploying NLP models. 
Интересные штуки

1. Movement Pruning - метод прунинга в pretrain-finetute-парадигме, вместо того, чтобы убирать веса с маленькими значениями даавайте убирать веса, которые меньше всего изменились при файнтюнинге (статья). А ещё я удивился, что Rush теперь в 🤗
1. Выпуск подкаста twiml.ai на тему Is Linguistics Missing from NLP Research

Раздел для самых маленьких:
1. Learn Git and GitHub in 20 Minutes - не перестаю удивляться как мало людей в research-community умеют в гитхаб
1. DeepMind рекомендует учить линейную алгебру
Если кому-то нравится датакамп
Forwarded from Ivan Shishov
На Datacamp’е (datacamp.com) ещё 10 часов открыта регистрация на бесплатную неделю (есть несколько курсов по NLP, но формат - добавь несколько строчек кода - тут не очень работает, на мой взгляд, зато очень много других вкусняшек)
Тут в дружественном канале довольно подробно описали соврменные неавторегрессионные модели. Советуем к прочтению.
В нескольких последующих постах выложу обзор статей о современных неавторегрессионных моделях генерации текста -- т.е. моделей, предлагающих генерировать текст не по одному токену слева направо, а как-то иначе, более хитрым образом. Подробно опишу пять статей на этот счёт, ещё пару упомяну. Изложение будет в хронологической последовательности, и сложность моделей будет постепенно нарастать.
О штуках, которые заинтересовали в начале этой недели

1. Критика использования beam search для машинного перевода. Показывают, что он искривляет распределение n-gram и возможно именно он - причина артефактов машинного перевода которые мы уже затрагивали (e.g. мультиязычные датасаты). Также предлагают байесовский метод семплирования, который получает и высокий BLEU (как beam search) и сохраняет распределения (как обычное семплирование).

1. Parallax - Immutable Torch Modules for JAX
Если вы не знаете что такое JAX, возможно и не узнаете. Потому что несмотря на интересные идеи, где в numpy-like синтаксисе вы пишете код, который просто работает на CPU/GPU/TPU, в нём нету удобного и привичного интерфейса а-ля nn.Module. Parallax - это попытка на коленке сделать его.

И для самых маленьких:
1. Как организовывать рисёч-код
🤗 NLP Viewer

Простенький view датасетов, где можно посмотреть как они выглядят. Пока что не работает с большими датасетами, по-моему это важный косяк, который нужно исправлять - как раз для них и было бы очень полезно посмотреть на внутренности без необходимости скачивания десятков гигабайт.
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
Lewis et al. [Facebook]
arxiv.org/abs/2005.11401

Новая open domain question answering моделька от фейсбука мёржит seq2seq подход (T5/BART) с графами знаний. Мне почему-то такой подход кажется одновременно и очень практически полезным и несколько тупиковым, но всё равно интересным.

Основная идея: (предтренированный) attention учится искать по индексу документов, а (предтренированный) генератор обуславливается на то, что нашли. Всё файнтюнится end-to-end.
Language Models are Few-Shot Learners
Brown, Mann, Ryder, Subbiah et al. [OpenAI]
arxiv.org/abs/2005.14165

Очевидный результат, про который все и так будут говорить - натренировали модель в 175B параметров. Для сравнения, в BERT large 340M, а в GPT2 - 1.5B. Генерит ещё более правдоподобные тексты, которые люди уже не могут отличить от настоящих (accuracy 52%), даже не смотря на то, что они тратят больше времени на ответ, чем с маленькими моделями (на ~20% больше относительно 1B).

А теперь про неочевидные результаты. Мы знаем, что языковые модели могут решать прикладные задачи без обучения. Однако для адекватного качества нужны очень большие модели (возможно, в тысячи раз больше GPT-3). Новые результаты показывают, что в few-shot сеттинге метрика от размера модели растёт несколько быстрее. Получается, LM с увеличеннием размера (модели и датасета) не только учат common sence, но и учатся быстрее генерализовывать по нескольким примерам. Также интересно то, что в статье имеется в виду под few-shot - это не обучение/файнтюнинг модели, в том виде, как мы привыкли. Это просто подача текста вида "x1 : y1, x2:y2, x3: ", где вся небольшая "обучающая выборка" подаётся на вход модели и она должна продолжить её. Такой подход позволил получить SOTA на TriviaQA (настоящий SOTA, в сравнении с моделями обученными на всём датасете) и в срееднем результаты не хуже зафайтнюненого BERT Large.

Но есть одно но. 175B параметров - это 700Гб (350Гб в fp16), так что скорее всего она не поместится в твою *080Ti ещё лет так 5.

Статья очень большая и интересная, советую заглянуть в секцию results, чтобы посмотреть на них подробнее или хотя бы глянуть графики.

Также зарилизили репозиторий, но в нём ничего полезного нет
стих, сочинённый GPT-3
While zero-shot performance improves steadily with model size, few-shot performance increases more rapidly, demonstrating that larger models are more proficient at in-context learning.
Результаты на SuperGLUE, всего с 32 примерами на задачу (всего 256 примеров) GPT-3 бьёт BERT Large, обученный на 125 000 примеров.
Подробный разбор GPT-3 🔼