DL in NLP
12.4K subscribers
547 photos
13 videos
27 files
1.1K links
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
Download Telegram
На днях прошёл TF Dev Summit - главная конференция TensorFlow, на которой показывают новые фичи, а также то, чего добилось коммьюнити за последний год. Обычно, про него как-то мало пишут в новостях, поэтому давайте это исправим.

Записи всех выступлений доступны на офсайте, а очень короткое саммари из тех пунктов, которые заинтересовали меня можете почитать тут.
A Survey of Long-Term Context in Transformers
pragmatic.ml/a-survey-of-methods-for-incorporating-long-term-context/

Хороший обзор статей, в которых пытаются работать с текстами длинее 512 токенов.

1. Sparse Transformers
1. Adaptive Span Transformers
1. Transformer-XL
1. Compressive Transformers
1. Reformer
1. Routing Transformer
NLP Newsletter #7

Тык
🤗 Awesome NLP Paper Discussions
github.com/huggingface/awesome-papers

"Each week, the Hugging Face team has a science day where one team member presents an awesome NLP paper. We've decided to share this discussion with the community. See planned future discussions below."
Немножно разбавлю ваши ленты чем-нибудь не про вирус

1. Technical Writing Courses - два небольших (3 часа в сумме) курса по тому, как писать технические тексты. Должно быть полезно как для документации, так и для статей.
1. Читаем статьи за вас. Январь — Февраль 2020
1. How to generate text: using different decoding methods for language generation with Transformers - хороший пост с основными методами генерации текста и примерами кода (от beam search до nucleus sampling)
1. В Lightning добавили profiler
1. Pre-trained Models for Natural Language Processing: A Survey, Qiu et al - ещё одна обзорная статья по предтренировке в NLP

Сидите дома, читайте статьи, не болейте.
Скорее всего в этом чате мало олдфагов, кто помнит, что именно Валя основал курс по NLP от iPavlov. Теперь он делает новый курс и вы всё ещё можете на него зарегистрироваться.
Forwarded from Valentin Malykh
всем привет, вероятно, не все слышали, что Huawei Russian Research Institute проводит (онлайн) курс по обработке естественного языка (NLP); лучшим студентам курса будут выделены облачные мощности для выполнения заданий и проектов; на курсе прошло 4 занятия, но до сдачи первого задания еще две недели; записаться на курс и узнать больше можно тут: https://registerathuawei.timepad.ru/event/1269978/
Google зарелизила новую версию диалогового датасета - Taskmaster-2.
17к диалогов, 7 доменов
Rethinking Batch Normalization in Transformers
Shen et al.
arxiv.org/abs/2003.07845

Авторы изучают нормализацию в трансформерах. Первое, что нашли: дисперсия in-batch статистик в NLP задачах на порядки выше, чем в CV. А следовательно она большая и в градиентах, а следовательно она может влиять на сходимость - как быстро и куда. Дальше они предлагают новый тип нормализации - PowerNorm - и доказывают, что он (так же, как и BatchNorm) повышает липциц-гладкость поверхности лосса. Эксперименты показывают буст (небольшой) в машинном переводе и (заметный) в языковом моделировании.

Нам надо больше таких исследований - в архитектуру трансформера заложено много общепринятых, но мало изученных практик. Давайте эти практики проверять и улучшать.
Вчера было 1 апреля, а это означает конференцию SIGBOVIK в CMU. Приметившиеся статьи:

1. Новый алгоритм сортировки - turk sort - "uses human intelligence to compare the elements of a (possibily) heterogeneous list"
1. Artificial General Relativity - "In this paper I (switching to ’I’ to avoid sounding pretentious with ’we’) introduce Artificial General Relativity (AGR) which, when achieved, will allow us to control gravity and spacetime."
1. Image-to-image neural network for addition and subtraction of a pair of not very large numbers

Proceedings: тык
Аудиозапись конференции: тык
Deep Learning Reproducibility with TensorFlow
youtu.be/Ys8ofBeR2kA

Хороший обзор проблемы воспроизводимости в DL и как её решать.
Рекомендуется для просмотров всем - воспроизводимость важна и в исследованиях (ваши метрики в статье) и в проде (в regression testing, например).
Не только релевантно для TF, но и легко адаптируется под PyTorch.

Из моих наблюдений:
1. разный random seed может менять вашу метрику вплоть до 5-10 пунктов - см один из постов выше
1. если вы забыли поставить какой-то один seed (python, numpy, cuda) - то же самое (даже если все остальные сиды стоят)
1. смена GPU на CPU: ~0.5 пункта
1. недетерминированность GPU: - ~0.1 пункт

Я не удивлюсь, если на самом деле эти цифры могут быть заметно больше.

По воспроиизводимости в PyTorch рекомендую мой небольшой гайд

спасибо @Vanshi87 из чата за ссылку на видео
Emerging Cross-lingual Structure in Pretrained Language Models
Wu, Conneau, et al. [FAIR]
arxiv.org/abs/1911.01464

Статья для тех, кто не любит SOTA-driven approach. Авторы задают конкретные вопросы про мультиязычные модели и пытаются на них ответить:

Q: Важны ли anchor points (одинаковые по написанию и смыслу токены, которые автоматически мапятся в один эмбеддинг ещё на стадии предобработки) для предтренировки mBERT?
A: Слабо важны, дают 1-2 пункта на downstream-задачах

Q: Насколько важен model parameter sharing между языками?
A: Критически важен, для далёких языков (En-Ru, En-Zh) качество downstream задач падает почти до уровня случайного выбора, если шарить только половину параметров

Q: Хорошо ли мапятся векторные представления слова и его перевода (контекстуальные и неконтекстуальные) если использовать представления mBERT?
A: Примерно на уровне fastText

Q: Насколько похожи обученные нейросети? Похож ли одноязычный английский BERT на одноязычный русский BERT? А на мультиязычный En-Ru BERT?
A: Похожи, для близких языков схожесть больше, чем для далёких
Советую, если интересуетесь zero-shot multilingual transfer. Версия статьи с выделенными интересными моментами.
1911.01464_highlighted.pdf
1.1 MB
Интересные штуки одной строкой:

Для новичков (и не только):
1. d2l.ai - очень большая книга по диплёрнингу с кучей numpy-имплементаций. И все эти имплементации вы можете запускать прямо в браузере.
1. How to read research papers by Andwer Ng

чуть более advanced:
1. Jigsaw Multilingual Toxic Comment Classification - Kaggle + Jigsaw + Multilingual + TPU. Идеальное сочетание.
1. XGLUE - GLUE для мультиязычных моделей
1. Aligned Cross Entropy for Non-Autoregressive Machine Translation - новая SOTA от FAIR по неавторегрессионному NMT
1. Why There is No ImageNet Moment in Speech to Text Yet
1. Optuna - оптимизатор гиперпараметров для PyTorch + Lightning. Интерфейс ужасный до жути (распределение на гиперпараметры задаётся внутри класса модели), но фичи интересные. Я больше советую wandb sweeps, но интересно если кто-нибудь сравнит их.
Modern (не совсем) Deep Learning Techiniques Applied to NLP - похоже на то, что кто-то не из NLP попытался собрать все техники предбертовой эры в одном месте. И в общем получилось неплохо, хотя местами и устаревшие/неработающие пока/воообще вещи (рекурсивные сети/память/RL).
The Transformer Family
Lilian Weng

Хороший обзор различных вариаций трансформера, которых уже стало на удивление много. Кажется даже больше, чем вариантов LSTM.
В посте автор разбирает следующие:
1. Transformer-XL
1. Adaptive Attention Span
1. Image Transformer (Localized Attention Span)
1. Sparse Transformer
1. Reformer
1. Universal Transformer
1. GTrXL

Вся область альтернативных трансформеров пока что кажется диким западом, но вдруг найдёте что-то полезное для своей задачи.