DL in NLP – Telegram

DL in NLP

12.4K subscribers

547 photos

13 videos

27 files

1.1K links

Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)

Download Telegram

About

Blog

Apps

Platform

12.4K subscribers

Memory Transformer
Burtsev and Sapunov
arxiv.org/abs/2006.11527

Cтатья от iPavlov и Intento в которой экспериентирют с пустыми токенами в трансформерах. По аналогии с SEP токенами, добавляют по 10-30 MEM токенов. Интуиция тут такая, что потенциально туда трансформер может складывать полезную инфоормацию, например какое-то сжатое описание всего текста. В экспериментах с WMT14 en-de смогло докинуть 1 BLEU к ванильному трансформеру в Base версии. Визуализация attention MEM токенов намекает на то, что они действительно хранят глобальный контекст а так же выполняют с ними операции типа чтения, записи и копирования.

В том числе экспериментировали с более сложным подходом в котором key и value использюется эмбеддинги памяти, а не эмбеддинги токенов, но не зашло.

Результаты довольно неожиданные в контексте свежих статей по интерпретации attention, которые показали, что CLS и SEP используются как своеобразные "выключатели" голов. Было бы интересно посмотреть не только на веса attention, но и на нормы аутпутов, как в статье Atteniton Module is Not Only a Weight.

2.42K viewsnlpcontroller_bot, edited 15:32

2.31K viewsnlpcontroller_bot, 15:32

2.35K viewsnlpcontroller_bot, 15:32

Forwarded from Catalyst | Community

I am trilled to announce our second post - BERT Distillation with Catalyst.
Distilling BERT models can minimize loss, reduce model sizes, and speed up inferences. Check it out!

Huge thank you to Nikita for this great tutorial.
https://medium.com/pytorch/bert-distillation-with-catalyst-c6f30c985854?source=friends_link&sk=1a28469ac8c0e6e6ad35bd26dfd95dd9

BERT Distillation with Catalyst

How to distill BERT with Catalyst.

423 viewsVlad Lialin, 14:25

Статьи в одну строчку:

1. arxiv.org/abs/2006.13979 - мультиязычный претренинг а-ля XLM можно успешно использовать для предобучения моделей распознавания речи (twitter)
1. arxiv.org/abs/2006.13484 - тренировка BERT за 54 минуты с помощью больших батчей, LAMB + Nesterov и нового lr schedule
1. arxiv.org/abs/2006.14170 - нецентрализованный differentially private метод тренировки NLP моделей
1. arxiv.org/abs/2006.12005 - GAN для контролируемой генерации текста, который работает плохо, но зато быстро
1. arxiv.org/abs/1901.06436 - латентное графовое представление для машинного перевода

Unsupervised Cross-lingual Representation Learning for Speech Recognition: https://t.co/zyz4Z3mWBV Our self-supervised learning approach learns cross-lingual speech representations by pretraining a single model from the raw waveform in multiple languages.

2.32K viewsnlpcontroller_bot, 16:50

Forwarded from Soslan Tabuev

Свежий обзор зоопарка трансформеров от Григория Сапунова на онлайн-конфе GDG DevParty Russia:

https://www.youtube.com/watch?v=KZ9NXYcXVBY

Григорий Сапунов | Transformer Zoo

Плейлист Mobile: https://www.youtube.com/playlist?list=PLGlZ_ld11os_JyZ6xVAWEZ-rnxrLjrGH5
Плейлист Web: https://www.youtube.com/playlist?list=PLGlZ_ld11os-nnB5CG_p6brIUWMGXU5Tr
Плейлист Cloud: https://www.youtube.com/playlist?list=PLGlZ_ld11os8QYBOSM8KU3INh244iFXKK…

2.13K viewsVlad Lialin, 13:03

Статьи в одну строчку #2

1. Большой обзор + сравнение различных графовых эмбеддингов. Рассмотрены различные модели (~19), методы сэмплирования, лосс-функции и другие гиперпараметры. Все эксперименты заняли 21,246 GPU часов 😮 (тык)
1. Дифференцируемый (soft) KNN на замену softmax. В том числе на заменту softmax в attention. Модель аутперформит трансформер на 0.8 BLEU на WMT16 en-de (тык).
1. Pre-training via paraphasing. Пусть вам дан текст X, ранжировщик нашёл вам тексты Y1, Y2, ..., YN (возможно, даже на другиих языках). Модель тренируется восстанавливать текст X по Y1, .., YN. Аутперфомит MLM на мультиязычных тасках. (тык)

2.2K viewsnlpcontroller_bot, edited 13:58

Большой релиз 🤗 Transformers 3.0

Улучшили API токенизаторов, теперь можно токенизировать в numpy-тензоры, padding и truncation теперь нормально работать вместе, исправили проблемы с сохранением-загрузкой 🎉

Обещают, что серьезно подчистили модельки TF (но вы знаете единственный верный способ улучшить модели на TF)

Много улучшений документации, включая примеры использования seq2seq. Кстати в них используют ⚡️, вместо внутреннего Trainer и я тоже очень советую так делать.

Также куча мелких изменений включая бенчмарки, новые модели и примерно 10 млн багфиксов.

Сэкономлю вам немного времени:
pip install transformers --upgrade

Release New tokenizer API, TensorFlow improvements, enhanced documentation & tutorials · huggingface/transformers

New tokenizer API, TensorFlow improvements, enhanced documentation & tutorials
Breaking changes since v2

In #4874 the language modeling BERT has been split in two: BertForMaskedLM and BertLMHe...

2.41K viewsnlpcontroller_bot, edited 13:15

One little detail about NoamLR

2.23K viewsnlpcontroller_bot, 22:25

Тут написали разрабы самой Наташи. У них появилась компактная моделька NER, которая спокойно соревнуется с RuBERT. Думаю много кому будет полезно.

natasha.github.io/ner

"Удалось получить качество на 1 процентный пункт хуже, чем у Deeppavlov BERT NER (F1 PER 0.97, LOC 0.91, ORG 0.85), модель весит в 75 раз меньше (27МБ), работает на CPU в 2 раза быстрее (25 статей/сек) чем BERT NER на GPU. Если коротко, там дистилляция BERT NER в WordCNN-CRF + квантизация + инференс на Numpy."

natasha.github.io

Natasha — качественный компактный NER для русского языка

Извлечение имён, названий топонимов и организаций из новостных статей

3.1K viewsnlpcontroller_bot, 13:57

https://twitter.com/lacker/status/1279136788326432771

GPT-3 can't quite pass a coding phone screen, but it's getting closer.

3.72K viewsVlad Lialin, 05:15

Для любителей книг PyTorch бесплатно раздаёт Deep Learning with PyTorch Antiga, Stevens, and Viehmann.

Я не любитель книг по DL, но решил посмотреть. Короткий обзор:

1. Очень забавный стиль картинок
1. Код без подсветки это ад ада
1. Глава "Why can’t we just throw data at a neural network until it works?" топ
1. Есть глава про деплоймент, к сожалению там Flask, но зато JIT и TorchScript разбирают
1. NLP нет совсем (но пост уже написан, поэтому всё равно опубликую тут)

3.5K viewsnlpcontroller_bot, 14:53

Отличный твит о пяти недооцененных статьях с прошедшего ACL.
тык

Thread about five #acl2020nlp papers that haven’t gotten the hype they deserve:

2.36K viewsnlpcontroller_bot, 07:04

Немножко NLP-полезностей:

1. NYU Deep Learning Course Week 12 про NLP и трансформер (лекция, семинар, заметки)
1. Impoving NLU Through Adversarial Testing (лекция)
1. Ещё одно (слегка упоротое) объяснение трансформера (видео)
1. Официальная иплементация PowerNorm (тык)
1. Новая статья от гугла где учат мапить текстовые команды на UI Android (статья, блогпост)
1. AutoML Zero - эволюция алгоритма обучения с нуля (статья, блогпост, код)

Week 12 – Lecture: Deep Learning for Natural Language Processing (NLP)

Course website: https://bit.ly/DLSP20-web
Playlist: https://bit.ly/pDL-YouTube
Speaker: Mike Lewis
Week 12: https://bit.ly/DLSP20-12

0:00:00 – Week 12 – Lecture

LECTURE Part A: https://bit.ly/DLSP20-12-1
In this section, we discuss the various architectures…

2.56K viewsnlpcontroller_bot, 03:01

Do Transformers Need Deep Long-Range Memory?
Rae and Razavi [DeepMind]
arxiv.org/abs/2007.03356

Короткий ответ: да
Длинный ответ: экспериментировали с Transformer-XL, смотрели что будет если не все слои будут использовать long-range dependencies. Выяснили, что можно считать длинные зависимости только в 1/6 слоёв, а остальные сделать короткими (128 токенов) и будет работать отлично. Но если убрать длинные зависимости совсем / оставить только один слой, то будет работать плохо.

2.48K viewsnlpcontroller_bot, 13:05

2.99K viewsnlpcontroller_bot, 13:05

2.58K viewsVlad Lialin, 03:57

Poor Man’s BERT — Exploring Pruning as an Alternative to Knowledge Distillation. Как получить маленький берт из большого забесплатно (без дистилляции)? Убрать несколько верхних слоёв. Как до этого дошли и что ещё пробовали описано в посте и в статье.

Poor Man’s BERT — Exploring Pruning as an Alternative to Knowledge Distillation

Exploring the simple approach to model compression

2.41K viewsnlpcontroller_bot, 15:49

Тут в Стенфорде выяснили, что self-attention не классный. Точнее, доказали что при фиксированном числе слоёв (как мы его обычно и используем) он не может в простые формальные языки. Например, в детекцию четное или нечётное число какого-то токена есть у него на входе или в проверку валидности скобок.

От авторов:
These limitations seem surprising given the practical success of self-attention and the prominent role assigned to hierarchical structure in linguistics, suggesting that natural language can be approximated well with models that are too weak for the formal languages typically assumed in theoretical linguistics.

От себя хочу добавить, что вижу всё больше расхождений интуитивных представлений из лингвистики и реального мира. Так что не бойтесь пробовать ваши идеи даже если они не кажутся лингвистически корректными.

3.45K viewsnlpcontroller_bot, 15:52

2.36K viewsnlpcontroller_bot, 15:52

Forwarded from Pavel S

Intento_TAUS_Benchmark_Jul_2020.pdf

Привет всем!
Вышел новый evaluation report по оценке сервисов машинного перевода.

tl;dr:
* Репорт нацелен больше на людей из локализации
* 15 MT Engines, 14 Language Pairs, 16 Industry Sectors, 8 Content Types
* Отказываемся от BLEU для оценки перевода [1]
* Основная метрика BERTscore [2]
* На почти на всех парах лидирует: Amazon / Systran PNMT
* На паре en-ru: SDL BeGlobal, ModernMT, Google, Amazon
* Best MT per Industry Sector - slide 25
* Best MT per Content Type - slide 29
* Почему не WMT датасеты? Ответ: Есть очень хитрые провайдеры :)
* Чуть позже выйдет репорт про COVID (healthcare) + показана работа Human Linguistic Quality Analysis

3.27K viewsCookie Thief, 10:43