DL in NLP

A Primer in BERTology: What we know about how BERT works
Rogers, Kovaleva and Rumshisky [UMass Lowell]
arxiv.org/abs/2002.12327

Новая статья от нашей лабы! И одновременно статья, которую вы, вероятно, ждали - обзор взякой бертятины: какие BERT-like модели существуют, какие синтаксические/семантические свойства содержатся в хидденах этих моделей, какие есть методы сжатия, мультиязычные модели на основе BERT итд.
Делать обзор обзорной статьи как-то неразумно, так что действительно просто рекомендую выбрать ту часть статьи, которая интересна вам больше всего и прочитать.

2.28K viewsnlpcontroller_bot, edited 16:03

🔥 29

DL in NLP

2.54K viewsnlpcontroller_bot, 16:03

DL in NLP

Пример использования PyTorch TPU для NER (сам код по ссылке на гитхабе, в колабе только вызывалка этого).
Всё ещё выглядит кривовато, но в прошлом году на подъём всего окружения нужно было потратить больше часа, а теперь всё работает за пару минут, так что советую почитать код и запустить колаб.

Интересно, что Lightning уже поддерживает TPU в две строчки:
1. При создании Trainer указать num_tpu_cores
1. Делать шаг оптимизатора с помощью torch_xla.core.xla_model.optimizer_step(optimizer) вместо обычного optimizer.step()

twitter.com/srush_nlp/status/1233161898268467206

Twitter

Sasha Rush

Multi-core TPU 🤗 NER demo now in master. Runs <1 min per epoch. (Thanks to the torch_xla team.) Colab: https://t.co/h2qPhJWb5O Code (runs on CPU/GPU/DDP): https://t.co/nSwWSWN8cm https://t.co/FDlkedvo7V

2.1K viewsnlpcontroller_bot, edited 16:50

👍 7

DL in NLP

Наткнулся на блогпост к уже довольно старой статье (How Does Batch Normalization Help Optimization? Santurkar et al., 2018). В посте довольно хорошо описывается интуиция за статьёй. Немножко матана прилагается - всё как вы любите.

И почему эта статья вообще важная: она показывает, что наша интуиция иногда ведёт к неправильным выводам и нужно всегда её проверять.

blog.paperspace.com/busting-the-myths-about-batch-normalization

Paperspace by DigitalOcean Blog

Intro to Optimization in Deep Learning: Busting the Myth About Batch Normalization

Batch Normalisation does NOT reduce internal covariate shift. This posts looks into why internal covariate shift is a problem and how batch normalisation is used to address it.

2.21K viewsnlpcontroller_bot, edited 17:52

👍 9

DL in NLP

Deep Learning Memory Usage and Pytorch Optimization Tricks
www.sicara.ai/blog/2019-28-10-deep-learning-memory-usage-and-pytorch-optimization-tricks

Хороший пост как для новичков, так и для тех, кто уже немножко погружён в DL. Рассказывает о том, почему нейросетки (конкретно бэкпроп) потребляют столько памяти и как с этим жить.

2.25K viewsnlpcontroller_bot, edited 19:02

👍 11

DL in NLP

NLP newsletter #6

medium

Medium

NLP Newsletter: BERTology Primer, fastpages, T5, Data Science Education, PyTorch Notebooks, Slow Science in ML,…

This issue covers topics that range from extending the Transformer model to slowing publication in ML to a series of ML and NLP books and…

3.57K viewsnlpcontroller_bot, 01:15

👍 6

DL in NLP

🔥 пост с обзором на ряд недавних NLP публикаций
Тык

Medium

NLP Research Highlights — Issue #1

Introducing a new dedicated series to highlight the latest interesting natural language processing (NLP) research.

2.25K viewsnlpcontroller_bot, 14:54

🔥 9

DL in NLP

Automatically Neutralizing Subjective Bias in Text
Pryzant et al.
arxiv.org/abs/1911.09709

Забавная новая задача повышения объективности текста. Датасет намайнили из правок Википедии, в качестве модельки используют систему из двух моделей: BERT детектирует субъективные выражения, а LSTM их исправляет.

Интересно, что будет, если применить эту модель к моей ленте твиттера.

2.37K viewsnlpcontroller_bot, 16:07

👍 5

DL in NLP

2.88K viewsnlpcontroller_bot, 16:07

DL in NLP

Отличная презентация от 🤗 с обзором современных трендов и проблем в NLP.

Тык

Google Docs

INRIA ALMANACH - Transfer Learning

Transfer Learning in NLP INRIA – ALMAnaCH Thomas Wolf - HuggingFace Inc. 1

2.94K viewsnlpcontroller_bot, 20:14

🔥 27

DL in NLP

Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping
Dodge et al.
arxiv.org/abs/2002.06305

Мы с другом шутили, что random seed - это тоже гиперпараметр. Ещё никогда мы не были так правы.

Взяв обычный BERT и правильно подобрав random seed (на valid) можно получить результаты лучше, чем у RoBERTa, XLNet и др (на valid ???). Давайте допустиим, что авторы не просто переобучились (что вообще весьма вероятно - статьи с Архива такие статьи с Ахрива). Random seed определяет две важные вещи - инициализацию и порядок данных при обучении. Мы издревле знаем, что инициализация критически важна для нейросеток - если инициализируете из неправильного распределения может вообще не сойтись, а если из правильного - сможете обучить хоть CNN в 10 000 слоёв без skip-connection. По важности порядка данных гуглите curriculum learning. Также, если использовать seed только для инициализации, можно найти такие, которые будут трансфериться (показывать хорошие результататы) между датасетами, что забавно и даже логично.

2.69K viewsnlpcontroller_bot, edited 22:04

👍 20

DL in NLP

1.84K viewsnlpcontroller_bot, 22:04

DL in NLP

1.88K viewsnlpcontroller_bot, 22:04

DL in NLP

Поиграем в демократию

Anonymous Poll

27%

Авторы заоверфитились

19%

Теперь я тоже буду добавлять random seed в перебор гиперпараметров

54%

Нужно больше экспериментов, чтобы всё это проверить

327 voters2.02K viewsVlad Lialin, 22:08

DL in NLP

Introducing BART
Блогпост, рассказывающий о ещё одной бертоподобной модели и её интеграции в 🤗.

Если кто пропустил, в канале тоже был пост о ней.

TensorGoose

Introducing BART

Episode 1 – a mysterious new Seq2Seq model with state of the art summarization performance visits a popular open source library

2.21K viewsnlpcontroller_bot, 08:27

👍 8

DL in NLP

На днях прошёл TF Dev Summit - главная конференция TensorFlow, на которой показывают новые фичи, а также то, чего добилось коммьюнити за последний год. Обычно, про него как-то мало пишут в новостях, поэтому давайте это исправим.

Записи всех выступлений доступны на офсайте, а очень короткое саммари из тех пунктов, которые заинтересовали меня можете почитать тут.

Telegraph

TF Dev Summit 2020 summary

Который уже год я встречаю людей, которые рассказывают мне про новую классную фичу через полгода после того, как она была анонсирована на TF dev summit. Давайте не будем этими людьми и разберёмся в основных нововведениях прямо сейчас. Core 1. Сделали ноый…

3.15K viewsnlpcontroller_bot, 17:42

👍 15

DL in NLP

A Survey of Long-Term Context in Transformers
pragmatic.ml/a-survey-of-methods-for-incorporating-long-term-context/

Хороший обзор статей, в которых пытаются работать с текстами длинее 512 токенов.

1. Sparse Transformers
1. Adaptive Span Transformers
1. Transformer-XL
1. Compressive Transformers
1. Reformer
1. Routing Transformer

machine learning musings

A Survey of Long-Term Context in Transformers

Exploring 6 noteworthy approaches for incorporating longer-term context in transformer models.

2.29K viewsnlpcontroller_bot, 19:30

👍 15

DL in NLP

NLP Newsletter #7

Тык

2.89K viewsnlpcontroller_bot, 21:52

👍 9

DL in NLP

🤗 Awesome NLP Paper Discussions
github.com/huggingface/awesome-papers

"Each week, the Hugging Face team has a science day where one team member presents an awesome NLP paper. We've decided to share this discussion with the community. See planned future discussions below."

GitHub

GitHub - huggingface/awesome-papers: Papers & presentation materials from Hugging Face's internal science day

Papers & presentation materials from Hugging Face's internal science day - huggingface/awesome-papers

2.48K viewsnlpcontroller_bot, 17:52

👍 12

DL in NLP

Немножно разбавлю ваши ленты чем-нибудь не про вирус

1. Technical Writing Courses - два небольших (3 часа в сумме) курса по тому, как писать технические тексты. Должно быть полезно как для документации, так и для статей.
1. Читаем статьи за вас. Январь — Февраль 2020
1. How to generate text: using different decoding methods for language generation with Transformers - хороший пост с основными методами генерации текста и примерами кода (от beam search до nucleus sampling)
1. В Lightning добавили profiler
1. Pre-trained Models for Natural Language Processing: A Survey, Qiu et al - ещё одна обзорная статья по предтренировке в NLP

Сидите дома, читайте статьи, не болейте.

Google for Developers

Technical Writing | Google for Developers

Technical Writing Courses for Engineers

2.17K viewsnlpcontroller_bot, edited 18:43

👍 18

About

Blog

Apps

Platform