DL in NLP – Telegram

DL in NLP

12.3K subscribers

547 photos

13 videos

27 files

1.1K links

Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)

Download Telegram

About

Blog

Apps

Platform

12.3K subscribers

When Can Self-Attention Be Replaced by Feed Forward Layers?
Zhang et al. [University of Edinburgh]
arxiv.org/abs/2005.13895

Авторы тестировались на задачке speech-to-text, так что результат не факт, что обобщается на тексты, но по их наблюденям, можно просто выкинуть attention из последних 1-2 слоёв и не только прибавить в скорости, но и получить небольшой буст в метриках. В качестве бейзлайна сравнились с уменьшение количества слоёв.

Моей первой мыслью было попробовать запустить машинный перевод и посмотреть, как оно зайдёт. Но если внимательнее посмотреть на результаты статьи, они не такие убедительные. Ошибка падает с 9 до 8.9 на одном датасете и 3.5 до 3.4 на другом. Плюс, недавно я узнал, что BERT (по крайней мере 🤗) при обучении (MLM) использует не просто Linear для предсказания слов, a Linear->activation->LayerNorm->Linear. Так что в некотором смысле результаты этой статьи уже известны.

1.89K viewsnlpcontroller_bot, 17:31

1.69K viewsnlpcontroller_bot, 17:31

Machine Learning Street Talk OpenAI GPT-3: Language Models are Few-Shot Learners

OpenAI GPT-3: Language Models are Few-Shot Learners

**ERRATA**: Open AI/GPT-3 DOES NOT USE Microsoft's ZeRO/DeepSpeed for training

Discord: https://discord.gg/4H8xxDF

In this episode of Machine Learning Street Talk, Tim Scarfe, Yannic Kilcher and Connor Shorten discuss their takeaways from OpenAI’s GPT-3…

1.89K viewsnlpcontroller_bot, 02:36

Моделька, которая переводит ваш код с одного языка программирования на другой (C++ <=> Java <=> Python). Без параллельной разметки для обучения. Использовали те же самые алгоритмы, которые применяются для unsupervised перевода в человеческих языках и они неплохо работают.
Забавно как сделали тестсет - набрали примеры алгоритмов на geeksforgeeks, там есть примеры имплементаций на разных языках.

подробнее в треде
twitter.com/GuillaumeLample/status/1269982022413570048

Guillaume Lample

Unsupervised Translation of Programming Languages. Feed a model with Python, C++, and Java source code from GitHub, and it automatically learns to translate between the 3 languages in a fully unsupervised way. https://t.co/FpUL886KS7 with @MaLachaux @b_roziere…

3.59K viewsnlpcontroller_bot, 15:40

Forwarded from Ridvan

Сдую пыль со старого поста про неумение в гит в ДС.
Пожалуй лучшее что видел на этот счет это видео Глеба Михайлова https://www.youtube.com/watch?v=0cGIiA0AjNw&t=1s
Совершенно годный контент, на мой взгляд, да еще и на русском

GIT для Дата Саентиста

Мой курс по SQL: https://glebmikhaylov.com/sql

------------------------------------------------------

Посмотри видос и впиши git в свою жизнь. И в резюме).
ПОДДЕРЖАТЬ СОЗДАНИЕ ВИДОСОВ: https://www.glebmikhaylov.com/donate

0:07 Зачем учить git?
1:13 Интуитивное…

2.2K viewsVlad Lialin, 22:40

Forwarded from Data Science by ODS.ai 🦜

Linformer: Self-Attention with Linear Complexity

The authors prove that self-attention can be approximated by a low-rank matrix. This idea made it possible to develop a new self-attention architecture, which reduces the complexity of O(N^2) to O(N) in both time and space.

Authors decompose the original scaled dot-product attention into multiple smaller attentions through linear projections, such that the combination of these operations forms a low-rank factorization of the original attention.

Also, they suggest a number of additional efficiency techniques:
– Parameter sharing between projections: Headwise, layerwise or key-value sharing
– Nonuniform projected dimension. It could be efficient to set lower projection dimension for higher levels
– General projections. Some different kind of projection instead of linear - pooling or convolution with kernel n and stride k

For experiments, they use RoBERTa and train it on 64 Tesla V100 GPUs with 250k updates.

Authors show that models reach almost the same validation perplexity as in a transformer, while inference is much faster and requires less memory.

Paper: https://arxiv.org/abs/2006.04768

#deeplearning #attention #transformer #efficience #memoryoptimization #inferencespeed

278 viewsCookie Thief, 17:39

Полная версия обзора в ODS от @Erlemar.
тык

1.81K viewsCookie Thief, 17:41

Forwarded from Tatiana Shavrina

Вышел Russian SuperGLUE!
Лидерборд : https://russiansuperglue.com
Код: https://github.com/RussianNLP/RussianSuperGLUE

Чтобы правильно оценивать русскоязычные языковые модели, такие как популярные сейчас BERT, RoBERTa, XLNet и т.д., нужно иметь какие-то объективные метрики. Подходов, как это делать, не так много, а для русского языка их не было. Представлен Russian SuperGLUE - бенчмарк для задачи общего понимания языка (General Language Understanding) и дальнейшего развития моделей на русском.

Набор новых задач для оценки моделей:
1. LiDiRus (Linguistic Diagnostic for Russian) или просто общая диагностика — её мы полностью адаптировали с английского варианта.
2. DaNetQA — набор вопросов на здравый смысл и знание, с да-нет ответом.
3. RCB (Russian Commitment Bank) — классификация наличия причинно-следственных связей между текстом и гипотезой из него.
4. PARus (Plausible Alternatives for Russian) — целеполагание, выбор из альтернативных вариантов на основе здравого смысла.
5. MuSeRC (Multi-Sentence Reading Comprehension) — машинное чтение. Задания содержат текст и вопрос к нему, но такой, на который можно ответить, сделав вывод из текста.
6. RuCoS (Russian reading comprehension with Commonsense) — тоже задача на машинное чтение. Модели даётся новостной текст, а также его краткое содержание с пропуском — пропуск нужно восстановить, выбрав из вариантов.
7. TERRa (Textual Entailment Recognition for Russian) — классификация причинно-следственных связей между предложениями (собрали с нуля по новостям и худлиту).
8. RUSSE (Russian Semantic Evaluation) — задача распознавания смысла слова в контексте (word sense disambiguation). Взят из RUSSE
9. RWSD (Russian Winograd Schema Dataset) — задания на логику, с добавленными неоднозначностями («Если бы у Ивана был осёл, он бы его бил»). Создан по аналогии с Winograd Schema.

Разработчики и энтузиасты приглашаются представить свои модели на лидерборде!

Пост на habr https://habr.com/ru/company/sberbank/blog/506058/

2.55K viewsVlad Lialin, 14:15

API OpenAI

Очень странная штука, но выглядит забавно.

openai.com/blog/openai-api/

We’re releasing an API for accessing new AI models developed by OpenAI.

1.89K viewsnlpcontroller_bot, 21:21

Optimizing Data usage via Differentiable Rewards
Wang, Pham et al. [CMU and Google Brain]
arxiv.org/abs/1911.10088

Идея: разнные данные по-разному полезны, давайте натренируем RL агента выбирать те, которые уменьшают лосс на dev-сете сильнее всего
Предположение: dev больше похож на test, чем train
Кому это надо: да почти всем, у кого плохое качество разметки. Вы размечаете свой большой train как можете, а dev очень-очень аккуратно (например, сами или требуете более высокий overlap от разметчиков)
Конкретный сигнал на обучение агента: похожесть градиента датапоинта на градииент на dev-сете.

Экспериментировали на классификации изображений и на низкоресурсном машинном переводе. Переводили с азейбайджанского, белорусского, галисийского и словацкого на английский. Тренировались на датасете из турецкого, русского, португальского и чешского, а низкоресурсные использовали в качестве dev. В среднем их метод добавляет меньше 0.5 BLEU, но когда ваш BLEU = 11, это довольно много.

2.39K viewsnlpcontroller_bot, 17:20

1.82K viewsnlpcontroller_bot, 17:20

1.77K viewsnlpcontroller_bot, 17:20

The Level 3 AI Assistant Conference
June 18, 2020 | Online
www.l3-ai.dev

Бесплатная конфа по Conversational AI. Из интересных для меня докладов нашёл:
1. Testing: The Art of Challenging Chatbots, Botium
1. Designing Practical NLP Solutions, Explosion.ai (создатели spaCy)
1. From Research to Production – Our Process at Rasa, Rasa
1. Distilling BERT, Rasa
1. Current Research in Conversational AI, много спикеров включая Rachael Tatman, Thomas Wolf и Anna Rogers
1. Google's Meena: Open Dialog systems, Google

Выглядит неплохо, надо регистрироваться.

2.06K viewsnlpcontroller_bot, 17:40

API OpenAI Очень странная штука, но выглядит забавно. openai.com/blog/openai-api/

UPD по OpenAI API.

Много кто, включая меня, решили что это какая-то непонятная замена вашему любимому zsh. Это не так, это API по всем тем моделькам, которые не помещаются на вашу GPU. Replika уже внедрила GPT-3 к себе в прод и получили заметный скачок в метриках (см график).
Вы тоже можете запросить доступ в бету для своего продукта / рисёча.

Обсуждение в ODS с разрабами из реплики.

3.08K viewsVlad Lialin, edited 18:03

VirTex: Learning Visual Representations from Textual Annotations
Desai and Johnson [University of Michigan]
arxiv.org/abs/2006.06666v1

TL;DR предобучение для задач CV на задаче image captioning более sample-efficient, чем предобучение на ImageNet-классификации.

Обучали resnet+transformer lm. В качестве задачи выбрали комбинацию forward LM и backward LM, аналогично ELMo. Хотели попробовать MLM тоже, но не умеестились в compute.

Много людей считают, что связывание CV и NLP будет очень активно развиваться в ближайшие пару лет, я с ними согласен.

2K viewsnlpcontroller_bot, 16:39

1.92K viewsnlpcontroller_bot, 16:39

Одной строкой:

1. Релиз AllenNLP 1.0
1. Специализация по NLP от deeplearning.ai
1. Насколько сильнно twitter влияет на цитируемость статьи
1. Релиз PyTorch Lightning ⚡0.8
1. L3AI идёт прямо сейчас, подключайтесь

спасибо @someotherusername за ссылки

Announcing AllenNLP 1.0

The 1.0 version of AllenNLP is the culmination of several months of work from our engineering team. The AllenNLP library has had…

2.28K viewsnlpcontroller_bot, edited 16:54

Memory Transformer
Burtsev and Sapunov
arxiv.org/abs/2006.11527

Cтатья от iPavlov и Intento в которой экспериентирют с пустыми токенами в трансформерах. По аналогии с SEP токенами, добавляют по 10-30 MEM токенов. Интуиция тут такая, что потенциально туда трансформер может складывать полезную инфоормацию, например какое-то сжатое описание всего текста. В экспериментах с WMT14 en-de смогло докинуть 1 BLEU к ванильному трансформеру в Base версии. Визуализация attention MEM токенов намекает на то, что они действительно хранят глобальный контекст а так же выполняют с ними операции типа чтения, записи и копирования.

В том числе экспериментировали с более сложным подходом в котором key и value использюется эмбеддинги памяти, а не эмбеддинги токенов, но не зашло.

Результаты довольно неожиданные в контексте свежих статей по интерпретации attention, которые показали, что CLS и SEP используются как своеобразные "выключатели" голов. Было бы интересно посмотреть не только на веса attention, но и на нормы аутпутов, как в статье Atteniton Module is Not Only a Weight.

2.42K viewsnlpcontroller_bot, edited 15:32

2.31K viewsnlpcontroller_bot, 15:32

2.35K viewsnlpcontroller_bot, 15:32