DL in NLP – Telegram

DL in NLP

12.5K subscribers

547 photos

13 videos

27 files

1.1K links

Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)

Download Telegram

About

Blog

Apps

Platform

12.5K subscribers

Zero-Shot Relation Extraction via Reading Comprehension
Levy et al, [University of Washington]
arxiv.org/abs/1706.04115

Простая идея: давайте переформулируем задачу relation extraction как вопросно-ответную систему. Зачем? Это позволит делать zero-shot, то есть работать с новыми отношениями/объектами, которых не было в тренировочном сете. Авторы так же собрали новый датасет под эту задачу с помощью wikidata и разметчиков, формулирующих вопросы. В результате на zero-shot модель показала F1 порядка 0.9 для новых объектов и порядка 0.3-0.4 для новых отношений. Также в статье есть отдельные главы с анализом работы и ошибок модели. Советую почитать, если у вас есть релевантные задачи.

Кстати их датасет доступен по этой ссылке: https://nlp.cs.washington.edu/zeroshot

2.42K viewsnlpcontroller_bot, edited 16:27

Правило номер 11: всё, что придумано в DL, было изначально придумано Шмитхубером в 90е

twitter.com/arankomatsuzaki/status/1364035225357983746

Aran Komatsuzaki

Linear Transformers Are Secretly Fast Weight Memory Systems Shows the formal equivalence of linearised self-attention mechanisms and fast weight memories from the early ’90s. https://t.co/SoGNlhgPqI

2.4K viewsVlad Lialin, 18:02

2.61K viewsVlad Lialin, 18:02

Forwarded from b b

https://distill.pub/2021/multimodal-neurons/

Крутая статья про CLIP от OpenAI. Типографические атаки - это очень смешно.

Multimodal Neurons in Artificial Neural Networks

We report the existence of multimodal neurons in artificial neural networks, similar to those found in the human brain.

2.7K viewsVlad Lialin, 23:58

Forwarded from b b

2.84K viewsVlad Lialin, 23:58

Опять про тестирование кода. Каждый раз, когда вы пишете тест, вы из будущего благодарите себя. И вот ещё наткнулся на статью по тестированию именно в ML.

2.07K viewsVlad Lialin, 15:07

https://madewithml.com/courses/applied-ml/testing/

2.63K viewsVlad Lialin, 15:07

Интересный заход на логирование эксперментов: keepsake.ai

Opensource и хранит всё на вашем S3 в простом и читаемом формате. Позволяют сохранять произвольные файлы, но в основном ориентируются на код и веса моделек. Также можно логированить метрики, но хз насколько это полезно без UI, а-ля wandb. Они называют себя version control for machine learning и позволяют восстанавливать старые версии экспериментов (код + веса). Достаточно ли это, чтобы называться version control? Наверное нет, но интересно, куда проект пойдёт дальше.

2.28K viewsnlpcontroller_bot, 17:42

🔥 Deep Learning Deep Dive
Подкаст Andrej Karpathy (Sr. Director of AI, Tesla) и Justin Johnson (University of Michigan), что уже классно. В эпизоде#3 также приглашены авторы статьи DALL-E. Andrej и Justin закапываются в очень тонкие детали, связанные с формулированием dVAE, с особенностями тренировки итд. По какой-то причине я не очень люлю английские подскасты, тк они мне кажутся очень сухими, но в этот прямо залип.

Пока что есть только два выпуска (episode#2 и episode#3 🤦‍♂️) и оба из них про DALL-E. Надеюсь (но не верю), что подкаст не забросят и у него будут регулярно выходить новые эпизоды.

Apple Podcasts: https://podcasts.apple.com/us/podcast/deep-learning-deep-dive/id1555309024
YouTube: https://youtu.be/PtdpWC7Sr98

Deep Learning Deep Dive

Technology Podcast · Long-form technical deep dives with Andrej Karpathy and Justin Johnson

2.52K viewsnlpcontroller_bot, edited 18:01

Очень советую GSoC. Хороший способ прокачать свои скилы и резюме, при этом помочь коммьюнити. А ещё вроде бы гугл неплохо это оплачивает.

2.33K viewsVlad Lialin, edited 21:30

Forwarded from DeepPavlov notifications

Всем привет😃

DeepPavlov выбрали в качестве наставнической организации Google Summer of Code for Summer 2021 🔥

GSoC – это международная программа для студентов старше 18 лет, позволяющая участвовать в работе над открытыми проектами. В этом году студенты в течение 10 недель (с 7 июня по 16 августа) могут оттачивать навыки программирования под присмотром наставников-волонтеров из DeepPavlov и получать стипендию от Google.

Посмотреть задачи и связаться с нами можно тут:
https://bit.ly/DPGSoC2021

Обратите внимание на требования к участию:
https://developers.google.com/open-source/gsoc/faq#students

В скором времени опубликуем полные требования по подаче заявки 🤗

Google Summer of Code

Google Summer of Code is a global program focused on bringing more developers into open source software development.

2.51K viewsVlad Lialin, 21:30

Random Feature Attention
Peng et al. [DeepMind]
arxiv.org/abs/2103.02143

Ещё одна статья про линеаризацию attention. Основная идея, использовать математический трюк, что случайная функция f(x)*f(y) определённого вида выдаёт нам в среднем exp(-||x - y||^2 / sigma).

Дальше под эту формулу подгоняется attention и у авторов получается избавиться от недиагональных элементом матрицы attention. Математика довольно простая, рекомендую посмотреть в статье.

По-результатам: показывают сравнимое с BigBird качество при более высокой скорости на классификации длинного текста и на машинном переводе.

3.48K viewsnlpcontroller_bot, edited 13:30

3.27K viewsnlpcontroller_bot, 13:30

хотел сегодня сделать обзор статьи, но держите лучше мем

2.79K viewsVlad Lialin, 18:25

Dan Jurafsky: How AI is changing our understanding of language

https://engineering.stanford.edu/magazine/article/dan-jurafsky-how-ai-changing-our-understanding-language

Stanford University School of Engineering

Dan Jurafsky: How AI is changing our understanding of language

A linguist and computer scientist explores how AI is expanding from capturing individual words and sentences to modeling the social nature of language.

2.35K viewsVlad Lialin, 04:23

Approximating How Single Head Attention Learns
Snell et al., [Berkeley]
arxiv.org/abs/2103.07601

A look inside LSTM seq2seq with attention training dynamics. The main idea of the paper is KTIW – Knowledge to Translate Individual Words. To explain the dynamics, the authors divide training into two stages: uniform attention (KTIW) and non-uniform attention.

In the first stage of model training, attention does not change significantly from the uniform, and the model mainly learns to translate individual words (KTIW, a.k.a. dictionary translation). After KTIW is learned, attention starts forming its patterns, and this process is driven by the KTIW. As correct word translations are already more probable, now attention mainly needs to align the words from the source and target language.

To quantitatively test the hypothesis, they develop a new lexical prob that is essentially hard attention. Yet, the most impressive result is that attention cannot learn a simple copy operation if KTIW is not learned.

3.32K viewsnlpcontroller_bot, 15:22

Народ пытается сделать opensource GPT-3. Выкатили новые модельки на 1.3B и 2.7B.

twitter.com/arankomatsuzaki/status/1373732645444579331

github: тык
colab (TPU): тык

Aran Komatsuzaki

We've released the weights (1.3B and 2.7B) of our replication of GPT-3 🥳 Using the updated Colab notebook in the repo you should be able to finetune the models on your own data as well as run inference. github.com/EleutherAI/gpt…

2.55K viewsnlpcontroller_bot, 16:55

Давно я не рекомендовал тут других каналов про ML.
Gradient Dude похож на этот канал в плане техничности. В основном там можно увидеть статьи по CV, но вот недавно был пост и про controllable text generation.

Вот как автор описывает свой канал:
TL;DR for DL/CV/ML/AI papers from an author of publications at top-tier AI conferences (CVPR, NIPS, ICCV,ECCV).
Most ML feeds go for fluff, we go for the real meat.

TL;DR for DL/CV/ML/AI papers from an author of publications at top-tier AI conferences (CVPR, NIPS, ICCV,ECCV).

Most ML feeds go for fluff, we go for the real meat.

YouTube: youtube.com/c/gradientdude
IG instagram.com/gradientdude

2.21K viewsVlad Lialin, 14:27

Update Frequently, Update Fast: Retraining Semantic Parsing Systems in a Fraction of Time
Lialin et al. [UMass Lowell, Google]
https://arxiv.org/abs/2010.07865

Основная NLU компонена Google Assistant, Alexa и других ассистентов – это модель семантического парсинга, которая переводит фразы на естественном языке в команды. В проде, датасеты для таких систем часто обновляются. Например, в редкие интенты/слоты могут докинуть примеров. Но при каждой такой итерации приходится перетренировывать модель, что может занимать недели.

В этой статье предлагается использовать continual learning для решения этой проблемы. Вместо того, чтоы каждый раз учить новую модель, старая фантюнится немного хитрым методом. Главная сложность заключается в том, чтобы модель не потеряла в качестве на старом датасете. Для этого используется комбинация двух простых методов: sampling из старых данных и специальный вид регуляризации – EWC.

Экспериенты показывают, что такой простой подход позволяет сократить время на тренировку иногда в десятки раз, при этом качество финальной модели выходит такое же, как если бы она тренировалась с нуля.

3.09K viewsnlpcontroller_bot, 17:17

Meta Learning and Its Applications to Natural Language Processing
https://meta-nlp-2021.github.io

Начнём с того, что это воркшоп по meta-learning в NLP, что уже интересно. И одним из спикеров будет Chelsea Finn, автор MAML. Вряд ли много кто из читалетей этого канала будет что-то сабмитить на этот воршоп, но зато на сайте есть отличная подборка материалов по meta-learning и meta-NLP включая курсы, ключевые статьи (разбитые по темам) и набор статей посвежее (листать до самого низа).

meta-nlp-2021.github.io

MetaNLP at ACL 2021

Meta Learning and Its Applications to Natural Language Processing workshop at ACL 2021

2.54K viewsnlpcontroller_bot, 00:03