DL in NLP

Forwarded from b b

Если вы вдруг скучали по хорошей драме в мире опенсорса и глубокого обучения, то она совсем рядом: https://mobile.twitter.com/jeremyphoward/status/1357470475497009154

Twitter

Jeremy Howard

I’m hearing comments that Grid AI (Lightning) seem to have copied fastai's API without credit, and claimed to have invented it. We wrote a paper about our design; it's great it's inspiring others. Claiming credit for other's work? NOT great 1/ https://t.co/JPf1iQqaF1

2.35K viewsVlad Lialin, 18:14

DL in NLP

2.3K viewsVlad Lialin, 18:18

DL in NLP

2.34K viewsVlad Lialin, 18:18

DL in NLP

Наткнулся на мини-библиотеку для машинного перевода.
Всё, что она умеет, это использовать несколько предобученных моделей, но в этой простоте и вся красота. Поддерживается более 150 языков, включая русский, также есть автодетекция языка. Делает всё локально и позволяет выбирать между несколькими моделями и тюнить beam size.

Для установки: pip install easynmt

Для использования:

from easynmt import EasyNMT 
model = EasyNMT('opus-mt')
model.translate('переведи мне это предложение', target_lang='en')

GitHub

GitHub - UKPLab/EasyNMT: Easy to use, state-of-the-art Neural Machine Translation for 100+ languages

Easy to use, state-of-the-art Neural Machine Translation for 100+ languages - UKPLab/EasyNMT

3.54K viewsnlpcontroller_bot, 18:59

👍 35

DL in NLP

Очень хороший PhD advice. Рисёчить сложно, и вдвойне сложно, если ты не горишь идеей. Потратьте немного времени и подумайте о проблеме, которая вас вдохновляет. Потом начните над ней работать.

2.3K viewsVlad Lialin, 16:26

DL in NLP

Forwarded from Gradient Dude

I use the podcasts of Lex Fridman as an opportunity to talk to very intelligent and clever people while having breakfast. These conversations always give me the motivation to keep up with my research work as well.

I have just finished listening to Lex's conversation with Prof. Sergey Levine. Very insightful!
Sergey is a brilliant researcher in the field of Deep RL and Computer Vision and a very humble and genuine person. I was lucky to meet him in person and to talk to him a little bit at my first big scientific conference NeurIPS 2016.

A piece of advice for students from Sergey Levine:

"It is important to not be afraid to spend time imagining the kind of outcome that you might like to see. If someone who is a student considering a career in AI takes a little while, sits down and thinks like "What do I really want to see a machine do? What do I want to see a robot do? What do I want to see a natural language system do?". Imagine it almost like a commercial for a future product or something that you'd like to see in the world. And then actually sit down and think about the steps that are necessary to get there. And hopefully, that thing is not a better number on ImageNet classification, it's probably like an actual thing that we can't do today. That would be really AWESOME.

Whether it's a robot butler or an awesome healthcare decision-making support system. Whatever it is that you find inspiring. And I think that thinking about that and then backtracking from there and imagining the steps needed to get there will actually do much better research, it will lead to rethinking the assumptions, it will lead to working on the bottlenecks other people aren't working on."

2.33K viewsVlad Lialin, 16:26

DL in NLP

🔥Stanford недавно выложил в общий доступ пару видео из нового запуска курса по NLP 2020 года

BERT and Other Pre-trained Language Models, лектор Jacob Devlin, автор BERT
Low Resource Machine Translation, лектор Marc'Aurelio Ranzato, один из авторов первой статьи по unsupervised MT

Надо смотреть.

YouTube

Stanford CS224N: NLP with Deep Learning | Winter 2020 | BERT and Other Pre-trained Language Models

For more information about Stanford’s Artificial Intelligence professional and graduate programs, visit: https://stanford.io/3waBO2R

Jacob Devlin, Google AI Language
https://research.google/people/106320/

Professor Christopher Manning
Thomas M. Siebel Professor…

👍1

3.24K viewsnlpcontroller_bot, 03:46

🔥 26

DL in NLP

Интересное соревнование, советую обратить внимание.

2.07K viewsАлексей Сорокин, 13:36

DL in NLP

Forwarded from Ivan Smurov

Всем привет! Приглашаем всех поучаствовать в соревновании по симплификации предложений на русском языке. Что такое симплификация? Например, когда вы пытаетесь своей бабушке объяснить, чем занимаетесь – вы стараетесь не употреблять жаргона и специальных терминов, строить предложение, не используя сложных оборотов.
То есть на входе дается сложное предложение, а на выходе должно быть простое.
Соревнование начнется 15 февраля и продлится до 15 марта. Для русского языка нет доступного большого набора данных, поэтому мы предоставим небольшой валидационный датасет, а также переведенный англоязычный корпус. В качестве метрики качества будет использоваться SARI (полнота по n-граммам). Мы также приглашаем всех описать свой опыт участия в статье на конференцию Диалог. Ждем всех!

Репозиторий соревнования: https://github.com/dialogue-evaluation/RuSimpleSentEval

Страница соревнования:
https://competitions.codalab.org/competitions/29037

Чат:
https://t.iss.one/rsse2021

GitHub

GitHub - dialogue-evaluation/RuSimpleSentEval: RuSimpleSentEval (RSSE) shared task repo

RuSimpleSentEval (RSSE) shared task repo. Contribute to dialogue-evaluation/RuSimpleSentEval development by creating an account on GitHub.

2.42K viewsАлексей Сорокин, 13:36

DL in NLP

И ещё одно соревнование. Отмечу, что Dialogue Evaluation это один из самых простых способов получить скопусовскую публикацию в NLP, если она вдруг нужна.

2.15K viewsАлексей Сорокин, 13:54

DL in NLP

Forwarded from Ivan Smurov

Всем привет!
В рамках Dialogue Evaluation 2021 с 8 февраля по 12 марта мы проводим соревнование по кластеризации, выбору и генерации заголовков для новостей.
Соревнование состоит из 3 дорожек. В рамках первой дорожки нужно определить, относятся ли 2 новости к одному событию, в рамках второй - выбрать лучший заголовок для кластера, а в рамках третьей - попытаться по текстам новостей из кластера сгенерировать лучший заголовок. Для первой дорожки датасет готов и соревнование уже идёт, для второй и третьей всё начнётся на следующей неделе.
По результатам участия можно будет подать статью на конференцию Диалог.

Более подробное описание по ссылке.
Соревнование: https://competitions.codalab.org/competitions/28830
Чат в Telegram: https://t.iss.one/dialogue_clustering

GitHub

GitHub - dialogue-evaluation/Russian-News-Clustering-and-Headline-Generation

Contribute to dialogue-evaluation/Russian-News-Clustering-and-Headline-Generation development by creating an account on GitHub.

2.59K viewsАлексей Сорокин, 13:54

DL in NLP

И ещё одно интересное соревнование.

1.94K viewsАлексей Сорокин, edited 15:53

DL in NLP

Forwarded from Ivan Smurov

Всем привет!
В рамках Dialogue Evaluation 2021 с 20 февраля по 15 марта проводится соревнование по нормализации (т. е. приведению к начальной форме) спанов.
Соревнование состоит из 2 дорожек. В первой дорожке необходимо привести к нормальной форме именованные сущности (персоны, локации, организации) на материале новостных текстов vz.ru. Во второй - более общие спаны (в том числе, не являющиеся именными группами) на материале корпуса RuREBus (программы Минэкономразвития).
По результатам участия можно будет подать статью на конференцию Диалог.

Более подробное описание по ссылке.
Гитхаб: https://github.com/dialogue-evaluation/RuNormAS
Соревнование: https://competitions.codalab.org/competitions/29216?secret_key=d63b3dae-a033-402f-a867-fa6de980dd4d
Чат в Telegram: @RuNormAS

GitHub

GitHub - dialogue-evaluation/RuNormAS: RuNormAS (Russian Normalization of Annotated Spans) shared task

RuNormAS (Russian Normalization of Annotated Spans) shared task - dialogue-evaluation/RuNormAS

2.85K viewsАлексей Сорокин, 15:53

DL in NLP

Очень хороший и последовательный список материалов по трансформеру. От high-level до подробностей имплементации.

2.07K viewsVlad Lialin, 16:52

DL in NLP

Forwarded from Gradient Dude

#beginners_guide
Learn About Transformers: A Recipe

A blogpost summarizing key study material to learn about the Transformer models (theory + code).
Tasty!

1.74K viewsVlad Lialin, 16:52

DL in NLP

И ещё одно нестандартное соревнование, в котором неочевидно решение и могут выстрелить разные подходы.

2.13K viewsАлексей Сорокин, 15:53

DL in NLP

Forwarded from Maša Ponomareva

Привет!
Посмотрите на картинку, на ней семантический скетч глагола. Сможете догадаться, какого? Семантический скетч отражает сочетаемость слова в корпусе, для человека хорошо построенные скетчи являются вполне репрезентативными, а так ли это для машины? Мы приглашаем вас поучаствовать в дорожке Диалога (да, их в этом году очень много), которая называется SemSketches. В рамках дорожки участникам предстоит угадывать по слову в контексте, к какому семантическому скетчу оно относится. Задача экспериментальная и новая, большая свобода для идей и интересные данные. Очень ждем участников!

Чат в телеграме
Гитхаб соревнования (подробности, данные, таймлайн там)

2.91K viewsАлексей Сорокин, 15:53

DL in NLP

Понадобилось почитать больше про UMAP – метод уменьшения размерности разработанный McInnes, Healy, and Melville в 2018. Метод уже мега популярен, вероятно наравне с T-SNE, и на это есть следующие причины:

1. Визуализации выглядят красивее, лучше баланс отображения глобальной и локальной стркутуры данных
1. Небольшое изменение гиперпараметров не так сильно изменяет результат, как в T-SNE
1. Он быстрее T-SNE в 5-10 раз

Гугловцы сделал потрясяющий интерактивный гайд с объяснением работы UMAP. Вчера залип в него на час. Работать с этой штукой тоже просто

# pip install umap-learn
mapper = umap.UMAP().fit(data)
umap.plot.points(mapper, labels=data_labels)

pair-code.github.io

Understanding UMAP

UMAP is a new dimensionality reduction technique that offers increased speed and better preservation of global structure.

3.07K viewsnlpcontroller_bot, edited 15:05

👍 18

DL in NLP

В честь дня рождения DeepPavlov команда проекта проводит встречу пользователей и разработчиков. В этом году, к сожалению, она пройдет в онлайн формате 5 марта 2021 года. Чтобы попасть на мероприятие, необходимо зарегистрироваться на сайте.

На нём расскажут про участие в Alexa Prize, применение Deep Pavlov для специфичного NER, последние новости из мира NLP, и о том, каким будет DeepPavlov 1.0

2.7K viewsnlpcontroller_bot, 15:08

👍 20

DL in NLP

Forwarded from Unsolicited Disclosures

Похоже, что OpenAI выложил модель DALL-E https://github.com/openai/DALL-E (256px?) #AI

GitHub

GitHub - openai/DALL-E: PyTorch package for the discrete VAE used for DALL·E.

PyTorch package for the discrete VAE used for DALL·E. - openai/DALL-E

2.42K viewsVlad Lialin, 19:56

DL in NLP

Пару дней назад вышла статья "Do Transformer Modifications Transfer Across Implementations and Applications?"

В ней авторы попробовали реимплементировать и протестировать более чем 50 различных вариаций трансформера, начиная с простой замены функции активации и заканчивая весьма хитрыми альтернативами self-attention вроде dynamic convolutions или Synthesize.

Короткий ответ на их вопрос: нет, почти все модификации трансформера работают хуже, чем классический трансформер, либо улучшают его результаты лишь на нескольких задачах. В качестве задач авторы использовали машинный первод, SuperGLUE, XSum и WebQuestions, где для последних трёх сперва предобучалась BERT-base-sized версия T5. Интересно, что самыми большими и стабильными по всем задачам улучшениями была замена ReLU на другие функции активации. Отлично себя показала SwiGLU и другие гейтированные активации.

А если вы из тех людей, которые любят просматривать презентации вместо чтения статьи, можете посмотреть на вот эту.

Google Docs

Transformer Modifications

Do Transformer Modifications Transfer Across Implementations and Applications? Narang et al., 2021 arxiv.org/abs/2102.11972

2.49K viewsnlpcontroller_bot, 00:24

👍 19

About

Blog

Apps

Platform