DL in NLP

2.49K viewsVlad Lialin, 19:54

Уроки пиара от Майкрософт.

Литерали чат-бот натренированный на переписке с мертвым человеком — то, о чем думал каждый, кто тренировал чат-ботов. Но нет. "Воскрешение мертвых", черное зеркало, гроб, гроб, кладбище.

Дарю идею для ~~патента~~ попадания в СМИ: тренируете чатбота на переписке с живым человеком, а в конце озаглавливаете "ПРОЕКТ ПО ТРАСПЛАНТАЦИИ ЛИЧНОСТИ".

2.71K viewsVlad Lialin, 16:46

DL in NLP

Пока интересные статьи на глаза не попадаются, но попался пост 2009 года (“BC” по меркам диплёрнинга), который очень хорошо состарился.

Главная его мысль состоит в том, что автоматическое дифференцирование - это must have тулза в ML, но люди с ней незнакомы. И призывы к тому, что это нужно менять.

Сейчас в мире DL нет ни одного человека, кто не работал бы с автоматическим дифференцированием - потому что это основа и TF, и PyTorch и всех остальных нейросетевых фреймворков. Однако, далеко не все понимают что это такое и чем автоматическое дифференцирование отличается от численного и от аналитического. И пост является хорошим ответом на эти вопросы.

Justin Domke

Automatic Differentiation: The most criminally underused tool in the potential machine learning toolbox?

Update: (November 2015) In the almost seven years since writing this, there has been an explosion of great tools for automatic differentiation and a corresponding upsurge in its use. Thus, happily,…

2.9K viewsnlpcontroller_bot, 17:44

👍 36

DL in NLP

Forwarded from gonzo-обзоры ML статей

Очередные анонсы (от @che-shr-cat).

На следующий неделе делаю два доклада на конференции OpenTalks.ai.

1) 04 февраля в 15:15 "Главные результаты в NLP в 2020 году". Дам свой топ главных достижений за последний год. И это не только GPT-3 :)

2) 05 февраля в 13:15 "Обзорный доклад про железо для ИИ" по мотивам моей серии постов про железо (включая ещё не вышедшие части) https://blog.inten.to/hardware-for-deep-learning-current-state-and-trends-51c01ebbb6dc

Расписание конференции здесь:
https://opentalks.ai/ru/timetable

2K viewsVlad Lialin, 15:10

DL in NLP

Хорошие знакомые из Huawei ищут себе ML Engineer и человека занимающегося поиском. Советую посмотреть.

2K viewsVlad Lialin, 00:54

DL in NLP

Forwarded from Huawei Careers 😎

Machine Learning, NLP researchers with system development experience (Surf_ML)

Project description:

We believe there is no limit to perfection when we writing source code. But usually, programmers do not have much time to hone their code and desired improvements become technical debt. Combining strict source code analysis and

Machine Learning, we want to create a tool that helps programmers pay this refactoring debt.

We expect you:

✅ To have strong knowledge of classic ML;

✅ To have hands-on experience with NLP and Recommender Systems;

✅ To have a PhD in Computer Science (not a must);

✅ To be an academic writer visible in Scopus;

✅ To be a hands-on programmer (Python, C++, or similar);

✅ To able present thoughts clearly both Russian and English;

✅ To be ready to work full-time (5x8) in our Moscow office;

✅ Interested in source code analysis.

You will get:

✅ Above-the-market monthly salary (plus annual and milestone bonuses)

✅ All social benefits, including 28 days annual paid vacation, etc.

✅ Challenging tasks and details-oriented management

✅ An opportunity to become a known open source contributor

✅ A limitless career path in a Fortune-100 company

✅ Ability to work remotely from home

✅ No-discrimination workplace: your age, citizenship, and sex don’t matter

@borgesline
[email protected]

1.73K viewsVlad Lialin, 00:54

DL in NLP

Forwarded from Huawei Careers 😎

SEAD Matching Engineer

About the project
Sparkle Search is a web search engine developed by Huawei. Sparkle Sead is an online advertising platform for the sponsored search market, which is also developed by Huawei. Advertisers pay to display brief advertisements, service offerings, product listings, and video content to web users through Sparkle Sead. Service offerings include travel services, accommodation services, ticket services and so on.
In sponsored search, ad retrieval and CTR estimation are two main data-driven functional modules. They are important for displaying proper ads to proper users, which determines the revenue of the advertising platform. This job mainly focus on ad retrieval.

Responsibilities:
🔴 Develop query rewriting algorithms to match queries with related keywords.
🔴 Optimize query-ad matching to improve PVR (page view rate) and ASN (average show number) so as to boost the revenue of the advertising platform ultimately.
🔴 Follow the novel research in query rewriting and query-ad matching for continuous improvement of query-ad matching.

Requirements:
🔴 Excellent coding and code control capabilities, solid data structure, and algorithmic skills;
🔴 Be familiar with the Linux development environment;
🔴 Good coding skills with one or two programming languages C++/Java/Python;
🔴 Practical experience in machine learning and deep neural network, and proficient in common algorithms such as LR, ME, CRF, HMM and Bert;
🔴 Familiar with NLP techniques in search systems, such as word segmentation, synonyms, semantic matching and topic model;
🔴 Development experience in large-scale distributed system, such as spark and hadoop.

Location:
This is a fulltime position at our R&D center based in Saint-Petersburg.

Send your CVs to:
Anna Perova, Recruitment Team Lead, Huawei RnD Russia.
1. E-mail: [email protected], theme: External referal to position name, candidates name.
2. Telegram: @borgesline, Anna Perova, Recruitment Team Lead, Huawei.

1.74K viewsVlad Lialin, 00:54

DL in NLP

Can We Automate Scientific Reviewing?
Yuan, Liu and Neubig [CMU]
arxiv.org/abs/2102.00176

Авторы предлагают использовать модели суммаризации для генерации ревью статей. По классике (первый) абстракт написан их моделью. Основная идея это extract-then-generate. То есть одна модель достаёт куски текста из статьи, а другая - генерирует ревью на их основе. Для структуризации ревью авторы предложили обучать опираясь не только на слова ревью но и на теги вида Summary, Motivation, Originality, … Кроме этого предложен мультимодальный способ оценки ревью по качеству сгенерированного текста для каждого тега.

Результаты следующие: у модели проблемы в high-level understanding, часто повторяет фразы вида “this pape is well written” (чаще чем люди), задают мало вопросов по статье. При этом модель работает лучше людей по информативности ревью и упоминанию всех нужных частей ревью (наших тегов) и примрено так же хорошо суммаризирует контент. Сравнивают модели с человеками по предвзятости: native english speaker/non-native, anonumous submission/non-anonimous. Модель меньше критикует non-native, чем люди.

Вы можете поиграться с моделью и заревьюить ваши статьи на сайте review.nlpedia.ai

2.27K viewsnlpcontroller_bot, 18:10

👍 4

DL in NLP

2.16K viewsnlpcontroller_bot, 18:10

DL in NLP

Introducing 🤗 AutoNLP

Hugging Face предлагает поучаствовать в бете их продукта для автоматизации построения моделей для классификации текста, NER, text similarity, суммаризации и перевода.

huggingface.typeform.com/to/FAtsVfbg

Typeform

Join AutoNLP library beta test

Turn data collection into an experience with Typeform. Create beautiful online forms, surveys, quizzes, and so much more. Try it for FREE.

2.45K viewsnlpcontroller_bot, 21:36

👍 11

DL in NLP

Jeremy Howard возмущается что Flash копирует их API без упоминания fastai (то есть противореча APACHE 2.0 лицензии). Действительно ли это так, понять сложно.

С одной стороны названия методов очень похожи, но с другой - как иначе ещё называть Trainer? Настоящие особенности fastai, такие как встроенные в Data object аугментации вроде бы отсутствуют в Flash.

По-моему тут вопрос как в суде Apple против Samsung на тему slide to unlock. Подход загрузи данные, создай dataset object, создай модель и trainer, сделай .fit сейчас используется везде. И сложно сказать, насколько тут велик вклад fastai и должны ли мы все их цитировать в нашем коде.

2.26K viewsVlad Lialin, edited 18:14

DL in NLP

Forwarded from b b

Если вы вдруг скучали по хорошей драме в мире опенсорса и глубокого обучения, то она совсем рядом: https://mobile.twitter.com/jeremyphoward/status/1357470475497009154

Twitter

Jeremy Howard

I’m hearing comments that Grid AI (Lightning) seem to have copied fastai's API without credit, and claimed to have invented it. We wrote a paper about our design; it's great it's inspiring others. Claiming credit for other's work? NOT great 1/ https://t.co/JPf1iQqaF1

2.35K viewsVlad Lialin, 18:14

DL in NLP

2.3K viewsVlad Lialin, 18:18

DL in NLP

2.34K viewsVlad Lialin, 18:18

DL in NLP

Наткнулся на мини-библиотеку для машинного перевода.
Всё, что она умеет, это использовать несколько предобученных моделей, но в этой простоте и вся красота. Поддерживается более 150 языков, включая русский, также есть автодетекция языка. Делает всё локально и позволяет выбирать между несколькими моделями и тюнить beam size.

Для установки: pip install easynmt

Для использования:

from easynmt import EasyNMT 
model = EasyNMT('opus-mt')
model.translate('переведи мне это предложение', target_lang='en')

GitHub

GitHub - UKPLab/EasyNMT: Easy to use, state-of-the-art Neural Machine Translation for 100+ languages

Easy to use, state-of-the-art Neural Machine Translation for 100+ languages - UKPLab/EasyNMT

3.54K viewsnlpcontroller_bot, 18:59

👍 35

DL in NLP

Очень хороший PhD advice. Рисёчить сложно, и вдвойне сложно, если ты не горишь идеей. Потратьте немного времени и подумайте о проблеме, которая вас вдохновляет. Потом начните над ней работать.

2.3K viewsVlad Lialin, 16:26

DL in NLP

Forwarded from Gradient Dude

I use the podcasts of Lex Fridman as an opportunity to talk to very intelligent and clever people while having breakfast. These conversations always give me the motivation to keep up with my research work as well.

I have just finished listening to Lex's conversation with Prof. Sergey Levine. Very insightful!
Sergey is a brilliant researcher in the field of Deep RL and Computer Vision and a very humble and genuine person. I was lucky to meet him in person and to talk to him a little bit at my first big scientific conference NeurIPS 2016.

A piece of advice for students from Sergey Levine:

"It is important to not be afraid to spend time imagining the kind of outcome that you might like to see. If someone who is a student considering a career in AI takes a little while, sits down and thinks like "What do I really want to see a machine do? What do I want to see a robot do? What do I want to see a natural language system do?". Imagine it almost like a commercial for a future product or something that you'd like to see in the world. And then actually sit down and think about the steps that are necessary to get there. And hopefully, that thing is not a better number on ImageNet classification, it's probably like an actual thing that we can't do today. That would be really AWESOME.

Whether it's a robot butler or an awesome healthcare decision-making support system. Whatever it is that you find inspiring. And I think that thinking about that and then backtracking from there and imagining the steps needed to get there will actually do much better research, it will lead to rethinking the assumptions, it will lead to working on the bottlenecks other people aren't working on."

2.33K viewsVlad Lialin, 16:26

DL in NLP

🔥Stanford недавно выложил в общий доступ пару видео из нового запуска курса по NLP 2020 года

BERT and Other Pre-trained Language Models, лектор Jacob Devlin, автор BERT
Low Resource Machine Translation, лектор Marc'Aurelio Ranzato, один из авторов первой статьи по unsupervised MT

Надо смотреть.

YouTube

Stanford CS224N: NLP with Deep Learning | Winter 2020 | BERT and Other Pre-trained Language Models

For more information about Stanford’s Artificial Intelligence professional and graduate programs, visit: https://stanford.io/3waBO2R

Jacob Devlin, Google AI Language
https://research.google/people/106320/

Professor Christopher Manning
Thomas M. Siebel Professor…

👍1

3.24K viewsnlpcontroller_bot, 03:46

🔥 26

DL in NLP

Интересное соревнование, советую обратить внимание.

2.07K viewsАлексей Сорокин, 13:36

DL in NLP

Forwarded from Ivan Smurov

Всем привет! Приглашаем всех поучаствовать в соревновании по симплификации предложений на русском языке. Что такое симплификация? Например, когда вы пытаетесь своей бабушке объяснить, чем занимаетесь – вы стараетесь не употреблять жаргона и специальных терминов, строить предложение, не используя сложных оборотов.
То есть на входе дается сложное предложение, а на выходе должно быть простое.
Соревнование начнется 15 февраля и продлится до 15 марта. Для русского языка нет доступного большого набора данных, поэтому мы предоставим небольшой валидационный датасет, а также переведенный англоязычный корпус. В качестве метрики качества будет использоваться SARI (полнота по n-граммам). Мы также приглашаем всех описать свой опыт участия в статье на конференцию Диалог. Ждем всех!

Репозиторий соревнования: https://github.com/dialogue-evaluation/RuSimpleSentEval

Страница соревнования:
https://competitions.codalab.org/competitions/29037

Чат:
https://t.iss.one/rsse2021

GitHub

GitHub - dialogue-evaluation/RuSimpleSentEval: RuSimpleSentEval (RSSE) shared task repo

RuSimpleSentEval (RSSE) shared task repo. Contribute to dialogue-evaluation/RuSimpleSentEval development by creating an account on GitHub.

2.42K viewsАлексей Сорокин, 13:36

About

Blog

Apps

Platform