DL in NLP

Уроки пиара от Майкрософт.

Литерали чат-бот натренированный на переписке с мертвым человеком — то, о чем думал каждый, кто тренировал чат-ботов. Но нет. "Воскрешение мертвых", черное зеркало, гроб, гроб, кладбище.

Дарю идею для ~~патента~~ попадания в СМИ: тренируете чатбота на переписке с живым человеком, а в конце озаглавливаете "ПРОЕКТ ПО ТРАСПЛАНТАЦИИ ЛИЧНОСТИ".

2.71K viewsVlad Lialin, 16:46

DL in NLP

Пока интересные статьи на глаза не попадаются, но попался пост 2009 года (“BC” по меркам диплёрнинга), который очень хорошо состарился.

Главная его мысль состоит в том, что автоматическое дифференцирование - это must have тулза в ML, но люди с ней незнакомы. И призывы к тому, что это нужно менять.

Сейчас в мире DL нет ни одного человека, кто не работал бы с автоматическим дифференцированием - потому что это основа и TF, и PyTorch и всех остальных нейросетевых фреймворков. Однако, далеко не все понимают что это такое и чем автоматическое дифференцирование отличается от численного и от аналитического. И пост является хорошим ответом на эти вопросы.

Justin Domke

Automatic Differentiation: The most criminally underused tool in the potential machine learning toolbox?

Update: (November 2015) In the almost seven years since writing this, there has been an explosion of great tools for automatic differentiation and a corresponding upsurge in its use. Thus, happily,…

2.9K viewsnlpcontroller_bot, 17:44

👍 36

DL in NLP

Forwarded from gonzo-обзоры ML статей

Очередные анонсы (от @che-shr-cat).

На следующий неделе делаю два доклада на конференции OpenTalks.ai.

1) 04 февраля в 15:15 "Главные результаты в NLP в 2020 году". Дам свой топ главных достижений за последний год. И это не только GPT-3 :)

2) 05 февраля в 13:15 "Обзорный доклад про железо для ИИ" по мотивам моей серии постов про железо (включая ещё не вышедшие части) https://blog.inten.to/hardware-for-deep-learning-current-state-and-trends-51c01ebbb6dc

Расписание конференции здесь:
https://opentalks.ai/ru/timetable

2K viewsVlad Lialin, 15:10

DL in NLP

Хорошие знакомые из Huawei ищут себе ML Engineer и человека занимающегося поиском. Советую посмотреть.

2K viewsVlad Lialin, 00:54

DL in NLP

Forwarded from Huawei Careers 😎

Machine Learning, NLP researchers with system development experience (Surf_ML)

Project description:

We believe there is no limit to perfection when we writing source code. But usually, programmers do not have much time to hone their code and desired improvements become technical debt. Combining strict source code analysis and

Machine Learning, we want to create a tool that helps programmers pay this refactoring debt.

We expect you:

✅ To have strong knowledge of classic ML;

✅ To have hands-on experience with NLP and Recommender Systems;

✅ To have a PhD in Computer Science (not a must);

✅ To be an academic writer visible in Scopus;

✅ To be a hands-on programmer (Python, C++, or similar);

✅ To able present thoughts clearly both Russian and English;

✅ To be ready to work full-time (5x8) in our Moscow office;

✅ Interested in source code analysis.

You will get:

✅ Above-the-market monthly salary (plus annual and milestone bonuses)

✅ All social benefits, including 28 days annual paid vacation, etc.

✅ Challenging tasks and details-oriented management

✅ An opportunity to become a known open source contributor

✅ A limitless career path in a Fortune-100 company

✅ Ability to work remotely from home

✅ No-discrimination workplace: your age, citizenship, and sex don’t matter

@borgesline
[email protected]

1.73K viewsVlad Lialin, 00:54

DL in NLP

Forwarded from Huawei Careers 😎

SEAD Matching Engineer

About the project
Sparkle Search is a web search engine developed by Huawei. Sparkle Sead is an online advertising platform for the sponsored search market, which is also developed by Huawei. Advertisers pay to display brief advertisements, service offerings, product listings, and video content to web users through Sparkle Sead. Service offerings include travel services, accommodation services, ticket services and so on.
In sponsored search, ad retrieval and CTR estimation are two main data-driven functional modules. They are important for displaying proper ads to proper users, which determines the revenue of the advertising platform. This job mainly focus on ad retrieval.

Responsibilities:
🔴 Develop query rewriting algorithms to match queries with related keywords.
🔴 Optimize query-ad matching to improve PVR (page view rate) and ASN (average show number) so as to boost the revenue of the advertising platform ultimately.
🔴 Follow the novel research in query rewriting and query-ad matching for continuous improvement of query-ad matching.

Requirements:
🔴 Excellent coding and code control capabilities, solid data structure, and algorithmic skills;
🔴 Be familiar with the Linux development environment;
🔴 Good coding skills with one or two programming languages C++/Java/Python;
🔴 Practical experience in machine learning and deep neural network, and proficient in common algorithms such as LR, ME, CRF, HMM and Bert;
🔴 Familiar with NLP techniques in search systems, such as word segmentation, synonyms, semantic matching and topic model;
🔴 Development experience in large-scale distributed system, such as spark and hadoop.

Location:
This is a fulltime position at our R&D center based in Saint-Petersburg.

Send your CVs to:
Anna Perova, Recruitment Team Lead, Huawei RnD Russia.
1. E-mail: [email protected], theme: External referal to position name, candidates name.
2. Telegram: @borgesline, Anna Perova, Recruitment Team Lead, Huawei.

1.74K viewsVlad Lialin, 00:54

DL in NLP

Can We Automate Scientific Reviewing?
Yuan, Liu and Neubig [CMU]
arxiv.org/abs/2102.00176

Авторы предлагают использовать модели суммаризации для генерации ревью статей. По классике (первый) абстракт написан их моделью. Основная идея это extract-then-generate. То есть одна модель достаёт куски текста из статьи, а другая - генерирует ревью на их основе. Для структуризации ревью авторы предложили обучать опираясь не только на слова ревью но и на теги вида Summary, Motivation, Originality, … Кроме этого предложен мультимодальный способ оценки ревью по качеству сгенерированного текста для каждого тега.

Результаты следующие: у модели проблемы в high-level understanding, часто повторяет фразы вида “this pape is well written” (чаще чем люди), задают мало вопросов по статье. При этом модель работает лучше людей по информативности ревью и упоминанию всех нужных частей ревью (наших тегов) и примрено так же хорошо суммаризирует контент. Сравнивают модели с человеками по предвзятости: native english speaker/non-native, anonumous submission/non-anonimous. Модель меньше критикует non-native, чем люди.

Вы можете поиграться с моделью и заревьюить ваши статьи на сайте review.nlpedia.ai

2.27K viewsnlpcontroller_bot, 18:10

👍 4

DL in NLP

2.16K viewsnlpcontroller_bot, 18:10

DL in NLP

Introducing 🤗 AutoNLP

Hugging Face предлагает поучаствовать в бете их продукта для автоматизации построения моделей для классификации текста, NER, text similarity, суммаризации и перевода.

huggingface.typeform.com/to/FAtsVfbg

Typeform

Join AutoNLP library beta test

Turn data collection into an experience with Typeform. Create beautiful online forms, surveys, quizzes, and so much more. Try it for FREE.

2.45K viewsnlpcontroller_bot, 21:36

👍 11

DL in NLP

Jeremy Howard возмущается что Flash копирует их API без упоминания fastai (то есть противореча APACHE 2.0 лицензии). Действительно ли это так, понять сложно.

С одной стороны названия методов очень похожи, но с другой - как иначе ещё называть Trainer? Настоящие особенности fastai, такие как встроенные в Data object аугментации вроде бы отсутствуют в Flash.

По-моему тут вопрос как в суде Apple против Samsung на тему slide to unlock. Подход загрузи данные, создай dataset object, создай модель и trainer, сделай .fit сейчас используется везде. И сложно сказать, насколько тут велик вклад fastai и должны ли мы все их цитировать в нашем коде.

2.26K viewsVlad Lialin, edited 18:14

DL in NLP

Forwarded from b b

Если вы вдруг скучали по хорошей драме в мире опенсорса и глубокого обучения, то она совсем рядом: https://mobile.twitter.com/jeremyphoward/status/1357470475497009154

Twitter

Jeremy Howard

I’m hearing comments that Grid AI (Lightning) seem to have copied fastai's API without credit, and claimed to have invented it. We wrote a paper about our design; it's great it's inspiring others. Claiming credit for other's work? NOT great 1/ https://t.co/JPf1iQqaF1

2.35K viewsVlad Lialin, 18:14

DL in NLP

2.3K viewsVlad Lialin, 18:18

DL in NLP

2.34K viewsVlad Lialin, 18:18

DL in NLP

Наткнулся на мини-библиотеку для машинного перевода.
Всё, что она умеет, это использовать несколько предобученных моделей, но в этой простоте и вся красота. Поддерживается более 150 языков, включая русский, также есть автодетекция языка. Делает всё локально и позволяет выбирать между несколькими моделями и тюнить beam size.

Для установки: pip install easynmt

Для использования:

from easynmt import EasyNMT 
model = EasyNMT('opus-mt')
model.translate('переведи мне это предложение', target_lang='en')

GitHub

GitHub - UKPLab/EasyNMT: Easy to use, state-of-the-art Neural Machine Translation for 100+ languages

Easy to use, state-of-the-art Neural Machine Translation for 100+ languages - UKPLab/EasyNMT

3.54K viewsnlpcontroller_bot, 18:59

👍 35

About

Blog

Apps

Platform