DL in NLP
12.4K subscribers
547 photos
13 videos
27 files
1.1K links
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
Download Telegram
Forwarded from Говорит AI (Artem R)
Результаты:
Для финального сравнения моделей использовали способ ACUTE-Eval. Состоит из двух шагов: шаг 1 - с помощью ассесоров набираем N диалогов между людьми и нашими разными моделями, шаг 2 - даем новым человекам-ассесорам сделать side-by-side сравнение - даем прочитать два диалога с разными чатботами и просим ответить какого чатбота ассесор бы предпочел для дальнейшего общения (см пример на скрине). Такой подход позволяет сравнивать модели просто имея сэмплы диалогов и не имея доступ к самой модели. Именно так и получилось с Meena которые выложили примеры диалогов, но не выложили саму модель.

По итогу самая лучшая модель - BST Generative на 2.7B с бимсерчем = 10 и ограничением минимальной длины ответа в 20 токенов. Удивительно что 9.4B модель проиграла 2.7B модели - на side-by-side сравнении по engagingness 54% проголосовали за 2.7B модель, хотя по perplexity 9.4B получилась лучше. Еще удивительно, что на side-by-side сравнении диалогов их лучшей модели и диалогов человек-человек, по метрике engagingness они сматчились с человеческими. Недалек тот день, когда можно будет выбросить всех друзей и увлекательно общаться только с чатботами

В заключении провели анализ ошибок модели, типичные факапы:
- противоречие и забывчивость. Модель в диалоге может противоречить сама себе или повторяться про те вещи, про которые говорила несколько шагов назад.
- выдумывание фактов. Модель может придумать и сгенерировать несуществующие факты о реальном мире, отсутствует понимание причино-следственных связей.
- чрезмерное использование частотных коллокаций. Намного чаще чем люди употребляет безопасные и частотные фразы как “do you like”, “lot of fun”, “have any hobbies”, etc
Forwarded from Говорит AI (Artem R)
ICLR 2020: Yann LeCun and Energy-Based Models
Обсуждеение видео лекции ЛеКуна о energy-based models, вариационных автокодировщиках, других странных штуках и о его видении ближайшего будущего DL.

BART version of closed-book QA
Репозиторий для end-to-end ответов на вопросы без использования какой-нибудь БД с текстами, вся инфа берётся из весов модельки. Релевантная статья: How Much Knowledge Can You Pack Into the Parameters of a Language Model?

Mapping Natural Language Instructions to Mobile UI Action Sequences
Давно не видел статеек, где придумывали бы какую-нибудь новую странную задачку. Lie et al. [Google] решили, что вместо использования (очень ограниченного) API для Google Assistant можно попытаться его напрямую обучить выполнять ±произвольные команды с вашим телефоном (звучит зловеще). Вообще идея интересная, если когда-нибудь получится завести это дело, то у Google Assistant и Siri будет очень хороший шанс выбраться из болота установки таймеров и прогнозов погоды.
Кстати ещё хочу к этому списку добавить Data Science Math Skills

Релевантно для тех, у кого не было профильной математики в универе. На удивление для себя недавно обнаружил, что не всем легче читать LSTM как 4 формулы, чем как странную картинку.
Какое описание LSTM/Self-Attention вам понятнее?
Anonymous Poll
69%
Картинка/схема
31%
Формула
Тут в чате опять годнота (спасибо @someotherusername)
Узнал про себя, что я советская пропаганда 😂

По аналогии с thispersondoesnotexist
https://www.thisworddoesnotexist.com
Ждём трансформеров в 100B параметров в этом году
Forwarded from Zavtracast (Max Zareckiy)
Nvidia анонсировала архитектуру Ampere и новое решение на её базе, ускоритель Ampere A100. Если вы ждали игровые видеокарты, то их Nvidia показывать не стала. И даже не факт, что условные 3080 будут базироваться на Ampere. В 2017-м году Nvidia таким же образом выпустила ускорители на базе Volta. У них не было потребительских версий.

Итак, A100 на базе Ampere — это решение для суперкомпьютеров и дата-центров, с особым упором на машинное обучение и ИИ. Чип карты огромен (826 кв. мм.), а на плате напаяно 54 миллиарда транзисторов (18.6 миллиардов у 2080 Ti). Карта выполнена по 7нм техпроцессу. Nvidia говорит, что A100 мощнее Tesla V100 в 20 раз в ряде задач, особенно в обучении ИИ.

Купить A100 отдельно нельзя. Ускоритель поставляется в комплекте с суперкомпьютером DGX A100 на базе процессоров AMD Epyc. Стоимость такой машины - 200 тысяч долларов. Любопытно, что Nvidia отказалась от дальнейшего сотрудничества с Intel на рынке CPU.

https://www.engadget.com/nvidia-ampere-a100-gpu-specs-analysis-upscaled-130049114.html
🤗 релизит более тысячи моделей машинного перевода (140 языков)
twitter.com/huggingface/status/1260942644286537728

Доступность бесплатных моделек на кучу языков, которые вы ещё и можете в 5 строчек запустить у себя может повлиять на много задачек. Например аугментация через перевод может стать более распространена.

Натренировано это множество с помощью Marian - плюсового фреймворка для перевода
🤗 зарелизил nlp (не самое удачное название)
Либа для датасетов и метрик. Сейчас доступно 95 датасетов включая Cornell Movie Dialog, WinoGrande, Xtreme и ещё кучу тех, что не GLUE.

Работает примерно так:
xquad_dataset = nlp.load_dataset('xquad', split='validation[:10%]')
xquad_metric = nlp.load_metric('xquad')


твиттер-тред: тык,
колаб поиграться: тык,
гитхаб: тык,
DeepMind постит у себя в твитере рекомендации от их рисёчеров на почитать

Из интересного нашёл:
1. d2l.ai - книга по DL с примерами кода на вообще всё. Вот главы про attention и transformer для примера (осторожно MXNet)
1. The Scientist in the Crib - научпоп книжка о том как люди (очень маленькие люди) учатся и чему это может научить нас
1. Лекция про bias на NIPS 2017
1. Ещё лекция: 21 definitions of fairness and their politics
1. Курс MIT Introduction to Deep Learning - на мой взгляд слишком поверхностный, но есть весёлые домашки
1. Внезапно, курс о том, как деплоить модельки - очень советую всем джунам да и не только смотреть в эту область более пристально. Это сложная тема.

Всё тут не опишу, лучше следите за DeepMind в твиттере и за хештегом #AtHomeWithAI.
Accelerate your NLP pipelines using Hugging Face Transformers and ONNX Runtime
🤗 + ONNX = ❤️
You can now use ONNX Runtime and Hugging Face Transformers together to improve the experience of training and deploying NLP models. 
Интересные штуки

1. Movement Pruning - метод прунинга в pretrain-finetute-парадигме, вместо того, чтобы убирать веса с маленькими значениями даавайте убирать веса, которые меньше всего изменились при файнтюнинге (статья). А ещё я удивился, что Rush теперь в 🤗
1. Выпуск подкаста twiml.ai на тему Is Linguistics Missing from NLP Research

Раздел для самых маленьких:
1. Learn Git and GitHub in 20 Minutes - не перестаю удивляться как мало людей в research-community умеют в гитхаб
1. DeepMind рекомендует учить линейную алгебру
Если кому-то нравится датакамп
Forwarded from Ivan Shishov
На Datacamp’е (datacamp.com) ещё 10 часов открыта регистрация на бесплатную неделю (есть несколько курсов по NLP, но формат - добавь несколько строчек кода - тут не очень работает, на мой взгляд, зато очень много других вкусняшек)
Тут в дружественном канале довольно подробно описали соврменные неавторегрессионные модели. Советуем к прочтению.