DL in NLP

Ждём трансформеров в 100B параметров в этом году

1.54K viewsVlad Lialin, 15:05

Forwarded from Zavtracast (Max Zareckiy)

Nvidia анонсировала архитектуру Ampere и новое решение на её базе, ускоритель Ampere A100. Если вы ждали игровые видеокарты, то их Nvidia показывать не стала. И даже не факт, что условные 3080 будут базироваться на Ampere. В 2017-м году Nvidia таким же образом выпустила ускорители на базе Volta. У них не было потребительских версий.

Итак, A100 на базе Ampere — это решение для суперкомпьютеров и дата-центров, с особым упором на машинное обучение и ИИ. Чип карты огромен (826 кв. мм.), а на плате напаяно 54 миллиарда транзисторов (18.6 миллиардов у 2080 Ti). Карта выполнена по 7нм техпроцессу. Nvidia говорит, что A100 мощнее Tesla V100 в 20 раз в ряде задач, особенно в обучении ИИ.

Купить A100 отдельно нельзя. Ускоритель поставляется в комплекте с суперкомпьютером DGX A100 на базе процессоров AMD Epyc. Стоимость такой машины - 200 тысяч долларов. Любопытно, что Nvidia отказалась от дальнейшего сотрудничества с Intel на рынке CPU.

https://www.engadget.com/nvidia-ampere-a100-gpu-specs-analysis-upscaled-130049114.html

Engadget

NVIDIA's massive A100 GPU isn't for you

In this mini-episode of our explainer show, Upscaled, we break down NVIDIA's latest GPU, the A100, and its new graphics architecture Ampere. Announced at the company's long-delayed GTC conference, the A100 isn't intended for gamers, or even for workstation…

174 viewsVlad Lialin, 15:05

DL in NLP

🤗 релизит более тысячи моделей машинного перевода (140 языков)
twitter.com/huggingface/status/1260942644286537728

Доступность бесплатных моделек на кучу языков, которые вы ещё и можете в 5 строчек запустить у себя может повлиять на много задачек. Например аугментация через перевод может стать более распространена.

Натренировано это множество с помощью Marian - плюсового фреймворка для перевода

Twitter

Hugging Face

Let’s democratize NLP for all languages! 🌎🌎🌎 Today, with v2.9.1, we are releasing 1,008 machine translation models, covering ` of 140 different languages trained by @jorgtiedemann with @marian, ported by @sam_shleifer. Find your language here: https://t.co/9EMtfopij3…

1.85K viewsnlpcontroller_bot, edited 17:23

👍 20

DL in NLP

🤗 зарелизил nlp (не самое удачное название)
Либа для датасетов и метрик. Сейчас доступно 95 датасетов включая Cornell Movie Dialog, WinoGrande, Xtreme и ещё кучу тех, что не GLUE.

Работает примерно так:

xquad_dataset = nlp.load_dataset('xquad', split='validation[:10%]')
xquad_metric = nlp.load_metric('xquad')

твиттер-тред: тык,
колаб поиграться: тык,
гитхаб: тык,

Twitter

Thomas Wolf

Surviving every AI wave, two kernels have consistently been the beating hearts of Natural Language Processing: Datasets and Metrics Today we release "nlp", a library to easily share & load data/metrics already providing access to 99+ datasets! Try it👉 ht…

1.86K viewsnlpcontroller_bot, 13:28

👍 18

DL in NLP

Что мы знаем про Transformer в 2020 году
Редкий случай в этом канале - доклад на русском языке.
Разбор Sparse Attention, Adaptive Spans и Reformer.
Мемы в наличии.

Спасибо @sokolov_yas за ссылочку

YouTube

Что мы знаем про Transformer в 2020 году / Даниил Гаврилов

VK Lab Talks. 11 марта 2020. ФПМИ, Долгопрудный.

Даниил Гаврилов, разработчик ВКонтакте из Команды исследований, решает множество задач, где для достижения хороших результатов приходится использовать архитектуру Transformer. Однако уже давно ему перестало…

2.38K viewsnlpcontroller_bot, edited 13:37

👍 19

DL in NLP

DeepMind постит у себя в твитере рекомендации от их рисёчеров на почитать

Из интересного нашёл:
1. d2l.ai - книга по DL с примерами кода на вообще всё. Вот главы про attention и transformer для примера (осторожно MXNet)
1. The Scientist in the Crib - научпоп книжка о том как люди (очень маленькие люди) учатся и чему это может научить нас
1. Лекция про bias на NIPS 2017
1. Ещё лекция: 21 definitions of fairness and their politics
1. Курс MIT Introduction to Deep Learning - на мой взгляд слишком поверхностный, но есть весёлые домашки
1. Внезапно, курс о том, как деплоить модельки - очень советую всем джунам да и не только смотреть в эту область более пристально. Это сложная тема.

Всё тут не опишу, лучше следите за DeepMind в твиттере и за хештегом #AtHomeWithAI.

Twitter

DeepMind

Looking for a few more favourite resources from the team? Today’s #AtHomeWithAI picks are from software engineer Julian Schrittwieser (@Mononofu), one of the team behind #AlphaZero!(1/6)

2.39K viewsnlpcontroller_bot, 15:15

👍 25

DL in NLP

Accelerate your NLP pipelines using Hugging Face Transformers and ONNX Runtime
🤗 + ONNX = ❤️

You can now use ONNX Runtime and Hugging Face Transformers together to improve the experience of training and deploying NLP models.

Medium

Accelerate your NLP pipelines using Hugging Face Transformers and ONNX Runtime

This post was written by Morgan Funtowicz from Hugging Face and Tianlei Wu from Microsoft

1.77K viewsnlpcontroller_bot, 08:14

👍 8

DL in NLP

Интересные штуки

1. Movement Pruning - метод прунинга в pretrain-finetute-парадигме, вместо того, чтобы убирать веса с маленькими значениями даавайте убирать веса, которые меньше всего изменились при файнтюнинге (статья). А ещё я удивился, что Rush теперь в 🤗
1. Выпуск подкаста twiml.ai на тему Is Linguistics Missing from NLP Research

Раздел для самых маленьких:
1. Learn Git and GitHub in 20 Minutes - не перестаю удивляться как мало людей в research-community умеют в гитхаб
1. DeepMind рекомендует учить линейную алгебру

Twitter

Victor Sanh

Excited to share our latest work on extreme pruning in the context of transfer learning 🧀 95% of the original perf with only ~5% of remaining weights in the encoder💪 Paper: https://t.co/3V7gkQQmeL With amazing collaborators @Thom_Wolf & @srush_nlp at @huggingface…

1.74K viewsnlpcontroller_bot, edited 14:02

👍 7

DL in NLP

Если кому-то нравится датакамп

1.68K viewsVlad Lialin, 14:12

DL in NLP

Forwarded from Ivan Shishov

На Datacamp’е (datacamp.com) ещё 10 часов открыта регистрация на бесплатную неделю (есть несколько курсов по NLP, но формат - добавь несколько строчек кода - тут не очень работает, на мой взгляд, зато очень много других вкусняшек)

1.82K viewsVlad Lialin, 14:12

DL in NLP

Тут в дружественном канале довольно подробно описали соврменные неавторегрессионные модели. Советуем к прочтению.

1.68K viewsVlad Lialin, 16:53

DL in NLP

Forwarded from gonzo-обзоры ML статей

В нескольких последующих постах выложу обзор статей о современных неавторегрессионных моделях генерации текста -- т.е. моделей, предлагающих генерировать текст не по одному токену слева направо, а как-то иначе, более хитрым образом. Подробно опишу пять статей на этот счёт, ещё пару упомяну. Изложение будет в хронологической последовательности, и сложность моделей будет постепенно нарастать.

190 viewsVlad Lialin, 16:53

DL in NLP

Реформер в 🤗 , дождались.
тык

Twitter

Hugging Face

Long-range sequence modeling meets 🤗 transformers! We are happy to officially release Reformer, a transformer that can process sequences as long as 500.000 tokens from @GoogleAI. Thanks a million, Nikita Kitaev and @lukaszkaiser! Try it out here: https:/…

1.99K viewsCookie Thief, 16:55

DL in NLP

О штуках, которые заинтересовали в начале этой недели

1. Критика использования beam search для машинного перевода. Показывают, что он искривляет распределение n-gram и возможно именно он - причина артефактов машинного перевода которые мы уже затрагивали (e.g. мультиязычные датасаты). Также предлагают байесовский метод семплирования, который получает и высокий BLEU (как beam search) и сохраняет распределения (как обычное семплирование).

1. Parallax - Immutable Torch Modules for JAX
Если вы не знаете что такое JAX, возможно и не узнаете. Потому что несмотря на интересные идеи, где в numpy-like синтаксисе вы пишете код, который просто работает на CPU/GPU/TPU, в нём нету удобного и привичного интерфейса а-ля nn.Module. Parallax - это попытка на коленке сделать его.

И для самых маленьких:
1. Как организовывать рисёч-код

GitHub

GitHub - srush/parallax

Contribute to srush/parallax development by creating an account on GitHub.

1.88K viewsnlpcontroller_bot, 15:48

👍 6

DL in NLP

🤗 NLP Viewer

Простенький view датасетов, где можно посмотреть как они выглядят. Пока что не работает с большими датасетами, по-моему это важный косяк, который нужно исправлять - как раз для них и было бы очень полезно посмотреть на внутренности без необходимости скачивания десятков гигабайт.

1.61K viewsnlpcontroller_bot, 16:53

👍 13

DL in NLP

1.64K viewsnlpcontroller_bot, 16:53

DL in NLP

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
Lewis et al. [Facebook]
arxiv.org/abs/2005.11401

Новая open domain question answering моделька от фейсбука мёржит seq2seq подход (T5/BART) с графами знаний. Мне почему-то такой подход кажется одновременно и очень практически полезным и несколько тупиковым, но всё равно интересным.

Основная идея: (предтренированный) attention учится искать по индексу документов, а (предтренированный) генератор обуславливается на то, что нашли. Всё файнтюнится end-to-end.

1.74K viewsnlpcontroller_bot, edited 17:07

👍 7

DL in NLP

1.69K viewsnlpcontroller_bot, 17:07

DL in NLP

Подвезли GPT-3
175 B параметров!
завтра подробно разберём

twitter.com/arankomatsuzaki/status/1266172138773307392

Twitter

Aran Komatsuzaki

Language Models are Few-Shot Learners - GPT 3 (175B params) causal LM - matches with sota fine-tuned performance with few-shot learning on various tasks - can write indistinguishable news articles https://t.co/0wZ036lnMn

2.7K viewsnlpcontroller_bot, 02:31

🔥 23

DL in NLP

Language Models are Few-Shot Learners
Brown, Mann, Ryder, Subbiah et al. [OpenAI]
arxiv.org/abs/2005.14165

Очевидный результат, про который все и так будут говорить - натренировали модель в 175B параметров. Для сравнения, в BERT large 340M, а в GPT2 - 1.5B. Генерит ещё более правдоподобные тексты, которые люди уже не могут отличить от настоящих (accuracy 52%), даже не смотря на то, что они тратят больше времени на ответ, чем с маленькими моделями (на ~20% больше относительно 1B).

А теперь про неочевидные результаты. Мы знаем, что языковые модели могут решать прикладные задачи без обучения. Однако для адекватного качества нужны очень большие модели (возможно, в тысячи раз больше GPT-3). Новые результаты показывают, что в few-shot сеттинге метрика от размера модели растёт несколько быстрее. Получается, LM с увеличеннием размера (модели и датасета) не только учат common sence, но и учатся быстрее генерализовывать по нескольким примерам. Также интересно то, что в статье имеется в виду под few-shot - это не обучение/файнтюнинг модели, в том виде, как мы привыкли. Это просто подача текста вида "x1 : y1, x2:y2, x3: ", где вся небольшая "обучающая выборка" подаётся на вход модели и она должна продолжить её. Такой подход позволил получить SOTA на TriviaQA (настоящий SOTA, в сравнении с моделями обученными на всём датасете) и в срееднем результаты не хуже зафайтнюненого BERT Large.

Но есть одно но. 175B параметров - это 700Гб (350Гб в fp16), так что скорее всего она не поместится в твою *080Ti ещё лет так 5.

Статья очень большая и интересная, советую заглянуть в секцию results, чтобы посмотреть на них подробнее или хотя бы глянуть графики.

Также зарилизили репозиторий, но в нём ничего полезного нет

GitHub

GitHub - openai/gpt-3: GPT-3: Language Models are Few-Shot Learners

GPT-3: Language Models are Few-Shot Learners. Contribute to openai/gpt-3 development by creating an account on GitHub.

2.18K viewsnlpcontroller_bot, edited 15:09

👍 11

About

Blog

Apps

Platform