DL in NLP

Revisiting Simple Neural Probabilistic Language Models
Sun and Iyyer [UMass Amherst]
arxiv.org/abs/2104.03474

Помните на курсе по NLP мы говорили, что просто конкатенировать эмбеддинги текста и пихать их в полносвязную сетку — это тупо и не работает? И что лучше использовать RNN/Трансфрмеры.

В общем это не совсем так. Если сделать полносвязную сетку из 16 слоёв с layer norm, dropout и skip connections, то на коротких контекстах (<20 токенов) она работает сопоставимо с трансформерами на языковом моделировании 🤯

Кажется, мне нужно будет переделать пару слайдов...

3.33K viewsnlpcontroller_bot, edited 01:25

👍 29

DL in NLP

Неделя начинается с NVIDIA GTC, блогпостов по prompt enginering и рассуждений на тему того, почему 🔥 лучше 💩

1. NVIDIA GTC 2021 — бесплатная конфа, много интересных спикеров начиная с Hinton, Bengio, LeCun и продолжая более локальными коммьютини, например Lightning и DeepPavlov там тоже будут
1. How many data points is a prompt worth? — от 100 до 3000, если верить 🤗
1. How usability improves performance in PyTorch
1. Блогпост на тему Approximating How Single-Head Attention Learns; статью мы недавно обозревали в канале
1. Интересный взгляд на ADAM от Tim Dettmers: по сути это такой фильтр Калмана для градиентов
1. PyTorch in Tesla — чтобы вы потом могли ответить, а где его используют в проде
1. Efficient Large-Scale Language Model Training on GPU Clusters — про то, как тяжело жить, когда у вас 3 тысячи GPU

NVIDIA

NVIDIA CEO Jensen Huang Keynote at GTC 2025

Watch NVIDIA CEO Jensen Huang deliver a truly ground-breaking GTC keynote happening on March 17-21, 2025.

3.21K viewsnlpcontroller_bot, 17:36

👍 17

DL in NLP

Generating Datasets with Pretrained Language Models
Schick and Schütze, [LMU Munich]
arxiv.org/abs/2104.07540

У нас есть классные генеративные языковые модели, которые могут решать (с каким-то качеством) любые NLP задачи. Но такие большие модели и в прод их не покатишь. Очевидным решением будет использовать такие модели для грязной разметки ваших данных — придумать несклько примеров и устроить few-show классификацию с помощью GPT-2/3. Schick and Schütze пошли дальше и предлагают геренировать не только лейблы, но и примеры. После чего обучать на этом модельку. К сожалению делают это только для задачи semantic similarity (было бы интересно посмотреть на NER), но результаты очень неплохи. Их моделька обходит InferSent, USE, SentenceBERT/SentenceRoBERTa на 7 датасетах.

3.15K viewsnlpcontroller_bot, 15:58

👍 16

DL in NLP

Пачка ссылок:

1. ADAPET — новый метод few-shot learning основанный на GPT-2/3 и prompts. Обходит PET и iPET без дополнительных даннных.
1. Scaling up BERT-like model Inference on modern CPU - Part 1
1. Controllable Text Generation — презентация PhD-диссера
1. 🤗 Accelerate — единая обёртка для CPU/GPU/distributed/TPU. Поделитесь в группе впечатлениями, кто уже пробовал.
1. How to Train BERT with an Academic Budget — TL;DR используйте LARGE вместо BASE, maxlen=128 и DeepSpeed.
1. XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation — более экстремальная эвалюация мультизяычных моделек, плюс овервью текущего состояния этой области. Тепрь включает и аналог Checklist

huggingface.co

Scaling-up BERT Inference on CPU (Part 1)

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

2.98K viewsnlpcontroller_bot, 16:31

👍 11

DL in NLP

Pattern-exploiting training

Сегодня на reading group презентовал маленький обзор по методам, использующим prompts. GPT-3, PET, iPET, ADAPET, LM-BFF, p-tuning. Получилось нелпохо, держите посмотреть, не стесняйтесь что-то спрашивать в чате.

https://docs.google.com/presentation/d/1b59JIrBdIhwbz1A3yzQ_c2Rexte4xFX_0AHOtp6zkNM/edit#slide=id.p

Google Docs

Pattern-exploiting training

Pattern-exploiting training (a short overview) Apr 20, 2021

3.52K viewsnlpcontroller_bot, 20:04

👍 23

DL in NLP

Samsung Innovation Campus - AI Lectorium
youtube.com/playlist?list=PLJEYfuHbcEIB-DdeoWaQ6Bzt0903kbmWK

Внезапно обнаружил много лекций от московского Samsung AI Center. Уроверь скорее advanced и ожидает, что вы уже хорошо знакомы с нейростеками. По большей части лекции ближе по тематике к CV, но есть и более общие темы: например о том, как ускорять инференс и ставить эксперименты. Ещё очень хочу выделить лекцию про GAN, где они рассматриваются достаточно абстрактно и не присязаны сильно к изображениям — получилось просто 🔥.

Кстати у них в конце плейлиста видно запланированную на 28 апреля лекцию по суммаризации текста, так что можно ожидать больше NLP.

YouTube

Лекции по AI

Share your videos with friends, family, and the world

4.66K viewsnlpcontroller_bot, 20:35

👍 34

DL in NLP

Яндекс.Толока проводит воркшоп на конференции VLDB 2021: https://crowdscience.ai/conference_events/vldb21

В рамках него проходит соревнование:
https://crowdscience.ai/challenges/vldb21
где участникам предлагается построить модели, которые дают лучшую speech-to-text транскрипцию.
Призовой фонд - $6000

2.62K viewsАлексей Сорокин, 11:49

DL in NLP

Which transformer architecture fits my data? A vocabulary bottleneck in self-attention
Wies et al.
arxiv.org/abs/2105.03928

Авторы пытаются понять как подбирать гиперпараметры для трансформера и приходят к выводу, что размер словаря очень важен и зачастую ограничивает capacity архитектуры.

2.65K viewsnlpcontroller_bot, 16:14

👍 8

DL in NLP

2.6K viewsnlpcontroller_bot, 16:14

DL in NLP

Rethinking Positional Encoding in Language Pre-training
Ke, He, and Liu, [Microsoft]
arxiv.org/abs/2006.15595

Последнее время видно всё больше статей, которые пытаются разобраться в том, как работает / как улучшить positional encoding в трансформерах. В этой статье авторы рассуждают, что трансформер улавливает корреляции между словами и между позициями слов. Предлагают модифицировать архитекутуру, чтобы явно разделить эти две штуки. Если по классике на вход в attention приходит word emb + pos emb, то авторы предлагают считать два attention: число для word и чисто для pos, а потом их скоры (перед софтмаксом) складывать. Второй хак, который придумали авторы: это убрать из векторов CLS-токена информацию об абсолютных позициях: просто заменив в positional scores скоры CLS на выучиваемую константу.

По результатам: обучили BERT с такой архитектурой, улучшили GLUE, красивые виуализации positional scores.

Было бы интересно сравнить картинки word scores с attention scores в обычном BERT, но такого в статье нету =(

2.6K viewsnlpcontroller_bot, 19:55

👍 19

DL in NLP

2.45K viewsnlpcontroller_bot, 19:55

DL in NLP

FNet: Mixing Tokens with Fourier Transforms
Lee-Thorp et al., [Google]
arxiv.org/abs/2105.03824

Заменяем self-attention на обычное преобразование Фурье (хоть прямо torch.fft) и трансформер продолжает (хорошо) работать. Ускорение в 8 раз на GPU и в 2 раза на TPU. На GLUE показывает заметно худшие результаты чем обычных трансформер, но обходит старые подходы типа GPT-1 и ELMo. На Long-Range Arena близок к трансформеру. Пожалуй это самая безумная но одновременнно и эффектная альтернатива self-attention, которую я видел за последний год. Вангую, что attention не заменит, но это хороший прогресс в поиске новых архитектур.

За наводку спасибо @Liehtman

👍1

3.11K viewsnlpcontroller_bot, edited 04:21

👍 20

DL in NLP

2.65K viewsnlpcontroller_bot, 13:53

DL in NLP

Rethinking Skip Connection with Layer Normalization in Transformers and ResNets
arxiv.org/abs/2105.07205
Liu et al.

Авторы анализируют различные комбинации skip connection и batch/layer norm. Показывают, что нормализация критична для того, чтобы градиенты не взрывалась/затухали. Также предлагают новый блок, в котором мы применяем skip и LN несколько раз подряд, где skip всегда идёт от оригинального инпута (параметры LN зашарены).

Показывают стабильное небольшое улучшение на нескольких языках WMT-14 и на CIFAR.

3.22K viewsnlpcontroller_bot, edited 13:53

👍 5

DL in NLP

Ждём T6 размером в 10 триллионов параметров

2.38K viewsVlad Lialin, 17:09

DL in NLP

Forwarded from PDP-11🚀

🏋🏼Google finally released TPU v4, it will be avaliable for customers later this year.
🥴The previous v3 version was unveiled in 2018 and the v4 is claimed to be twice as fast.
🌽TPU v4 combines in a 4096 chips sumercomputer that reaches 1 exaFLOPs (10**18) of performance

Read more on [hpcwire] and watch the video Google I/O ‘21

2.25K viewsVlad Lialin, 17:09

DL in NLP

Unsupervised Speech Recognition
ai.facebook.com/research/publications/unsupervised-speech-recognition

FAIR придумал как обучать системы распознавания речи без размеченных данных 🤯
Для этого звуки кластеризуют на фонемы, обучают что-то типа BERT на этих фонемах, после чего выполняют процедуру adversarial алайнмента между фонемами и текстом а-ля MUSE.

На самом деле дьявол в деталях, оч рекомендую прочитать статью.

Facebook

Unsupervised Speech Recognition | Meta AI Research

Despite rapid progress in the recent past, current speech recognition systems still require labeled training data which limits this technology to a small...

3.37K viewsnlpcontroller_bot, edited 20:26

👍 18

DL in NLP

3.5K viewsVlad Lialin, 20:27

DL in NLP

True Few-Shot Learning with Language Models
Perez et al.
arxiv.org/abs/2105.11447

Мы буквально несколько недель назад восхищались PET, iPET, ADAPET и другими штуками, например ещё "how many data points is a prompt worth". Perez et al в своей новой статье указывают на один косяк во всех предыдущих статьях по few-shot — наличие валидационного сета, который далеко не few-shot и на котором вы тюните ваши гиперпараметры и подбираете промты.
В статье показывают, что качество ADAPET очень сильно зависит от всего этого и в случае, когда у вас действительно мало размеченных (валидационных) данных вы можете быть очень далеко от близких к SOTA (да и вообще к применимым на практике) решениям.

В общем вывод стандартный: размечайте данные (хотя бы небольшую валидационную выборку), это единственый надёжный метод получить хорошую модель.

3.71K viewsnlpcontroller_bot, edited 16:27

👍 24

DL in NLP

Forwarded from эйай ньюз

Китайцы очень любят делать объёмные обзоры той или иной подобласти машинного обучения с перечислением основных работ и главными прорывными идеями. Статей выходит очень много каждый день, и невозможно все прочесть. Поэтому такие обзоры ценны (если качественно написаны, конечно, что довольно редко).

Недавно вышла очень неплохая статья-обзор различных вариантов Трансформеров с фокусом на моделировании языка (NLP). Это мастр-рид для всех, кто начинает работать с NLP и интересуется Трансформерами. В статье рассматриваются базовые принципы работы self-attention и такие подробности современных вариантов Трансформеров как модификации архитектуры, претрейнинг и их приложения.

Статья: A Survey of Transformers.

2.78K viewsVlad Lialin, 02:22

About

Blog

Apps

Platform