DL in NLP – Telegram

DL in NLP

12.5K subscribers

547 photos

13 videos

27 files

1.1K links

Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)

Download Telegram

About

Blog

Apps

Platform

12.5K subscribers

Forwarded from AbstractDL

XGLM: кросс-язычный аналог GPT-3 от Meta AI

Наконец появилась по-настоящему мультиязычная языковая модель! Формально GPT-3 тоже понимает много языков, но обучающих данных на НЕ английском там было всего 8 процентов, а тут целых 70! Причём на 128 разных языках.

В итоге эта модель бьёт все соты на всех кросс-язычных бенчмарках, и даже обходит многие supervised модели на WMT (machine translation).

P.S. Похоже, что XGLM должна классно работать для русского языка, ведь он тут второй по частотности после английского (см. картинку).

Статья, GitHub, HuggingFace

👍3🔥1

2.52K viewsVlad Lialin, 17:11

Канал хорошо вырос за этот год. В следующем году будем набирать обороты и писать больше обзоров статей, больше новостей и больше материалов для погружения в современный NLP. Вы все классные, не забывайте об этом (и не забывайте выключать ваши GPU инстансы когда они простаивают).

Тем, кто хочет вспомнить что происходило в NLP в 2021, рекомендую посмотреть традиционный обзор от Валентина Малых с Дата Ёлки youtu.be/-8BsN4vIHSQ

3.52K viewsVlad Lialin, 22:14

The Illustrated Retrieval Transformer
jalammar.github.io/illustrated-retrieval-transformer/

Мы уже обозревали RETRO в этом коротком посте, но на днях Jay Alammar опубликовал новый блогпост, где идея RETRO описывается визуально.

RETRO — это модель, которая работает на уровне GPT-3 175B имея всего 7B параметров. Это делается с помощью того, что модель может обращаться к дополнительной "базе данных" текстов и их продолжений во время генерации текста.

🔥16👍5

20.2K viewsnlpcontroller_bot, 05:25

Forwarded from AbstractDL

This media is not supported in your browser

VIEW IN TELEGRAM

GPT для чайников: от токенизации до файнтюнинга

Сделал для вас небольшой colab туториал про GPT. Там подробно и с примерами разобраны такие темы как:
1. Устройство GPT-1,2,3
2. Токенизация
3. Методы генерации текста
4. Файнтюнинг (прям в колабе)
Если вы давно хотели поиграться с GPT, но всё не доходили руки, то новогодние праздники — самое время 😉

Colab

🔥34👍31🎉6

2.8K viewsVlad Lialin, 15:30

Это 🥇. Если бы все видео на онлайн конференциях были такими, я бы даже смотрел их.

youtu.be/4KO2TO_cm2I

[Research, NeurIPS 2021] Is Topic Model Evaluation Broken? The Incoherence of Coherence

Topic models help historians, journalists, and analysts make sense of large text collections. But how do you know if you have a good one? The field has settled on using “Automatic Coherence”, but this paper argues that maybe that isn’t the right choice…

🔥24👍2

3.46K viewsVlad Lialin, 15:34

Stanford выложил лекции CS224u Natural Language Understanding 2021 в открытый доступ.

Курс отличается от CS224n фокусом на конкретные задачи NLU (анализ тональности, извлечение реляций, поиск, ...). Кроме этого, так как курс проходил полностью онлайн, видео сделаны не как двухчасовые лекций, а как короткие 15-минутные видео ближе к формату курсеры. Домашки доступны на сайте web.stanford.edu/class/cs224u

youtu.be/rha64cQRLs8

Introduction and Welcome | Stanford CS224U Natural Language Understanding | Spring 2021

For more information about Stanford's Artificial Intelligence professional and graduate programs visit: https://stanford.io/ai

To learn more about this course visit: https://online.stanford.edu/courses/cs224u-natural-language-understanding
To follow along…

🔥31👍12

4.98K viewsVlad Lialin, 16:19

Forwarded from Мишин Лернинг 🇺🇦🇮🇱

🦌🎄One Hyper-Modal Transformer can be
Creative as DALL-E and Smart as CLIP

Встречайте, RuDOLPH! Текстово-визуальный гипермодальный GPT-3 (350M), сочетающий в себе генеративные возможности текстового GPT-3 и текст-картиночного DALL-E с Reranking & Zero-Shot способностями CLIP.

👀 см картинки к посту

Гипермодальный RuDolph может:
▪️ Генерировать текст
▪️ Генерировать изображения по тексту
▪️ «Проявлять» диффузией в высоком качестве и разрешении сгенерированные изображения
▪️ Изменять (inpainting) изображения по описанию
▪️ Генерировать текстовые описания для изображений
▪️ Быть Feature Extractor’ом для few-shot и linear probe классификации
▪️ Ранжировать изображения по текстовому описанию
▪️ Классифицировать изображения в режиме Zero-Shot

💻 Git Код + Веса
📰 Paper [soon]
🦌 HF demo (только 4 картинки)
🤗 Model Card
🔮 Colab со всеми возможностями

👍16

3.38K viewsVlad Lialin, 06:27

Forwarded from Хроники Непуганых Идиотов (Larisa M)

У меня тут, кстати, пробежал интересный сайт: https://mavenlin.github.io/ai_research_trends/

Он анализирует arxiv и показывает статьи, которые сейчас в тренде. Оч удобно чтобы вычислять что сейчас на повестке ☝️

👍20

2.64K viewsVlad Lialin, 06:13

Forwarded from Ivan Smurov

Привет всем!

В рамках Dialogue Evaluation запущено соревнование о распознавании сгенерированных текстов. Все подробности есть в репозитории (https://github.com/dialogue-evaluation/RuATD).

Присоединяйтесь, будем рады всех видеть!

GitHub - dialogue-evaluation/RuATD: Russian Artificial Text Detection

Russian Artificial Text Detection. Contribute to dialogue-evaluation/RuATD development by creating an account on GitHub.

👍13

2.79K viewsVlad Lialin, 16:26

Scalable Second Order Optimization for Deep Learning
arxiv.org/abs/2002.09018

На обзор статьи меня навёл вот этот трэд в твиттере. Главный его момент был в том, что авторы DALLE-mini столкнулись с тем, что большие версии модели склонны внезапно расходиться посреди тренировки. Перепробовав кучу оптимизаторов и lr они обнаружили что некий Distributed Shampoo сходится гораздо быстрее и стабильнее Adam и Adafactor.

Главное отличие Dist Shampoo от Adam в том, что это метод оптимизации второго порядка, типа метода Ньютона, LBFGS или KFAC. Для апдейта Shampoo использует не только градиент G, но и матрицы ковариации градиента G G^T и G^T G, которые нужно ещё и возвести в степень 1/4 (возводить матрицы в степень это боль, а когда степень < 1 это боль в кубе).

Dist Shampoo добавляет кучу хаков, чтобы ускорить Shampoo. Первый хак: для матриц эмбеддингов, размер которых [vocab_size, hidden] используют только G G^T, тк вычислять произведение [vocab_size, hidden] @ [hidden, vocab_size] относительно дешево, а [hidden, vocab_size] @ [vocab_size, hidden] - безумно долго, тк vocab_size обычно раз в 50 больше hidden. Второй хак: в любом матричном произведении, если hidden очень большой, матрицу разбивают на N блоков размера hidden/N и вычисляют ковариации только этих блоков. Третий хак уже более хитрый: матрицы ковариации пересчитывают не на каждом шаге оптимизации, а только каждые ~100 шагов. Идея в том, что их рассчёт происходит на отдельной GPU/TPU параллельно обучению сети.

В оригинальной статье показали, что с помощью Dist Shampoo можно обучать трансформеры размером в 100M параметров за примерно в полтора раза меньшее время, чем Adam.

Подробнее про Distributed Shampoo:
1. WandB Report с DALLE mini
1. Имплементация на Jax

Boris Dayma 🥑

We just finished comparing Adam, Adafactor & Distributed Shampoo (thanks to @_arohan_) for dalle-mini training 🥳 TLDR: Distributed Shampoo is 🔥 and will become the new default for dalle-mini 🥑

👍10

5.27K viewsVlad Lialin, 19:40

3.49K viewsVlad Lialin, 19:40

Как мне подойти к задаче классфификации/QA/NER/...? В чатах можно часто услышать такие вопросы. И несмотря на обилие туториалов по всем стандартным задачам NLP, я пока что не видел хорошего места, куда можно было бы послать людей, где есть все эти задачки.

Теперь такое место есть! 🤗 Tasks

Вы выбираете задачу, которая вас волнует: классификация, QA, NER, MT, суммаризация, генерация, схожесть текстов

На каждую из них есть короткая лекция, описываются вариации задачи, есть ссылки на датасеты и предобученные модели. Самое главное: есть ссылки на A) хороший ноутбук, который подробно, но доступно описывают как применить условный BERT к этой задаче B ) хорошо задокументированный скрипт, который вы можете легко подогнать под свою задачу.

Кроме этого есть ссылки на релевантные блогпосты, которые могут рассматривать задачу с разных сторон. В общем советую теперь слать людей на 🤗 Tasks.

Tasks - Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍55🎉4

27.3K viewsVlad Lialin, edited 17:05

Forwarded from TechSparks

Инженеры Meta рассказали в блоге компании о AI Research SuperCluster (RSC) — суперкомпьютере для обучения моделей в областях, связываемых с ИИ: работа с естественным языком, распознавание речи и компьютерное зрение.
Вычислительный кластер содержит 760 NVIDIA DGX A100 в качестве вычислительных узлов (6,080 GPU) — с сетевой инфраструктурой на основе NVIDIA Quantum 200 Gb/s InfiniBand. Емкость накопителя — 175 петабайт на Pure Storage FlashArray, кэш — 46 петабайт в Penguin Computing Altus systems. Утверждается, что когда кластер к середине года доведут до полной комплектации и мощности, он станет самым могучим в мире суперкомпьютером для задач в области ИИ.
И, конечно же, заявлено, что этот монстр — начало дороги к построению метавселенной, the next major computing platform — the metaverse, where AI-driven applications and products will play an important role.
https://ai.facebook.com/blog/ai-rsc

Introducing the AI Research SuperCluster — Meta’s cutting-edge AI supercomputer for AI research

👍4🔥3

2.46K viewsVlad Lialin, 05:30

Forwarded from Towards NLP🇺🇦

ML and NLP Research Highlights of 2021

by Sebastian Ruder

https://ruder.io/ml-highlights-2021/

ML and NLP Research Highlights of 2021

This post summarizes progress across multiple impactful areas in ML and NLP in 2021.

👍14

2.42K viewsVlad Lialin, 12:43

Давно не было подборки новостей и интересных блогпостов

1. Text and Code Embeddings in the OpenAI API — теперь можно доставать эмбеддинги текстов через OpenAI API. Эти эмбеддинги сильно обходят SentenceBERT, GPT-3, хорошо работают в нестандартных доменах, например астрономии и вообще взяли кучу SOTA. Подробнее в статье Text and Code Embeddings by Contrastive Pre-Training, сделаем её обзор в ближайшие дни.
1. ε, A Nuisance No More — пост о том, что eps нужен не только для устранения численых ошибок. Например в ADAM высокие eps делают оптимизатор чуть-чуть больше похожим на SGD, что может быть полезно, когда моменты плохо описывают поверхность лосса. В BatchNorm/LayerNorm высокие eps выполняют роль сглаживания компонент вектора. На практике иногда такие высокие значения eps как 1e-3 или даже 1e-1 могут сильно помогать оптимизации и зачастую тюнинг eps полезен.
1. On the Difficulty of Extrapolation with NN Scaling — мы все слышали про scaling laws, однако на практике мало кто умеет их готовить. Просто от увеличения модели в 2 раза, вы можете не получить ожидаемого улучшения качества, тк scaling laws вообще говоря требуют адаптации batch size, lr, других гиперпараметров и в общем случае, размера датасета. Блогпост обсуждает случаи, когда люди слишком сильно надеятся на scaling laws и забывают про эти важные детали.

Introducing text and code embeddings

We are introducing embeddings, a new endpoint in the OpenAI API that makes it easy to perform natural language and code tasks like semantic search, clustering, topic modeling, and classification.

👍10🔥4🤮1

14.5K viewsVlad Lialin, 16:42

🤗Transformers обновились до версии 4.16 и там есть пара интересных вещей

1. REALM — предобученная моделька, которая хорошо тюнится на ODQA-like задачи, мы её обозревали аж в сентябре 2020
1. Nyströmformer — ещё один в копилку длинных трансформеров
1. ViLT — мультимодальный трансформер, которому не требуется отдельный fasterRCNN backbone, что сильно упрощает работу с ним. Если у вас есть V+L задачи, советую взять как бейзлайн.
1. Добавили несколько CV моделей: SwinTransformer, ViTMAE
1. Speech Seq2Seq Training script
1. Large audio chunking for the existing ASR pipeline

Release v4.16.0 · huggingface/transformers

What's Changed
New models
Nyströmformer
The Nyströmformer model was proposed in Nyströmformer: A Nyström-Based Algorithm for Approximating Self-Attention by Yunyang Xiong, Zhanpeng Zeng, Rudras...

👍14🔥7

3.61K viewsVlad Lialin, 17:44

Forwarded from (sci)Berloga Всех Наук и Технологий

🚀 @SBERLOGABIG online seminar on machine learning:
👨‍🔬 Vlad Lialin «Современные модели с памятью. Начало новой парадигмы? »
⌚️ Четверг 3 февраля, 18.00 по Москве

О докладчике: Влад - автор одного из лучших каналов в телеграмме по Natural Language Processing - "DL in NLP" (@dlinnlp) - подписывайтесь !

В 2019 GPT-2 изменил NLP навсегда. Впервые подход "больше данных, больше слоёв" начал работать для языка. 2020 принёс GPT-3, который поражал нас своими размерами ещё больше. Постепенно гигантские модели стали практически повседневными - у каждой большой компании есть одна или две - но тренировать их становится всё сложнее.

Всего несколько месяцев назад DeepMind выпустил модель RETRO. Её особенность заключается в том, что несмотря на небольшой по современным меркам размер (7B), она обходит GPT-3 (175B) и Gopher (280B) на большом числе задач. Каким образом? Кроме информации заключенной в параметрах нейросети, RETRO обращается к огромному текстовому корпусу в котором ищет похожие тексты. Эти похожие тексты подаются в языковую модель вместе с обычным входом, который языковая модель должна продолжить. Таким образом RETRO может "подсмотреть" какую-то информацию которую никогда не видела или не запомнила из этой внешней базы данных.

На встрече мы разберём предшествовавшие модели, такие как KNN-LM, подробно разберём саму RETRO и как она работает и пофантазируем как такой подход может потенциально изменить NLP в 2022.

Ссылка на зум будет доступна в этом канале: https://t.iss.one/sberlogabig ближе к началу доклада.
Подписывайтесь на канал https://t.iss.one/sberlogabig ! Интересные материалы и увлекательные доклады.👍

👍18🔥3

2.74K viewsVlad Lialin, 15:21

DeepMind выпустил AlphaCode, который прогает лучше половины твоих знакомых.

Во многом похож на Codex, но есть отличия.

Основной подход:
1. Encoder-decoder, 41B параметров
1. Декодер обучается предсказывать следующее слово, а энкодер делает MLM. Всё end2end.
1. Заскрапили датасет задачек с Codeforces и зафайнтюнили на нём модель
1. Во время тестирования семплили очень большое количество решений (до миллиона) и потом выбирали из них с помощью кластеризации, эвристик и, самое главное, проходят ли они открытые тесты которые приложены к задачке. Сабмитили на финальную проверку только топ-10.

По результатам: AlphaCode решает задачки лучше, чем 54% пользовалетей Codeforces (не очень альфа пока что, но стремится туда).

Небольшие технические отличия от Codex:
1. Максимальная длина для энкодера 1536, для декодера 768
1. Использовали Multi-query attention, модификацию attention, которая использует одни и те же K и V для разныех голов – позволило улучшить потребление памяти и скорость декодирования
1. Очень маленький словарь токенизатора, 8К.
1. Во время файтнюнинга использовали температуру 0.2, которая делает распределение более острым. При тесте температура не использовалась, назвали это tempering.
1. Файнтюнились и на правильных и на неправильных решениях, при этом моделе заранее сообщается сигнал корректное ли это решения.
1. Для файнтюнинга использовали лосс, который называется GOLD. По сути это взвешенная кросс-энтропия, несмотря на то, что выглядит как RL.

Вот тут можно посмотреть на визуализацию attention, а ещё есть популярно написанный блогпост

🔥21🤔8👍6😢5

13.4K viewsVlad Lialin, edited 17:01

❤3

3.3K viewsVlad Lialin, 17:01

Forwarded from Мишин Лернинг 🇺🇦🇮🇱

🎓🔥 OpenAI обучили нейросеть для решения задач олимпиадой математики, способную доказывать теоремы

OpenAI создали нейронный прувер теорем, который научился решать множество сложных задач олимпиадой математики, включая задачи соревнований AMC12 и AIME.

Это языковая модель для построения формальных доказательств и утверждений. Формально — GPT-3 с 774M обучаемыми параметрами (36тислойный трансформер).

Обучение происходит по методологии expert iteration: каждый раз, когда находится новое доказательство, оно поступает в датесет новых данных для обучения, что улучшает нейронную сеть и позволяет ей итеративно находить решения для все более и более сложных задач.

📑 paper 📝 blog post

🤯45👍12❤4

2.74K viewsVlad Lialin, 20:24

Вслед за GitHub сегодня упал 🤗 Hub и вот это по-настоящему больно.

😢21

3.02K viewsVlad Lialin, 00:37