DL in NLP

Finding why Pytorch Lightning made my training 4x slower - отличный пост про поиск замысловатого бага в ML инфраструктуре. Пример инженерного здравого смысла: хорошо использовать готовые инструменты, но не боги горшки обжигают - не стоит бояться залезть под капот и что-то пофиксить.

Medium

Finding why Pytorch Lightning made my training 4x slower.

🤔 What happened?

3.4K viewsVlad Lialin, 17:57

DL in NLP

Forwarded from исследовано (Katya Artemova)

Всем привет!

Начинаем новый год и новый сезон семинаров: 3 января будем рассказывать про соревнования на Диалоге.

Подробности по ссылке: https://cs.hse.ru/ai/computational-pragmatics/announcements/547026735.html

cs.hse.ru

Семинар НУЛ ММВП "Четыре соревнования Dialogue Evaluation"

2.27K viewsVlad Lialin, 18:08

DL in NLP

Со мной связались разработчики интересной opensource тулзы для журналистов. Приятно видеть как на рынке появляется больше открытых рускоязычных NLP продуктов. Репозиторий пока что сыроват, но будет интересно как он будет развиваться. Вот что они про себя говорят:

Открытый набор инструментов «СоАвтор»

Работа с текстами сегодня сложна из-за нехватки структурированного контента и рабочих моделей. Для того, чтобы сделать ее более комфортной, компания ISGNeuro запустила опенсорс-проект "СоАвтор".

Платформа "СоАвтор" имеет модульную структуру. Вы можете придумать новый инструмент, который упрощает работу с текстом, или принять участие в работе над теми, что уже есть в разработке.

Первый инструмент «СоАвтора» формирует бэкграунд (предысторию события или справочную информацию по теме). Задача состоит в том, чтобы журналист или копирайтер получал максимально релевантное короткое саммари из собранных новостных статей по заданной теме.

Как это работает? Система анализирует ключевые слова и NER, а обученная модель находит самые релевантные тексты и формирует бэкграунд с помощью алгоритмов суммаризации.

Вы можете придумать новый инструмент, который упрощает работу с текстом, или принять участие в работе над теми, что уже есть в разработке, при этом получить поддержку сообщества WellnessDataClub и возможности ОТ.Платформы, которые использует проект. Подробности доступны на странице GitHub

GitHub

GitHub - ISGNeuroTeam/CoAuthor: NLP project that works with news (NER, context generation, news trend analytics)

NLP project that works with news (NER, context generation, news trend analytics) - ISGNeuroTeam/CoAuthor

2.75K viewsnlpcontroller_bot, 20:08

👍 14

DL in NLP

Improving language models by retrieving from trillions of tokens
Borgeaud, Mensch, Hoffmann et al. [DeepMind]
arxiv.org/abs/2112.04426

RETRO от DeepMind это интересная смесь KNN и нейросетевых языковых моделей. Принципиально, я бы описал это как более глубокий KNN-LM.

Для начала впомним идею KNN-LM: для предсказания следующего токена текста KNN-LM использует большой корпус в поктором ищется top-k похожих текстов и берутся их продолжения (которые потенциально похожи на то, что модель должна сгенерировать). Вектора этих продолжений мёржатся вместе и языковая модель использует этот дополнительный контекст чтобы предсказать следующее слово.

В оригинальной статье этот трюк использовался только во время inference. DeepMind в RETRO предлагает несколько модицикаций трансформера, чтобы использовать подобный подход прямо во время обучения.

Архитектура выглядит так: нарезаем входной текст на L кусков по 64 токена и ищем по ним K~4 похожих чанков в огромном корпусе текстов (поисковой индекс берётся от BERT и не меняется во время обучения). Эти найденные куски с их продолжением K*L*(64+64) запихиваются в энкодер трансформера. Оригинальный текст запихивается в декодер трансформера в котором cross-attention модифицирован чтобы он 1) более эффективно смотрел на разные чанки из энкодера 2) не читерил и чанки из прошлого не смотрели на чанки из будущего.

По результатам: используя базу из более чем 2 триллионов токенов RETRO 7B берёт SOTA на Wikitext, the Pile обходя Gopher 280B. Кроме этого авторы тюнят модель на QA датасетах и она показывает неплохие метрики, но до SOTA далековато.

2.72K viewsnlpcontroller_bot, 20:54

👍 8

DL in NLP

2.7K viewsVlad Lialin, 20:55

DL in NLP

Forwarded from AbstractDL

XGLM: кросс-язычный аналог GPT-3 от Meta AI

Наконец появилась по-настоящему мультиязычная языковая модель! Формально GPT-3 тоже понимает много языков, но обучающих данных на НЕ английском там было всего 8 процентов, а тут целых 70! Причём на 128 разных языках.

В итоге эта модель бьёт все соты на всех кросс-язычных бенчмарках, и даже обходит многие supervised модели на WMT (machine translation).

P.S. Похоже, что XGLM должна классно работать для русского языка, ведь он тут второй по частотности после английского (см. картинку).

Статья, GitHub, HuggingFace

👍3🔥1

2.52K viewsVlad Lialin, 17:11

DL in NLP

Канал хорошо вырос за этот год. В следующем году будем набирать обороты и писать больше обзоров статей, больше новостей и больше материалов для погружения в современный NLP. Вы все классные, не забывайте об этом (и не забывайте выключать ваши GPU инстансы когда они простаивают).

Тем, кто хочет вспомнить что происходило в NLP в 2021, рекомендую посмотреть традиционный обзор от Валентина Малых с Дата Ёлки youtu.be/-8BsN4vIHSQ

3.52K viewsVlad Lialin, 22:14

DL in NLP

The Illustrated Retrieval Transformer
jalammar.github.io/illustrated-retrieval-transformer/

Мы уже обозревали RETRO в этом коротком посте, но на днях Jay Alammar опубликовал новый блогпост, где идея RETRO описывается визуально.

RETRO — это модель, которая работает на уровне GPT-3 175B имея всего 7B параметров. Это делается с помощью того, что модель может обращаться к дополнительной "базе данных" текстов и их продолжений во время генерации текста.

🔥16👍5

20.2K viewsnlpcontroller_bot, 05:25

👍 14

DL in NLP

Forwarded from AbstractDL

This media is not supported in your browser

VIEW IN TELEGRAM

GPT для чайников: от токенизации до файнтюнинга

Сделал для вас небольшой colab туториал про GPT. Там подробно и с примерами разобраны такие темы как:
1. Устройство GPT-1,2,3
2. Токенизация
3. Методы генерации текста
4. Файнтюнинг (прям в колабе)
Если вы давно хотели поиграться с GPT, но всё не доходили руки, то новогодние праздники — самое время 😉

Colab

🔥34👍31🎉6

2.8K viewsVlad Lialin, 15:30

DL in NLP

Это 🥇. Если бы все видео на онлайн конференциях были такими, я бы даже смотрел их.

youtu.be/4KO2TO_cm2I

YouTube

[Research, NeurIPS 2021] Is Topic Model Evaluation Broken? The Incoherence of Coherence

Topic models help historians, journalists, and analysts make sense of large text collections. But how do you know if you have a good one? The field has settled on using “Automatic Coherence”, but this paper argues that maybe that isn’t the right choice…

🔥24👍2

3.46K viewsVlad Lialin, 15:34

DL in NLP

Stanford выложил лекции CS224u Natural Language Understanding 2021 в открытый доступ.

Курс отличается от CS224n фокусом на конкретные задачи NLU (анализ тональности, извлечение реляций, поиск, ...). Кроме этого, так как курс проходил полностью онлайн, видео сделаны не как двухчасовые лекций, а как короткие 15-минутные видео ближе к формату курсеры. Домашки доступны на сайте web.stanford.edu/class/cs224u

youtu.be/rha64cQRLs8

YouTube

Introduction and Welcome | Stanford CS224U Natural Language Understanding | Spring 2021

For more information about Stanford's Artificial Intelligence professional and graduate programs visit: https://stanford.io/ai

To learn more about this course visit: https://online.stanford.edu/courses/cs224u-natural-language-understanding
To follow along…

🔥31👍12

4.98K viewsVlad Lialin, 16:19

DL in NLP

Forwarded from Мишин Лернинг 🇺🇦🇮🇱

🦌🎄One Hyper-Modal Transformer can be
Creative as DALL-E and Smart as CLIP

Встречайте, RuDOLPH! Текстово-визуальный гипермодальный GPT-3 (350M), сочетающий в себе генеративные возможности текстового GPT-3 и текст-картиночного DALL-E с Reranking & Zero-Shot способностями CLIP.

👀 см картинки к посту

Гипермодальный RuDolph может:
▪️ Генерировать текст
▪️ Генерировать изображения по тексту
▪️ «Проявлять» диффузией в высоком качестве и разрешении сгенерированные изображения
▪️ Изменять (inpainting) изображения по описанию
▪️ Генерировать текстовые описания для изображений
▪️ Быть Feature Extractor’ом для few-shot и linear probe классификации
▪️ Ранжировать изображения по текстовому описанию
▪️ Классифицировать изображения в режиме Zero-Shot

💻 Git Код + Веса
📰 Paper [soon]
🦌 HF demo (только 4 картинки)
🤗 Model Card
🔮 Colab со всеми возможностями

👍16

3.38K viewsVlad Lialin, 06:27

DL in NLP

Forwarded from Хроники Непуганых Идиотов (Larisa M)

У меня тут, кстати, пробежал интересный сайт: https://mavenlin.github.io/ai_research_trends/

Он анализирует arxiv и показывает статьи, которые сейчас в тренде. Оч удобно чтобы вычислять что сейчас на повестке ☝️

👍20

2.64K viewsVlad Lialin, 06:13

DL in NLP

Forwarded from Ivan Smurov

Привет всем!

В рамках Dialogue Evaluation запущено соревнование о распознавании сгенерированных текстов. Все подробности есть в репозитории (https://github.com/dialogue-evaluation/RuATD).

Присоединяйтесь, будем рады всех видеть!

GitHub

GitHub - dialogue-evaluation/RuATD: Russian Artificial Text Detection

Russian Artificial Text Detection. Contribute to dialogue-evaluation/RuATD development by creating an account on GitHub.

👍13

2.79K viewsVlad Lialin, 16:26

DL in NLP

Scalable Second Order Optimization for Deep Learning
arxiv.org/abs/2002.09018

На обзор статьи меня навёл вот этот трэд в твиттере. Главный его момент был в том, что авторы DALLE-mini столкнулись с тем, что большие версии модели склонны внезапно расходиться посреди тренировки. Перепробовав кучу оптимизаторов и lr они обнаружили что некий Distributed Shampoo сходится гораздо быстрее и стабильнее Adam и Adafactor.

Главное отличие Dist Shampoo от Adam в том, что это метод оптимизации второго порядка, типа метода Ньютона, LBFGS или KFAC. Для апдейта Shampoo использует не только градиент G, но и матрицы ковариации градиента G G^T и G^T G, которые нужно ещё и возвести в степень 1/4 (возводить матрицы в степень это боль, а когда степень < 1 это боль в кубе).

Dist Shampoo добавляет кучу хаков, чтобы ускорить Shampoo. Первый хак: для матриц эмбеддингов, размер которых [vocab_size, hidden] используют только G G^T, тк вычислять произведение [vocab_size, hidden] @ [hidden, vocab_size] относительно дешево, а [hidden, vocab_size] @ [vocab_size, hidden] - безумно долго, тк vocab_size обычно раз в 50 больше hidden. Второй хак: в любом матричном произведении, если hidden очень большой, матрицу разбивают на N блоков размера hidden/N и вычисляют ковариации только этих блоков. Третий хак уже более хитрый: матрицы ковариации пересчитывают не на каждом шаге оптимизации, а только каждые ~100 шагов. Идея в том, что их рассчёт происходит на отдельной GPU/TPU параллельно обучению сети.

В оригинальной статье показали, что с помощью Dist Shampoo можно обучать трансформеры размером в 100M параметров за примерно в полтора раза меньшее время, чем Adam.

Подробнее про Distributed Shampoo:
1. WandB Report с DALLE mini
1. Имплементация на Jax

Twitter

Boris Dayma 🥑

We just finished comparing Adam, Adafactor & Distributed Shampoo (thanks to @_arohan_) for dalle-mini training 🥳 TLDR: Distributed Shampoo is 🔥 and will become the new default for dalle-mini 🥑

👍10

5.27K viewsVlad Lialin, 19:40

DL in NLP

3.49K viewsVlad Lialin, 19:40

DL in NLP

Как мне подойти к задаче классфификации/QA/NER/...? В чатах можно часто услышать такие вопросы. И несмотря на обилие туториалов по всем стандартным задачам NLP, я пока что не видел хорошего места, куда можно было бы послать людей, где есть все эти задачки.

Теперь такое место есть! 🤗 Tasks

Вы выбираете задачу, которая вас волнует: классификация, QA, NER, MT, суммаризация, генерация, схожесть текстов

На каждую из них есть короткая лекция, описываются вариации задачи, есть ссылки на датасеты и предобученные модели. Самое главное: есть ссылки на A) хороший ноутбук, который подробно, но доступно описывают как применить условный BERT к этой задаче B ) хорошо задокументированный скрипт, который вы можете легко подогнать под свою задачу.

Кроме этого есть ссылки на релевантные блогпосты, которые могут рассматривать задачу с разных сторон. В общем советую теперь слать людей на 🤗 Tasks.

huggingface.co

Tasks - Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍55🎉4

27.3K viewsVlad Lialin, edited 17:05

DL in NLP

Forwarded from TechSparks

Инженеры Meta рассказали в блоге компании о AI Research SuperCluster (RSC) — суперкомпьютере для обучения моделей в областях, связываемых с ИИ: работа с естественным языком, распознавание речи и компьютерное зрение.
Вычислительный кластер содержит 760 NVIDIA DGX A100 в качестве вычислительных узлов (6,080 GPU) — с сетевой инфраструктурой на основе NVIDIA Quantum 200 Gb/s InfiniBand. Емкость накопителя — 175 петабайт на Pure Storage FlashArray, кэш — 46 петабайт в Penguin Computing Altus systems. Утверждается, что когда кластер к середине года доведут до полной комплектации и мощности, он станет самым могучим в мире суперкомпьютером для задач в области ИИ.
И, конечно же, заявлено, что этот монстр — начало дороги к построению метавселенной, the next major computing platform — the metaverse, where AI-driven applications and products will play an important role.
https://ai.facebook.com/blog/ai-rsc

About

Blog

Apps

Platform