DL in NLP

Stanford выложил лекции CS224u Natural Language Understanding 2021 в открытый доступ.

Курс отличается от CS224n фокусом на конкретные задачи NLU (анализ тональности, извлечение реляций, поиск, ...). Кроме этого, так как курс проходил полностью онлайн, видео сделаны не как двухчасовые лекций, а как короткие 15-минутные видео ближе к формату курсеры. Домашки доступны на сайте web.stanford.edu/class/cs224u

youtu.be/rha64cQRLs8

YouTube

Introduction and Welcome | Stanford CS224U Natural Language Understanding | Spring 2021

For more information about Stanford's Artificial Intelligence professional and graduate programs visit: https://stanford.io/ai

To learn more about this course visit: https://online.stanford.edu/courses/cs224u-natural-language-understanding
To follow along…

🔥31👍12

4.98K viewsVlad Lialin, 16:19

DL in NLP

Forwarded from Мишин Лернинг 🇺🇦🇮🇱

🦌🎄One Hyper-Modal Transformer can be
Creative as DALL-E and Smart as CLIP

Встречайте, RuDOLPH! Текстово-визуальный гипермодальный GPT-3 (350M), сочетающий в себе генеративные возможности текстового GPT-3 и текст-картиночного DALL-E с Reranking & Zero-Shot способностями CLIP.

👀 см картинки к посту

Гипермодальный RuDolph может:
▪️ Генерировать текст
▪️ Генерировать изображения по тексту
▪️ «Проявлять» диффузией в высоком качестве и разрешении сгенерированные изображения
▪️ Изменять (inpainting) изображения по описанию
▪️ Генерировать текстовые описания для изображений
▪️ Быть Feature Extractor’ом для few-shot и linear probe классификации
▪️ Ранжировать изображения по текстовому описанию
▪️ Классифицировать изображения в режиме Zero-Shot

💻 Git Код + Веса
📰 Paper [soon]
🦌 HF demo (только 4 картинки)
🤗 Model Card
🔮 Colab со всеми возможностями

👍16

3.38K viewsVlad Lialin, 06:27

DL in NLP

Forwarded from Хроники Непуганых Идиотов (Larisa M)

У меня тут, кстати, пробежал интересный сайт: https://mavenlin.github.io/ai_research_trends/

Он анализирует arxiv и показывает статьи, которые сейчас в тренде. Оч удобно чтобы вычислять что сейчас на повестке ☝️

👍20

2.64K viewsVlad Lialin, 06:13

DL in NLP

Forwarded from Ivan Smurov

Привет всем!

В рамках Dialogue Evaluation запущено соревнование о распознавании сгенерированных текстов. Все подробности есть в репозитории (https://github.com/dialogue-evaluation/RuATD).

Присоединяйтесь, будем рады всех видеть!

GitHub

GitHub - dialogue-evaluation/RuATD: Russian Artificial Text Detection

Russian Artificial Text Detection. Contribute to dialogue-evaluation/RuATD development by creating an account on GitHub.

👍13

2.79K viewsVlad Lialin, 16:26

DL in NLP

Scalable Second Order Optimization for Deep Learning
arxiv.org/abs/2002.09018

На обзор статьи меня навёл вот этот трэд в твиттере. Главный его момент был в том, что авторы DALLE-mini столкнулись с тем, что большие версии модели склонны внезапно расходиться посреди тренировки. Перепробовав кучу оптимизаторов и lr они обнаружили что некий Distributed Shampoo сходится гораздо быстрее и стабильнее Adam и Adafactor.

Главное отличие Dist Shampoo от Adam в том, что это метод оптимизации второго порядка, типа метода Ньютона, LBFGS или KFAC. Для апдейта Shampoo использует не только градиент G, но и матрицы ковариации градиента G G^T и G^T G, которые нужно ещё и возвести в степень 1/4 (возводить матрицы в степень это боль, а когда степень < 1 это боль в кубе).

Dist Shampoo добавляет кучу хаков, чтобы ускорить Shampoo. Первый хак: для матриц эмбеддингов, размер которых [vocab_size, hidden] используют только G G^T, тк вычислять произведение [vocab_size, hidden] @ [hidden, vocab_size] относительно дешево, а [hidden, vocab_size] @ [vocab_size, hidden] - безумно долго, тк vocab_size обычно раз в 50 больше hidden. Второй хак: в любом матричном произведении, если hidden очень большой, матрицу разбивают на N блоков размера hidden/N и вычисляют ковариации только этих блоков. Третий хак уже более хитрый: матрицы ковариации пересчитывают не на каждом шаге оптимизации, а только каждые ~100 шагов. Идея в том, что их рассчёт происходит на отдельной GPU/TPU параллельно обучению сети.

В оригинальной статье показали, что с помощью Dist Shampoo можно обучать трансформеры размером в 100M параметров за примерно в полтора раза меньшее время, чем Adam.

Подробнее про Distributed Shampoo:
1. WandB Report с DALLE mini
1. Имплементация на Jax

Twitter

Boris Dayma 🥑

We just finished comparing Adam, Adafactor & Distributed Shampoo (thanks to @_arohan_) for dalle-mini training 🥳 TLDR: Distributed Shampoo is 🔥 and will become the new default for dalle-mini 🥑

👍10

5.27K viewsVlad Lialin, 19:40

DL in NLP

3.49K viewsVlad Lialin, 19:40

DL in NLP

Как мне подойти к задаче классфификации/QA/NER/...? В чатах можно часто услышать такие вопросы. И несмотря на обилие туториалов по всем стандартным задачам NLP, я пока что не видел хорошего места, куда можно было бы послать людей, где есть все эти задачки.

Теперь такое место есть! 🤗 Tasks

Вы выбираете задачу, которая вас волнует: классификация, QA, NER, MT, суммаризация, генерация, схожесть текстов

На каждую из них есть короткая лекция, описываются вариации задачи, есть ссылки на датасеты и предобученные модели. Самое главное: есть ссылки на A) хороший ноутбук, который подробно, но доступно описывают как применить условный BERT к этой задаче B ) хорошо задокументированный скрипт, который вы можете легко подогнать под свою задачу.

Кроме этого есть ссылки на релевантные блогпосты, которые могут рассматривать задачу с разных сторон. В общем советую теперь слать людей на 🤗 Tasks.

huggingface.co

Tasks - Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍55🎉4

27.3K viewsVlad Lialin, edited 17:05

DL in NLP

Forwarded from TechSparks

Инженеры Meta рассказали в блоге компании о AI Research SuperCluster (RSC) — суперкомпьютере для обучения моделей в областях, связываемых с ИИ: работа с естественным языком, распознавание речи и компьютерное зрение.
Вычислительный кластер содержит 760 NVIDIA DGX A100 в качестве вычислительных узлов (6,080 GPU) — с сетевой инфраструктурой на основе NVIDIA Quantum 200 Gb/s InfiniBand. Емкость накопителя — 175 петабайт на Pure Storage FlashArray, кэш — 46 петабайт в Penguin Computing Altus systems. Утверждается, что когда кластер к середине года доведут до полной комплектации и мощности, он станет самым могучим в мире суперкомпьютером для задач в области ИИ.
И, конечно же, заявлено, что этот монстр — начало дороги к построению метавселенной, the next major computing platform — the metaverse, where AI-driven applications and products will play an important role.
https://ai.facebook.com/blog/ai-rsc

Meta

Introducing the AI Research SuperCluster — Meta’s cutting-edge AI supercomputer for AI research

👍4🔥3

2.46K viewsVlad Lialin, 05:30

DL in NLP

Forwarded from Towards NLP🇺🇦

ML and NLP Research Highlights of 2021

by Sebastian Ruder

https://ruder.io/ml-highlights-2021/

ruder.io

ML and NLP Research Highlights of 2021

This post summarizes progress across multiple impactful areas in ML and NLP in 2021.

👍14

2.42K viewsVlad Lialin, 12:43

DL in NLP

Давно не было подборки новостей и интересных блогпостов

1. Text and Code Embeddings in the OpenAI API — теперь можно доставать эмбеддинги текстов через OpenAI API. Эти эмбеддинги сильно обходят SentenceBERT, GPT-3, хорошо работают в нестандартных доменах, например астрономии и вообще взяли кучу SOTA. Подробнее в статье Text and Code Embeddings by Contrastive Pre-Training, сделаем её обзор в ближайшие дни.
1. ε, A Nuisance No More — пост о том, что eps нужен не только для устранения численых ошибок. Например в ADAM высокие eps делают оптимизатор чуть-чуть больше похожим на SGD, что может быть полезно, когда моменты плохо описывают поверхность лосса. В BatchNorm/LayerNorm высокие eps выполняют роль сглаживания компонент вектора. На практике иногда такие высокие значения eps как 1e-3 или даже 1e-1 могут сильно помогать оптимизации и зачастую тюнинг eps полезен.
1. On the Difficulty of Extrapolation with NN Scaling — мы все слышали про scaling laws, однако на практике мало кто умеет их готовить. Просто от увеличения модели в 2 раза, вы можете не получить ожидаемого улучшения качества, тк scaling laws вообще говоря требуют адаптации batch size, lr, других гиперпараметров и в общем случае, размера датасета. Блогпост обсуждает случаи, когда люди слишком сильно надеятся на scaling laws и забывают про эти важные детали.

Openai

Introducing text and code embeddings

We are introducing embeddings, a new endpoint in the OpenAI API that makes it easy to perform natural language and code tasks like semantic search, clustering, topic modeling, and classification.

👍10🔥4🤮1

14.5K viewsVlad Lialin, 16:42

DL in NLP

🤗Transformers обновились до версии 4.16 и там есть пара интересных вещей

1. REALM — предобученная моделька, которая хорошо тюнится на ODQA-like задачи, мы её обозревали аж в сентябре 2020
1. Nyströmformer — ещё один в копилку длинных трансформеров
1. ViLT — мультимодальный трансформер, которому не требуется отдельный fasterRCNN backbone, что сильно упрощает работу с ним. Если у вас есть V+L задачи, советую взять как бейзлайн.
1. Добавили несколько CV моделей: SwinTransformer, ViTMAE
1. Speech Seq2Seq Training script
1. Large audio chunking for the existing ASR pipeline

GitHub

Release v4.16.0 · huggingface/transformers

What's Changed
New models
Nyströmformer
The Nyströmformer model was proposed in Nyströmformer: A Nyström-Based Algorithm for Approximating Self-Attention by Yunyang Xiong, Zhanpeng Zeng, Rudras...

👍14🔥7

3.61K viewsVlad Lialin, 17:44

DL in NLP

Forwarded from (sci)Berloga Всех Наук и Технологий

🚀 @SBERLOGABIG online seminar on machine learning:
👨‍🔬 Vlad Lialin «Современные модели с памятью. Начало новой парадигмы? »
⌚️ Четверг 3 февраля, 18.00 по Москве

О докладчике: Влад - автор одного из лучших каналов в телеграмме по Natural Language Processing - "DL in NLP" (@dlinnlp) - подписывайтесь !

В 2019 GPT-2 изменил NLP навсегда. Впервые подход "больше данных, больше слоёв" начал работать для языка. 2020 принёс GPT-3, который поражал нас своими размерами ещё больше. Постепенно гигантские модели стали практически повседневными - у каждой большой компании есть одна или две - но тренировать их становится всё сложнее.

Всего несколько месяцев назад DeepMind выпустил модель RETRO. Её особенность заключается в том, что несмотря на небольшой по современным меркам размер (7B), она обходит GPT-3 (175B) и Gopher (280B) на большом числе задач. Каким образом? Кроме информации заключенной в параметрах нейросети, RETRO обращается к огромному текстовому корпусу в котором ищет похожие тексты. Эти похожие тексты подаются в языковую модель вместе с обычным входом, который языковая модель должна продолжить. Таким образом RETRO может "подсмотреть" какую-то информацию которую никогда не видела или не запомнила из этой внешней базы данных.

На встрече мы разберём предшествовавшие модели, такие как KNN-LM, подробно разберём саму RETRO и как она работает и пофантазируем как такой подход может потенциально изменить NLP в 2022.

Ссылка на зум будет доступна в этом канале: https://t.iss.one/sberlogabig ближе к началу доклада.
Подписывайтесь на канал https://t.iss.one/sberlogabig ! Интересные материалы и увлекательные доклады.👍

👍18🔥3

2.74K viewsVlad Lialin, 15:21

DL in NLP

DeepMind выпустил AlphaCode, который прогает лучше половины твоих знакомых.

Во многом похож на Codex, но есть отличия.

Основной подход:
1. Encoder-decoder, 41B параметров
1. Декодер обучается предсказывать следующее слово, а энкодер делает MLM. Всё end2end.
1. Заскрапили датасет задачек с Codeforces и зафайнтюнили на нём модель
1. Во время тестирования семплили очень большое количество решений (до миллиона) и потом выбирали из них с помощью кластеризации, эвристик и, самое главное, проходят ли они открытые тесты которые приложены к задачке. Сабмитили на финальную проверку только топ-10.

По результатам: AlphaCode решает задачки лучше, чем 54% пользовалетей Codeforces (не очень альфа пока что, но стремится туда).

Небольшие технические отличия от Codex:
1. Максимальная длина для энкодера 1536, для декодера 768
1. Использовали Multi-query attention, модификацию attention, которая использует одни и те же K и V для разныех голов – позволило улучшить потребление памяти и скорость декодирования
1. Очень маленький словарь токенизатора, 8К.
1. Во время файтнюнинга использовали температуру 0.2, которая делает распределение более острым. При тесте температура не использовалась, назвали это tempering.
1. Файнтюнились и на правильных и на неправильных решениях, при этом моделе заранее сообщается сигнал корректное ли это решения.
1. Для файнтюнинга использовали лосс, который называется GOLD. По сути это взвешенная кросс-энтропия, несмотря на то, что выглядит как RL.

Вот тут можно посмотреть на визуализацию attention, а ещё есть популярно написанный блогпост

🔥21🤔8👍6😢5

13.4K viewsVlad Lialin, edited 17:01

DL in NLP

❤3

3.3K viewsVlad Lialin, 17:01

DL in NLP

Forwarded from Мишин Лернинг 🇺🇦🇮🇱

🎓🔥 OpenAI обучили нейросеть для решения задач олимпиадой математики, способную доказывать теоремы

OpenAI создали нейронный прувер теорем, который научился решать множество сложных задач олимпиадой математики, включая задачи соревнований AMC12 и AIME.

Это языковая модель для построения формальных доказательств и утверждений. Формально — GPT-3 с 774M обучаемыми параметрами (36тислойный трансформер).

Обучение происходит по методологии expert iteration: каждый раз, когда находится новое доказательство, оно поступает в датесет новых данных для обучения, что улучшает нейронную сеть и позволяет ей итеративно находить решения для все более и более сложных задач.

📑 paper 📝 blog post

🤯45👍12❤4

2.74K viewsVlad Lialin, 20:24

DL in NLP

Вслед за GitHub сегодня упал 🤗 Hub и вот это по-настоящему больно.

😢21

3.02K viewsVlad Lialin, 00:37

DL in NLP

Forwarded from Irina Nikishina

Приглашаем всех принять участие в соревновании Dialogue Evaluation RuArg-2022 на конференции "Диалог".

Мы сформулировали три утверждения, касающиеся пандемии COVID-19 (и в целом противоэпидемических мер):

«Вакцинация полезна для общества».
«Введение и соблюдение карантина полезно для общества».
«Ношение масок полезно для общества».

Соревнование по анализу аргументации включает в себя 2 задачи:

* Определение позиции автора текста (Stance Detection) по отношению к заданному утверждению.
* Классификация доводов (Premise Classification): требуется распознать, содержит ли текст доводы «за» или «против» относительно заданного утверждения на тему борьбы с COVID.

Из социальных сетей была собрана коллекция предложений – комментариев к постам из социальных медиа. В этих предложениях могут содержаться как высказывания, определяющие авторскую позицию относительно заданных утверждений, так и высказывания с доводами «за»/«против» этих утверждений.

Каждое предложение было размечено по позиции и по доводам для всех трех утверждений. Таким образом, каждое предложение имеет шесть меток.
Использовались следующие классы (метки):
* «за»;
* «против»;
* «прочее» (для позиции эта метка объединяет метки «нейтрально», «непонятно» или «и за, и против») / «нет аргумента» (для довода);
* «нерелевантно» (для данного утверждения)

Задача участников - произвести анализ аргументации путем классификации каждого высказывания.

Подробности можно прочитать в репозитории
Официальная страничка на "Диалоге"
Телеграм-чат соревнования
Codalab

GitHub

GitHub - dialogue-evaluation/RuArg

Contribute to dialogue-evaluation/RuArg development by creating an account on GitHub.

👍10👎1

3.33K viewsVlad Lialin, 14:52

DL in NLP

Forwarded from partially unsupervised

Недавно перезапустился широко известный в узких кругах Open ML Course, и, как человек, приложивший руку к его первой версии, я не могу об этом умолчать.

Первая версия курса (2017 год!) представляла из себя десяток лонгридов на Хабре, написанных разными людьми, и peer reviewed домашние задания к каждому из них. Ваш покорный слуга, например, писал главу про feature engineering и убил на нее часов сорок, если память не изменяет. Иронично, что в прошлом посте я как раз высказывал пророчества о том, что роль feature engineering угасает и продолжит угасать. С тех пор курс эволюционировал, были оффлайн лекции, переводы на английский, французский и китайский, публикации на альтернативных платформах (например, у англоязычной версии моей главы только на Медиуме было почти 50к просмотров) и многое другое - я особо не следил. В последний раз курс косвенно напомнил о себе, когда из-за этой старой статьи ко мне обратилось издательство Manning и попросило поревьювить соответствующий черновик одной из их книг.

Юра Кашницкий, который тащил это все с самого начала, ожидаемо наконец-то устал, и передал русскую версию Пете Ермакову, который уже давно тяготел больше к преподаванию, чем датасайнсу своими руками. Сейчас Петя пытается вдохнуть в него новую жизнь.

У меня неоднозначное отношение к курсу: по состоянию на 2022 его едва ли можно назвать исчерпывающим, и просто стряхнуть пыль может оказаться недостаточно. Тем не менее, для поверхностного понимания data science и machine learning он может пригодиться. Учитывая его бесплатность, я бы посоветовал рассмотреть его всем, кто собирался занести денег за аналогичные курсы в какую-нибудь недешевую школу для "вайтишников".

👍25😁1

4.16K viewsVlad Lialin, 04:50

DL in NLP

Насколько я знаю это самая большая языковая модель с публично доступными весами.

Что немного пугает это что на одной GPU такое уже не погоняешь. Облако само то чтобы поиграться.

👍2

3.37K viewsVlad Lialin, 23:48

DL in NLP

Forwarded from Love. Death. Transformers.

Оп, 20б модель от euther ai можно тыкать
https://goose.ai/playground

GooseAI

GooseAI - Stop overpaying for your AI infrastructure.

Fully managed NLP-as-a-Service delivered via API, at 30% the cost. It's time to migrate.

3.65K viewsVlad Lialin, 23:48

DL in NLP

Forwarded from AI для Всех

В твиттере уже неделю происходит прекраснейшая грызня между OpenAI и Meta.

Илья Сатскевер (head of AI in OpenAI) написал, что большие языковые модели возможно обладают зачатками сознания. На что Ян ЛеКан из Meta (exFacebook) заявил, что все это чушь. И вообще, раз компания говорит такие вещи - значит это плохие исследователи. В перепалку вписался Сэм Альтман (CEO OpenAI) и сказал, что собственно в таком подходе к делу видимо и кроется провал исследоватеской работы Meta. И предложил исследователем из Meta переходить к нему на работу. Теперь к делу подключились и другие CEO.

Короче запасайтесь попкорном 🍿: https://twitter.com/jefrankle/status/1493021453473792000?s=21

Twitter

Jonathan Frankle

What bullshit. Dear OpenAI researchers: My email address is [email protected]. We are hiring! We have healthy culture and no elitism, egos, or divas. twitter.com/sama/status/14…

🔥27👍2😁2👎1

3.2K viewsVlad Lialin, 14:40

About

Blog

Apps

Platform