DL in NLP
12.5K subscribers
547 photos
13 videos
27 files
1.1K links
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
Download Telegram
🤗Transformers обновились до версии 4.16 и там есть пара интересных вещей

1. REALM — предобученная моделька, которая хорошо тюнится на ODQA-like задачи, мы её обозревали аж в сентябре 2020
1. Nyströmformer — ещё один в копилку длинных трансформеров
1. ViLT — мультимодальный трансформер, которому не требуется отдельный fasterRCNN backbone, что сильно упрощает работу с ним. Если у вас есть V+L задачи, советую взять как бейзлайн.
1. Добавили несколько CV моделей: SwinTransformer, ViTMAE
1. Speech Seq2Seq Training script
1. Large audio chunking for the existing ASR pipeline
👍14🔥7
🚀 @SBERLOGABIG online seminar on machine learning:
👨‍🔬 Vlad Lialin «Современные модели с памятью. Начало новой парадигмы? »
⌚️ Четверг 3 февраля, 18.00 по Москве

О докладчике: Влад - автор одного из лучших каналов в телеграмме по Natural Language Processing - "DL in NLP" (@dlinnlp) - подписывайтесь !

В 2019 GPT-2 изменил NLP навсегда. Впервые подход "больше данных, больше слоёв" начал работать для языка. 2020 принёс GPT-3, который поражал нас своими размерами ещё больше. Постепенно гигантские модели стали практически повседневными - у каждой большой компании есть одна или две - но тренировать их становится всё сложнее.

Всего несколько месяцев назад DeepMind выпустил модель RETRO. Её особенность заключается в том, что несмотря на небольшой по современным меркам размер (7B), она обходит GPT-3 (175B) и Gopher (280B) на большом числе задач. Каким образом? Кроме информации заключенной в параметрах нейросети, RETRO обращается к огромному текстовому корпусу в котором ищет похожие тексты. Эти похожие тексты подаются в языковую модель вместе с обычным входом, который языковая модель должна продолжить. Таким образом RETRO может "подсмотреть" какую-то информацию которую никогда не видела или не запомнила из этой внешней базы данных.

На встрече мы разберём предшествовавшие модели, такие как KNN-LM, подробно разберём саму RETRO и как она работает и пофантазируем как такой подход может потенциально изменить NLP в 2022.

Ссылка на зум будет доступна в этом канале: https://t.iss.one/sberlogabig ближе к началу доклада.
Подписывайтесь на канал https://t.iss.one/sberlogabig ! Интересные материалы и увлекательные доклады.👍
👍18🔥3
DeepMind выпустил AlphaCode, который прогает лучше половины твоих знакомых.

Во многом похож на Codex, но есть отличия.

Основной подход:
1. Encoder-decoder, 41B параметров
1. Декодер обучается предсказывать следующее слово, а энкодер делает MLM. Всё end2end.
1. Заскрапили датасет задачек с Codeforces и зафайнтюнили на нём модель
1. Во время тестирования семплили очень большое количество решений (до миллиона) и потом выбирали из них с помощью кластеризации, эвристик и, самое главное, проходят ли они открытые тесты которые приложены к задачке. Сабмитили на финальную проверку только топ-10.

По результатам: AlphaCode решает задачки лучше, чем 54% пользовалетей Codeforces (не очень альфа пока что, но стремится туда).

Небольшие технические отличия от Codex:
1. Максимальная длина для энкодера 1536, для декодера 768
1. Использовали Multi-query attention, модификацию attention, которая использует одни и те же K и V для разныех голов – позволило улучшить потребление памяти и скорость декодирования
1. Очень маленький словарь токенизатора, 8К.
1. Во время файтнюнинга использовали температуру 0.2, которая делает распределение более острым. При тесте температура не использовалась, назвали это tempering.
1. Файнтюнились и на правильных и на неправильных решениях, при этом моделе заранее сообщается сигнал корректное ли это решения.
1. Для файнтюнинга использовали лосс, который называется GOLD. По сути это взвешенная кросс-энтропия, несмотря на то, что выглядит как RL.

Вот тут можно посмотреть на визуализацию attention, а ещё есть популярно написанный блогпост
🔥21🤔8👍6😢5
3
🎓🔥 OpenAI обучили нейросеть для решения задач олимпиадой математики, способную доказывать теоремы

OpenAI создали нейронный прувер теорем, который научился решать множество сложных задач олимпиадой математики, включая задачи соревнований AMC12 и AIME.

Это языковая модель для построения формальных доказательств и утверждений. Формально — GPT-3 с 774M обучаемыми параметрами (36тислойный трансформер).

Обучение происходит по методологии expert iteration: каждый раз, когда находится новое доказательство, оно поступает в датесет новых данных для обучения, что улучшает нейронную сеть и позволяет ей итеративно находить решения для все более и более сложных задач.

📑
paper 📝 blog post
🤯45👍124
Вслед за GitHub сегодня упал 🤗 Hub и вот это по-настоящему больно.
😢21
Forwarded from Irina Nikishina
Приглашаем всех принять участие в соревновании Dialogue Evaluation RuArg-2022 на конференции "Диалог".

Мы сформулировали три утверждения, касающиеся пандемии COVID-19 (и в целом противоэпидемических мер):

«Вакцинация полезна для общества».
«Введение и соблюдение карантина полезно для общества».
«Ношение масок полезно для общества».

Соревнование по анализу аргументации включает в себя 2 задачи:

* Определение позиции автора текста (Stance Detection) по отношению к заданному утверждению.
* Классификация доводов (Premise Classification): требуется распознать, содержит ли текст доводы «за» или «против» относительно заданного утверждения на тему борьбы с COVID.

Из социальных сетей была собрана коллекция предложений – комментариев к постам из социальных медиа. В этих предложениях могут содержаться как высказывания, определяющие авторскую позицию относительно заданных утверждений, так и высказывания с доводами «за»/«против» этих утверждений.

Каждое предложение было размечено по позиции и по доводам для всех трех утверждений. Таким образом, каждое предложение имеет шесть меток.
Использовались следующие классы (метки):
* «за»;
* «против»;
* «прочее» (для позиции эта метка объединяет метки «нейтрально», «непонятно» или «и за, и против») / «нет аргумента» (для довода);
* «нерелевантно» (для данного утверждения)

Задача участников - произвести анализ аргументации путем классификации каждого высказывания.

Подробности можно прочитать в репозитории
Официальная страничка на "Диалоге"
Телеграм-чат соревнования
Codalab
👍10👎1
Forwarded from partially unsupervised
Недавно перезапустился широко известный в узких кругах Open ML Course, и, как человек, приложивший руку к его первой версии, я не могу об этом умолчать.

Первая версия курса (2017 год!) представляла из себя десяток лонгридов на Хабре, написанных разными людьми, и peer reviewed домашние задания к каждому из них. Ваш покорный слуга, например, писал главу про feature engineering и убил на нее часов сорок, если память не изменяет. Иронично, что в прошлом посте я как раз высказывал пророчества о том, что роль feature engineering угасает и продолжит угасать. С тех пор курс эволюционировал, были оффлайн лекции, переводы на английский, французский и китайский, публикации на альтернативных платформах (например, у англоязычной версии моей главы только на Медиуме было почти 50к просмотров) и многое другое - я особо не следил. В последний раз курс косвенно напомнил о себе, когда из-за этой старой статьи ко мне обратилось издательство Manning и попросило поревьювить соответствующий черновик одной из их книг.

Юра Кашницкий, который тащил это все с самого начала, ожидаемо наконец-то устал, и передал русскую версию Пете Ермакову, который уже давно тяготел больше к преподаванию, чем датасайнсу своими руками. Сейчас Петя пытается вдохнуть в него новую жизнь.

У меня неоднозначное отношение к курсу: по состоянию на 2022 его едва ли можно назвать исчерпывающим, и просто стряхнуть пыль может оказаться недостаточно. Тем не менее, для поверхностного понимания data science и machine learning он может пригодиться. Учитывая его бесплатность, я бы посоветовал рассмотреть его всем, кто собирался занести денег за аналогичные курсы в какую-нибудь недешевую школу для "вайтишников".
👍25😁1
Насколько я знаю это самая большая языковая модель с публично доступными весами.

Что немного пугает это что на одной GPU такое уже не погоняешь. Облако само то чтобы поиграться.
👍2
Forwarded from AI для Всех
В твиттере уже неделю происходит прекраснейшая грызня между OpenAI и Meta.

Илья Сатскевер (head of AI in OpenAI) написал, что большие языковые модели возможно обладают зачатками сознания. На что Ян ЛеКан из Meta (exFacebook) заявил, что все это чушь. И вообще, раз компания говорит такие вещи - значит это плохие исследователи. В перепалку вписался Сэм Альтман (CEO OpenAI) и сказал, что собственно в таком подходе к делу видимо и кроется провал исследоватеской работы Meta. И предложил исследователем из Meta переходить к нему на работу. Теперь к делу подключились и другие CEO.

Короче запасайтесь попкорном 🍿: https://twitter.com/jefrankle/status/1493021453473792000?s=21
🔥27👍2😁2👎1
Последние две недели готовлю очень крутую штуку, надеюсь зарелизить её на следующей неделе. А пока что быстрая подборка новостей:

1. Потрясающий блогпост об истории PyTorch и тому, как он превратился из рисёчерского инструмента в один из главных DL фреймворков
1. XGLM — большие многоязычные языковые модели от Meta AI теперь доступны в 🤗 Hub и Spaces
1. Обзорная статья Compute Trends Across Three Eras of Machine Learning, красивые картинки прилагаются
1. Маскирование 15% токенов в MLM это дурацкий стандарт и если маскировать 40% можно обучаться быстрее и лучше
1. Новый long-form QA датасет, где ответ — это целый текст, а не пара слов. Приемник ELI5
1. Довольно упоротая идея обучать нейросети контролировать компьютер с помощью мыши и клавиатуры
1. Наверное ещё более упоротая идея тренировать нейросети с помощью глобальной сети компьютеров распределённой по всему миру.
1. OSLO — открытый фреймворк нацеленный на large-scale pre-training.
1. Diffrax — фреймворк для численного решения диффуров на Jax.
1. Recent Trends in ML — воркшоп по теоретическому DL
🔥16👍6
Deduplicating Training Data Mitigates Privacy Risks in Language Models
Kandpal, Wallace, and Raffel
arxiv.org/abs/2202.06539

Языковые модели склонны запоминать тренировочные данные, что позволяет экстрактить эти данные из моделей без доступа к датасету. В этой статье авторы постарались понять взаимосвязь между дупликацией данных в датасете и вероятностью получить эти данные из модели. Главные результаты:

1. Повторение данных сильно увеличивает вероятность их генерации
1. Например повторение одного примера 10 раз может увеличить вероятность его генерации в 10 тысяч раз
1. Большие модели запоминают больше
1. Существующие методы экстрации данных работают очень хорошо (AUC > 0.7) для примеров которые повторили больше 50 раз
1. При этом если пример повторён меньше 5 раз, эти методы работают на уровне случайного классификатора

Довольно интуитивный и очевидный результат, если бы не расхайпованные статьи о том, что языковые модели могут запомнить даже пример, который они видели один раз.
👍14
Forwarded from AI для Всех
Ускорители для AI (GPU, TPU, IPU)

В 📓серии из 5 постов Adi Fuchs рассказывает все, что только можно об ускорителях - как они работают, чем отличаются и зачем нужны.

А если читать вам нравится меньше, чем смотреть - то есть 🎥 видео версия/пересказ на канале у Яника.

#hardware #gpu #tpu #ipu
👍4
DeepNet: Scaling Transformers to 1,000 Layers
Wang et al. [Microsoft]
arxiv.org/abs/2203.00555

Недавно вёл лекцию по нейросетям и вспомнил что когда-то мы в DL очень беспокоились о глубине сетей, а не только о количестве параметров (да и само слово deep в DL как бы на это намекает).

В новой статье от Microsoft предлагают новый способ инициализации трансформеров и модификацию LayerNorm которая позволяет тренировать модели глубины в 1000 слоёв. Для этого уменьшают range инициализации в (8N)^(-1/4) раз для слоёв ffn, v_proj и out_proj, где N — это число слоёв в энкодере. Конкретная формула для этого параметра зависит от того используете ли вы encoder-only или seq2seq модель.

Нормализаци модифицируют следующим образом: если раньше мы делали LayerNorm(x + f(x)), где f - это предыдущий слой, теперь добавляется дополнительная константа альфа LayerNorm(alpha * x + f(x)), которая для энкодеров равна (2N)^(1/4).

По результатам: более стабильная тренировка, даже при небольшом числе слоёв, самое интересное что трансформер из 1000 слоёв и 3.B параметров показывает себя лучше на мультиязычном машинном переводе чем трансформер из 48 слоёв 12B параметров (+2 BLEU) что немного идёт в разрез с scaling laws for neural machine translation которые только зависят от числа параметров и соотношения параметров в энкодере и декодере.
👍7
Forwarded from Vlad Lialin
Я не высказывался на тему текущей войны, но может быть стоит. Я думаю что то, что происходит - это ужасно, бесчеловечно и не приследует ничьих интересов кроме отдельных людей. За новостями о происходящем надо следить и полезно думать, какие действия каждый из нас может сделать, чтобы хотя бы чуть-чуть помочь остановить это безумие. Однако мне кажется что что сейчас важно иметь места которые позволяют уменьшить количество думскроллинга, которого сейчас явно очень много и поэтому постараюсь вернуться к регулярным постам в DL in NLP.

Наш чат не очень живой последнее время, но всё равно попрошу не обсуждать тут войну и политику. Для этого есть более подходящие места.

Как всегда буду рад тут отвечать на вопросы по статьям и NLP вообще если они кого-то интересуют.

Нет войне
👍124💩13
Advanced Topics in MultiModal Machine Learning
cmu-multicomp-lab.github.io/adv-mmml-course/spring2022

Весьма up-to-date курс по мультимодальному обучению от Carnegie Mellon University. В основном обсуждают модальность картинка+текст но говорят немного и про видео. В курсе ней есть как и уже стандартные подходы вроде VL-BERT, так и очень интересный топик по длинным трансформерам и памяти.

Видео нету, но есть очень pdf с очень подробными lecture notes (например вот лекция по длинным трансформерам). Если вы погружаетесь в мультимодальную тему, рекомендую использовать этот курс в качестве гайда. Сам постараюсь почитать.
👍133🔥1
Прикладной DL и матан к сожалению (или к счастью) всё ещё очень далеки. Однако так как на физтехе меня научили любить математику, поэтому вот пара интересных и достаточно вводных материалов по matrix convexity, concentration inequalities, KL-divergence и прочим полезным для теоретического DL штукам. Кванторы и красивые анимации прилагаются.

1. Playing with positive definite matrices – I: matrix monotony and convexity
2. Playing with positive definite matrices – II: entropy edition

И пара более специфичных для DL постов из того же блога:

1. Gradient descent for wide two-layer neural networks – I : Global convergence
2. Gradient descent for wide two-layer neural networks – II: Generalization and implicit bias
🔥13👍6