DL in NLP
12.5K subscribers
547 photos
13 videos
27 files
1.1K links
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
Download Telegram
Насколько я знаю это самая большая языковая модель с публично доступными весами.

Что немного пугает это что на одной GPU такое уже не погоняешь. Облако само то чтобы поиграться.
👍2
Forwarded from AI для Всех
В твиттере уже неделю происходит прекраснейшая грызня между OpenAI и Meta.

Илья Сатскевер (head of AI in OpenAI) написал, что большие языковые модели возможно обладают зачатками сознания. На что Ян ЛеКан из Meta (exFacebook) заявил, что все это чушь. И вообще, раз компания говорит такие вещи - значит это плохие исследователи. В перепалку вписался Сэм Альтман (CEO OpenAI) и сказал, что собственно в таком подходе к делу видимо и кроется провал исследоватеской работы Meta. И предложил исследователем из Meta переходить к нему на работу. Теперь к делу подключились и другие CEO.

Короче запасайтесь попкорном 🍿: https://twitter.com/jefrankle/status/1493021453473792000?s=21
🔥27👍2😁2👎1
Последние две недели готовлю очень крутую штуку, надеюсь зарелизить её на следующей неделе. А пока что быстрая подборка новостей:

1. Потрясающий блогпост об истории PyTorch и тому, как он превратился из рисёчерского инструмента в один из главных DL фреймворков
1. XGLM — большие многоязычные языковые модели от Meta AI теперь доступны в 🤗 Hub и Spaces
1. Обзорная статья Compute Trends Across Three Eras of Machine Learning, красивые картинки прилагаются
1. Маскирование 15% токенов в MLM это дурацкий стандарт и если маскировать 40% можно обучаться быстрее и лучше
1. Новый long-form QA датасет, где ответ — это целый текст, а не пара слов. Приемник ELI5
1. Довольно упоротая идея обучать нейросети контролировать компьютер с помощью мыши и клавиатуры
1. Наверное ещё более упоротая идея тренировать нейросети с помощью глобальной сети компьютеров распределённой по всему миру.
1. OSLO — открытый фреймворк нацеленный на large-scale pre-training.
1. Diffrax — фреймворк для численного решения диффуров на Jax.
1. Recent Trends in ML — воркшоп по теоретическому DL
🔥16👍6
Deduplicating Training Data Mitigates Privacy Risks in Language Models
Kandpal, Wallace, and Raffel
arxiv.org/abs/2202.06539

Языковые модели склонны запоминать тренировочные данные, что позволяет экстрактить эти данные из моделей без доступа к датасету. В этой статье авторы постарались понять взаимосвязь между дупликацией данных в датасете и вероятностью получить эти данные из модели. Главные результаты:

1. Повторение данных сильно увеличивает вероятность их генерации
1. Например повторение одного примера 10 раз может увеличить вероятность его генерации в 10 тысяч раз
1. Большие модели запоминают больше
1. Существующие методы экстрации данных работают очень хорошо (AUC > 0.7) для примеров которые повторили больше 50 раз
1. При этом если пример повторён меньше 5 раз, эти методы работают на уровне случайного классификатора

Довольно интуитивный и очевидный результат, если бы не расхайпованные статьи о том, что языковые модели могут запомнить даже пример, который они видели один раз.
👍14
Forwarded from AI для Всех
Ускорители для AI (GPU, TPU, IPU)

В 📓серии из 5 постов Adi Fuchs рассказывает все, что только можно об ускорителях - как они работают, чем отличаются и зачем нужны.

А если читать вам нравится меньше, чем смотреть - то есть 🎥 видео версия/пересказ на канале у Яника.

#hardware #gpu #tpu #ipu
👍4
DeepNet: Scaling Transformers to 1,000 Layers
Wang et al. [Microsoft]
arxiv.org/abs/2203.00555

Недавно вёл лекцию по нейросетям и вспомнил что когда-то мы в DL очень беспокоились о глубине сетей, а не только о количестве параметров (да и само слово deep в DL как бы на это намекает).

В новой статье от Microsoft предлагают новый способ инициализации трансформеров и модификацию LayerNorm которая позволяет тренировать модели глубины в 1000 слоёв. Для этого уменьшают range инициализации в (8N)^(-1/4) раз для слоёв ffn, v_proj и out_proj, где N — это число слоёв в энкодере. Конкретная формула для этого параметра зависит от того используете ли вы encoder-only или seq2seq модель.

Нормализаци модифицируют следующим образом: если раньше мы делали LayerNorm(x + f(x)), где f - это предыдущий слой, теперь добавляется дополнительная константа альфа LayerNorm(alpha * x + f(x)), которая для энкодеров равна (2N)^(1/4).

По результатам: более стабильная тренировка, даже при небольшом числе слоёв, самое интересное что трансформер из 1000 слоёв и 3.B параметров показывает себя лучше на мультиязычном машинном переводе чем трансформер из 48 слоёв 12B параметров (+2 BLEU) что немного идёт в разрез с scaling laws for neural machine translation которые только зависят от числа параметров и соотношения параметров в энкодере и декодере.
👍7
Forwarded from Vlad Lialin
Я не высказывался на тему текущей войны, но может быть стоит. Я думаю что то, что происходит - это ужасно, бесчеловечно и не приследует ничьих интересов кроме отдельных людей. За новостями о происходящем надо следить и полезно думать, какие действия каждый из нас может сделать, чтобы хотя бы чуть-чуть помочь остановить это безумие. Однако мне кажется что что сейчас важно иметь места которые позволяют уменьшить количество думскроллинга, которого сейчас явно очень много и поэтому постараюсь вернуться к регулярным постам в DL in NLP.

Наш чат не очень живой последнее время, но всё равно попрошу не обсуждать тут войну и политику. Для этого есть более подходящие места.

Как всегда буду рад тут отвечать на вопросы по статьям и NLP вообще если они кого-то интересуют.

Нет войне
👍124💩13
Advanced Topics in MultiModal Machine Learning
cmu-multicomp-lab.github.io/adv-mmml-course/spring2022

Весьма up-to-date курс по мультимодальному обучению от Carnegie Mellon University. В основном обсуждают модальность картинка+текст но говорят немного и про видео. В курсе ней есть как и уже стандартные подходы вроде VL-BERT, так и очень интересный топик по длинным трансформерам и памяти.

Видео нету, но есть очень pdf с очень подробными lecture notes (например вот лекция по длинным трансформерам). Если вы погружаетесь в мультимодальную тему, рекомендую использовать этот курс в качестве гайда. Сам постараюсь почитать.
👍133🔥1
Прикладной DL и матан к сожалению (или к счастью) всё ещё очень далеки. Однако так как на физтехе меня научили любить математику, поэтому вот пара интересных и достаточно вводных материалов по matrix convexity, concentration inequalities, KL-divergence и прочим полезным для теоретического DL штукам. Кванторы и красивые анимации прилагаются.

1. Playing with positive definite matrices – I: matrix monotony and convexity
2. Playing with positive definite matrices – II: entropy edition

И пара более специфичных для DL постов из того же блога:

1. Gradient descent for wide two-layer neural networks – I : Global convergence
2. Gradient descent for wide two-layer neural networks – II: Generalization and implicit bias
🔥13👍6
Очень прикольный проект который генерирует цветовые палитры с помощью предобученных трансформеров / диффузионных моделей. Непонятно насколько это лучше эвристик, но выглядит интересно.

huemint.com

Вот тут описание их подхода: https://huemint.com/about/
🤩6👍4
Я уже как-то писал об учебнике по машинному обучению от Школы Анализа Данных Яндекса. Но тогда в доступе было всего несколько глав. С того времени много чего изменилось и теперь в пособии есть разделы про:

- классические методы обучения с учителем;
- оценку качества моделей;
- основы глубинного обучения.

В учебнике будут и другие главы: про вероятностный подход к ML, обучение представлений и решения сложных задач Data Science, поэтому крайне рекомендую сохранить ссылку, чтобы не пропустить обновления!
👍22
Forwarded from AI для Всех
Открываем жанр History porn.

Андрей Карпати из Tesla решил повторить ту самую сетку Яна ЛеКа(у)на из 1989 года и написал об этом пост (🔥), который читается как смесь исторического детектива и стендап для гиков одновременно.

Короткие выводы основанные на путешествии во времени на 33 года назад: Что бы подумал путешественник во времени из 2055 года о производительности современных сетей?

Нейронные сети 2055 года на макроуровне практически не отличаются от нейронных сетей 2022 года, разве что они больше.

Наши сегодняшние наборы данных и модели выглядят как шутка. И то, и другое где-то в 10 000 000 000 раз больше.

Современные модели 2022 года можно обучить за ~1 минуту, обучаясь на своем персональном вычислительном устройстве в качестве развлекательного проекта на выходных.

Наши наборы данных слишком малы, и скромный выигрыш можно получить только за счет расширения набора данных.

🔥Пост
👍41
Making Deep Learning Go Brrrr From First Principles
horace.io/brrr_intro.html

Очень классный пост о том как работают GPU. Начинается с того что если вам не хватает скорости, то скорее всего вы залочены по одному из

1. Compute: Time spent on your GPU computing actual floating point operations (FLOPS)
1. Memory: Time spent transferring tensors within a GPU
1. Overhead: Everything else

Наглядно иллюстрирует почему для DL скорость памяти сейчас важна больше чем скорость самого чипа.
👍15
Block-reccurrent transformers
Hutchins, Schlag, et al.
arxiv.org/abs/2203.07852

Возьмите трансформер и поверните его на бок. Сделайте немного рекуррентным и получите новую SOTA на длинном языковом моделировании (ну почти).

Идея это некоторая комбинация LSTM и TransformerXL. Текст чанкают на куски длины 512 и к каждому из них применяется трансформер. Но на вход он берёт не только токены текста, но и стйт-хиддены предыдущего чанка. Выдаёт два вида хидденов — одни как у обычного трансформера, которые дают представления токенов, а вторые — стейт-хиддены которые будет использовать следующий рекуррентный шаг.

Архитектурно моделька состоит из двух трансформеров (часть весов зашерена): вертикальный и горизонтальный.

Вертикальный это обычный TransformerDecoder который на вход принимает последовательность тоенов, а в качестве контекста берёт стейт-хидден предыдушего шага. Выдаёт этот трансформер вектора тоенов. Горизонтальный делает наоборот, вход: стейт хидден, контекст: последовательность слов. Кроме этого в нём есть дополнительный гейт аналогичный LSTM.

Дальше больше странностей: заменяют только один слой трансформера на рекуррентный. Конкретно 10 из 12. Всё остальное обычный трансформер.

По результатам: на языковом моделировании обходят TransformerXL, Memorizing Transformer, Compressive Transformer и Routing Transformer.

Выглядит очень забавно. Такой RNN strikes back. Хотелось бы увидеть больше подобных подходов.
🔥12👍7