Насколько я знаю это самая большая языковая модель с публично доступными весами.
Что немного пугает это что на одной GPU такое уже не погоняешь. Облако само то чтобы поиграться.
Что немного пугает это что на одной GPU такое уже не погоняешь. Облако само то чтобы поиграться.
👍2
Forwarded from Love. Death. Transformers.
Оп, 20б модель от euther ai можно тыкать
https://goose.ai/playground
https://goose.ai/playground
GooseAI
GooseAI - Stop overpaying for your AI infrastructure.
Fully managed NLP-as-a-Service delivered via API, at 30% the cost. It's time to migrate.
Forwarded from AI для Всех
В твиттере уже неделю происходит прекраснейшая грызня между OpenAI и Meta.
Илья Сатскевер (head of AI in OpenAI) написал, что большие языковые модели возможно обладают зачатками сознания. На что Ян ЛеКан из Meta (exFacebook) заявил, что все это чушь. И вообще, раз компания говорит такие вещи - значит это плохие исследователи. В перепалку вписался Сэм Альтман (CEO OpenAI) и сказал, что собственно в таком подходе к делу видимо и кроется провал исследоватеской работы Meta. И предложил исследователем из Meta переходить к нему на работу. Теперь к делу подключились и другие CEO.
Короче запасайтесь попкорном 🍿: https://twitter.com/jefrankle/status/1493021453473792000?s=21
Илья Сатскевер (head of AI in OpenAI) написал, что большие языковые модели возможно обладают зачатками сознания. На что Ян ЛеКан из Meta (exFacebook) заявил, что все это чушь. И вообще, раз компания говорит такие вещи - значит это плохие исследователи. В перепалку вписался Сэм Альтман (CEO OpenAI) и сказал, что собственно в таком подходе к делу видимо и кроется провал исследоватеской работы Meta. И предложил исследователем из Meta переходить к нему на работу. Теперь к делу подключились и другие CEO.
Короче запасайтесь попкорном 🍿: https://twitter.com/jefrankle/status/1493021453473792000?s=21
Twitter
Jonathan Frankle
What bullshit. Dear OpenAI researchers: My email address is [email protected]. We are hiring! We have healthy culture and no elitism, egos, or divas. twitter.com/sama/status/14…
🔥27👍2😁2👎1
Последние две недели готовлю очень крутую штуку, надеюсь зарелизить её на следующей неделе. А пока что быстрая подборка новостей:
1. Потрясающий блогпост об истории PyTorch и тому, как он превратился из рисёчерского инструмента в один из главных DL фреймворков
1. XGLM — большие многоязычные языковые модели от Meta AI теперь доступны в 🤗 Hub и Spaces
1. Обзорная статья Compute Trends Across Three Eras of Machine Learning, красивые картинки прилагаются
1. Маскирование 15% токенов в MLM это дурацкий стандарт и если маскировать 40% можно обучаться быстрее и лучше
1. Новый long-form QA датасет, где ответ — это целый текст, а не пара слов. Приемник ELI5
1. Довольно упоротая идея обучать нейросети контролировать компьютер с помощью мыши и клавиатуры
1. Наверное ещё более упоротая идея тренировать нейросети с помощью глобальной сети компьютеров распределённой по всему миру.
1. OSLO — открытый фреймворк нацеленный на large-scale pre-training.
1. Diffrax — фреймворк для численного решения диффуров на Jax.
1. Recent Trends in ML — воркшоп по теоретическому DL
1. Потрясающий блогпост об истории PyTorch и тому, как он превратился из рисёчерского инструмента в один из главных DL фреймворков
1. XGLM — большие многоязычные языковые модели от Meta AI теперь доступны в 🤗 Hub и Spaces
1. Обзорная статья Compute Trends Across Three Eras of Machine Learning, красивые картинки прилагаются
1. Маскирование 15% токенов в MLM это дурацкий стандарт и если маскировать 40% можно обучаться быстрее и лучше
1. Новый long-form QA датасет, где ответ — это целый текст, а не пара слов. Приемник ELI5
1. Довольно упоротая идея обучать нейросети контролировать компьютер с помощью мыши и клавиатуры
1. Наверное ещё более упоротая идея тренировать нейросети с помощью глобальной сети компьютеров распределённой по всему миру.
1. OSLO — открытый фреймворк нацеленный на large-scale pre-training.
1. Diffrax — фреймворк для численного решения диффуров на Jax.
1. Recent Trends in ML — воркшоп по теоретическому DL
soumith.ch
Decisions and Pivots | Soumith Chintala
a tweet-thread at the 5-year mark
🔥16👍6
Deduplicating Training Data Mitigates Privacy Risks in Language Models
Kandpal, Wallace, and Raffel
arxiv.org/abs/2202.06539
Языковые модели склонны запоминать тренировочные данные, что позволяет экстрактить эти данные из моделей без доступа к датасету. В этой статье авторы постарались понять взаимосвязь между дупликацией данных в датасете и вероятностью получить эти данные из модели. Главные результаты:
1. Повторение данных сильно увеличивает вероятность их генерации
1. Например повторение одного примера 10 раз может увеличить вероятность его генерации в 10 тысяч раз
1. Большие модели запоминают больше
1. Существующие методы экстрации данных работают очень хорошо (AUC > 0.7) для примеров которые повторили больше 50 раз
1. При этом если пример повторён меньше 5 раз, эти методы работают на уровне случайного классификатора
Довольно интуитивный и очевидный результат, если бы не расхайпованные статьи о том, что языковые модели могут запомнить даже пример, который они видели один раз.
Kandpal, Wallace, and Raffel
arxiv.org/abs/2202.06539
Языковые модели склонны запоминать тренировочные данные, что позволяет экстрактить эти данные из моделей без доступа к датасету. В этой статье авторы постарались понять взаимосвязь между дупликацией данных в датасете и вероятностью получить эти данные из модели. Главные результаты:
1. Повторение данных сильно увеличивает вероятность их генерации
1. Например повторение одного примера 10 раз может увеличить вероятность его генерации в 10 тысяч раз
1. Большие модели запоминают больше
1. Существующие методы экстрации данных работают очень хорошо (AUC > 0.7) для примеров которые повторили больше 50 раз
1. При этом если пример повторён меньше 5 раз, эти методы работают на уровне случайного классификатора
Довольно интуитивный и очевидный результат, если бы не расхайпованные статьи о том, что языковые модели могут запомнить даже пример, который они видели один раз.
👍14
Forwarded from AI для Всех
Ускорители для AI (GPU, TPU, IPU)
В 📓серии из 5 постов Adi Fuchs рассказывает все, что только можно об ускорителях - как они работают, чем отличаются и зачем нужны.
А если читать вам нравится меньше, чем смотреть - то есть 🎥 видео версия/пересказ на канале у Яника.
#hardware #gpu #tpu #ipu
В 📓серии из 5 постов Adi Fuchs рассказывает все, что только можно об ускорителях - как они работают, чем отличаются и зачем нужны.
А если читать вам нравится меньше, чем смотреть - то есть 🎥 видео версия/пересказ на канале у Яника.
#hardware #gpu #tpu #ipu
👍4
DeepNet: Scaling Transformers to 1,000 Layers
Wang et al. [Microsoft]
arxiv.org/abs/2203.00555
Недавно вёл лекцию по нейросетям и вспомнил что когда-то мы в DL очень беспокоились о глубине сетей, а не только о количестве параметров (да и само слово deep в DL как бы на это намекает).
В новой статье от Microsoft предлагают новый способ инициализации трансформеров и модификацию LayerNorm которая позволяет тренировать модели глубины в 1000 слоёв. Для этого уменьшают range инициализации в
Нормализаци модифицируют следующим образом: если раньше мы делали
По результатам: более стабильная тренировка, даже при небольшом числе слоёв, самое интересное что трансформер из 1000 слоёв и 3.B параметров показывает себя лучше на мультиязычном машинном переводе чем трансформер из 48 слоёв 12B параметров (+2 BLEU) что немного идёт в разрез с scaling laws for neural machine translation которые только зависят от числа параметров и соотношения параметров в энкодере и декодере.
Wang et al. [Microsoft]
arxiv.org/abs/2203.00555
Недавно вёл лекцию по нейросетям и вспомнил что когда-то мы в DL очень беспокоились о глубине сетей, а не только о количестве параметров (да и само слово deep в DL как бы на это намекает).
В новой статье от Microsoft предлагают новый способ инициализации трансформеров и модификацию LayerNorm которая позволяет тренировать модели глубины в 1000 слоёв. Для этого уменьшают range инициализации в
(8N)^(-1/4)
раз для слоёв ffn, v_proj и out_proj, где N — это число слоёв в энкодере. Конкретная формула для этого параметра зависит от того используете ли вы encoder-only или seq2seq модель.Нормализаци модифицируют следующим образом: если раньше мы делали
LayerNorm(x + f(x))
, где f - это предыдущий слой, теперь добавляется дополнительная константа альфа LayerNorm(alpha * x + f(x))
, которая для энкодеров равна (2N)^(1/4)
.По результатам: более стабильная тренировка, даже при небольшом числе слоёв, самое интересное что трансформер из 1000 слоёв и 3.B параметров показывает себя лучше на мультиязычном машинном переводе чем трансформер из 48 слоёв 12B параметров (+2 BLEU) что немного идёт в разрез с scaling laws for neural machine translation которые только зависят от числа параметров и соотношения параметров в энкодере и декодере.
Telegram
DL in NLP
Scaling Laws for Neural Machine Translation
Ghorbani et al. [Google]
arxiv.org/abs/2109.07740
Всегда интересно читать про "scaling laws" — забавно видеть что stack more layers работает. Оказывается, он работает и в машинном переводе. Но есть нюанс.
Для…
Ghorbani et al. [Google]
arxiv.org/abs/2109.07740
Всегда интересно читать про "scaling laws" — забавно видеть что stack more layers работает. Оказывается, он работает и в машинном переводе. Но есть нюанс.
Для…
👍7
Forwarded from Vlad Lialin
Я не высказывался на тему текущей войны, но может быть стоит. Я думаю что то, что происходит - это ужасно, бесчеловечно и не приследует ничьих интересов кроме отдельных людей. За новостями о происходящем надо следить и полезно думать, какие действия каждый из нас может сделать, чтобы хотя бы чуть-чуть помочь остановить это безумие. Однако мне кажется что что сейчас важно иметь места которые позволяют уменьшить количество думскроллинга, которого сейчас явно очень много и поэтому постараюсь вернуться к регулярным постам в DL in NLP.
Наш чат не очень живой последнее время, но всё равно попрошу не обсуждать тут войну и политику. Для этого есть более подходящие места.
Как всегда буду рад тут отвечать на вопросы по статьям и NLP вообще если они кого-то интересуют.
Нет войне
Наш чат не очень живой последнее время, но всё равно попрошу не обсуждать тут войну и политику. Для этого есть более подходящие места.
Как всегда буду рад тут отвечать на вопросы по статьям и NLP вообще если они кого-то интересуют.
Нет войне
👍124💩13
Advanced Topics in MultiModal Machine Learning
cmu-multicomp-lab.github.io/adv-mmml-course/spring2022
Весьма up-to-date курс по мультимодальному обучению от Carnegie Mellon University. В основном обсуждают модальность картинка+текст но говорят немного и про видео. В курсе ней есть как и уже стандартные подходы вроде VL-BERT, так и очень интересный топик по длинным трансформерам и памяти.
Видео нету, но есть очень pdf с очень подробными lecture notes (например вот лекция по длинным трансформерам). Если вы погружаетесь в мультимодальную тему, рекомендую использовать этот курс в качестве гайда. Сам постараюсь почитать.
cmu-multicomp-lab.github.io/adv-mmml-course/spring2022
Весьма up-to-date курс по мультимодальному обучению от Carnegie Mellon University. В основном обсуждают модальность картинка+текст но говорят немного и про видео. В курсе ней есть как и уже стандартные подходы вроде VL-BERT, так и очень интересный топик по длинным трансформерам и памяти.
Видео нету, но есть очень pdf с очень подробными lecture notes (например вот лекция по длинным трансформерам). Если вы погружаетесь в мультимодальную тему, рекомендую использовать этот курс в качестве гайда. Сам постараюсь почитать.
cmu-multicomp-lab.github.io
11-877 AMML
11-877 Advanced Topics in Multimodal Machine Learning - Carnegie Mellon University - Spring 2022
👍13❤3🔥1
Прикладной DL и матан к сожалению (или к счастью) всё ещё очень далеки. Однако так как на физтехе меня научили любить математику, поэтому вот пара интересных и достаточно вводных материалов по matrix convexity, concentration inequalities, KL-divergence и прочим полезным для теоретического DL штукам. Кванторы и красивые анимации прилагаются.
1. Playing with positive definite matrices – I: matrix monotony and convexity
2. Playing with positive definite matrices – II: entropy edition
И пара более специфичных для DL постов из того же блога:
1. Gradient descent for wide two-layer neural networks – I : Global convergence
2. Gradient descent for wide two-layer neural networks – II: Generalization and implicit bias
1. Playing with positive definite matrices – I: matrix monotony and convexity
2. Playing with positive definite matrices – II: entropy edition
И пара более специфичных для DL постов из того же блога:
1. Gradient descent for wide two-layer neural networks – I : Global convergence
2. Gradient descent for wide two-layer neural networks – II: Generalization and implicit bias
🔥13👍6
Очень прикольный проект который генерирует цветовые палитры с помощью предобученных трансформеров / диффузионных моделей. Непонятно насколько это лучше эвристик, но выглядит интересно.
huemint.com
Вот тут описание их подхода: https://huemint.com/about/
huemint.com
Вот тут описание их подхода: https://huemint.com/about/
🤩6👍4
Forwarded from Стать специалистом по машинному обучению
Я уже как-то писал об учебнике по машинному обучению от Школы Анализа Данных Яндекса. Но тогда в доступе было всего несколько глав. С того времени много чего изменилось и теперь в пособии есть разделы про:
- классические методы обучения с учителем;
- оценку качества моделей;
- основы глубинного обучения.
В учебнике будут и другие главы: про вероятностный подход к ML, обучение представлений и решения сложных задач Data Science, поэтому крайне рекомендую сохранить ссылку, чтобы не пропустить обновления!
- классические методы обучения с учителем;
- оценку качества моделей;
- основы глубинного обучения.
В учебнике будут и другие главы: про вероятностный подход к ML, обучение представлений и решения сложных задач Data Science, поэтому крайне рекомендую сохранить ссылку, чтобы не пропустить обновления!
👍22
Forwarded from AI для Всех
Открываем жанр History porn.
Андрей Карпати из Tesla решил повторить ту самую сетку Яна ЛеКа(у)на из 1989 года и написал об этом пост (🔥), который читается как смесь исторического детектива и стендап для гиков одновременно.
Короткие выводы основанные на путешествии во времени на 33 года назад: Что бы подумал путешественник во времени из 2055 года о производительности современных сетей?
Нейронные сети 2055 года на макроуровне практически не отличаются от нейронных сетей 2022 года, разве что они больше.
Наши сегодняшние наборы данных и модели выглядят как шутка. И то, и другое где-то в 10 000 000 000 раз больше.
Современные модели 2022 года можно обучить за ~1 минуту, обучаясь на своем персональном вычислительном устройстве в качестве развлекательного проекта на выходных.
Наши наборы данных слишком малы, и скромный выигрыш можно получить только за счет расширения набора данных.
🔥Пост
Андрей Карпати из Tesla решил повторить ту самую сетку Яна ЛеКа(у)на из 1989 года и написал об этом пост (🔥), который читается как смесь исторического детектива и стендап для гиков одновременно.
Короткие выводы основанные на путешествии во времени на 33 года назад: Что бы подумал путешественник во времени из 2055 года о производительности современных сетей?
Нейронные сети 2055 года на макроуровне практически не отличаются от нейронных сетей 2022 года, разве что они больше.
Наши сегодняшние наборы данных и модели выглядят как шутка. И то, и другое где-то в 10 000 000 000 раз больше.
Современные модели 2022 года можно обучить за ~1 минуту, обучаясь на своем персональном вычислительном устройстве в качестве развлекательного проекта на выходных.
Наши наборы данных слишком малы, и скромный выигрыш можно получить только за счет расширения набора данных.
🔥Пост
👍41
Making Deep Learning Go Brrrr From First Principles
horace.io/brrr_intro.html
Очень классный пост о том как работают GPU. Начинается с того что если вам не хватает скорости, то скорее всего вы залочены по одному из
1. Compute: Time spent on your GPU computing actual floating point operations (FLOPS)
1. Memory: Time spent transferring tensors within a GPU
1. Overhead: Everything else
Наглядно иллюстрирует почему для DL скорость памяти сейчас важна больше чем скорость самого чипа.
horace.io/brrr_intro.html
Очень классный пост о том как работают GPU. Начинается с того что если вам не хватает скорости, то скорее всего вы залочены по одному из
1. Compute: Time spent on your GPU computing actual floating point operations (FLOPS)
1. Memory: Time spent transferring tensors within a GPU
1. Overhead: Everything else
Наглядно иллюстрирует почему для DL скорость памяти сейчас важна больше чем скорость самого чипа.
👍15
Block-reccurrent transformers
Hutchins, Schlag, et al.
arxiv.org/abs/2203.07852
Возьмите трансформер и поверните его на бок. Сделайте немного рекуррентным и получите новую SOTA на длинном языковом моделировании (ну почти).
Идея это некоторая комбинация LSTM и TransformerXL. Текст чанкают на куски длины 512 и к каждому из них применяется трансформер. Но на вход он берёт не только токены текста, но и стйт-хиддены предыдущего чанка. Выдаёт два вида хидденов — одни как у обычного трансформера, которые дают представления токенов, а вторые — стейт-хиддены которые будет использовать следующий рекуррентный шаг.
Архитектурно моделька состоит из двух трансформеров (часть весов зашерена): вертикальный и горизонтальный.
Вертикальный это обычный TransformerDecoder который на вход принимает последовательность тоенов, а в качестве контекста берёт стейт-хидден предыдушего шага. Выдаёт этот трансформер вектора тоенов. Горизонтальный делает наоборот, вход: стейт хидден, контекст: последовательность слов. Кроме этого в нём есть дополнительный гейт аналогичный LSTM.
Дальше больше странностей: заменяют только один слой трансформера на рекуррентный. Конкретно 10 из 12. Всё остальное обычный трансформер.
По результатам: на языковом моделировании обходят TransformerXL, Memorizing Transformer, Compressive Transformer и Routing Transformer.
Выглядит очень забавно. Такой RNN strikes back. Хотелось бы увидеть больше подобных подходов.
Hutchins, Schlag, et al.
arxiv.org/abs/2203.07852
Возьмите трансформер и поверните его на бок. Сделайте немного рекуррентным и получите новую SOTA на длинном языковом моделировании (ну почти).
Идея это некоторая комбинация LSTM и TransformerXL. Текст чанкают на куски длины 512 и к каждому из них применяется трансформер. Но на вход он берёт не только токены текста, но и стйт-хиддены предыдущего чанка. Выдаёт два вида хидденов — одни как у обычного трансформера, которые дают представления токенов, а вторые — стейт-хиддены которые будет использовать следующий рекуррентный шаг.
Архитектурно моделька состоит из двух трансформеров (часть весов зашерена): вертикальный и горизонтальный.
Вертикальный это обычный TransformerDecoder который на вход принимает последовательность тоенов, а в качестве контекста берёт стейт-хидден предыдушего шага. Выдаёт этот трансформер вектора тоенов. Горизонтальный делает наоборот, вход: стейт хидден, контекст: последовательность слов. Кроме этого в нём есть дополнительный гейт аналогичный LSTM.
Дальше больше странностей: заменяют только один слой трансформера на рекуррентный. Конкретно 10 из 12. Всё остальное обычный трансформер.
По результатам: на языковом моделировании обходят TransformerXL, Memorizing Transformer, Compressive Transformer и Routing Transformer.
Выглядит очень забавно. Такой RNN strikes back. Хотелось бы увидеть больше подобных подходов.
🔥12👍7