Forwarded from TechSparks
Инженеры Meta рассказали в блоге компании о AI Research SuperCluster (RSC) — суперкомпьютере для обучения моделей в областях, связываемых с ИИ: работа с естественным языком, распознавание речи и компьютерное зрение.
Вычислительный кластер содержит 760 NVIDIA DGX A100 в качестве вычислительных узлов (6,080 GPU) — с сетевой инфраструктурой на основе NVIDIA Quantum 200 Gb/s InfiniBand. Емкость накопителя — 175 петабайт на Pure Storage FlashArray, кэш — 46 петабайт в Penguin Computing Altus systems. Утверждается, что когда кластер к середине года доведут до полной комплектации и мощности, он станет самым могучим в мире суперкомпьютером для задач в области ИИ.
И, конечно же, заявлено, что этот монстр — начало дороги к построению метавселенной, the next major computing platform — the metaverse, where AI-driven applications and products will play an important role.
https://ai.facebook.com/blog/ai-rsc
Вычислительный кластер содержит 760 NVIDIA DGX A100 в качестве вычислительных узлов (6,080 GPU) — с сетевой инфраструктурой на основе NVIDIA Quantum 200 Gb/s InfiniBand. Емкость накопителя — 175 петабайт на Pure Storage FlashArray, кэш — 46 петабайт в Penguin Computing Altus systems. Утверждается, что когда кластер к середине года доведут до полной комплектации и мощности, он станет самым могучим в мире суперкомпьютером для задач в области ИИ.
И, конечно же, заявлено, что этот монстр — начало дороги к построению метавселенной, the next major computing platform — the metaverse, where AI-driven applications and products will play an important role.
https://ai.facebook.com/blog/ai-rsc
Meta
Introducing the AI Research SuperCluster — Meta’s cutting-edge AI supercomputer for AI research
👍4🔥3
Давно не было подборки новостей и интересных блогпостов
1. Text and Code Embeddings in the OpenAI API — теперь можно доставать эмбеддинги текстов через OpenAI API. Эти эмбеддинги сильно обходят SentenceBERT, GPT-3, хорошо работают в нестандартных доменах, например астрономии и вообще взяли кучу SOTA. Подробнее в статье Text and Code Embeddings by Contrastive Pre-Training, сделаем её обзор в ближайшие дни.
1. ε, A Nuisance No More — пост о том, что eps нужен не только для устранения численых ошибок. Например в ADAM высокие eps делают оптимизатор чуть-чуть больше похожим на SGD, что может быть полезно, когда моменты плохо описывают поверхность лосса. В BatchNorm/LayerNorm высокие eps выполняют роль сглаживания компонент вектора. На практике иногда такие высокие значения eps как 1e-3 или даже 1e-1 могут сильно помогать оптимизации и зачастую тюнинг eps полезен.
1. On the Difficulty of Extrapolation with NN Scaling — мы все слышали про scaling laws, однако на практике мало кто умеет их готовить. Просто от увеличения модели в 2 раза, вы можете не получить ожидаемого улучшения качества, тк scaling laws вообще говоря требуют адаптации batch size, lr, других гиперпараметров и в общем случае, размера датасета. Блогпост обсуждает случаи, когда люди слишком сильно надеятся на scaling laws и забывают про эти важные детали.
1. Text and Code Embeddings in the OpenAI API — теперь можно доставать эмбеддинги текстов через OpenAI API. Эти эмбеддинги сильно обходят SentenceBERT, GPT-3, хорошо работают в нестандартных доменах, например астрономии и вообще взяли кучу SOTA. Подробнее в статье Text and Code Embeddings by Contrastive Pre-Training, сделаем её обзор в ближайшие дни.
1. ε, A Nuisance No More — пост о том, что eps нужен не только для устранения численых ошибок. Например в ADAM высокие eps делают оптимизатор чуть-чуть больше похожим на SGD, что может быть полезно, когда моменты плохо описывают поверхность лосса. В BatchNorm/LayerNorm высокие eps выполняют роль сглаживания компонент вектора. На практике иногда такие высокие значения eps как 1e-3 или даже 1e-1 могут сильно помогать оптимизации и зачастую тюнинг eps полезен.
1. On the Difficulty of Extrapolation with NN Scaling — мы все слышали про scaling laws, однако на практике мало кто умеет их готовить. Просто от увеличения модели в 2 раза, вы можете не получить ожидаемого улучшения качества, тк scaling laws вообще говоря требуют адаптации batch size, lr, других гиперпараметров и в общем случае, размера датасета. Блогпост обсуждает случаи, когда люди слишком сильно надеятся на scaling laws и забывают про эти важные детали.
Openai
Introducing text and code embeddings
We are introducing embeddings, a new endpoint in the OpenAI API that makes it easy to perform natural language and code tasks like semantic search, clustering, topic modeling, and classification.
👍10🔥4🤮1
🤗Transformers обновились до версии 4.16 и там есть пара интересных вещей
1. REALM — предобученная моделька, которая хорошо тюнится на ODQA-like задачи, мы её обозревали аж в сентябре 2020
1. Nyströmformer — ещё один в копилку длинных трансформеров
1. ViLT — мультимодальный трансформер, которому не требуется отдельный fasterRCNN backbone, что сильно упрощает работу с ним. Если у вас есть V+L задачи, советую взять как бейзлайн.
1. Добавили несколько CV моделей: SwinTransformer, ViTMAE
1. Speech Seq2Seq Training script
1. Large audio chunking for the existing ASR pipeline
1. REALM — предобученная моделька, которая хорошо тюнится на ODQA-like задачи, мы её обозревали аж в сентябре 2020
1. Nyströmformer — ещё один в копилку длинных трансформеров
1. ViLT — мультимодальный трансформер, которому не требуется отдельный fasterRCNN backbone, что сильно упрощает работу с ним. Если у вас есть V+L задачи, советую взять как бейзлайн.
1. Добавили несколько CV моделей: SwinTransformer, ViTMAE
1. Speech Seq2Seq Training script
1. Large audio chunking for the existing ASR pipeline
GitHub
Release v4.16.0 · huggingface/transformers
What's Changed
New models
Nyströmformer
The Nyströmformer model was proposed in Nyströmformer: A Nyström-Based Algorithm for Approximating Self-Attention by Yunyang Xiong, Zhanpeng Zeng, Rudras...
New models
Nyströmformer
The Nyströmformer model was proposed in Nyströmformer: A Nyström-Based Algorithm for Approximating Self-Attention by Yunyang Xiong, Zhanpeng Zeng, Rudras...
👍14🔥7
Forwarded from (sci)Berloga Всех Наук и Технологий
🚀 @SBERLOGABIG online seminar on machine learning:
👨🔬 Vlad Lialin «Современные модели с памятью. Начало новой парадигмы? »
⌚️ Четверг 3 февраля, 18.00 по Москве
О докладчике: Влад - автор одного из лучших каналов в телеграмме по Natural Language Processing - "DL in NLP" (@dlinnlp) - подписывайтесь !
В 2019 GPT-2 изменил NLP навсегда. Впервые подход "больше данных, больше слоёв" начал работать для языка. 2020 принёс GPT-3, который поражал нас своими размерами ещё больше. Постепенно гигантские модели стали практически повседневными - у каждой большой компании есть одна или две - но тренировать их становится всё сложнее.
Всего несколько месяцев назад DeepMind выпустил модель RETRO. Её особенность заключается в том, что несмотря на небольшой по современным меркам размер (7B), она обходит GPT-3 (175B) и Gopher (280B) на большом числе задач. Каким образом? Кроме информации заключенной в параметрах нейросети, RETRO обращается к огромному текстовому корпусу в котором ищет похожие тексты. Эти похожие тексты подаются в языковую модель вместе с обычным входом, который языковая модель должна продолжить. Таким образом RETRO может "подсмотреть" какую-то информацию которую никогда не видела или не запомнила из этой внешней базы данных.
На встрече мы разберём предшествовавшие модели, такие как KNN-LM, подробно разберём саму RETRO и как она работает и пофантазируем как такой подход может потенциально изменить NLP в 2022.
Ссылка на зум будет доступна в этом канале: https://t.iss.one/sberlogabig ближе к началу доклада.
Подписывайтесь на канал https://t.iss.one/sberlogabig ! Интересные материалы и увлекательные доклады.👍
👨🔬 Vlad Lialin «Современные модели с памятью. Начало новой парадигмы? »
⌚️ Четверг 3 февраля, 18.00 по Москве
О докладчике: Влад - автор одного из лучших каналов в телеграмме по Natural Language Processing - "DL in NLP" (@dlinnlp) - подписывайтесь !
В 2019 GPT-2 изменил NLP навсегда. Впервые подход "больше данных, больше слоёв" начал работать для языка. 2020 принёс GPT-3, который поражал нас своими размерами ещё больше. Постепенно гигантские модели стали практически повседневными - у каждой большой компании есть одна или две - но тренировать их становится всё сложнее.
Всего несколько месяцев назад DeepMind выпустил модель RETRO. Её особенность заключается в том, что несмотря на небольшой по современным меркам размер (7B), она обходит GPT-3 (175B) и Gopher (280B) на большом числе задач. Каким образом? Кроме информации заключенной в параметрах нейросети, RETRO обращается к огромному текстовому корпусу в котором ищет похожие тексты. Эти похожие тексты подаются в языковую модель вместе с обычным входом, который языковая модель должна продолжить. Таким образом RETRO может "подсмотреть" какую-то информацию которую никогда не видела или не запомнила из этой внешней базы данных.
На встрече мы разберём предшествовавшие модели, такие как KNN-LM, подробно разберём саму RETRO и как она работает и пофантазируем как такой подход может потенциально изменить NLP в 2022.
Ссылка на зум будет доступна в этом канале: https://t.iss.one/sberlogabig ближе к началу доклада.
Подписывайтесь на канал https://t.iss.one/sberlogabig ! Интересные материалы и увлекательные доклады.👍
👍18🔥3
DeepMind выпустил AlphaCode, который прогает лучше половины твоих знакомых.
Во многом похож на Codex, но есть отличия.
Основной подход:
1. Encoder-decoder, 41B параметров
1. Декодер обучается предсказывать следующее слово, а энкодер делает MLM. Всё end2end.
1. Заскрапили датасет задачек с Codeforces и зафайнтюнили на нём модель
1. Во время тестирования семплили очень большое количество решений (до миллиона) и потом выбирали из них с помощью кластеризации, эвристик и, самое главное, проходят ли они открытые тесты которые приложены к задачке. Сабмитили на финальную проверку только топ-10.
По результатам: AlphaCode решает задачки лучше, чем 54% пользовалетей Codeforces (не очень альфа пока что, но стремится туда).
Небольшие технические отличия от Codex:
1. Максимальная длина для энкодера 1536, для декодера 768
1. Использовали Multi-query attention, модификацию attention, которая использует одни и те же K и V для разныех голов – позволило улучшить потребление памяти и скорость декодирования
1. Очень маленький словарь токенизатора, 8К.
1. Во время файтнюнинга использовали температуру 0.2, которая делает распределение более острым. При тесте температура не использовалась, назвали это tempering.
1. Файнтюнились и на правильных и на неправильных решениях, при этом моделе заранее сообщается сигнал корректное ли это решения.
1. Для файнтюнинга использовали лосс, который называется GOLD. По сути это взвешенная кросс-энтропия, несмотря на то, что выглядит как RL.
Вот тут можно посмотреть на визуализацию attention, а ещё есть популярно написанный блогпост
Во многом похож на Codex, но есть отличия.
Основной подход:
1. Encoder-decoder, 41B параметров
1. Декодер обучается предсказывать следующее слово, а энкодер делает MLM. Всё end2end.
1. Заскрапили датасет задачек с Codeforces и зафайнтюнили на нём модель
1. Во время тестирования семплили очень большое количество решений (до миллиона) и потом выбирали из них с помощью кластеризации, эвристик и, самое главное, проходят ли они открытые тесты которые приложены к задачке. Сабмитили на финальную проверку только топ-10.
По результатам: AlphaCode решает задачки лучше, чем 54% пользовалетей Codeforces (не очень альфа пока что, но стремится туда).
Небольшие технические отличия от Codex:
1. Максимальная длина для энкодера 1536, для декодера 768
1. Использовали Multi-query attention, модификацию attention, которая использует одни и те же K и V для разныех голов – позволило улучшить потребление памяти и скорость декодирования
1. Очень маленький словарь токенизатора, 8К.
1. Во время файтнюнинга использовали температуру 0.2, которая делает распределение более острым. При тесте температура не использовалась, назвали это tempering.
1. Файнтюнились и на правильных и на неправильных решениях, при этом моделе заранее сообщается сигнал корректное ли это решения.
1. Для файнтюнинга использовали лосс, который называется GOLD. По сути это взвешенная кросс-энтропия, несмотря на то, что выглядит как RL.
Вот тут можно посмотреть на визуализацию attention, а ещё есть популярно написанный блогпост
🔥21🤔8👍6😢5
Forwarded from Мишин Лернинг 🇺🇦🇮🇱
🎓🔥 OpenAI обучили нейросеть для решения задач олимпиадой математики, способную доказывать теоремы
OpenAI создали нейронный прувер теорем, который научился решать множество сложных задач олимпиадой математики, включая задачи соревнований AMC12 и AIME.
Это языковая модель для построения формальных доказательств и утверждений. Формально — GPT-3 с 774M обучаемыми параметрами (36тислойный трансформер).
Обучение происходит по методологии expert iteration: каждый раз, когда находится новое доказательство, оно поступает в датесет новых данных для обучения, что улучшает нейронную сеть и позволяет ей итеративно находить решения для все более и более сложных задач.
📑 paper 📝 blog post
OpenAI создали нейронный прувер теорем, который научился решать множество сложных задач олимпиадой математики, включая задачи соревнований AMC12 и AIME.
Это языковая модель для построения формальных доказательств и утверждений. Формально — GPT-3 с 774M обучаемыми параметрами (36тислойный трансформер).
Обучение происходит по методологии expert iteration: каждый раз, когда находится новое доказательство, оно поступает в датесет новых данных для обучения, что улучшает нейронную сеть и позволяет ей итеративно находить решения для все более и более сложных задач.
📑 paper 📝 blog post
🤯45👍12❤4
Вслед за GitHub сегодня упал 🤗 Hub и вот это по-настоящему больно.
😢21
Forwarded from Irina Nikishina
Приглашаем всех принять участие в соревновании Dialogue Evaluation RuArg-2022 на конференции "Диалог".
Мы сформулировали три утверждения, касающиеся пандемии COVID-19 (и в целом противоэпидемических мер):
«Вакцинация полезна для общества».
«Введение и соблюдение карантина полезно для общества».
«Ношение масок полезно для общества».
Соревнование по анализу аргументации включает в себя 2 задачи:
* Определение позиции автора текста (Stance Detection) по отношению к заданному утверждению.
* Классификация доводов (Premise Classification): требуется распознать, содержит ли текст доводы «за» или «против» относительно заданного утверждения на тему борьбы с COVID.
Из социальных сетей была собрана коллекция предложений – комментариев к постам из социальных медиа. В этих предложениях могут содержаться как высказывания, определяющие авторскую позицию относительно заданных утверждений, так и высказывания с доводами «за»/«против» этих утверждений.
Каждое предложение было размечено по позиции и по доводам для всех трех утверждений. Таким образом, каждое предложение имеет шесть меток.
Использовались следующие классы (метки):
* «за»;
* «против»;
* «прочее» (для позиции эта метка объединяет метки «нейтрально», «непонятно» или «и за, и против») / «нет аргумента» (для довода);
* «нерелевантно» (для данного утверждения)
Задача участников - произвести анализ аргументации путем классификации каждого высказывания.
Подробности можно прочитать в репозитории
Официальная страничка на "Диалоге"
Телеграм-чат соревнования
Codalab
Мы сформулировали три утверждения, касающиеся пандемии COVID-19 (и в целом противоэпидемических мер):
«Вакцинация полезна для общества».
«Введение и соблюдение карантина полезно для общества».
«Ношение масок полезно для общества».
Соревнование по анализу аргументации включает в себя 2 задачи:
* Определение позиции автора текста (Stance Detection) по отношению к заданному утверждению.
* Классификация доводов (Premise Classification): требуется распознать, содержит ли текст доводы «за» или «против» относительно заданного утверждения на тему борьбы с COVID.
Из социальных сетей была собрана коллекция предложений – комментариев к постам из социальных медиа. В этих предложениях могут содержаться как высказывания, определяющие авторскую позицию относительно заданных утверждений, так и высказывания с доводами «за»/«против» этих утверждений.
Каждое предложение было размечено по позиции и по доводам для всех трех утверждений. Таким образом, каждое предложение имеет шесть меток.
Использовались следующие классы (метки):
* «за»;
* «против»;
* «прочее» (для позиции эта метка объединяет метки «нейтрально», «непонятно» или «и за, и против») / «нет аргумента» (для довода);
* «нерелевантно» (для данного утверждения)
Задача участников - произвести анализ аргументации путем классификации каждого высказывания.
Подробности можно прочитать в репозитории
Официальная страничка на "Диалоге"
Телеграм-чат соревнования
Codalab
GitHub
GitHub - dialogue-evaluation/RuArg
Contribute to dialogue-evaluation/RuArg development by creating an account on GitHub.
👍10👎1
Forwarded from partially unsupervised
Недавно перезапустился широко известный в узких кругах Open ML Course, и, как человек, приложивший руку к его первой версии, я не могу об этом умолчать.
Первая версия курса (2017 год!) представляла из себя десяток лонгридов на Хабре, написанных разными людьми, и peer reviewed домашние задания к каждому из них. Ваш покорный слуга, например, писал главу про feature engineering и убил на нее часов сорок, если память не изменяет. Иронично, что в прошлом посте я как раз высказывал пророчества о том, что роль feature engineering угасает и продолжит угасать. С тех пор курс эволюционировал, были оффлайн лекции, переводы на английский, французский и китайский, публикации на альтернативных платформах (например, у англоязычной версии моей главы только на Медиуме было почти 50к просмотров) и многое другое - я особо не следил. В последний раз курс косвенно напомнил о себе, когда из-за этой старой статьи ко мне обратилось издательство Manning и попросило поревьювить соответствующий черновик одной из их книг.
Юра Кашницкий, который тащил это все с самого начала, ожидаемо наконец-то устал, и передал русскую версию Пете Ермакову, который уже давно тяготел больше к преподаванию, чем датасайнсу своими руками. Сейчас Петя пытается вдохнуть в него новую жизнь.
У меня неоднозначное отношение к курсу: по состоянию на 2022 его едва ли можно назвать исчерпывающим, и просто стряхнуть пыль может оказаться недостаточно. Тем не менее, для поверхностного понимания data science и machine learning он может пригодиться. Учитывая его бесплатность, я бы посоветовал рассмотреть его всем, кто собирался занести денег за аналогичные курсы в какую-нибудь недешевую школу для "вайтишников".
Первая версия курса (2017 год!) представляла из себя десяток лонгридов на Хабре, написанных разными людьми, и peer reviewed домашние задания к каждому из них. Ваш покорный слуга, например, писал главу про feature engineering и убил на нее часов сорок, если память не изменяет. Иронично, что в прошлом посте я как раз высказывал пророчества о том, что роль feature engineering угасает и продолжит угасать. С тех пор курс эволюционировал, были оффлайн лекции, переводы на английский, французский и китайский, публикации на альтернативных платформах (например, у англоязычной версии моей главы только на Медиуме было почти 50к просмотров) и многое другое - я особо не следил. В последний раз курс косвенно напомнил о себе, когда из-за этой старой статьи ко мне обратилось издательство Manning и попросило поревьювить соответствующий черновик одной из их книг.
Юра Кашницкий, который тащил это все с самого начала, ожидаемо наконец-то устал, и передал русскую версию Пете Ермакову, который уже давно тяготел больше к преподаванию, чем датасайнсу своими руками. Сейчас Петя пытается вдохнуть в него новую жизнь.
У меня неоднозначное отношение к курсу: по состоянию на 2022 его едва ли можно назвать исчерпывающим, и просто стряхнуть пыль может оказаться недостаточно. Тем не менее, для поверхностного понимания data science и machine learning он может пригодиться. Учитывая его бесплатность, я бы посоветовал рассмотреть его всем, кто собирался занести денег за аналогичные курсы в какую-нибудь недешевую школу для "вайтишников".
👍25😁1
Насколько я знаю это самая большая языковая модель с публично доступными весами.
Что немного пугает это что на одной GPU такое уже не погоняешь. Облако само то чтобы поиграться.
Что немного пугает это что на одной GPU такое уже не погоняешь. Облако само то чтобы поиграться.
👍2
Forwarded from Love. Death. Transformers.
Оп, 20б модель от euther ai можно тыкать
https://goose.ai/playground
https://goose.ai/playground
GooseAI
GooseAI - Stop overpaying for your AI infrastructure.
Fully managed NLP-as-a-Service delivered via API, at 30% the cost. It's time to migrate.
Forwarded from AI для Всех
В твиттере уже неделю происходит прекраснейшая грызня между OpenAI и Meta.
Илья Сатскевер (head of AI in OpenAI) написал, что большие языковые модели возможно обладают зачатками сознания. На что Ян ЛеКан из Meta (exFacebook) заявил, что все это чушь. И вообще, раз компания говорит такие вещи - значит это плохие исследователи. В перепалку вписался Сэм Альтман (CEO OpenAI) и сказал, что собственно в таком подходе к делу видимо и кроется провал исследоватеской работы Meta. И предложил исследователем из Meta переходить к нему на работу. Теперь к делу подключились и другие CEO.
Короче запасайтесь попкорном 🍿: https://twitter.com/jefrankle/status/1493021453473792000?s=21
Илья Сатскевер (head of AI in OpenAI) написал, что большие языковые модели возможно обладают зачатками сознания. На что Ян ЛеКан из Meta (exFacebook) заявил, что все это чушь. И вообще, раз компания говорит такие вещи - значит это плохие исследователи. В перепалку вписался Сэм Альтман (CEO OpenAI) и сказал, что собственно в таком подходе к делу видимо и кроется провал исследоватеской работы Meta. И предложил исследователем из Meta переходить к нему на работу. Теперь к делу подключились и другие CEO.
Короче запасайтесь попкорном 🍿: https://twitter.com/jefrankle/status/1493021453473792000?s=21
Twitter
Jonathan Frankle
What bullshit. Dear OpenAI researchers: My email address is [email protected]. We are hiring! We have healthy culture and no elitism, egos, or divas. twitter.com/sama/status/14…
🔥27👍2😁2👎1
Последние две недели готовлю очень крутую штуку, надеюсь зарелизить её на следующей неделе. А пока что быстрая подборка новостей:
1. Потрясающий блогпост об истории PyTorch и тому, как он превратился из рисёчерского инструмента в один из главных DL фреймворков
1. XGLM — большие многоязычные языковые модели от Meta AI теперь доступны в 🤗 Hub и Spaces
1. Обзорная статья Compute Trends Across Three Eras of Machine Learning, красивые картинки прилагаются
1. Маскирование 15% токенов в MLM это дурацкий стандарт и если маскировать 40% можно обучаться быстрее и лучше
1. Новый long-form QA датасет, где ответ — это целый текст, а не пара слов. Приемник ELI5
1. Довольно упоротая идея обучать нейросети контролировать компьютер с помощью мыши и клавиатуры
1. Наверное ещё более упоротая идея тренировать нейросети с помощью глобальной сети компьютеров распределённой по всему миру.
1. OSLO — открытый фреймворк нацеленный на large-scale pre-training.
1. Diffrax — фреймворк для численного решения диффуров на Jax.
1. Recent Trends in ML — воркшоп по теоретическому DL
1. Потрясающий блогпост об истории PyTorch и тому, как он превратился из рисёчерского инструмента в один из главных DL фреймворков
1. XGLM — большие многоязычные языковые модели от Meta AI теперь доступны в 🤗 Hub и Spaces
1. Обзорная статья Compute Trends Across Three Eras of Machine Learning, красивые картинки прилагаются
1. Маскирование 15% токенов в MLM это дурацкий стандарт и если маскировать 40% можно обучаться быстрее и лучше
1. Новый long-form QA датасет, где ответ — это целый текст, а не пара слов. Приемник ELI5
1. Довольно упоротая идея обучать нейросети контролировать компьютер с помощью мыши и клавиатуры
1. Наверное ещё более упоротая идея тренировать нейросети с помощью глобальной сети компьютеров распределённой по всему миру.
1. OSLO — открытый фреймворк нацеленный на large-scale pre-training.
1. Diffrax — фреймворк для численного решения диффуров на Jax.
1. Recent Trends in ML — воркшоп по теоретическому DL
soumith.ch
Decisions and Pivots | Soumith Chintala
a tweet-thread at the 5-year mark
🔥16👍6
Deduplicating Training Data Mitigates Privacy Risks in Language Models
Kandpal, Wallace, and Raffel
arxiv.org/abs/2202.06539
Языковые модели склонны запоминать тренировочные данные, что позволяет экстрактить эти данные из моделей без доступа к датасету. В этой статье авторы постарались понять взаимосвязь между дупликацией данных в датасете и вероятностью получить эти данные из модели. Главные результаты:
1. Повторение данных сильно увеличивает вероятность их генерации
1. Например повторение одного примера 10 раз может увеличить вероятность его генерации в 10 тысяч раз
1. Большие модели запоминают больше
1. Существующие методы экстрации данных работают очень хорошо (AUC > 0.7) для примеров которые повторили больше 50 раз
1. При этом если пример повторён меньше 5 раз, эти методы работают на уровне случайного классификатора
Довольно интуитивный и очевидный результат, если бы не расхайпованные статьи о том, что языковые модели могут запомнить даже пример, который они видели один раз.
Kandpal, Wallace, and Raffel
arxiv.org/abs/2202.06539
Языковые модели склонны запоминать тренировочные данные, что позволяет экстрактить эти данные из моделей без доступа к датасету. В этой статье авторы постарались понять взаимосвязь между дупликацией данных в датасете и вероятностью получить эти данные из модели. Главные результаты:
1. Повторение данных сильно увеличивает вероятность их генерации
1. Например повторение одного примера 10 раз может увеличить вероятность его генерации в 10 тысяч раз
1. Большие модели запоминают больше
1. Существующие методы экстрации данных работают очень хорошо (AUC > 0.7) для примеров которые повторили больше 50 раз
1. При этом если пример повторён меньше 5 раз, эти методы работают на уровне случайного классификатора
Довольно интуитивный и очевидный результат, если бы не расхайпованные статьи о том, что языковые модели могут запомнить даже пример, который они видели один раз.
👍14
Forwarded from AI для Всех
Ускорители для AI (GPU, TPU, IPU)
В 📓серии из 5 постов Adi Fuchs рассказывает все, что только можно об ускорителях - как они работают, чем отличаются и зачем нужны.
А если читать вам нравится меньше, чем смотреть - то есть 🎥 видео версия/пересказ на канале у Яника.
#hardware #gpu #tpu #ipu
В 📓серии из 5 постов Adi Fuchs рассказывает все, что только можно об ускорителях - как они работают, чем отличаются и зачем нужны.
А если читать вам нравится меньше, чем смотреть - то есть 🎥 видео версия/пересказ на канале у Яника.
#hardware #gpu #tpu #ipu
👍4
DeepNet: Scaling Transformers to 1,000 Layers
Wang et al. [Microsoft]
arxiv.org/abs/2203.00555
Недавно вёл лекцию по нейросетям и вспомнил что когда-то мы в DL очень беспокоились о глубине сетей, а не только о количестве параметров (да и само слово deep в DL как бы на это намекает).
В новой статье от Microsoft предлагают новый способ инициализации трансформеров и модификацию LayerNorm которая позволяет тренировать модели глубины в 1000 слоёв. Для этого уменьшают range инициализации в
Нормализаци модифицируют следующим образом: если раньше мы делали
По результатам: более стабильная тренировка, даже при небольшом числе слоёв, самое интересное что трансформер из 1000 слоёв и 3.B параметров показывает себя лучше на мультиязычном машинном переводе чем трансформер из 48 слоёв 12B параметров (+2 BLEU) что немного идёт в разрез с scaling laws for neural machine translation которые только зависят от числа параметров и соотношения параметров в энкодере и декодере.
Wang et al. [Microsoft]
arxiv.org/abs/2203.00555
Недавно вёл лекцию по нейросетям и вспомнил что когда-то мы в DL очень беспокоились о глубине сетей, а не только о количестве параметров (да и само слово deep в DL как бы на это намекает).
В новой статье от Microsoft предлагают новый способ инициализации трансформеров и модификацию LayerNorm которая позволяет тренировать модели глубины в 1000 слоёв. Для этого уменьшают range инициализации в
(8N)^(-1/4)
раз для слоёв ffn, v_proj и out_proj, где N — это число слоёв в энкодере. Конкретная формула для этого параметра зависит от того используете ли вы encoder-only или seq2seq модель.Нормализаци модифицируют следующим образом: если раньше мы делали
LayerNorm(x + f(x))
, где f - это предыдущий слой, теперь добавляется дополнительная константа альфа LayerNorm(alpha * x + f(x))
, которая для энкодеров равна (2N)^(1/4)
.По результатам: более стабильная тренировка, даже при небольшом числе слоёв, самое интересное что трансформер из 1000 слоёв и 3.B параметров показывает себя лучше на мультиязычном машинном переводе чем трансформер из 48 слоёв 12B параметров (+2 BLEU) что немного идёт в разрез с scaling laws for neural machine translation которые только зависят от числа параметров и соотношения параметров в энкодере и декодере.
Telegram
DL in NLP
Scaling Laws for Neural Machine Translation
Ghorbani et al. [Google]
arxiv.org/abs/2109.07740
Всегда интересно читать про "scaling laws" — забавно видеть что stack more layers работает. Оказывается, он работает и в машинном переводе. Но есть нюанс.
Для…
Ghorbani et al. [Google]
arxiv.org/abs/2109.07740
Всегда интересно читать про "scaling laws" — забавно видеть что stack more layers работает. Оказывается, он работает и в машинном переводе. Но есть нюанс.
Для…
👍7
Forwarded from Vlad Lialin
Я не высказывался на тему текущей войны, но может быть стоит. Я думаю что то, что происходит - это ужасно, бесчеловечно и не приследует ничьих интересов кроме отдельных людей. За новостями о происходящем надо следить и полезно думать, какие действия каждый из нас может сделать, чтобы хотя бы чуть-чуть помочь остановить это безумие. Однако мне кажется что что сейчас важно иметь места которые позволяют уменьшить количество думскроллинга, которого сейчас явно очень много и поэтому постараюсь вернуться к регулярным постам в DL in NLP.
Наш чат не очень живой последнее время, но всё равно попрошу не обсуждать тут войну и политику. Для этого есть более подходящие места.
Как всегда буду рад тут отвечать на вопросы по статьям и NLP вообще если они кого-то интересуют.
Нет войне
Наш чат не очень живой последнее время, но всё равно попрошу не обсуждать тут войну и политику. Для этого есть более подходящие места.
Как всегда буду рад тут отвечать на вопросы по статьям и NLP вообще если они кого-то интересуют.
Нет войне
👍124💩13