Одной строкой:
1. NormFormer - новая модификация трансформера, которая позволяет использовать большие LR стабильно обходит трансформер на языковом моделировании (тестировали вплоть до 3B параметров)
1. surgeon-pytorch - библиотека, которая позволяет легко инспектировать различные слои любых моделей pytorch без необходимости ковыраться в исходниках
1. Language Contamination Explains the Cross-lingual Capabilities of English Pretrained Models - в статье утверждают, что частично успех мультиязычности языковых моделей объясняется тем что английские корпуса содержат много неанглийского текста (0.26% в С4, 1.5% в CCNews). Нашли статистически значимую корреляцию между этими цифрами и "мультиязычностью" модели.
1. 🦩 Flamingo - думаю скоро в каждом канале будет обзор этой мультиязычной модели от DeepMind, которая отлично умеет в visual question answering и в диалоги с картинками и всё это с помощью промптинга, zero-shot
1. Advanced Topics in Multimodal ML — новая неделя курса, теперь разбирают Explainability & Interpretability
1. PolyLoss - интересный заход на cross-entropy loss. В него добавляют квадратичные члены (в смысле разложения likelihood в ряд Тейлора) и обучаемый параметр. В задачах CV обходит обычную cross-entropy и focal loss.
1. NormFormer - новая модификация трансформера, которая позволяет использовать большие LR стабильно обходит трансформер на языковом моделировании (тестировали вплоть до 3B параметров)
1. surgeon-pytorch - библиотека, которая позволяет легко инспектировать различные слои любых моделей pytorch без необходимости ковыраться в исходниках
1. Language Contamination Explains the Cross-lingual Capabilities of English Pretrained Models - в статье утверждают, что частично успех мультиязычности языковых моделей объясняется тем что английские корпуса содержат много неанглийского текста (0.26% в С4, 1.5% в CCNews). Нашли статистически значимую корреляцию между этими цифрами и "мультиязычностью" модели.
1. 🦩 Flamingo - думаю скоро в каждом канале будет обзор этой мультиязычной модели от DeepMind, которая отлично умеет в visual question answering и в диалоги с картинками и всё это с помощью промптинга, zero-shot
1. Advanced Topics in Multimodal ML — новая неделя курса, теперь разбирают Explainability & Interpretability
1. PolyLoss - интересный заход на cross-entropy loss. В него добавляют квадратичные члены (в смысле разложения likelihood в ряд Тейлора) и обучаемый параметр. В задачах CV обходит обычную cross-entropy и focal loss.
GitHub
GitHub - archinetai/surgeon-pytorch: A library to inspect and extract intermediate layers of PyTorch models.
A library to inspect and extract intermediate layers of PyTorch models. - archinetai/surgeon-pytorch
❤20👎1
Forwarded from эйай ньюз
🔥Meta AI публикует код и веса языковой модели с 175B параметров, сравнимой с GPT-3
(!) Беспрецедентный случай. Это будет самая большая модель с предобученными весами в публичном доступе.
Мои коллеги из Meta AI скоро зарелизят библиотеку Open OPT, которая включает набор предварительно обученных трансформеров (от 125M до 175B параметров), которые работают сравнимо с GPT-3 на 14 языковых бенчмарках. При этом авторы улучшили эффективность тренировки, что позволило сократить количество требуемых ресурсов. Это всего лишь какие-то 992 видеокарты A100 с 80GB VRAM. Круто, что цикл тренировки OPT-175B оставляет в 7 раз меньше углеродного следа (75 тонн CO2) за время обучения, чем GPT-3 (500 тонн).
В библиотеке будет код со всеми трюками для обучения всех моделей, а также предобученные веса. Правда веса самой большой модели OPT-175B можно будет скачать только по запросу и с research-only лицензией.
❱❱ OPT: Open Pre-trained Transformer Language Models
❱❱❱ Код на GitHub (скоро будет)
(!) Беспрецедентный случай. Это будет самая большая модель с предобученными весами в публичном доступе.
Мои коллеги из Meta AI скоро зарелизят библиотеку Open OPT, которая включает набор предварительно обученных трансформеров (от 125M до 175B параметров), которые работают сравнимо с GPT-3 на 14 языковых бенчмарках. При этом авторы улучшили эффективность тренировки, что позволило сократить количество требуемых ресурсов. Это всего лишь какие-то 992 видеокарты A100 с 80GB VRAM. Круто, что цикл тренировки OPT-175B оставляет в 7 раз меньше углеродного следа (75 тонн CO2) за время обучения, чем GPT-3 (500 тонн).
В библиотеке будет код со всеми трюками для обучения всех моделей, а также предобученные веса. Правда веса самой большой модели OPT-175B можно будет скачать только по запросу и с research-only лицензией.
❱❱ OPT: Open Pre-trained Transformer Language Models
❱❱❱ Код на GitHub (скоро будет)
🔥31👍3
Подробнее о тренировке OPT — огромной языковой модели с 175B параметров от Meta AI
Чем глубже погружаешься в методы тренировки больших моделей, тем больше понимаешь насколько там боли. С одной стороны у тебя может быть 1000 GPU, но как заставить их работать вместе и что делать когда модель начинает расходиться?
Для обучения OPT использовали коктейль из
1. MegatronDeepSpeed — эффективный tensor parallel
1. NVIDIA Apex — mixed precision
1. Fairscale — fully-sharded data parallel и элистичность тренировки, т.е. чтобы когда умирала какая-то GPU вся тренировка не останавливалась
Модель максимально близка к GPT3. Та же максимальная длина в 2048 токенов, тот же токенизатор от GPT2, ReLU. Pre-norm или post-norm в статье на написано, но предполагаю что pre-norm. Использовали обычный fp16 для весов модели, а ADAM был в fp32.
Данные это смесь данных RoBERTa (BookCorpus, Stories, CCNews), часть The Pile, и PushShift.io Reddit. Дедуплицировали документы с помощью Min-hashLSH, сказали что в The Pile очень много дубликатов. В конце-концов получилось 180B токенов.
Самое весёлое: процесс тренировки. Тренировали самую большую модель 2 месяца, её приходилось вручную перезапускать 35 раз. Автоматически она перезапустилась ещё 70. То есть в среднем чаще чем раз в день с тренировкой что-то происходило. При ручном перезапуске делали диагностику hardware и выключали сломанные ноды. Когда лосс начинал резко расти, модель откатывали до последнего чекпоинта и уменьшали LR. Кроме этого в начале тренировки использовали очень маленький gradient clipping в 0.3.
Вот когда я разчувствовался при чтении статьи это на секции где авторы описывают что во время тренировки они пытались менять оптимизатор в ADAMW на SGD (не помогло, вернули обратно), ресетить скейлинг лосса (это когда мы лосс умножаем на некоторое число, чтобы подсчёт градиентов был более численно стабильным, важно для fp16) и даже менять версию Megatron. У кого-то были напряжённые недели.
Кажется 2022 запомнится демократизацией доступа к большим моделям, что может привести к куче ноывых интересных статей как эти модели применять на практике и какие у них есть косяки. Stay tuned.
Чем глубже погружаешься в методы тренировки больших моделей, тем больше понимаешь насколько там боли. С одной стороны у тебя может быть 1000 GPU, но как заставить их работать вместе и что делать когда модель начинает расходиться?
Для обучения OPT использовали коктейль из
1. MegatronDeepSpeed — эффективный tensor parallel
1. NVIDIA Apex — mixed precision
1. Fairscale — fully-sharded data parallel и элистичность тренировки, т.е. чтобы когда умирала какая-то GPU вся тренировка не останавливалась
Модель максимально близка к GPT3. Та же максимальная длина в 2048 токенов, тот же токенизатор от GPT2, ReLU. Pre-norm или post-norm в статье на написано, но предполагаю что pre-norm. Использовали обычный fp16 для весов модели, а ADAM был в fp32.
Данные это смесь данных RoBERTa (BookCorpus, Stories, CCNews), часть The Pile, и PushShift.io Reddit. Дедуплицировали документы с помощью Min-hashLSH, сказали что в The Pile очень много дубликатов. В конце-концов получилось 180B токенов.
Самое весёлое: процесс тренировки. Тренировали самую большую модель 2 месяца, её приходилось вручную перезапускать 35 раз. Автоматически она перезапустилась ещё 70. То есть в среднем чаще чем раз в день с тренировкой что-то происходило. При ручном перезапуске делали диагностику hardware и выключали сломанные ноды. Когда лосс начинал резко расти, модель откатывали до последнего чекпоинта и уменьшали LR. Кроме этого в начале тренировки использовали очень маленький gradient clipping в 0.3.
Вот когда я разчувствовался при чтении статьи это на секции где авторы описывают что во время тренировки они пытались менять оптимизатор в ADAMW на SGD (не помогло, вернули обратно), ресетить скейлинг лосса (это когда мы лосс умножаем на некоторое число, чтобы подсчёт градиентов был более численно стабильным, важно для fp16) и даже менять версию Megatron. У кого-то были напряжённые недели.
Кажется 2022 запомнится демократизацией доступа к большим моделям, что может привести к куче ноывых интересных статей как эти модели применять на практике и какие у них есть косяки. Stay tuned.
👍29🔥9❤2
The Unreliability of Explanations in Few-Shot In-Context Learning
Ye and Durrett
arxiv.org/abs/2205.03401
Тут говорят что chain of thought reasoning, то есть когда ты тренируешь модель предсказывать не только финальный класс но и делать какое-то текстовое рассуждение перед этим, на самом деле не помогает интерпретируемости.
Вернее говоря, то что генерирует модель может не опираться на текст (внезапно, лол) и даже противоречить ему.
Как по мне, наоборот хорошо что когда модель ошибается, можно увидеть где именно в chain of thought произошла ошибка, и в статье говорят что корректность сгенерированных рассуждений хорошо коррелирует с корректностью финального предсказания, так что пока не расходимся.
Ye and Durrett
arxiv.org/abs/2205.03401
Тут говорят что chain of thought reasoning, то есть когда ты тренируешь модель предсказывать не только финальный класс но и делать какое-то текстовое рассуждение перед этим, на самом деле не помогает интерпретируемости.
Вернее говоря, то что генерирует модель может не опираться на текст (внезапно, лол) и даже противоречить ему.
Как по мне, наоборот хорошо что когда модель ошибается, можно увидеть где именно в chain of thought произошла ошибка, и в статье говорят что корректность сгенерированных рассуждений хорошо коррелирует с корректностью финального предсказания, так что пока не расходимся.
👍13🔥1
Внезапно обычным смертным и правда начали раздавать доступ к DALL-E 2. И я даже оказался в их первой тысячи. Поэтому давайте хайпать
1. Reviewer #2 doing its business
1. Falling into a black hole, high-quality physics simulation
1. Colorless green ideas sleep furiously
1. The ritual to create Artificial General Intelligence, a painting in an old book
1. Falling into a black hole, unreal engine, ray tracing
1. Human spacecraft exploring planets around Alpha Centauri
1. То же изображение, но с "pixel art corgi on the planet"
1. Quark-gluon plasma
1. Reviewer #2 doing its business
1. Falling into a black hole, high-quality physics simulation
1. Colorless green ideas sleep furiously
1. The ritual to create Artificial General Intelligence, a painting in an old book
1. Falling into a black hole, unreal engine, ray tracing
1. Human spacecraft exploring planets around Alpha Centauri
1. То же изображение, но с "pixel art corgi on the planet"
1. Quark-gluon plasma
👍51🔥27🥰4
На этой неделе проходит ACL, одна из самых значимых конференций в NLP. Буду собирать интересные статьи/туториалы/штуки и делиться ими тут.
Vision-Language Pretraining: Current Trends and the Future
https://vlp-tutorial-acl2022.github.io
Вчера был день туториалов, суть которых — дать overview состояния области и туториал по Vision-Language прямо топ. Записи пока недоступны, но слайды весьма неплохи.
1. Vision-Language landscape before the Pretraining Era — разбор стандартных задач, датасетов, "классических" нейростевых подходов типа Neural Image Caption [2015]
1. Modern vision-language pretraining — трансформерные архитектуры и способы предобучения VL, от VideoBERT до Flamingo. Завершают на том, что нужны более хорошие сбалансированные тестовые сеты.
1. Beyond statistical learning — рассуждения на тему того, что текущие модели плохо генерализуют out of distribution и неробастны. Предлагают всякие хитрые подходы для решения, но я пожалуй тут буду в команде "Scaling is All We Need".
Vision-Language Pretraining: Current Trends and the Future
https://vlp-tutorial-acl2022.github.io
Вчера был день туториалов, суть которых — дать overview состояния области и туториал по Vision-Language прямо топ. Записи пока недоступны, но слайды весьма неплохи.
1. Vision-Language landscape before the Pretraining Era — разбор стандартных задач, датасетов, "классических" нейростевых подходов типа Neural Image Caption [2015]
1. Modern vision-language pretraining — трансформерные архитектуры и способы предобучения VL, от VideoBERT до Flamingo. Завершают на том, что нужны более хорошие сбалансированные тестовые сеты.
1. Beyond statistical learning — рассуждения на тему того, что текущие модели плохо генерализуют out of distribution и неробастны. Предлагают всякие хитрые подходы для решения, но я пожалуй тут буду в команде "Scaling is All We Need".
🔥27👍9🥰1
Forwarded from исследовано (Katya Artemova)
Хорошая новость для всех, кто интересуется обработкой естественного языка. Исследователи из SberDevices, ABBYY, Yandex Research, Huawei Noah’s Ark Lab и ФКН ВШЭ опубликовали бенчмарк RuCoLA — Russian Corpus of Linguistic Acceptability.
Корпус RuCoLA — это набор предложений на русском языке, которые размечены по бинарной шкале приемлемости. Он пригодится для улучшения методов обнаружения ошибок в естественном языке и оценки сгенерированных текстов.
Открытый лидерборд на данных RuCoLA позволит всем желающим участвовать в развитии методов оценки лингвистической приемлемости. Чтобы принять участие, нужно заполнить короткую форму на сайте rucola-benchmark.com. После этого можно отправить предсказания своей модели и увидеть результаты.
Подробности о RuCoLA читайте в статье на Хабре: https://habr.com/ru/post/667336/
Корпус RuCoLA — это набор предложений на русском языке, которые размечены по бинарной шкале приемлемости. Он пригодится для улучшения методов обнаружения ошибок в естественном языке и оценки сгенерированных текстов.
Открытый лидерборд на данных RuCoLA позволит всем желающим участвовать в развитии методов оценки лингвистической приемлемости. Чтобы принять участие, нужно заполнить короткую форму на сайте rucola-benchmark.com. После этого можно отправить предсказания своей модели и увидеть результаты.
Подробности о RuCoLA читайте в статье на Хабре: https://habr.com/ru/post/667336/
Хабр
Насколько естественен естественный язык? Представляем датасет RuCoLA
В последние годы в области NLP произошла настоящая революция: огромные нейросети, предобученные на сотнях гигабайт текстов, бьют все известные рекорды качества. Но обладают ли такие нейросети чутьём...
👍32🤮6🔥3
Life after BERT: What do Other Muppets Understand about Language?
Lialin, Zhao, et al
arxiv.org/abs/2205.10696
Наша новая статья по анализу моделей 🔎. В NLP много кто забывает, что BERT дичайше устарел и зоопарк предтренированных моделей очень большой. В особенности это заметно в статьях по пробингу, где в лучшем случае можно увидеть 3 семейств моделей в одной статье.
Мы решили что так жить нельзя и запробили 29 предобученных моделей (8 семейств) в zero-shot режиме на простых лингвистических / common sense задачах, таких как сравнение возрастов "26 year old is younger/older than 42 year old", antonym negation "It was not/really a fracture, it was a break", и ещё 7 других. Мы хотели понять как архитектура модели, число параметров, pre-training objective, и размер датасета используемого для предобучения влияет на лингвистические способности модели.
И они не влияют. Мы не смогли найти никакой зависимости между тем какие задачи лучше решают encoder-decoder модели чем encoder-only. Или что LM работает лучше чем MLM или Sentence Restoration на каких-то определённых задачах. Но самое главное: число параметров не коррелирует с метриками ни на одной из наших задач, ни у одного класса моделей (кроме T5). Ладно, бывает. Но может быть важен размер датасета? Потому что если модель видела больше данных, уж точно она будет лучше понимать как работает английский. Нет. Например, наши top-2 модели T5-XL и ALBERT-XXL, и T5 был натренирован на 750Gb текста, а ALBERT на 16Gb.
Дальше только лучше. У T5 есть версия T51.1,. Отличия между моделями небольшие, но T51.1 хуже T5 аж на 15 пунктов. И подобных примеров несколько: RoBERTa одна из самых топовых моделей, но она жутко похожа на BERT (архитектура и objective) и на BART (датасет), при этом она сильно обходит эти две модели.
То есть с одной стороны за последние 3 года мы сильно продвинулись по тому как хорошо модели решают прикладные задачи. Но с другой стороны кажется что это происходит не от того, что модели улучшают своё понимание языка. А наше текущее понимание того, какие модели лучше понимают язык не очень верны и небольшие детали в оптимизации или маскинге могут быть более важны чем архитектура, pre-training objective, датасет и число параметров.
Кто виртуально посещает ACL, приходите завтра на Virsual Poster Session 4 в 21 МСК. Я буду презентовать эту статью в секции Interpretability and Analysis of Models for NLP.
Lialin, Zhao, et al
arxiv.org/abs/2205.10696
Наша новая статья по анализу моделей 🔎. В NLP много кто забывает, что BERT дичайше устарел и зоопарк предтренированных моделей очень большой. В особенности это заметно в статьях по пробингу, где в лучшем случае можно увидеть 3 семейств моделей в одной статье.
Мы решили что так жить нельзя и запробили 29 предобученных моделей (8 семейств) в zero-shot режиме на простых лингвистических / common sense задачах, таких как сравнение возрастов "26 year old is younger/older than 42 year old", antonym negation "It was not/really a fracture, it was a break", и ещё 7 других. Мы хотели понять как архитектура модели, число параметров, pre-training objective, и размер датасета используемого для предобучения влияет на лингвистические способности модели.
И они не влияют. Мы не смогли найти никакой зависимости между тем какие задачи лучше решают encoder-decoder модели чем encoder-only. Или что LM работает лучше чем MLM или Sentence Restoration на каких-то определённых задачах. Но самое главное: число параметров не коррелирует с метриками ни на одной из наших задач, ни у одного класса моделей (кроме T5). Ладно, бывает. Но может быть важен размер датасета? Потому что если модель видела больше данных, уж точно она будет лучше понимать как работает английский. Нет. Например, наши top-2 модели T5-XL и ALBERT-XXL, и T5 был натренирован на 750Gb текста, а ALBERT на 16Gb.
Дальше только лучше. У T5 есть версия T51.1,. Отличия между моделями небольшие, но T51.1 хуже T5 аж на 15 пунктов. И подобных примеров несколько: RoBERTa одна из самых топовых моделей, но она жутко похожа на BERT (архитектура и objective) и на BART (датасет), при этом она сильно обходит эти две модели.
То есть с одной стороны за последние 3 года мы сильно продвинулись по тому как хорошо модели решают прикладные задачи. Но с другой стороны кажется что это происходит не от того, что модели улучшают своё понимание языка. А наше текущее понимание того, какие модели лучше понимают язык не очень верны и небольшие детали в оптимизации или маскинге могут быть более важны чем архитектура, pre-training objective, датасет и число параметров.
Кто виртуально посещает ACL, приходите завтра на Virsual Poster Session 4 в 21 МСК. Я буду презентовать эту статью в секции Interpretability and Analysis of Models for NLP.
👏52👍12🔥11😢1
Для тех кто не может прийти на ACL, также будем обсуждать Life After BERT на Munich NLP. Присоединяйтесь к дискорду, в пятницу 18 МСК будет презентация.
Discord
Discord - A New Way to Chat with Friends & Communities
Discord is the easiest way to communicate over voice, video, and text. Chat, hang out, and stay close with your friends and communities.
❤11