DL in NLP

Хакатон от металлургической компании EVRAZ

Судя по описанию, задачи на таблички и на CV, выглядит неплохо.

vk.com/phystech.genesis?w=wall-171174178_674

Phystech.Genesis

⚡29-31 октября пройдет онлайн-хакатон EVRAZ AI Challenge от международной горно-металлургической компании EVRAZ

🔥 Узнайте на хакатоне, чем айтишники занимаются в промышленности, а также ...

1⃣ Продуйте металл через Data Science;
2⃣ Разработайте компьютерное…

2.69K viewsnlpcontroller_bot, edited 14:11

👍 3

DL in NLP

Внезапно сегодня увидел BERT в Top Hype на arxiv-sanity. Оказывается сегодня BERT исполняется 3 года. Удивительно насколько сильно NLP изменился за это время – и в смысле общего подхода, и (в особенности) в тех тулзах, что мы используем.

Нашёл нашу самую первую лекцию по BERT из Декабря 2018. Стало интересно насколько она отражает текущую действительность. Оказалось, что не очень, так как финальным советом было "используйте ULMfit для классификации, ELMo для остальных задач и ждите пока появится что-то что тренируется быстрее BERT и потребляет меньше памяти" 😂 .

Рекомендовать лекцию к просмотру не могу, так как качество записи весьма отвратительное, но вдруг кому-то будет интересно в историческом контексте.

https://youtu.be/Ha3flDwGj8s?t=477

А что я рекомендую уже получается около 3 лет, это почитать Illustrated Transformer и Illustrated BERT от Jay Allamar. Вспомнить детали того, как работает архитектура бывает полезно.

YouTube

DL in NLP seminar 10. 2018 is the Year of Transfer Learning in NLP. Part 2

2.97K viewsnlpcontroller_bot, edited 18:06

👍 29

DL in NLP

Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers
Tay et al. [Google]
arxiv.org/abs/2109.10686

Scaling Laws не работают на downstream-задачах 😑

Авторы решили проверить заявление Scaling Laws о том, что качество модели растёт от чила параметров и слабо зависит от того как именно мы его увеличили (в разумных пределах). В результате авторы натренировали кучу моделей Т5 и увидели, что a) перплексия и правда слабо зависит от этого (странно в контексте статьи про Scaling Laws for Neural Machine Translation, которую мы обозревали недавно); b) downstream-задачи не следуют power law от числа параметров и там всё хитрее.

В результате предлагают более эффективные трансформеры. Под эффективностью понимают число FLOPS для их тренировки. В результате приходят к довольно популярному выводу, что скейлить глубину выгоднее, чем скейлить ширину, но до определённого предела (~36 слоёв). Вместо Base(12L, 768H, 3072FF) предлагают Small(22L, 512H, 2048FF), который требует 9.3TFlops для тренировки против 11 и даёт то же качество. Проблема глубоких моделей в том, что инферить их обычно чуть-чуть дольше, тк слои нелья параллелить.

Эти новые шейпы моделей выглядят интересно, но не кажется что буст достаточно заметный, чтобы все начали ими пользоваться. Было бы интересно получить такие новые шейпы для огромных моделей (~100B параметров), но авторы говорят что их правила неуниверсальны и могут не работать для маленьких/больших моделей.

3.22K viewsnlpcontroller_bot, edited 19:54

👍 21

DL in NLP

2.89K viewsVlad Lialin, 19:55

DL in NLP

Увидел, что в Google Slides теперь используют языковую модель в комментариях, аналогично такой же фиче в Gmail. Очень забавно, что мы во-первых начинаем использовать LM даже в таких мелких вещах как комментарии, а во-вторых, что мы верим им достаточно, чтобы генерировать сразу по несколько слов.

2.85K viewsVlad Lialin, 21:02

DL in NLP

DeepMind купил Mujoco и теперь он бесплатный. Раньше вроде бы стоил $500/год за каждый компьютер на который его устанавливаешь и после установки твоя лицензия привязывалась к компьютеру намертво. В общем я очень рад этой новости, аж захотелось поиграться с RL.

👍1

2.86K viewsVlad Lialin, edited 17:17

DL in NLP

PMI-Masking Principled Masking of Correlated Spans
Livine et al, [AI21]
arxiv.org/abs/2010.01825

Обычно в MLM мы маскируем все токены с одинаковой вероятностью. Это, вместе с BPE-токенизацией может приводить к очень простым примерам, которые модель быстро выучивает. Нарпимер в тексте "To approximate the matrix, we use the eigenvector corresponding to its largest e-mask-val-ue" одного слова "e-mask-val-ue" достаточно чтобы предсказать "gen". Маскирование целых слов (WWM) помогает случаям длинных слов, но принципиально похожие кейсы могут быть и с целыми словами.

Авторы статьи предлагают маскировать токены основываясь на их взаимной информации — PMI = p(ab) / (p(a) p(b)). Такое маскирование позволяет тренировать MLM гораздо быстрее (в смысле downstream performance) и даже иногда получать чуть-чуть лучшие результаты после сходимости. Интересно, что вроде бы на больших датасетах ускорение от PMI-masking проявлено сильнее. Выглядит полезно, в особенности в ситуациях, когда у вас ограничены вычислительные мощности (т.е. когда вы не OpenAI).

2.9K viewsnlpcontroller_bot, 15:41

👍 19

DL in NLP

arXiv DOOM - это то, как я чувствую себя так каждое утро. Кстати если вы не читали бомбёжку ЛеКуна насчет реджекта статей - рекомендую, там есть разумное зерно.

2.55K viewsVlad Lialin, edited 20:14

DL in NLP

Forwarded from Мишин Лернинг 🇺🇦🇮🇱

👾 arXiv DOOM: BFG1000 Rejected

Шел 2021 год. На arXiv каждый день появлялись новые статьи! Скоро их станет слишком много! Экспоненциально много!

Вы боец спецподразделения ДСР: Двойного Слепого Рецензирования!

Вам позволено бороться с сотней самых последних статей в категории cs. CV!

Главное зареджектить новый пейпер Яна ЛеКуна!

👹arXiv DOOM Играй в браузере!

2.47K viewsVlad Lialin, 20:14

DL in NLP

Multitask Prompted Training Enables Zero-Shot Task Generalization
Sanh et al [BigScience]
arxiv.org/abs/2110.08207

Новая итерация на promt engineering и тренировку с промтами. Авторы предлагают взять большую версию Т5 (11B параметров) и зафайнтюнить её на большом числе supervised датасетов с промтами, описывающими задачу.

Например, для задачи QA это может выглядить так: I know that the answer to [вопрос] is in [контекст]. Can you tell me what it is?

Всего использовали 12 различных задач, 62 датасета. На каждый датасет было порядка 8 промтов. Часть задач отложили на валидацию (например NLI задачи и coreference). При файнтюнинге учили модель генерировать ответы авторегрессионно, аналогично тому, как делали в Т5. Таким образом получается что мы всегда используем кросс-энтропию по словарю и нам не нужно несколько голов, как в классическом multitask-сетапе.

Результаты:
1. модель заметно превосходит GPT-3 на 9 из 11 датасетов в zero-shot режиме.
1. использование одного промта очень сильно увеличивает zero-shot качество по сравнению с тренировкой без промтов
1. использование нескольких промтов в среднем работает лучше чем использование одного (чуть-чуть противоречит предыдущим результатам)
1. использование большего числа датасетов для обучения улучшает среднее zero-shot качество, но не уменьшает дисперсию результатов внутри одного датасета

Модель доступна в 🤗 под именем bigscience/T0pp и у неё очень хорошая model card. Посмотреть на датасеты с промтами (~2000 различных промтов) можно тут. Вы также можете помочь проекту законтрибьютив свои промты.

huggingface.co

bigscience/T0pp · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

2.84K viewsnlpcontroller_bot, 19:33

👍 14

DL in NLP

Пример хотдог-детектора на Т0. 28 секунд на инференс на 6-ядерном Core i7.

2.31K viewsVlad Lialin, 20:13

DL in NLP

Нужно больше T0. Сегодня обсуждали эту статью на reading group в лабе, думаю слайды могут быть полезны.

Также можно поиграться с моделью по этой ссылке: https://huggingface.co/spaces/akhaliq/T0pp

Google Docs

Multitask Prompted Training Enables Zero-Shot Task Generalization Sanh et al. [BigScience]

2.27K viewsVlad Lialin, edited 16:57

DL in NLP

И несколько примеров работы модели. Я был скептичен, но T0pp показала себя на удивление хорошо.

UPD: извиняюсь за такое количество уведомлений одновременно, не ожидал что все скриншоты пошлются как разные сообщения

2.17K viewsVlad Lialin, edited 17:02

DL in NLP

2.15K viewsVlad Lialin, 17:02

DL in NLP

2.09K viewsVlad Lialin, 17:02

DL in NLP

2.16K viewsVlad Lialin, 17:02

DL in NLP

2.21K viewsVlad Lialin, 17:02

DL in NLP

2.24K viewsVlad Lialin, 17:02

DL in NLP

2.33K viewsVlad Lialin, 17:02

DL in NLP

Тут подъехала довольно неприятная, но ожидаемая новость — Телеграм начинает показывать рекламу в каналах с более чем 1000 человек. Авторы каналов не могут выключить показ этой рекламы или повлиять на её содержание какими-то понятными образами. Говорят что реклама будет ориентироваться на тематику каналов, но посмотрим насколько хорошей будет имплементация.

Мне очень не нравится что в этом канале будет появляться контент, который я не контролирую. Отличить эти посты от моих можно будет по маленькой плашке "sponsored" в правом нижнем углу.

Meduza

Павел Дуров заявил о запуске официальной рекламы в Telegram

Скоро в телеграм-каналах появятся рекламные сообщения, которые будет размещать администрация мессенджера. Об этом рассказал создатель Telegram Павел Дуров.

2.59K viewsVlad Lialin, 22:42

DL in NLP

DeepLearning.ai выпустили новый курс в Natural Language Processing Specialization, рассказывающий про трансформеры (да, каким-то обраозм трансформеров там до сих пор не было).

Я проглядел его по диагонали и курс выглядит довольно неплохо. Есть домашки по машинному переводу, суммаризации, QA и чатботам. На последней неделе даже проходят reformer (длинный трансформер работающий через LSH-attention). Если кто-то решит пройти, буду рад если поделитесь своими впечатленями в чате.

UPD: Галя, отмена! В чате обратили внимание, что в отзывах говорят что курс поверностный и в нём недостаточно матана, чтобы понять как работают трансформеры.

Coursera

Natural Language Processing with Attention Models

Offered by DeepLearning.AI. In Course 4 of the Natural ... Enroll for free.

5.2K viewsVlad Lialin, edited 16:48

About

Blog

Apps

Platform