Хакатон от металлургической компании EVRAZ
Судя по описанию, задачи на таблички и на CV, выглядит неплохо.
vk.com/phystech.genesis?w=wall-171174178_674
Судя по описанию, задачи на таблички и на CV, выглядит неплохо.
vk.com/phystech.genesis?w=wall-171174178_674
VK
Phystech.Genesis
⚡29-31 октября пройдет онлайн-хакатон EVRAZ AI Challenge от международной горно-металлургической компании EVRAZ
🔥 Узнайте на хакатоне, чем айтишники занимаются в промышленности, а также ...
1⃣ Продуйте металл через Data Science;
2⃣ Разработайте компьютерное…
🔥 Узнайте на хакатоне, чем айтишники занимаются в промышленности, а также ...
1⃣ Продуйте металл через Data Science;
2⃣ Разработайте компьютерное…
Внезапно сегодня увидел BERT в Top Hype на arxiv-sanity. Оказывается сегодня BERT исполняется 3 года. Удивительно насколько сильно NLP изменился за это время – и в смысле общего подхода, и (в особенности) в тех тулзах, что мы используем.
Нашёл нашу самую первую лекцию по BERT из Декабря 2018. Стало интересно насколько она отражает текущую действительность. Оказалось, что не очень, так как финальным советом было "используйте ULMfit для классификации, ELMo для остальных задач и ждите пока появится что-то что тренируется быстрее BERT и потребляет меньше памяти" 😂 .
Рекомендовать лекцию к просмотру не могу, так как качество записи весьма отвратительное, но вдруг кому-то будет интересно в историческом контексте.
https://youtu.be/Ha3flDwGj8s?t=477
А что я рекомендую уже получается около 3 лет, это почитать Illustrated Transformer и Illustrated BERT от Jay Allamar. Вспомнить детали того, как работает архитектура бывает полезно.
Нашёл нашу самую первую лекцию по BERT из Декабря 2018. Стало интересно насколько она отражает текущую действительность. Оказалось, что не очень, так как финальным советом было "используйте ULMfit для классификации, ELMo для остальных задач и ждите пока появится что-то что тренируется быстрее BERT и потребляет меньше памяти" 😂 .
Рекомендовать лекцию к просмотру не могу, так как качество записи весьма отвратительное, но вдруг кому-то будет интересно в историческом контексте.
https://youtu.be/Ha3flDwGj8s?t=477
А что я рекомендую уже получается около 3 лет, это почитать Illustrated Transformer и Illustrated BERT от Jay Allamar. Вспомнить детали того, как работает архитектура бывает полезно.
YouTube
DL in NLP seminar 10. 2018 is the Year of Transfer Learning in NLP. Part 2
Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers
Tay et al. [Google]
arxiv.org/abs/2109.10686
Scaling Laws не работают на downstream-задачах 😑
Авторы решили проверить заявление Scaling Laws о том, что качество модели растёт от чила параметров и слабо зависит от того как именно мы его увеличили (в разумных пределах). В результате авторы натренировали кучу моделей Т5 и увидели, что a) перплексия и правда слабо зависит от этого (странно в контексте статьи про Scaling Laws for Neural Machine Translation, которую мы обозревали недавно); b) downstream-задачи не следуют power law от числа параметров и там всё хитрее.
В результате предлагают более эффективные трансформеры. Под эффективностью понимают число FLOPS для их тренировки. В результате приходят к довольно популярному выводу, что скейлить глубину выгоднее, чем скейлить ширину, но до определённого предела (~36 слоёв). Вместо Base(12L, 768H, 3072FF) предлагают Small(22L, 512H, 2048FF), который требует 9.3TFlops для тренировки против 11 и даёт то же качество. Проблема глубоких моделей в том, что инферить их обычно чуть-чуть дольше, тк слои нелья параллелить.
Эти новые шейпы моделей выглядят интересно, но не кажется что буст достаточно заметный, чтобы все начали ими пользоваться. Было бы интересно получить такие новые шейпы для огромных моделей (~100B параметров), но авторы говорят что их правила неуниверсальны и могут не работать для маленьких/больших моделей.
Tay et al. [Google]
arxiv.org/abs/2109.10686
Scaling Laws не работают на downstream-задачах 😑
Авторы решили проверить заявление Scaling Laws о том, что качество модели растёт от чила параметров и слабо зависит от того как именно мы его увеличили (в разумных пределах). В результате авторы натренировали кучу моделей Т5 и увидели, что a) перплексия и правда слабо зависит от этого (странно в контексте статьи про Scaling Laws for Neural Machine Translation, которую мы обозревали недавно); b) downstream-задачи не следуют power law от числа параметров и там всё хитрее.
В результате предлагают более эффективные трансформеры. Под эффективностью понимают число FLOPS для их тренировки. В результате приходят к довольно популярному выводу, что скейлить глубину выгоднее, чем скейлить ширину, но до определённого предела (~36 слоёв). Вместо Base(12L, 768H, 3072FF) предлагают Small(22L, 512H, 2048FF), который требует 9.3TFlops для тренировки против 11 и даёт то же качество. Проблема глубоких моделей в том, что инферить их обычно чуть-чуть дольше, тк слои нелья параллелить.
Эти новые шейпы моделей выглядят интересно, но не кажется что буст достаточно заметный, чтобы все начали ими пользоваться. Было бы интересно получить такие новые шейпы для огромных моделей (~100B параметров), но авторы говорят что их правила неуниверсальны и могут не работать для маленьких/больших моделей.
DeepMind купил Mujoco и теперь он бесплатный. Раньше вроде бы стоил $500/год за каждый компьютер на который его устанавливаешь и после установки твоя лицензия привязывалась к компьютеру намертво. В общем я очень рад этой новости, аж захотелось поиграться с RL.
👍1
PMI-Masking Principled Masking of Correlated Spans
Livine et al, [AI21]
arxiv.org/abs/2010.01825
Обычно в MLM мы маскируем все токены с одинаковой вероятностью. Это, вместе с BPE-токенизацией может приводить к очень простым примерам, которые модель быстро выучивает. Нарпимер в тексте "To approximate the matrix, we use the eigenvector corresponding to its largest e-mask-val-ue" одного слова "e-mask-val-ue" достаточно чтобы предсказать "gen". Маскирование целых слов (WWM) помогает случаям длинных слов, но принципиально похожие кейсы могут быть и с целыми словами.
Авторы статьи предлагают маскировать токены основываясь на их взаимной информации — PMI = p(ab) / (p(a) p(b)). Такое маскирование позволяет тренировать MLM гораздо быстрее (в смысле downstream performance) и даже иногда получать чуть-чуть лучшие результаты после сходимости. Интересно, что вроде бы на больших датасетах ускорение от PMI-masking проявлено сильнее. Выглядит полезно, в особенности в ситуациях, когда у вас ограничены вычислительные мощности (т.е. когда вы не OpenAI).
Livine et al, [AI21]
arxiv.org/abs/2010.01825
Обычно в MLM мы маскируем все токены с одинаковой вероятностью. Это, вместе с BPE-токенизацией может приводить к очень простым примерам, которые модель быстро выучивает. Нарпимер в тексте "To approximate the matrix, we use the eigenvector corresponding to its largest e-mask-val-ue" одного слова "e-mask-val-ue" достаточно чтобы предсказать "gen". Маскирование целых слов (WWM) помогает случаям длинных слов, но принципиально похожие кейсы могут быть и с целыми словами.
Авторы статьи предлагают маскировать токены основываясь на их взаимной информации — PMI = p(ab) / (p(a) p(b)). Такое маскирование позволяет тренировать MLM гораздо быстрее (в смысле downstream performance) и даже иногда получать чуть-чуть лучшие результаты после сходимости. Интересно, что вроде бы на больших датасетах ускорение от PMI-masking проявлено сильнее. Выглядит полезно, в особенности в ситуациях, когда у вас ограничены вычислительные мощности (т.е. когда вы не OpenAI).
arXiv DOOM - это то, как я чувствую себя так каждое утро. Кстати если вы не читали бомбёжку ЛеКуна насчет реджекта статей - рекомендую, там есть разумное зерно.
Forwarded from Мишин Лернинг 🇺🇦🇮🇱
👾 arXiv DOOM: BFG1000 Rejected
Шел 2021 год. На arXiv каждый день появлялись новые статьи! Скоро их станет слишком много! Экспоненциально много!
Вы боец спецподразделения ДСР: Двойного Слепого Рецензирования!
Вам позволено бороться с сотней самых последних статей в категории cs. CV!
Главное зареджектить новый пейпер Яна ЛеКуна!
👹arXiv DOOM Играй в браузере!
Шел 2021 год. На arXiv каждый день появлялись новые статьи! Скоро их станет слишком много! Экспоненциально много!
Вы боец спецподразделения ДСР: Двойного Слепого Рецензирования!
Вам позволено бороться с сотней самых последних статей в категории cs. CV!
Главное зареджектить новый пейпер Яна ЛеКуна!
👹arXiv DOOM Играй в браузере!
Multitask Prompted Training Enables Zero-Shot Task Generalization
Sanh et al [BigScience]
arxiv.org/abs/2110.08207
Новая итерация на promt engineering и тренировку с промтами. Авторы предлагают взять большую версию Т5 (11B параметров) и зафайнтюнить её на большом числе supervised датасетов с промтами, описывающими задачу.
Например, для задачи QA это может выглядить так: I know that the answer to [вопрос] is in [контекст]. Can you tell me what it is?
Всего использовали 12 различных задач, 62 датасета. На каждый датасет было порядка 8 промтов. Часть задач отложили на валидацию (например NLI задачи и coreference). При файнтюнинге учили модель генерировать ответы авторегрессионно, аналогично тому, как делали в Т5. Таким образом получается что мы всегда используем кросс-энтропию по словарю и нам не нужно несколько голов, как в классическом multitask-сетапе.
Результаты:
1. модель заметно превосходит GPT-3 на 9 из 11 датасетов в zero-shot режиме.
1. использование одного промта очень сильно увеличивает zero-shot качество по сравнению с тренировкой без промтов
1. использование нескольких промтов в среднем работает лучше чем использование одного (чуть-чуть противоречит предыдущим результатам)
1. использование большего числа датасетов для обучения улучшает среднее zero-shot качество, но не уменьшает дисперсию результатов внутри одного датасета
Модель доступна в 🤗 под именем bigscience/T0pp и у неё очень хорошая model card. Посмотреть на датасеты с промтами (~2000 различных промтов) можно тут. Вы также можете помочь проекту законтрибьютив свои промты.
Sanh et al [BigScience]
arxiv.org/abs/2110.08207
Новая итерация на promt engineering и тренировку с промтами. Авторы предлагают взять большую версию Т5 (11B параметров) и зафайнтюнить её на большом числе supervised датасетов с промтами, описывающими задачу.
Например, для задачи QA это может выглядить так: I know that the answer to [вопрос] is in [контекст]. Can you tell me what it is?
Всего использовали 12 различных задач, 62 датасета. На каждый датасет было порядка 8 промтов. Часть задач отложили на валидацию (например NLI задачи и coreference). При файнтюнинге учили модель генерировать ответы авторегрессионно, аналогично тому, как делали в Т5. Таким образом получается что мы всегда используем кросс-энтропию по словарю и нам не нужно несколько голов, как в классическом multitask-сетапе.
Результаты:
1. модель заметно превосходит GPT-3 на 9 из 11 датасетов в zero-shot режиме.
1. использование одного промта очень сильно увеличивает zero-shot качество по сравнению с тренировкой без промтов
1. использование нескольких промтов в среднем работает лучше чем использование одного (чуть-чуть противоречит предыдущим результатам)
1. использование большего числа датасетов для обучения улучшает среднее zero-shot качество, но не уменьшает дисперсию результатов внутри одного датасета
Модель доступна в 🤗 под именем bigscience/T0pp и у неё очень хорошая model card. Посмотреть на датасеты с промтами (~2000 различных промтов) можно тут. Вы также можете помочь проекту законтрибьютив свои промты.
huggingface.co
bigscience/T0pp · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Нужно больше T0. Сегодня обсуждали эту статью на reading group в лабе, думаю слайды могут быть полезны.
Также можно поиграться с моделью по этой ссылке: https://huggingface.co/spaces/akhaliq/T0pp
Также можно поиграться с моделью по этой ссылке: https://huggingface.co/spaces/akhaliq/T0pp
Google Docs
T0
Multitask Prompted Training Enables Zero-Shot Task Generalization Sanh et al. [BigScience]
И несколько примеров работы модели. Я был скептичен, но T0pp показала себя на удивление хорошо.
UPD: извиняюсь за такое количество уведомлений одновременно, не ожидал что все скриншоты пошлются как разные сообщения
UPD: извиняюсь за такое количество уведомлений одновременно, не ожидал что все скриншоты пошлются как разные сообщения
Тут подъехала довольно неприятная, но ожидаемая новость — Телеграм начинает показывать рекламу в каналах с более чем 1000 человек. Авторы каналов не могут выключить показ этой рекламы или повлиять на её содержание какими-то понятными образами. Говорят что реклама будет ориентироваться на тематику каналов, но посмотрим насколько хорошей будет имплементация.
Мне очень не нравится что в этом канале будет появляться контент, который я не контролирую. Отличить эти посты от моих можно будет по маленькой плашке "sponsored" в правом нижнем углу.
Мне очень не нравится что в этом канале будет появляться контент, который я не контролирую. Отличить эти посты от моих можно будет по маленькой плашке "sponsored" в правом нижнем углу.
Meduza
Павел Дуров заявил о запуске официальной рекламы в Telegram
Скоро в телеграм-каналах появятся рекламные сообщения, которые будет размещать администрация мессенджера. Об этом рассказал создатель Telegram Павел Дуров.
DeepLearning.ai выпустили новый курс в Natural Language Processing Specialization, рассказывающий про трансформеры (да, каким-то обраозм трансформеров там до сих пор не было).
Я проглядел его по диагонали и курс выглядит довольно неплохо. Есть домашки по машинному переводу, суммаризации, QA и чатботам. На последней неделе даже проходят reformer (длинный трансформер работающий через LSH-attention). Если кто-то решит пройти, буду рад если поделитесь своими впечатленями в чате.
UPD: Галя, отмена! В чате обратили внимание, что в отзывах говорят что курс поверностный и в нём недостаточно матана, чтобы понять как работают трансформеры.
Я проглядел его по диагонали и курс выглядит довольно неплохо. Есть домашки по машинному переводу, суммаризации, QA и чатботам. На последней неделе даже проходят reformer (длинный трансформер работающий через LSH-attention). Если кто-то решит пройти, буду рад если поделитесь своими впечатленями в чате.
UPD: Галя, отмена! В чате обратили внимание, что в отзывах говорят что курс поверностный и в нём недостаточно матана, чтобы понять как работают трансформеры.
Coursera
Natural Language Processing with Attention Models
Offered by DeepLearning.AI. In Course 4 of the Natural ... Enroll for free.