DL in NLP
12.5K subscribers
547 photos
13 videos
27 files
1.1K links
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
Download Telegram
Обновления OpenAI API:

1. Теперь можно получать эмбеддинги моделей, выглядит это так:

openai.Engine(id="davinci-similarity").embeddings(input = [text])['data'][0]['embedding']


Есть разные модели эмбеддингов: similarity, text search и code search. У search есть отдельные модели для ключей и запросов, например curie-search-document и curie-search-query.

beta.openai.com/docs/guides/embeddings

1. Codex доступен для всех 👩‍💻 (до этого были только обычные GPT-3). Теперь вы можете попросить искуственный интеллект написать вам искуственный интеллект

Если вы до сих пор не игрались с GPT-3, вы многое упускаете.
Forwarded from Daryna Dementieva
Всем привет!

Вам надоело ругаться в комментариях? Вам неприятно видеть мат в сообщениях? Иногда вы срываетесь в агрессии и потом жалете о сказаном?

Мы лаборатория SkoltechNLP и мы занимаемся проблемой борьбы с токсчиной речью. Мы пришли к задаче детоксификации — на входе есть токсичный текст, надо его перефразировать в нетоксиный. Например:
х*й знает кто кум, но девушка красивая👍 -> неизвестно кто кум, но девушка красивая
порядок бы бл*ть навёл ! -> Порядок бы навел

В рамках конференции Диалог-2022, мы объявляем соренвнование RUSSE 2022 Detoxification, посвященное решению этой проблемы. Это первое в мире соревнование по переносу стиля в текстах с параллельными данными. Вам необходимо будет разработать seq2seq систему, решающую задачу детоксификации на основе обучения на параллельном корпусе (а если хотите, то можете и без него). Ваша система будет оценена сначала автоматически, но потом мы проведем ручную оценку лучших систем участников и выбререм победителя с действительно лучшей системой!

Зачем участвовать?
* Попробовать свои силы в достаточно новой NLP теме переноса стиля в текстах;
* Более того, помочь решить важную социальную проблему;
* Поучаствовать в соревновании с уникальным setup-ом для этой задачи;
* А если вы как минимум преодолеваете бейзлан, то это дает вам возможность публикации на самой большой российской конференции по обработке текстов (что будет хорошим плюсиком в CV).

Это пост-затравка перед начало соревнования, которое открывается 15 декабря. Больше информации здесь:
https://russe.nlpub.org/2022/tox/
Телеграм-группа для дальнейших коммуникаций:
https://t.iss.one/joinchat/Ckja7Vh00qPOU887pLonqQ

Увидимся через 2 дня.
Performance and Scalability: How To Fit a Bigger Model and Train It Faster
huggingface.co/docs/transformers/master/en/performance

Кажется посты про то, как тренировать модели побольше и побыстрее становятся всё актуальнее с каждым месяцем. Вот в этом посте (который на самом деле кусок документации) обсуждают кучу полезных моментов начиная с простых вещей, таких как размер батча и mixed precision и заканчивая хитрыми вещами вроде mixture of experts. Если пройти подалье, будет ещё отличный пост про model parallelism. Я уже выделил себе время на неделе чтобы поиграться с этими вещами, рекомендую и вам.
👍1
MAGMA – Multimodal Augmentation of Generative Models through Adapter-based Finetuning
arxiv.org/abs/2112.05253

Очередной VL-франкенштейн, который работает на удивление хорошо. Рецепт такой: берём датасет с картинками и их описаниями. Пихаем картинку в CLIP, получаем feature map 7*7*hidden, выпрямляем это в последовательность 49 "токенов". К этим токенам справа приписываем что-то типа "A picture of" и запихиваем в GPT-J (6B) с адаптерами. Учим геренировать описания картинок. Сам GPT не тюним, тюним только адаптеры и CLIP.

В отличие от других методов, тут не приходится тюнить огромную языковую модель, что экономит память сервера и ваши нервы. Кроме этого датасет для предтренировки собрали из большого числа supervised датасетов. Он получился небольшим (25 млн пар), но зато чистым (относительно наскрапленых датасетов). Тюнили на 32 A100 примерно 30 часов, что по современным меркам быстро.

Сделали много интересных наблюдений:

1. Префикс "A picture of" очень важен. На COCO Captions он увеличивает CIDER с 7.5 до 57.1 🤯
1. Самые важные адаптеры — перед self-attention, без них метрики очень сильно падают
1. Адаптеры перед FCN сильнее влияют на knowledge-based задачи, чем на общие captions
1. ResNet-CLIP работает сильно лучше чем ViT-CLIP на VQA задачах, предполагают что это из-за того что грид в ViT слишком маленький
1. В отличие от CLIP, модель устойчива к "OCR-атакам", когда вы вешаете на яблоко подпись "iPod" и спрашиваете что это такое (Fig. 5)
1. Вообще модель удивительно хорошо делает OCR, с учётом того, что никогда не была тренирована на эту задачу напрямую (Fig. 4 и 6)
😁1
Forwarded from Daryna Dementieva
Следуя нашему предварительному объявлению (спасибо @dropout05 за пост), мы открываем наше соревнование по детоксификации для русского языка! 🎉

Итак, что доступно:
* Основной репозиторий соревнования: https://github.com/skoltech-nlp/russe_detox_2022. Здесь есть: 1) train и dev части датасета. 2) код Delete и t5 бейзланов с их выводами на dev сете. 3) есть полностью код для оценки работы ваших моделей – вы можете запустить его самостоятельно для предварительных результатов.

* Бейзлайновая модель T5, обученная на параллельном корпусе, доступна на HuggingFace 🤗: https://huggingface.co/SkolkovoInstitute/ruT5-base-detox. Можете ее проверить на прочность через интерфейс 🙃

* Основная платформа с лидербордом на Codalab: https://codalab.lisn.upsaclay.fr/competitions/642. Для участия вам необходимо зарегистрироваться на платформе и сделать сабмит dev сета.

* Формат сабмита: вам надо засабмит .zip АРХИВ с .txt файлом, где в каждой строке детоксифичированная версия входного предложения из входного файла. Участвовать можно как индивидуально, как и в команде. Как создать команду описано в инструкции.

* Основные даты:
- сейчас мы открываем фазу Development, где вы можете тестироваться на dev сете. Эта фаза продлится до 31 января.
- После этого будет выложен test сет, у которого уже не будет нейтральных референсов. На отправку решения на этом сете и выбора лучшей модели будет дано 2 неделе и тестовая фаза закроект 14 февраля.
- Лучшие модели, выбранные участниками, буду оценены вручную. Финальные результаты ручной оценки будут выложены на сайте соревнования 28 февраля.
Forwarded from AbstractDL
This media is not supported in your browser
VIEW IN TELEGRAM
🔥WebGPT: теперь GPT-3 умеет гуглить лучше тебя

В OpenAI зафайнтюнили GPT-3 отвечать на вопросы, пользуясь поиском Bing, а получившиеся при этом ответы оказались качественнее, чем у людей.

Сначала они разработали простенький текстовый браузер, которым могла бы пользоваться GPT — там есть основные команды типа: кликнуть на ссылку, поскроллить, найти слово на странице, скопировать фрагмент и тд. Далее они при помощи людей собрали датасет из 6000 примеров использования этого браузера и дообучили на нём GPT-3 (language modeling). Затем они нагенерили этой же моделью датасет из 25к вопросов и вручную разметили их качество. На этой разметке они обучили ранжировщик ответов и использовали его для дальнейшей фильтрации.

В итоге, судя по human evaluations на датасете ELI5, людям чаще нравятся ответы нейронки, чем своих собратьев 💁‍♂️

P.S. На гифке пример того, как гуглит эта модель, отвечая на вопрос «How do neural networks work?»

Статья, блог
Initializing neural networks
deeplearning.ai/ai-notes/initialization

Очень классная интерактивная статья, в которой рассказывается (и показывается) почему правильная инициализация нейросетей важна, что такое Xavier initialization, почему он работает и как выглядят градиенты при разных инициализациях.
Можно прямо повыбирать различные способы и натренировать мнист прямо в браузере.

Теперь буду показывать всем студентам.

Аналогичная статья про методы оптимизации (SGD -> ADAM): deeplearning.ai/ai-notes/optimization
Forwarded from partially unsupervised
Finding why Pytorch Lightning made my training 4x slower - отличный пост про поиск замысловатого бага в ML инфраструктуре. Пример инженерного здравого смысла: хорошо использовать готовые инструменты, но не боги горшки обжигают - не стоит бояться залезть под капот и что-то пофиксить.
Forwarded from исследовано (Katya Artemova)
Всем привет!

Начинаем новый год и новый сезон семинаров: 3 января будем рассказывать про соревнования на Диалоге.

Подробности по ссылке: https://cs.hse.ru/ai/computational-pragmatics/announcements/547026735.html
Со мной связались разработчики интересной opensource тулзы для журналистов. Приятно видеть как на рынке появляется больше открытых рускоязычных NLP продуктов. Репозиторий пока что сыроват, но будет интересно как он будет развиваться. Вот что они про себя говорят:

Открытый набор инструментов «СоАвтор»

Работа с текстами сегодня сложна из-за нехватки структурированного контента и рабочих моделей. Для того, чтобы сделать ее более комфортной, компания ISGNeuro запустила опенсорс-проект "СоАвтор".

Платформа "СоАвтор" имеет модульную структуру. Вы можете придумать новый инструмент, который упрощает работу с текстом, или принять участие в работе над теми, что уже есть в разработке.

Первый инструмент «СоАвтора» формирует бэкграунд (предысторию события или справочную информацию по теме). Задача состоит в том, чтобы журналист или копирайтер получал максимально релевантное короткое саммари из собранных новостных статей по заданной теме.

Как это работает? Система анализирует ключевые слова и NER, а обученная модель находит самые релевантные тексты и формирует бэкграунд с помощью алгоритмов суммаризации.

Вы можете придумать новый инструмент, который упрощает работу с текстом, или принять участие в работе над теми, что уже есть в разработке, при этом получить поддержку сообщества WellnessDataClub и возможности ОТ.Платформы, которые использует проект. Подробности доступны на странице GitHub
Improving language models by retrieving from trillions of tokens
Borgeaud, Mensch, Hoffmann et al. [DeepMind]
arxiv.org/abs/2112.04426

RETRO от DeepMind это интересная смесь KNN и нейросетевых языковых моделей. Принципиально, я бы описал это как более глубокий KNN-LM.

Для начала впомним идею KNN-LM: для предсказания следующего токена текста KNN-LM использует большой корпус в поктором ищется top-k похожих текстов и берутся их продолжения (которые потенциально похожи на то, что модель должна сгенерировать). Вектора этих продолжений мёржатся вместе и языковая модель использует этот дополнительный контекст чтобы предсказать следующее слово.

В оригинальной статье этот трюк использовался только во время inference. DeepMind в RETRO предлагает несколько модицикаций трансформера, чтобы использовать подобный подход прямо во время обучения.

Архитектура выглядит так: нарезаем входной текст на L кусков по 64 токена и ищем по ним K~4 похожих чанков в огромном корпусе текстов (поисковой индекс берётся от BERT и не меняется во время обучения). Эти найденные куски с их продолжением K*L*(64+64) запихиваются в энкодер трансформера. Оригинальный текст запихивается в декодер трансформера в котором cross-attention модифицирован чтобы он 1) более эффективно смотрел на разные чанки из энкодера 2) не читерил и чанки из прошлого не смотрели на чанки из будущего.

По результатам: используя базу из более чем 2 триллионов токенов RETRO 7B берёт SOTA на Wikitext, the Pile обходя Gopher 280B. Кроме этого авторы тюнят модель на QA датасетах и она показывает неплохие метрики, но до SOTA далековато.
Forwarded from AbstractDL
XGLM: кросс-язычный аналог GPT-3 от Meta AI

Наконец появилась по-настоящему мультиязычная языковая модель! Формально GPT-3 тоже понимает много языков, но обучающих данных на НЕ английском там было всего 8 процентов, а тут целых 70! Причём на 128 разных языках.

В итоге эта модель бьёт все соты на всех кросс-язычных бенчмарках, и даже обходит многие supervised модели на WMT (machine translation).

P.S. Похоже, что XGLM должна классно работать для русского языка, ведь он тут второй по частотности после английского (см. картинку).

Статья, GitHub, HuggingFace
👍3🔥1
Канал хорошо вырос за этот год. В следующем году будем набирать обороты и писать больше обзоров статей, больше новостей и больше материалов для погружения в современный NLP. Вы все классные, не забывайте об этом (и не забывайте выключать ваши GPU инстансы когда они простаивают).

Тем, кто хочет вспомнить что происходило в NLP в 2021, рекомендую посмотреть традиционный обзор от Валентина Малых с Дата Ёлки youtu.be/-8BsN4vIHSQ
The Illustrated Retrieval Transformer
jalammar.github.io/illustrated-retrieval-transformer/

Мы уже обозревали RETRO в этом коротком посте, но на днях Jay Alammar опубликовал новый блогпост, где идея RETRO описывается визуально.

RETRO — это модель, которая работает на уровне GPT-3 175B имея всего 7B параметров. Это делается с помощью того, что модель может обращаться к дополнительной "базе данных" текстов и их продолжений во время генерации текста.
🔥16👍5
Forwarded from AbstractDL
This media is not supported in your browser
VIEW IN TELEGRAM
GPT для чайников: от токенизации до файнтюнинга

Сделал для вас небольшой colab туториал про GPT. Там подробно и с примерами разобраны такие темы как:
1. Устройство GPT-1,2,3
2. Токенизация
3. Методы генерации текста
4. Файнтюнинг (прям в колабе)
Если вы давно хотели поиграться с GPT, но всё не доходили руки, то новогодние праздники — самое время 😉

Colab
🔥34👍31🎉6
Stanford выложил лекции CS224u Natural Language Understanding 2021 в открытый доступ.

Курс отличается от CS224n фокусом на конкретные задачи NLU (анализ тональности, извлечение реляций, поиск, ...). Кроме этого, так как курс проходил полностью онлайн, видео сделаны не как двухчасовые лекций, а как короткие 15-минутные видео ближе к формату курсеры. Домашки доступны на сайте web.stanford.edu/class/cs224u

youtu.be/rha64cQRLs8
🔥31👍12
🦌🎄One Hyper-Modal Transformer can be
Creative as DALL-E and Smart as CLIP


Встречайте, RuDOLPH! Текстово-визуальный гипермодальный GPT-3 (350M), сочетающий в себе генеративные возможности текстового GPT-3 и текст-картиночного DALL-E с Reranking & Zero-Shot способностями CLIP.

👀 см картинки к посту

Гипермодальный RuDolph может:
▪️ Генерировать текст
▪️ Генерировать изображения по тексту
▪️ «Проявлять» диффузией в высоком качестве и разрешении сгенерированные изображения
▪️ Изменять (inpainting) изображения по описанию
▪️ Генерировать текстовые описания для изображений
▪️ Быть Feature Extractor’ом для few-shot и linear probe классификации
▪️ Ранжировать изображения по текстовому описанию
▪️ Классифицировать изображения в режиме Zero-Shot

💻 Git Код + Веса
📰 Paper [soon]
🦌 HF demo (только 4 картинки)
🤗 Model Card
🔮 Colab со всеми возможностями
👍16
Forwarded from Хроники Непуганых Идиотов (Larisa M)
У меня тут, кстати, пробежал интересный сайт: https://mavenlin.github.io/ai_research_trends/

Он анализирует arxiv и показывает статьи, которые сейчас в тренде. Оч удобно чтобы вычислять что сейчас на повестке ☝️
👍20