DL in NLP
12.5K subscribers
547 photos
13 videos
27 files
1.1K links
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
Download Telegram
😁82🔥11👍1
Пара интересных новых фишек в 🤗 Transformers 4.20

1. Big model inference🔥 — позволяет очень просто инферить большие модели (10B+) на каком угодно железе. По возможности распараллелит по всем GPU, если не их хватает — кусок модели будет держаться в памяти процессора и подгружаться в GPU когда надо. Если даже CPU памяти не хватает, будет подгружать веса с диска кусками.
1. Добавили BLOOM 🌸 от BigScience — одновремено с этим выложены чекпоинты от 0.3B до 6B. Главная модель в 176B должна подоспеть через месяц.
1. Добавили GPT-NeoX-20B, Wav2Vec2-Conformer, Trajectory Transformer, LongT5 (кстати его надо бы на днях разобрать) и ещё несколько интереных моделей.
🔥50👍12👎2
😁17🤔6🤮6👎3
GitHub Copilot теперь доступен всем
https://github.blog/2022-06-21-github-copilot-is-generally-available-to-all-developers

1. 60 дней пробный период
1. $10/мес или $100/год
1. Бесплатно для студентов и меинтейнеров популярного opensource 🎉

По-моему весьма адекватная цена, я использую копайлот где-то с сентября и он очень крут. Очень помогает писать всякий boilerplate и другой простой код. Также matplotlib стало возможно использовать без постоянного поиска команд в гугле/документации. Но самое главное: зачастую помогает придумать название переменной 😂

Пока доступен только индивидуальным разработчикам, продукт для больших компаний обещают later this year. Интересно, появится ли когда-нибудь on-premise решение, а то без этого кажется в больших компаниях типа FAANG он будет запрещен всегда 😞
🔥13👍8🤯3😁1
В статье на хабре про YALM отлично описывают как сейчас тренировать большие модели. Fp16 vs bf16 vs ft32, ZeRo, фьюзинг с помощью jit, отключение дропаута (внезапно ускорение аж на 15%), много про стабилизацию тренировки. 🔥🔥🔥

Внезапно веса модели распространяются по Apache 2.0, то есть вы можете запихать их в свой коммерческий проект 🤔
🔥23❤‍🔥7
DL in NLP pinned «В статье на хабре про YALM отлично описывают как сейчас тренировать большие модели. Fp16 vs bf16 vs ft32, ZeRo, фьюзинг с помощью jit, отключение дропаута (внезапно ускорение аж на 15%), много про стабилизацию тренировки. 🔥🔥🔥 Внезапно веса модели распространяются…»
Forwarded from Институт AIRI
Исследователи AIRI обучили нейросетевую модель на самой полной на сегодняшний день сборке генома человека 🧬

Модель GENA_LM, выложена в open source и доступна биологам по всему миру. В данный момент в мире уже представлен набор достаточно хороших моделей для последовательностей белков (например, ESM), но для последовательностей ДНК публично доступна только разработанная коллективом ученых из США модель DNABERT.

GENA_LM – первая в мире языковая модель ДНК, обученная на самой полной версии генома человека (T2T-CHM13), которая была опубликована в конце марта 2022 года. Она может обрабатывать последовательности в 6 раз длиннее, чем DNABERT.

Опубликованная модель – это первый шаг исследования. Впереди эксперименты по применению трансформерных архитектур с памятью, которые позволят увеличить размер входной последовательности ещё в несколько раз.

Репозитории с моделью GENA_LM:
👾 Hugging Face
👾 GitHub
👍14
The last months be like
🤯10😁5👍1👏1
#чтивонаночь

Ладно, подеградировали пора и поработать.

Bpe — byte pair encoding — почему модель генерит украинский/вообще что то левое.

Да, это все он, великий и могучий. Какая идея — если мы будем кормить в эмбединг модель character level (побуквенно, то есть), то мы
1) Хуй обучим на нормальную длину,
2) Хуй что обучим в принципе, модели шумят.

Если мы будем кормить по словам, ситуация станет лучше, но отчасти. Слов много, пользователи безграмотны, можно очень легко ловить out of vocabulary и прочие прелести жизни. Есть всякие хаки с поиском ближайших слов, но это не всегда работает и вообще тяжелая штука.

Что делать?
Коды Хаффмана.
Вообще, штука простая до нельзя - это жадный алгоритм префиксного кодирования с минимальной избыточностью. Или по-русски — "как закодировать последовательность в минимальное количество подпоследовательностей".

Алгоритм

1) Символы входного алфавита образуют список свободных узлов. Каждый лист имеет вес, который может быть равен либо вероятности, либо количеству вхождений символа в сжимаемое сообщение.
2) Выбираются два свободных узла дерева с наименьшими весами.
3) Создается их родитель с весом, равным их суммарному весу.
4) Родитель добавляется в список свободных узлов, а два его потомка удаляются из этого списка.
5) Одной дуге, выходящей из родителя, ставится в соответствие бит 1, другой — бит 0. Битовые значения ветвей, исходящих от корня, не зависят от весов потомков.
6) Шаги, начиная со второго, повторяются до тех пор, пока в списке свободных узлов не останется только один свободный узел. Он и будет считаться корнем дерева.

BPE
Идея очень похожа, но упрощена в угоду скорости работы (чем больше данных мы прогоним, тем эффективнее научимся кодировать текст).

Так же не будет проблемы если слова нет в словаре, с некоторой эффективностью(не всегда эффективно) оно все равно закодируется.

Обучение BPE

1) Слово = последовательность токенов (пока символов, изначально использовались unicode-символы),
2) Словарь = все токены (на нулевой итерации — символы),
3) Повторять пока не достигли ограничения на размер словаря.
Назначаем новым токеном объединение двух существующих токенов, которое встречается чаще других пар в корпусе (имеется в виду "встречаются вместе").

Читать про BPE

Почитать про разные токенайзеры в том числе про word piece и sentence piece можно в блоге на huggingface.
👍18🤬12🤔1
Новости NLP одной строкой

1. Тренировка BLOOM - 176B модели от BigScience почти завершена. А ещё Optimum уже поддерживает BLOOM🔥🔥🔥
1. Отличный тред о том как CodeParrot искал ошибки в тренировке своей большой модели
1. Minerva - языковая модель от гугл которая может решать математические задачи
1. Named Tensor 2.0 в пайторче с поддержкой einsum
🔥11👍3
DALL-E Mini Is the Internet's Favorite AI Meme Machine
wired.com/story/dalle-ai-meme-machine

Вот мы и дошли до того что я даю ссылки на Wired в постах...
Сейчас переехал в новых город 🗽 и знакомлюсь с кучей новых людей, из них почти все не из диплернинга. И довольно быстро я понял что несмотря на весь хайп который создаёт вокруг себя OpenAI, довольно мало людей знает про DALL-E или GPT-3.

Но буквально на днях встретил несколько людей которые почти ничего не знают про OpenAI, но знают про DALL-E Mini/Crayon. Всё-таки мемы - лучший способ продвижения.

В статье собственно обсуждают саму модельку, немного её истории, и что она умеет и не умеет. Рекомендую запомнить её и показывать своим недиплернинговым знакомым.
👍11
Forwarded from Towards NLP🇺🇦
CMU Multilingual NLP Course

For everyone who is interested in processing of multilingual text and speech data, now there is available the course from Carnegie Mellon University of 2022 year. Enjoy!

https://youtube.com/playlist?list=PL8PYTP1V4I8BhCpzfdKKdd1OnTfLcyZr7
👍20
BLOOM - 176B модель от BigScience официально выпущена!
bigscience.huggingface.co/blog/bloom

46 человеческих языков
16 языков программирования

Теперь будет интересно насколько сложно завести её на том железе которое доступно обычным смертным. Только веса уже занимают несколько сотен gb.
🔥22👍6
Forwarded from AI для Всех
DALL·E Now Available in Beta

С сегодняшнего дня пользователи получают полные права на коммерческое использование изображений, созданных ими с помощью DALL-E, включая право на перепечатку, продажу и мерчандайзинг. Сюда входят изображения, созданные ими во время предварительного просмотра.

Пользователи сообщили OpenAI, что планируют использовать изображения DALL-E для коммерческих проектов, таких как иллюстрации для детских книг, иллюстрации для информационных бюллетеней, концепт-арт и персонажи для игр, moodboards для дизайнерских консультаций и раскадровки для фильмов.

анонс
17👍4🔥3
Подробнее про новую схему доступа к DALL-E

Цены:
При регистрации вам дают 50 кредитов. Один кредит = одиз запрос к DALL-E. Как они заканчиваются вы можете купить 115 кредитов за $15, получается 13 центов за запрос (модель выдает 4 картинки на каждый запрос). Дальше каждый месяц вы получаете 15 кредитов.

15 или даже 50 кредитов это прямо немного. Я когда использую далли для картинок в презентации думаю раз 10-20 запрашиваю модель.

Те кто участвовали в альфе получили 100 кредитов сверху, что приятно.

Другие детали:

В начале альфы модель генерила 10 картинок на каждый запрос. Потом 8, теперь вообще 4, что немного. Зато гораздо быстрее.

Теперь история генераций стала гораздо больше. Вроде бы с 10 увеличили до 1000.

Права:
Вы не обладаете копирайтом на изображения. Им обладает OpenAI, а у вас есть эксклюзивные права на распространение и коммерциализацию. OpenAI не может продавать изображения которые вы сгенерили. Также они обещают not assert any copyright against you or your users. Но если вы нарушаете Content Policy, например скрываете что это сгенеренная картинка, ваши права отзываются.
👍21🔥5👏2
Тинькофф приглашает на питерский AI-митап 🔎

На митапе команда исследований расскажет о том, как развивает AI-ресерч в Тинькофф.

— Расскажут про последние статьи в NLP Research — модели early exiting и контролируемую генерацию;
— разберут недавние эксперименты со стохастическими нейронными сетями;
— объяснят ситуации, когда применяли Offline RL в реальной жизни.

Митап пройдет 29 июля в Санкт-Петербурге в технопарке ЛЕНПОЛИГРАФМАША. Начало в 19:00. Регистрируйтесь по ссылке: https://u.tinkoff.ru/ai-saintp-research-meetup

#промо
👎35👍21🤮5🤔2🤩1
Simple Local Attentions Remain Competitive for Long-Context Tasks
arxiv.org/abs/2112.07210

За последние два года накопилась куча длинных трансформеров которые могут работать с последовательностями больше 512 токенов. Зачастую такую нейросеть инициализируют предобученным “коротким” трансформером например RoBERTa. В этой статье авторы сказали, “постойте, а что если тренировать всё с нуля и вообще сделать максимально одинаковый сетап для всех длинноформеров“. А ещё “надо взять пару тупых бейзлайнов типа скользящего окна или блочного аттеншена“. Ещё добавили несколько глобальных токенов, которые могут аттентиться ко всей последовательности.

Результат: на бенчмарке LRA все модели показывают одинаковое качество, при этом тупые бейзлайны зачастую быстрее остальных моделей. На более прикладных длиннотекстовых задачах (TriviaQA, Hyperpartisan) блочный аттеншн с глобальными токенами вообще всех рвёт. Выяснили что оверлап блоков улучает MLM, но для прикладных бесполезен. А вот глобальные токены очень важны для TriviaQA, без них модель теряет аж 10 пунктов. Инициализировать RoBERTa даёт заметный буст (78 против 73 F1 на TriviaQA).

Вывод: block-wise attention очень крут, несмотря на то что очень прост. Посыпьте его парой выучиваемых глобальных токенов и будет вам длинный трансформер.
Код доступен в виде библиотеки xFormers. Осторожно Triton.
🔥32👍7🤔2❤‍🔥1👎1
Loss Landscape of Neural Networks: theoretical insights and practical implications

Немного теории диплернинга вам в ленту. EPFL выложил записи миниконфы по loss landscape. Из хайлайтов там есть выступление Jonathan Frankle - автора Lottery Ticket Hypotheses - на тему Understanding Loss Landscapes through Neural Network Sparsity. Обычно его выступления топ. По личному общению с ним он очень не любит теоретиков и считает что его подход, который больше похож на лабы по физике чем на вывод теорем. Последняя лекция содержит в себе "practical bayesian deep learning", что скорее всего ловушка, но может быть интересно.

P.S. Чтобы увидеть ссылки на видео тыкните на Program/Recordings и откроется список.
🔥11👍7💩1