DL in NLP – Telegram

DL in NLP

12.5K subscribers

547 photos

13 videos

27 files

1.1K links

Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)

Download Telegram

About

Blog

Apps

Platform

12.5K subscribers

😁82🔥11👍1

4.28K viewsVlad Lialin, 14:29

Пара интересных новых фишек в 🤗 Transformers 4.20

1. Big model inference🔥 — позволяет очень просто инферить большие модели (10B+) на каком угодно железе. По возможности распараллелит по всем GPU, если не их хватает — кусок модели будет держаться в памяти процессора и подгружаться в GPU когда надо. Если даже CPU памяти не хватает, будет подгружать веса с диска кусками.
1. Добавили BLOOM 🌸 от BigScience — одновремено с этим выложены чекпоинты от 0.3B до 6B. Главная модель в 176B должна подоспеть через месяц.
1. Добавили GPT-NeoX-20B, Wav2Vec2-Conformer, Trajectory Transformer, LongT5 (кстати его надо бы на днях разобрать) и ещё несколько интереных моделей.

🔥50👍12👎2

8.43K viewsVlad Lialin, 03:43

https://twitter.com/ilyasut/status/1537615955257282560

Trillion is the new billion

👍2

4.18K viewsVlad Lialin, 12:24

😁17🤔6🤮6👎3

6.31K viewsVlad Lialin, 12:42

GitHub Copilot теперь доступен всем
https://github.blog/2022-06-21-github-copilot-is-generally-available-to-all-developers

1. 60 дней пробный период
1. $10/мес или $100/год
1. Бесплатно для студентов и меинтейнеров популярного opensource 🎉

По-моему весьма адекватная цена, я использую копайлот где-то с сентября и он очень крут. Очень помогает писать всякий boilerplate и другой простой код. Также matplotlib стало возможно использовать без постоянного поиска команд в гугле/документации. Но самое главное: зачастую помогает придумать название переменной 😂

Пока доступен только индивидуальным разработчикам, продукт для больших компаний обещают later this year. Интересно, появится ли когда-нибудь on-premise решение, а то без этого кажется в больших компаниях типа FAANG он будет запрещен всегда 😞

The GitHub Blog

GitHub Copilot is generally available to all developers

We’re making GitHub Copilot, an AI pair programmer that suggests code in your editor, generally available to all developers for $10 USD/month or $100 USD/year. It will also be free to use for verified students and maintainers of popular open source projects.

🔥13👍8🤯3😁1

8.59K viewsVlad Lialin, edited 14:07

В статье на хабре про YALM отлично описывают как сейчас тренировать большие модели. Fp16 vs bf16 vs ft32, ZeRo, фьюзинг с помощью jit, отключение дропаута (внезапно ускорение аж на 15%), много про стабилизацию тренировки. 🔥🔥🔥

Внезапно веса модели распространяются по Apache 2.0, то есть вы можете запихать их в свой коммерческий проект 🤔

🔥23❤‍🔥7

3.32K viewsVlad Lialin, edited 13:14

Forwarded from Love. Death. Transformers.

Яндекс выложил YALM на 100b параметров.
И да, это самая большая open source модель на данный момент

Для запуска нужно:
- 4а100/8v100
-200gb диска

Habr
Github

вопрос во что пихать это встает сильно

Яндекс выложил YaLM 100B — сейчас это крупнейшая GPT-подобная нейросеть в свободном доступе. Вот как удалось её обучить

Больше примеров — в конце поста В последние годы большие языковые модели на архитектуре трансформеров стали вершиной развития нейросетей в задачах NLP. С каждым месяцем они становятся всё больше и...

👍7👎3🤔3🎉1

2.88K viewsVlad Lialin, 13:14

DL in NLP pinned «В статье на хабре про YALM отлично описывают как сейчас тренировать большие модели. Fp16 vs bf16 vs ft32, ZeRo, фьюзинг с помощью jit, отключение дропаута (внезапно ускорение аж на 15%), много про стабилизацию тренировки. 🔥🔥🔥 Внезапно веса модели распространяются…»

13:15

🤗 купил timm?... 🤔

https://twitter.com/huggingface/status/1539649324107173888

For over a year, we’ve expanded into Computer Vision by adding SOTA models & datasets 🤗 As a next step toward an open-source ML ecosystem, we’re delighted to announce that @wightmanr & timm - the most popular CV ML library - are joining the HF family! 🥳🎉

👍5

3.43K viewsVlad Lialin, edited 14:07

Forwarded from Институт AIRI

Исследователи AIRI обучили нейросетевую модель на самой полной на сегодняшний день сборке генома человека 🧬

Модель GENA_LM, выложена в open source и доступна биологам по всему миру. В данный момент в мире уже представлен набор достаточно хороших моделей для последовательностей белков (например, ESM), но для последовательностей ДНК публично доступна только разработанная коллективом ученых из США модель DNABERT.

GENA_LM – первая в мире языковая модель ДНК, обученная на самой полной версии генома человека (T2T-CHM13), которая была опубликована в конце марта 2022 года. Она может обрабатывать последовательности в 6 раз длиннее, чем DNABERT.

Опубликованная модель – это первый шаг исследования. Впереди эксперименты по применению трансформерных архитектур с памятью, которые позволят увеличить размер входной последовательности ещё в несколько раз.

Репозитории с моделью GENA_LM:
👾 Hugging Face
👾 GitHub

👍14

2.91K viewsVlad Lialin, 16:38

The last months be like

🤯10😁5👍1👏1

7.84K viewsVlad Lialin, 16:54

Forwarded from Love. Death. Transformers.

#чтивонаночь

Ладно, подеградировали пора и поработать.

Bpe — byte pair encoding — почему модель генерит украинский/вообще что то левое.

Да, это все он, великий и могучий. Какая идея — если мы будем кормить в эмбединг модель character level (побуквенно, то есть), то мы
1) Хуй обучим на нормальную длину,
2) Хуй что обучим в принципе, модели шумят.

Если мы будем кормить по словам, ситуация станет лучше, но отчасти. Слов много, пользователи безграмотны, можно очень легко ловить out of vocabulary и прочие прелести жизни. Есть всякие хаки с поиском ближайших слов, но это не всегда работает и вообще тяжелая штука.

Что делать?
Коды Хаффмана.
Вообще, штука простая до нельзя - это жадный алгоритм префиксного кодирования с минимальной избыточностью. Или по-русски — "как закодировать последовательность в минимальное количество подпоследовательностей".

Алгоритм

1) Символы входного алфавита образуют список свободных узлов. Каждый лист имеет вес, который может быть равен либо вероятности, либо количеству вхождений символа в сжимаемое сообщение.
2) Выбираются два свободных узла дерева с наименьшими весами.
3) Создается их родитель с весом, равным их суммарному весу.
4) Родитель добавляется в список свободных узлов, а два его потомка удаляются из этого списка.
5) Одной дуге, выходящей из родителя, ставится в соответствие бит 1, другой — бит 0. Битовые значения ветвей, исходящих от корня, не зависят от весов потомков.
6) Шаги, начиная со второго, повторяются до тех пор, пока в списке свободных узлов не останется только один свободный узел. Он и будет считаться корнем дерева.

BPE
Идея очень похожа, но упрощена в угоду скорости работы (чем больше данных мы прогоним, тем эффективнее научимся кодировать текст).

Так же не будет проблемы если слова нет в словаре, с некоторой эффективностью(не всегда эффективно) оно все равно закодируется.

Обучение BPE

1) Слово = последовательность токенов (пока символов, изначально использовались unicode-символы),
2) Словарь = все токены (на нулевой итерации — символы),
3) Повторять пока не достигли ограничения на размер словаря.
Назначаем новым токеном объединение двух существующих токенов, которое встречается чаще других пар в корпусе (имеется в виду "встречаются вместе").

Читать про BPE

Почитать про разные токенайзеры в том числе про word piece и sentence piece можно в блоге на huggingface.

Byte-Pair Encoding: Subword-based tokenization algorithm

Understand subword-based tokenization algorithm used by state-of-the-art NLP models — Byte-Pair Encoding (BPE)

👍18🤬12🤔1

4.18K viewsVlad Lialin, 00:08

Новости NLP одной строкой

1. Тренировка BLOOM - 176B модели от BigScience почти завершена. А ещё Optimum уже поддерживает BLOOM🔥🔥🔥
1. Отличный тред о том как CodeParrot искал ошибки в тренировке своей большой модели
1. Minerva - языковая модель от гугл которая может решать математические задачи
1. Named Tensor 2.0 в пайторче с поддержкой einsum

X (formerly Twitter)

alewkowycz (@alewkowycz) on X

Very excited to present Minerva🦉: a language model capable of solving mathematical questions using step-by-step natural language reasoning.
Combining scale, data and others dramatically improves performance on the STEM benchmarks MATH and MMLU-STEM. http…

🔥11👍3

11.4K viewsVlad Lialin, 03:09

DALL-E Mini Is the Internet's Favorite AI Meme Machine
wired.com/story/dalle-ai-meme-machine

Вот мы и дошли до того что я даю ссылки на Wired в постах...
Сейчас переехал в новых город 🗽 и знакомлюсь с кучей новых людей, из них почти все не из диплернинга. И довольно быстро я понял что несмотря на весь хайп который создаёт вокруг себя OpenAI, довольно мало людей знает про DALL-E или GPT-3.

Но буквально на днях встретил несколько людей которые почти ничего не знают про OpenAI, но знают про DALL-E Mini/Crayon. Всё-таки мемы - лучший способ продвижения.

В статье собственно обсуждают саму модельку, немного её истории, и что она умеет и не умеет. Рекомендую запомнить её и показывать своим недиплернинговым знакомым.

Inside DALL-E Mini, the Internet's Favorite AI Meme Machine

The viral image generation app is good, absurd fun. It's also giving the world an education in how artificial intelligence may warp reality.

👍11

4.85K viewsVlad Lialin, 06:50

Forwarded from Towards NLP🇺🇦

CMU Multilingual NLP Course

For everyone who is interested in processing of multilingual text and speech data, now there is available the course from Carnegie Mellon University of 2022 year. Enjoy!

https://youtube.com/playlist?list=PL8PYTP1V4I8BhCpzfdKKdd1OnTfLcyZr7

👍20

4.85K viewsVlad Lialin, 03:14

BLOOM - 176B модель от BigScience официально выпущена!
bigscience.huggingface.co/blog/bloom

46 человеческих языков
16 языков программирования

Теперь будет интересно насколько сложно завести её на том железе которое доступно обычным смертным. Только веса уже занимают несколько сотен gb.

🔥22👍6

4.78K viewsVlad Lialin, edited 16:43

Forwarded from AI для Всех

DALL·E Now Available in Beta

С сегодняшнего дня пользователи получают полные права на коммерческое использование изображений, созданных ими с помощью DALL-E, включая право на перепечатку, продажу и мерчандайзинг. Сюда входят изображения, созданные ими во время предварительного просмотра.

Пользователи сообщили OpenAI, что планируют использовать изображения DALL-E для коммерческих проектов, таких как иллюстрации для детских книг, иллюстрации для информационных бюллетеней, концепт-арт и персонажи для игр, moodboards для дизайнерских консультаций и раскадровки для фильмов.

анонс

❤17👍4🔥3

3.16K viewsVlad Lialin, 18:00

Подробнее про новую схему доступа к DALL-E

Цены:
При регистрации вам дают 50 кредитов. Один кредит = одиз запрос к DALL-E. Как они заканчиваются вы можете купить 115 кредитов за $15, получается 13 центов за запрос (модель выдает 4 картинки на каждый запрос). Дальше каждый месяц вы получаете 15 кредитов.

15 или даже 50 кредитов это прямо немного. Я когда использую далли для картинок в презентации думаю раз 10-20 запрашиваю модель.

Те кто участвовали в альфе получили 100 кредитов сверху, что приятно.

Другие детали:

В начале альфы модель генерила 10 картинок на каждый запрос. Потом 8, теперь вообще 4, что немного. Зато гораздо быстрее.

Теперь история генераций стала гораздо больше. Вроде бы с 10 увеличили до 1000.

Права:
Вы не обладаете копирайтом на изображения. Им обладает OpenAI, а у вас есть эксклюзивные права на распространение и коммерциализацию. OpenAI не может продавать изображения которые вы сгенерили. Также они обещают not assert any copyright against you or your users. Но если вы нарушаете Content Policy, например скрываете что это сгенеренная картинка, ваши права отзываются.

👍21🔥5👏2

4.64K viewsVlad Lialin, 18:20

Тинькофф приглашает на питерский AI-митап 🔎

На митапе команда исследований расскажет о том, как развивает AI-ресерч в Тинькофф.

— Расскажут про последние статьи в NLP Research — модели early exiting и контролируемую генерацию;
— разберут недавние эксперименты со стохастическими нейронными сетями;
— объяснят ситуации, когда применяли Offline RL в реальной жизни.

Митап пройдет 29 июля в Санкт-Петербурге в технопарке ЛЕНПОЛИГРАФМАША. Начало в 19:00. Регистрируйтесь по ссылке: https://u.tinkoff.ru/ai-saintp-research-meetup

#промо

👎35👍21🤮5🤔2🤩1

4.38K viewsVlad Lialin, 09:02

Simple Local Attentions Remain Competitive for Long-Context Tasks
arxiv.org/abs/2112.07210

За последние два года накопилась куча длинных трансформеров которые могут работать с последовательностями больше 512 токенов. Зачастую такую нейросеть инициализируют предобученным “коротким” трансформером например RoBERTa. В этой статье авторы сказали, “постойте, а что если тренировать всё с нуля и вообще сделать максимально одинаковый сетап для всех длинноформеров“. А ещё “надо взять пару тупых бейзлайнов типа скользящего окна или блочного аттеншена“. Ещё добавили несколько глобальных токенов, которые могут аттентиться ко всей последовательности.

Результат: на бенчмарке LRA все модели показывают одинаковое качество, при этом тупые бейзлайны зачастую быстрее остальных моделей. На более прикладных длиннотекстовых задачах (TriviaQA, Hyperpartisan) блочный аттеншн с глобальными токенами вообще всех рвёт. Выяснили что оверлап блоков улучает MLM, но для прикладных бесполезен. А вот глобальные токены очень важны для TriviaQA, без них модель теряет аж 10 пунктов. Инициализировать RoBERTa даёт заметный буст (78 против 73 F1 на TriviaQA).

Вывод: block-wise attention очень крут, несмотря на то что очень прост. Посыпьте его парой выучиваемых глобальных токенов и будет вам длинный трансформер.
Код доступен в виде библиотеки xFormers. Осторожно Triton.

🔥32👍7🤔2❤‍🔥1👎1

3.92K viewsVlad Lialin, 00:50

Loss Landscape of Neural Networks: theoretical insights and practical implications

Немного теории диплернинга вам в ленту. EPFL выложил записи миниконфы по loss landscape. Из хайлайтов там есть выступление Jonathan Frankle - автора Lottery Ticket Hypotheses - на тему Understanding Loss Landscapes through Neural Network Sparsity. Обычно его выступления топ. По личному общению с ним он очень не любит теоретиков и считает что его подход, который больше похож на лабы по физике чем на вывод теорем. Последняя лекция содержит в себе "practical bayesian deep learning", что скорее всего ловушка, но может быть интересно.

P.S. Чтобы увидеть ссылки на видео тыкните на Program/Recordings и откроется список.

Loss Landscape of Neural Networks: theoretical insights and practical implications

EPFL Virtual Symposium – 15-16 February 2022

🔥11👍7💩1

4.26K viewsVlad Lialin, 19:28