DL in NLP

👍2

4.18K viewsVlad Lialin, 12:24

😁17🤔6🤮6👎3

6.31K viewsVlad Lialin, 12:42

GitHub Copilot теперь доступен всем
https://github.blog/2022-06-21-github-copilot-is-generally-available-to-all-developers

1. 60 дней пробный период
1. $10/мес или $100/год
1. Бесплатно для студентов и меинтейнеров популярного opensource 🎉

По-моему весьма адекватная цена, я использую копайлот где-то с сентября и он очень крут. Очень помогает писать всякий boilerplate и другой простой код. Также matplotlib стало возможно использовать без постоянного поиска команд в гугле/документации. Но самое главное: зачастую помогает придумать название переменной 😂

Пока доступен только индивидуальным разработчикам, продукт для больших компаний обещают later this year. Интересно, появится ли когда-нибудь on-premise решение, а то без этого кажется в больших компаниях типа FAANG он будет запрещен всегда 😞

The GitHub Blog

GitHub Copilot is generally available to all developers

We’re making GitHub Copilot, an AI pair programmer that suggests code in your editor, generally available to all developers for $10 USD/month or $100 USD/year. It will also be free to use for verified students and maintainers of popular open source projects.

🔥13👍8🤯3😁1

8.59K viewsVlad Lialin, edited 14:07

DL in NLP

В статье на хабре про YALM отлично описывают как сейчас тренировать большие модели. Fp16 vs bf16 vs ft32, ZeRo, фьюзинг с помощью jit, отключение дропаута (внезапно ускорение аж на 15%), много про стабилизацию тренировки. 🔥🔥🔥

Внезапно веса модели распространяются по Apache 2.0, то есть вы можете запихать их в свой коммерческий проект 🤔

🔥23❤‍🔥7

3.32K viewsVlad Lialin, edited 13:14

DL in NLP

Forwarded from Love. Death. Transformers.

Яндекс выложил YALM на 100b параметров.
И да, это самая большая open source модель на данный момент

Для запуска нужно:
- 4а100/8v100
-200gb диска

Habr
Github

вопрос во что пихать это встает сильно

Хабр

Яндекс выложил YaLM 100B — сейчас это крупнейшая GPT-подобная нейросеть в свободном доступе. Вот как удалось её обучить

Больше примеров — в конце поста В последние годы большие языковые модели на архитектуре трансформеров стали вершиной развития нейросетей в задачах NLP. С каждым месяцем они становятся всё больше и...

👍7👎3🤔3🎉1

2.88K viewsVlad Lialin, 13:14

DL in NLP

DL in NLP pinned «В статье на хабре про YALM отлично описывают как сейчас тренировать большие модели. Fp16 vs bf16 vs ft32, ZeRo, фьюзинг с помощью jit, отключение дропаута (внезапно ускорение аж на 15%), много про стабилизацию тренировки. 🔥🔥🔥 Внезапно веса модели распространяются…»

13:15

DL in NLP

🤗 купил timm?... 🤔

https://twitter.com/huggingface/status/1539649324107173888

Twitter

Hugging Face

For over a year, we’ve expanded into Computer Vision by adding SOTA models & datasets 🤗 As a next step toward an open-source ML ecosystem, we’re delighted to announce that @wightmanr & timm - the most popular CV ML library - are joining the HF family! 🥳🎉

👍5

3.43K viewsVlad Lialin, edited 14:07

DL in NLP

Forwarded from Институт AIRI

Исследователи AIRI обучили нейросетевую модель на самой полной на сегодняшний день сборке генома человека 🧬

Модель GENA_LM, выложена в open source и доступна биологам по всему миру. В данный момент в мире уже представлен набор достаточно хороших моделей для последовательностей белков (например, ESM), но для последовательностей ДНК публично доступна только разработанная коллективом ученых из США модель DNABERT.

GENA_LM – первая в мире языковая модель ДНК, обученная на самой полной версии генома человека (T2T-CHM13), которая была опубликована в конце марта 2022 года. Она может обрабатывать последовательности в 6 раз длиннее, чем DNABERT.

Опубликованная модель – это первый шаг исследования. Впереди эксперименты по применению трансформерных архитектур с памятью, которые позволят увеличить размер входной последовательности ещё в несколько раз.

Репозитории с моделью GENA_LM:
👾 Hugging Face
👾 GitHub

👍14

2.91K viewsVlad Lialin, 16:38

DL in NLP

The last months be like

🤯10😁5👍1👏1

7.84K viewsVlad Lialin, 16:54

DL in NLP

Forwarded from Love. Death. Transformers.

#чтивонаночь

Ладно, подеградировали пора и поработать.

Bpe — byte pair encoding — почему модель генерит украинский/вообще что то левое.

Да, это все он, великий и могучий. Какая идея — если мы будем кормить в эмбединг модель character level (побуквенно, то есть), то мы
1) Хуй обучим на нормальную длину,
2) Хуй что обучим в принципе, модели шумят.

Если мы будем кормить по словам, ситуация станет лучше, но отчасти. Слов много, пользователи безграмотны, можно очень легко ловить out of vocabulary и прочие прелести жизни. Есть всякие хаки с поиском ближайших слов, но это не всегда работает и вообще тяжелая штука.

Что делать?
Коды Хаффмана.
Вообще, штука простая до нельзя - это жадный алгоритм префиксного кодирования с минимальной избыточностью. Или по-русски — "как закодировать последовательность в минимальное количество подпоследовательностей".

Алгоритм

1) Символы входного алфавита образуют список свободных узлов. Каждый лист имеет вес, который может быть равен либо вероятности, либо количеству вхождений символа в сжимаемое сообщение.
2) Выбираются два свободных узла дерева с наименьшими весами.
3) Создается их родитель с весом, равным их суммарному весу.
4) Родитель добавляется в список свободных узлов, а два его потомка удаляются из этого списка.
5) Одной дуге, выходящей из родителя, ставится в соответствие бит 1, другой — бит 0. Битовые значения ветвей, исходящих от корня, не зависят от весов потомков.
6) Шаги, начиная со второго, повторяются до тех пор, пока в списке свободных узлов не останется только один свободный узел. Он и будет считаться корнем дерева.

BPE
Идея очень похожа, но упрощена в угоду скорости работы (чем больше данных мы прогоним, тем эффективнее научимся кодировать текст).

Так же не будет проблемы если слова нет в словаре, с некоторой эффективностью(не всегда эффективно) оно все равно закодируется.

Обучение BPE

1) Слово = последовательность токенов (пока символов, изначально использовались unicode-символы),
2) Словарь = все токены (на нулевой итерации — символы),
3) Повторять пока не достигли ограничения на размер словаря.
Назначаем новым токеном объединение двух существующих токенов, которое встречается чаще других пар в корпусе (имеется в виду "встречаются вместе").

Читать про BPE

Почитать про разные токенайзеры в том числе про word piece и sentence piece можно в блоге на huggingface.

Medium

Byte-Pair Encoding: Subword-based tokenization algorithm

Understand subword-based tokenization algorithm used by state-of-the-art NLP models — Byte-Pair Encoding (BPE)

👍18🤬12🤔1

4.18K viewsVlad Lialin, 00:08

DL in NLP

Новости NLP одной строкой

1. Тренировка BLOOM - 176B модели от BigScience почти завершена. А ещё Optimum уже поддерживает BLOOM🔥🔥🔥
1. Отличный тред о том как CodeParrot искал ошибки в тренировке своей большой модели
1. Minerva - языковая модель от гугл которая может решать математические задачи
1. Named Tensor 2.0 в пайторче с поддержкой einsum

X (formerly Twitter)

alewkowycz (@alewkowycz) on X

Very excited to present Minerva🦉: a language model capable of solving mathematical questions using step-by-step natural language reasoning.
Combining scale, data and others dramatically improves performance on the STEM benchmarks MATH and MMLU-STEM. http…

🔥11👍3

11.5K viewsVlad Lialin, 03:09

DL in NLP

DALL-E Mini Is the Internet's Favorite AI Meme Machine
wired.com/story/dalle-ai-meme-machine

Вот мы и дошли до того что я даю ссылки на Wired в постах...
Сейчас переехал в новых город 🗽 и знакомлюсь с кучей новых людей, из них почти все не из диплернинга. И довольно быстро я понял что несмотря на весь хайп который создаёт вокруг себя OpenAI, довольно мало людей знает про DALL-E или GPT-3.

Но буквально на днях встретил несколько людей которые почти ничего не знают про OpenAI, но знают про DALL-E Mini/Crayon. Всё-таки мемы - лучший способ продвижения.

В статье собственно обсуждают саму модельку, немного её истории, и что она умеет и не умеет. Рекомендую запомнить её и показывать своим недиплернинговым знакомым.

WIRED

Inside DALL-E Mini, the Internet's Favorite AI Meme Machine

The viral image generation app is good, absurd fun. It's also giving the world an education in how artificial intelligence may warp reality.

👍11

4.85K viewsVlad Lialin, 06:50

DL in NLP

Forwarded from Towards NLP🇺🇦

CMU Multilingual NLP Course

For everyone who is interested in processing of multilingual text and speech data, now there is available the course from Carnegie Mellon University of 2022 year. Enjoy!

https://youtube.com/playlist?list=PL8PYTP1V4I8BhCpzfdKKdd1OnTfLcyZr7

👍20

4.85K viewsVlad Lialin, 03:14

DL in NLP

BLOOM - 176B модель от BigScience официально выпущена!
bigscience.huggingface.co/blog/bloom

46 человеческих языков
16 языков программирования

Теперь будет интересно насколько сложно завести её на том железе которое доступно обычным смертным. Только веса уже занимают несколько сотен gb.

🔥22👍6

4.78K viewsVlad Lialin, edited 16:43

DL in NLP

Forwarded from AI для Всех

DALL·E Now Available in Beta

С сегодняшнего дня пользователи получают полные права на коммерческое использование изображений, созданных ими с помощью DALL-E, включая право на перепечатку, продажу и мерчандайзинг. Сюда входят изображения, созданные ими во время предварительного просмотра.

Пользователи сообщили OpenAI, что планируют использовать изображения DALL-E для коммерческих проектов, таких как иллюстрации для детских книг, иллюстрации для информационных бюллетеней, концепт-арт и персонажи для игр, moodboards для дизайнерских консультаций и раскадровки для фильмов.

анонс

❤17👍4🔥3

3.16K viewsVlad Lialin, 18:00

DL in NLP

Подробнее про новую схему доступа к DALL-E

Цены:
При регистрации вам дают 50 кредитов. Один кредит = одиз запрос к DALL-E. Как они заканчиваются вы можете купить 115 кредитов за $15, получается 13 центов за запрос (модель выдает 4 картинки на каждый запрос). Дальше каждый месяц вы получаете 15 кредитов.

15 или даже 50 кредитов это прямо немного. Я когда использую далли для картинок в презентации думаю раз 10-20 запрашиваю модель.

Те кто участвовали в альфе получили 100 кредитов сверху, что приятно.

Другие детали:

В начале альфы модель генерила 10 картинок на каждый запрос. Потом 8, теперь вообще 4, что немного. Зато гораздо быстрее.

Теперь история генераций стала гораздо больше. Вроде бы с 10 увеличили до 1000.

Права:
Вы не обладаете копирайтом на изображения. Им обладает OpenAI, а у вас есть эксклюзивные права на распространение и коммерциализацию. OpenAI не может продавать изображения которые вы сгенерили. Также они обещают not assert any copyright against you or your users. Но если вы нарушаете Content Policy, например скрываете что это сгенеренная картинка, ваши права отзываются.

👍21🔥5👏2

4.64K viewsVlad Lialin, 18:20

DL in NLP

Тинькофф приглашает на питерский AI-митап 🔎

На митапе команда исследований расскажет о том, как развивает AI-ресерч в Тинькофф.

— Расскажут про последние статьи в NLP Research — модели early exiting и контролируемую генерацию;
— разберут недавние эксперименты со стохастическими нейронными сетями;
— объяснят ситуации, когда применяли Offline RL в реальной жизни.

Митап пройдет 29 июля в Санкт-Петербурге в технопарке ЛЕНПОЛИГРАФМАША. Начало в 19:00. Регистрируйтесь по ссылке: https://u.tinkoff.ru/ai-saintp-research-meetup

#промо

👎35👍21🤮5🤔2🤩1

4.38K viewsVlad Lialin, 09:02

DL in NLP

Simple Local Attentions Remain Competitive for Long-Context Tasks
arxiv.org/abs/2112.07210

За последние два года накопилась куча длинных трансформеров которые могут работать с последовательностями больше 512 токенов. Зачастую такую нейросеть инициализируют предобученным “коротким” трансформером например RoBERTa. В этой статье авторы сказали, “постойте, а что если тренировать всё с нуля и вообще сделать максимально одинаковый сетап для всех длинноформеров“. А ещё “надо взять пару тупых бейзлайнов типа скользящего окна или блочного аттеншена“. Ещё добавили несколько глобальных токенов, которые могут аттентиться ко всей последовательности.

Результат: на бенчмарке LRA все модели показывают одинаковое качество, при этом тупые бейзлайны зачастую быстрее остальных моделей. На более прикладных длиннотекстовых задачах (TriviaQA, Hyperpartisan) блочный аттеншн с глобальными токенами вообще всех рвёт. Выяснили что оверлап блоков улучает MLM, но для прикладных бесполезен. А вот глобальные токены очень важны для TriviaQA, без них модель теряет аж 10 пунктов. Инициализировать RoBERTa даёт заметный буст (78 против 73 F1 на TriviaQA).

Вывод: block-wise attention очень крут, несмотря на то что очень прост. Посыпьте его парой выучиваемых глобальных токенов и будет вам длинный трансформер.
Код доступен в виде библиотеки xFormers. Осторожно Triton.

🔥32👍7🤔2❤‍🔥1👎1

3.92K viewsVlad Lialin, 00:50

DL in NLP

Loss Landscape of Neural Networks: theoretical insights and practical implications

Немного теории диплернинга вам в ленту. EPFL выложил записи миниконфы по loss landscape. Из хайлайтов там есть выступление Jonathan Frankle - автора Lottery Ticket Hypotheses - на тему Understanding Loss Landscapes through Neural Network Sparsity. Обычно его выступления топ. По личному общению с ним он очень не любит теоретиков и считает что его подход, который больше похож на лабы по физике чем на вывод теорем. Последняя лекция содержит в себе "practical bayesian deep learning", что скорее всего ловушка, но может быть интересно.

P.S. Чтобы увидеть ссылки на видео тыкните на Program/Recordings и откроется список.

EPFL

Loss Landscape of Neural Networks: theoretical insights and practical implications

EPFL Virtual Symposium – 15-16 February 2022

🔥11👍7💩1

4.27K viewsVlad Lialin, 19:28

DL in NLP

Давайте поговорим о серьёзных вещах. О постерах. Тех самых постерах которые вы делаете для конференции чтобы показать свою статью другим рисёчерам.

Как правило эти постеры 💩
Сорян

И сегодня я нашёл очень классные видео от Mike Morrison которые описывают как сделать ваши постеры лучше и быстрее. Просто уберите 99% текста и добавьте мем.

Итак, начнём: How to create a better research poster in less time.

Если вам понравилось, можете посмотреть второй видос, который продолжает идею. А потом и видео о том как твитить про вашу статью (Твиттер важен, 99% новостей и статей в этом канале приходят ко мне из твиттера).

🔥32💩5👎4🤬1🎉1

4.72K viewsVlad Lialin, edited 15:54

DL in NLP

Forwarded from Graph Machine Learning

Geometric DL News: 200M proteins in AlphaFold DB, Euclidean nets, Italian GDL Summer School, Diffusers

This week brought us a bunch of news and new materials:

- DeepMind announced expanding the AlphaFold DB to 200 million protein structures. Celebrating 1Y anniversary since the release of groundbreaking AlphaFold 2, DeepMind mentions a huge success of the system among scientists all over the world - more than 500.000 researchers from 190 countries have accesses AlphaFold predictions - and sketches further plans to apply the outcomes in other areas such as drug discovery, fusion, and climate change

- Mario Geiger (MIT) and Tess Smidt (MIT) released an updated version of the writeup on e3nn - the most popular Python library to build Euclidean Neural Networks, a basis for many new cool works like Steerable GNNs and SE(3)-Transformers. The writeup includes simple intuitions behind spherical harmonics, tensor product, irreducible representations, and other key building blocks - if you work on equivariant architectures, you probably do that with e3nn 😉

- 🇮🇹 First Italian School on Geometric Deep Learning releases all slides and Colab Notebooks on equivariance, topology, differential geometry and other topics covered by top speakers including Michael Bronstein, Cristian Bodnar, Maurice Weiler, Pim de Haan, and Francesco Di Giovanni.

- Following the hottest 2022 trend, HuggingFace 🤗 aims to tame the wilds of diffusion models and releases Diffusers 🧨, a single library to build and train diffusion models of all modalities - image generation, text generation, and, of course, graph generation! The PR with GeoDiff, a SOTA molecule generation model from ICLR 2022, is already prepared 🚀

Google DeepMind

AlphaFold reveals the structure of the protein universe

Today, in partnership with EMBL’s European Bioinformatics Institute (EMBL-EBI), we’re now releasing predicted structures for nearly all catalogued proteins known to science, which will expand the...

👏8

4.25K viewsVlad Lialin, 23:58

About

Blog

Apps

Platform