DL in NLP

Давайте поговорим о серьёзных вещах. О постерах. Тех самых постерах которые вы делаете для конференции чтобы показать свою статью другим рисёчерам.

Как правило эти постеры 💩
Сорян

И сегодня я нашёл очень классные видео от Mike Morrison которые описывают как сделать ваши постеры лучше и быстрее. Просто уберите 99% текста и добавьте мем.

Итак, начнём: How to create a better research poster in less time.

Если вам понравилось, можете посмотреть второй видос, который продолжает идею. А потом и видео о том как твитить про вашу статью (Твиттер важен, 99% новостей и статей в этом канале приходят ко мне из твиттера).

🔥32💩5👎4🤬1🎉1

4.72K viewsVlad Lialin, edited 15:54

DL in NLP

Forwarded from Graph Machine Learning

Geometric DL News: 200M proteins in AlphaFold DB, Euclidean nets, Italian GDL Summer School, Diffusers

This week brought us a bunch of news and new materials:

- DeepMind announced expanding the AlphaFold DB to 200 million protein structures. Celebrating 1Y anniversary since the release of groundbreaking AlphaFold 2, DeepMind mentions a huge success of the system among scientists all over the world - more than 500.000 researchers from 190 countries have accesses AlphaFold predictions - and sketches further plans to apply the outcomes in other areas such as drug discovery, fusion, and climate change

- Mario Geiger (MIT) and Tess Smidt (MIT) released an updated version of the writeup on e3nn - the most popular Python library to build Euclidean Neural Networks, a basis for many new cool works like Steerable GNNs and SE(3)-Transformers. The writeup includes simple intuitions behind spherical harmonics, tensor product, irreducible representations, and other key building blocks - if you work on equivariant architectures, you probably do that with e3nn 😉

- 🇮🇹 First Italian School on Geometric Deep Learning releases all slides and Colab Notebooks on equivariance, topology, differential geometry and other topics covered by top speakers including Michael Bronstein, Cristian Bodnar, Maurice Weiler, Pim de Haan, and Francesco Di Giovanni.

- Following the hottest 2022 trend, HuggingFace 🤗 aims to tame the wilds of diffusion models and releases Diffusers 🧨, a single library to build and train diffusion models of all modalities - image generation, text generation, and, of course, graph generation! The PR with GeoDiff, a SOTA molecule generation model from ICLR 2022, is already prepared 🚀

Google DeepMind

AlphaFold reveals the structure of the protein universe

Today, in partnership with EMBL’s European Bioinformatics Institute (EMBL-EBI), we’re now releasing predicted structures for nearly all catalogued proteins known to science, which will expand the...

👏8

4.24K viewsVlad Lialin, 23:58

DL in NLP

1:33

This media is not supported in your browser

VIEW IN TELEGRAM

NeurIPS 2022

😁73👍5🌚3👎1

9.54K viewsVlad Lialin, 03:52

DL in NLP

🤗 Анонсировали Private Hub 🔥🔥🔥
huggingface.co/blog/introducing-private-hub

Это биг дил для Huggingface и для индустрии. По сути последние несколько лет HF строила не только свои библиотеки, но огромную платформу которая умеет хостить, версионировать, и, самое главное – удобно работать с датасетами и предобученными моделями. А Transformers и Datasets приучили разработчиков к этой экосистеме.

Если вы работали в больших компаниях, вы знаете насколько странными, неудобными и устаревшими является большинство внутренних подобных продуктов. Даже в FAANG все далеко не так хорошо, ибо легаси.

Теперь каждая компания может хостить приватную версию 🤗 Hub для себя. Она включает модельки, датасеты, AutoTrain, Spaces, discussions, и Inference API.

Не думаю что сейчас все ломанутся их покупать, но парочка больших клиентов может гарантировать что 🤗 сможет остаться с нами надолго и продолжать нас радовать удобными тулзами. Очень рад за ребят.

🔥75

5.02K viewsVlad Lialin, edited 04:54

DL in NLP

Новости NLP одной строкой #7

1. Поддержка int8 для всех моделей в Transformers 🔥🔥🔥. Обещают есть в 4 раза меньше памяти при минимальных потерях в качестве. Сейчас в бете, скоро обещают статью и релиз. Подробнее тут.
1. Графовые сети не нужны, трансформеры могут отлично решать графовые задачи, если использовать правильный метод эмбеддинга.
1. Модель Atlas это такой RETRO, но где более правильно тюнят и retreiver и language model. Atlas-11B обходит PALM-540B на QA задаче. Вообще в статье очень хороший анализ того как правильно варить retreival-augmented модели.
1. Интересная статья Meta AI о том как обучать conversational модель после деплоя.
1. Branch-Train-Merge — забавный метод где в начале тренируют кучу не очень больших LM на разных доменах а потом их ансамблируют. В результате обошли GPT-3.
1. Multiplying Matrices Without Multiplying — кажется я уже когда-то видел статю с таким названием, но всё равно забавная идея. Предлагают хитрый способ ускорения матричного умножения который не требует операций умножения (которые для процессора гораздо дороже сложения).
1. Робастность трансформеров и CNN на vision задачах на удивление близка. Вообще забавно смотреть на то что уже почти два года пошло после ViT, на CNN так и не сдают.

👍44🔥3

4.36K viewsVlad Lialin, 02:40

DL in NLP

Forwarded from AbstractDL

BlenderBot 3: лучший в мире чатбот (by Meta)

Встречайте третью версию чатбота от лидера в сфере Conversational AI! В нём собраны все последние разработки фейсбука:
- Умение гуглить.
- Долговременная память фактов о себе и юзере.
- Safety (не грубит, к суициду не приглашает).

Представлены сразу три версии: 3B, 30B, 175B. Последние две основаны на языковой модели OPT. Веса и код выложены в открытый доступ, поболтать с ботом можно тут.

Статья, GitHub, блог, бот

🔥26👍9🏆3🤔2🤯2

2.73K viewsVlad Lialin, 18:03

DL in NLP

Новости NLP одной строкой #8

1. AI Art and Reliable Pretrained Language Models — The Gradient о DALL-E, больших моделях и всему тому что вы любите.
1. В paperspace теперь можно бесплатно попробовать IPU в ноутбуках (это как TPU, но не от гугла а от graphcore). Вот тут туториал. Выглядит кривовато, но интересно.
1. Efficient Training on a Single GPU — отличный туториал по производительности. Отлично подходит и для новичков и для тех кто уже хорошо знаком с pytorch. Начинают с простых вещей вроде gradient accumulation и заканчивают bf16 и Deepspeed Zero.
1. Рассказ о том как TensorFlow модельку ускоряли с помощью XLA. В 1000 раз быстрее eager, в 5-10 раз быстрее pytorch при семплировании (но медленнее pytorch при beam search). Коротко: фиксируйте шейпы батчей, используйте tf.function и jit.compile.
1. DP-Transformers 🙃— тренировка трансформеров с differential privacy от Microsoft.
1. Google Universal Image Embeddings Challenge — задачка на Kaggle по retreival схожих изображений от гугла. Обещают интересный датасет в котором сочетается куча различных доменов — от фотографий одежды до мемов.
1. GLM-130B — en-ch моделька на 130B праметров. Говорят что зирошотит лучше BLOOM, OPT, и GPT-3.
1. Data Science Pet Projects — статья на хабре о том зачем и как делать пет-проекты. Очень наболевшая для меня тема — рекомендую.
1. Мега простое объяснение как писать свои декораторы в питоне

👍32🔥1😁1

4.25K viewsVlad Lialin, 17:12

DL in NLP

Тут в эйай ньюз обсуждение кэнселинга stable Diffusion и я решил сформулировать свои мысли. Мне интересно как будет меняться домен копирайта и лицензий под влиянием Codex, DALL-E и друзей. Вот три момента на подумать:

1. Если смотреть на текущие популярные свободные лицензии, многие из них (MIT, Apache, CC) требуют прикладывания копии лицензии с именами авторов к вашему продукту. Это сделать не очень сложно, но в текущих датасетах (том же LAION) такой метаинформации пока нет.

1. Когда эти лицензии составлялись никто не представлял себе в каких объёмах код/картинки могут быть использованы и что станет возможно автоматически генерировать сопоставимые по качеству код/картинки. Вангую что в ближайший год начнут распространяется новые виды лизензий которые будут копиями MIT/CC/Apache но с припиской что тренировать на этом нельзя. Как именно это будет сформулировано - очень интересно. Думаю что BigScience RAIL - это первая ласточка AI-aware лицензий.

1. В принципе уровень образованности в плане opensouce лицензий очень низок. Не все понимают разницу даже между MIT и GPLv3, но хуже то что зачастую на лицензии вообще не обращают внимания. Не исключаю что в LAION-5B может находиться много картинок которые не позволяют свое использование без разрешения автора. И если так и окажется, всем будет больно.

эйай ньюз

Что думаете по поводу этого, господа?

Нужно ли запретить все эти выкрутасы с открытыми генеративными моделями, дабы сохранить ценность работы честных работяг, либо стоит адаптироваться и учиться встраивать AI в свою рабочую рутину и становиться более ко…

👍11

4.43K viewsVlad Lialin, edited 15:26

DL in NLP

Forwarded from AI для Всех

Андрей Карпати (ex Tesla AI) выложил новую лекцию

«!!!! Итак, я записал (новую!) 2h25m лекцию "The spelled-out intro to neural networks and backpropagation: building micrograd".
Это кульминация примерно 8 лет навязчивых мыслей о том, как лучше объяснить нейронные сети и обратное распространение.

Если вы знаете Python, смутно помните, как проходили производные в средней школе, посмотрите это видео и к концу не поймете обратное распространение и суть нейронных сетей, тогда я съем ботинок :D»

Смотреть

YouTube

The spelled-out intro to neural networks and backpropagation: building micrograd

This is the most step-by-step spelled-out explanation of backpropagation and training of neural networks. It only assumes basic knowledge of Python and a vague recollection of calculus from high school.

Links:
- micrograd on github: https://github.com/k…

👍38🔥7😱2👎1

3.74K viewsVlad Lialin, 16:04

DL in NLP

Новости NLP одной строкой #9

1. Stable Diffusion уже в Diffusers от HuggingFace. По слухам релиз весов будет на след неделе.
1. Бесплатный (но медленный) плейграунд OPT-175B
1. Топовая вводная лекция по backpropagation от Андрея Карпати.
1. PALM-540B может декомпозировать задачи для роботов, если взвесить генерацию с помощью value function. Начинаю верить что через 5 лет роботы будут повсюду и полезны.
1. Тред TIm Dettmers о том как работает int8 в Transformers. TL;DR — часть сетки квантизуется, а часть (аутлаеры) нет. Особенно важно для моделей > 6B
1. Классный трюк как можно использовать изображения Dalle-Mini как сид Stable Diffusion и получать безумные но реалистичные изображения.
1. Отличный блогпост об интерпретируемости моделей и о связи между преобразованием фурье и grokking.

Google

stable_diffusion.ipynb

Run, share, and edit Python notebooks

👍31

5.17K viewsVlad Lialin, edited 19:21

DL in NLP

Forwarded from (sci)Berloga Всех Наук и Технологий

🚀 @SBERLOGABIG online seminar on data science:
👨‍🔬 Татьяна Шаврина (AIRI, Sberdevices) «Многоязычное приключение или как мы учили mGPT: многоязычная модель GPT-3 для 61 языка мира»
⌚️ Четверг 25 августа, 18.00 по Москве

В докладе мы расскажем о проблемах, которые возникали во время обучения мультиязычной модели, посмотрим ее архитектуру, способы оценки — и дальнейшее развитие.

О докладчике: Татьяна Шаврина,
Главный эксперт по технологиям, RnD NLP, SberDevices
Руководитель исследовательских проектов, AI Research Institute.
Автор тг канала: @rybolos_channel - подписывайтесь !

Google calendar link

Ссылка на зум будет доступна на канале: https://t.iss.one/sberlogabig перед началом доклада - подписывайтесь!

👍14👎12

3.9K viewsVlad Lialin, 14:47

DL in NLP

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

Новости NLP (и не только) одной строкой #10

1. Using AI to generate fashion — как использовать DALL-E inpainting в видео. Просто добавьте EbSynth + DAIN.
1. AI Test Kitchen от Google — попытка гугла выкатить демки их нейросеток (например LaMDA или PARTI) обычным людям. Записаться в бету можно уже сейчас.
1. Landing a job at top-tier AI labs — хороший блогпост о том как выучить DL и пройти в DeepMind всего за 4 года. Спойлер — это сложно.
1. Statement of purpose Abudakar Abid (фаундер Gradio) который позволил ему пройти в MIT и Stanford.
1. Training Data Extraction Challenge — соревнование по экстракции данных из языковых моделей.
1. Lexica — a search engine for AI-generated images and prompts (and seeds).
1. Исследование Anthropic о том как эффективнее всего алайнить языковые модели. RL с human feedback работает лучше всех.

👍29🔥11❤1

5K viewsVlad Lialin, 18:50

DL in NLP

Cегодня прочитал Transformer Circuits и это прямо хорошо

Основная идея - представить трансформер как последовательность матричных и тензорных произведений и использовать свойства тензорного произведения чтобы построить эквивалетную сеть, которую проще интерпретировать.

Теперь немного конкретнее про те вещи которые мне показались интересными.

Проще думать о том как работает трансформер, если смотреть на residual сеть как на основную. Остальные слои от неё отбранчовываются и добавляют/убирают информацию.

Attention heads — независимые друг от друга операторы (даже с учётом mixing matrix) которые переносят информацию из одних токенов в другие.

Дальше работают с упрощённым трансформером без LayerNorm и FFN.

Однослойный transformer можно (нестрого) интерпретировать как биграмную и скип-триграмную языковую модель. Что такое скип-триграммы? Например если у вас есть текст twitter.com/username/status, то [twitter, ..., /] может быть скиптриграммой в которой пропущено /username Авторы показали что в обученной модели такая скиптриграмма сильно повышает вероятность status.

Такой подход позволяет показать ограничения однослойной модели. Например так как триграмма [keep, ...., in] повышает вероятность mind а [keep, ..., at] вероятность bay, то модель также должна повышать верояности [keep, ..., at] -> mind и [keep, ..., in] -> bay. И несколько таких "багов" модели даже нашли.

👍40❤5

6.09K viewsVlad Lialin, edited 17:50

DL in NLP

Кажется Андрея Карпатого потянуло на образование. В прошлом месяце вышла его лекция по backprop, а теперь лекция по n-gram языковым моделям (count-based и neural)

И будет больше! Вот гитхаб: nn zero to hero

YouTube

The spelled-out intro to language modeling: building makemore

We implement a bigram character-level language model, which we will further complexify in followup videos into a modern Transformer language model, like GPT. In this video, the focus is on (1) introducing torch.Tensor and its subtleties and use in efficiently…

🔥44👍7❤1

6.31K viewsVlad Lialin, 22:32

DL in NLP

Forwarded from Love. Death. Transformers.

Валентин малых перезапускает бесплатный курс по NLP от ODS.AI

Блог

Хабр

Новый запуск курса Natural Language Processing

TL;DR: Этой осенью сообщество Open Data Science и компания Huawei делают новый запуск курса по обработке естественного языка. Вот страница нашего курса. Для того, чтобы его пройти, нужно...

👍37🔥5❤1

3.99K viewsVlad Lialin, 15:09

DL in NLP

Скоро запускается новый ран Deep Learning Foundations от fast.ai 🔥

У fast.ai есть два главных курса:
1. Deep Learning for Coders, которй использует top-down подход где вас в начале учат black box тулзам и как быстро решать задачи, а потом постепенно знакомят с тем как эти black box работают
1. Deep Learning Foundations — отличное продолжение первого курса, которое работает совсем подругому. Bottom-up подход, объясняются самые основы и постепенно вы доходите от бэкпропа до всяких новых методов. Последний раз курс обновлялся в 2019, что по меркам DL довольно давно.

Новая итерация Deep Learning Foundations будет включать пару новых топиков, в том числе сontrastive learning, latent variables, и диффузионные модели такие как Stable Diffusion.

Курс будет доступен бесплатно "early 2023". Есть платная версия с доступом в октябре (проходить курс вместе с тем как он записывается в University of Queensland), но это стоит $500 😒, что как-то не очень доступно.

В любом случае курсы от fast.ai (даже их старые версии) это неплохой вариант быстро въехать в DL или взглянуть на DL под новым углом. Несмотря на то что у fast.ai много questionable coding practices, мне всё ещё кажется что курс очень интересный и сильно отличается от всех остальных.

Practical Deep Learning for Coders

Practical Deep Learning for Coders - Practical Deep Learning

A free course designed for people with some coding experience, who want to learn how to apply deep learning and machine learning to practical problems.

👍24🔥5❤3

4.38K viewsVlad Lialin, 16:23

DL in NLP

Ускоряем нейросетки с помощью PyTorch 1.2 и nvFuser

Кто такой этот ваш nvFuser? Это новый компилятор который заменяет/дополняет TorchScript и позволяет фьюзить несколько GPU операций в одну. Это особенно хорошо работает с последовательностями поэлементных операций, таких как сложные функции активации или последовательность простых операций как bias->dropout->layerNorm

Чем это отличается от гугловского XLA? Неплохо умеет работать с dynamic shapes, например если у вас у разных батчей разная длина последовательности, XLA придётся всё перекомпилировать, а nvFuser будет работать нормально. Замедление по сравнению со статическими шейпами есть но оно небольшое (сравните столбики Composite Definition и Random Sizes).

А вот тут официальный туториал от PyTorch

👍17🥰2😢1

4.7K viewsVlad Lialin, 15:17

DL in NLP

❤1

4.63K viewsVlad Lialin, 15:17

DL in NLP

❤1

4.93K viewsVlad Lialin, 15:17

DL in NLP

Forwarded from Hints research (ex Market Research)

Друзья, сейчас важно помочь с релокацией тем, кто хочет уехать, но не может финансово сделать это в одиночку.

Вероятно многим в канале это не актуально, но прошу об услуге
1. Поделитесь с теми, кому это поможет
2. Поставьте в комментарии к городу, в котором вы находитесь, что вы там, это поможет запустить активность чата
——
Чат для поиска людей, с которыми можно скооперироваться для аренды жилья за границей

https://t.iss.one/friends_for_relocate

Зачем это?
- многие уезжают по одиночке
- многим дорого снимать квартиру на одного
- а если снимать вместе то сильно дешевле
- квартиры уже сильно подорожали (в 2-3 раза) плюс однушки заняты

Как использовать
- выбирайте из списка в канале город, куда собираетесь ехать
- пишите в комментарии когда собираетесь ехать, или что уже приехали и ищете соседей
- пишите тем кто едет туда же
- снимайте квартиру совместно

Зовите других людей
- многие не решаются уезжать, потому что уже очень дорого, а зарплата не позволяет
- расскажите им про чат, чтобы они увидели, с кем могут скооперироваться, как могут сэкономить, и наконец решились уехать

👍40💩21🔥4😢3😁2❤1👎1

3.66K viewsVlad Lialin, 05:16

About

Blog

Apps

Platform