DL in NLP

NeurIPS 2022

😁73👍5🌚3👎1

9.56K viewsVlad Lialin, 03:52

🤗 Анонсировали Private Hub 🔥🔥🔥
huggingface.co/blog/introducing-private-hub

Это биг дил для Huggingface и для индустрии. По сути последние несколько лет HF строила не только свои библиотеки, но огромную платформу которая умеет хостить, версионировать, и, самое главное – удобно работать с датасетами и предобученными моделями. А Transformers и Datasets приучили разработчиков к этой экосистеме.

Если вы работали в больших компаниях, вы знаете насколько странными, неудобными и устаревшими является большинство внутренних подобных продуктов. Даже в FAANG все далеко не так хорошо, ибо легаси.

Теперь каждая компания может хостить приватную версию 🤗 Hub для себя. Она включает модельки, датасеты, AutoTrain, Spaces, discussions, и Inference API.

Не думаю что сейчас все ломанутся их покупать, но парочка больших клиентов может гарантировать что 🤗 сможет остаться с нами надолго и продолжать нас радовать удобными тулзами. Очень рад за ребят.

🔥75

5.02K viewsVlad Lialin, edited 04:54

DL in NLP

Новости NLP одной строкой #7

1. Поддержка int8 для всех моделей в Transformers 🔥🔥🔥. Обещают есть в 4 раза меньше памяти при минимальных потерях в качестве. Сейчас в бете, скоро обещают статью и релиз. Подробнее тут.
1. Графовые сети не нужны, трансформеры могут отлично решать графовые задачи, если использовать правильный метод эмбеддинга.
1. Модель Atlas это такой RETRO, но где более правильно тюнят и retreiver и language model. Atlas-11B обходит PALM-540B на QA задаче. Вообще в статье очень хороший анализ того как правильно варить retreival-augmented модели.
1. Интересная статья Meta AI о том как обучать conversational модель после деплоя.
1. Branch-Train-Merge — забавный метод где в начале тренируют кучу не очень больших LM на разных доменах а потом их ансамблируют. В результате обошли GPT-3.
1. Multiplying Matrices Without Multiplying — кажется я уже когда-то видел статю с таким названием, но всё равно забавная идея. Предлагают хитрый способ ускорения матричного умножения который не требует операций умножения (которые для процессора гораздо дороже сложения).
1. Робастность трансформеров и CNN на vision задачах на удивление близка. Вообще забавно смотреть на то что уже почти два года пошло после ViT, на CNN так и не сдают.

👍44🔥3

4.36K viewsVlad Lialin, 02:40

DL in NLP

Forwarded from AbstractDL

BlenderBot 3: лучший в мире чатбот (by Meta)

Встречайте третью версию чатбота от лидера в сфере Conversational AI! В нём собраны все последние разработки фейсбука:
- Умение гуглить.
- Долговременная память фактов о себе и юзере.
- Safety (не грубит, к суициду не приглашает).

Представлены сразу три версии: 3B, 30B, 175B. Последние две основаны на языковой модели OPT. Веса и код выложены в открытый доступ, поболтать с ботом можно тут.

Статья, GitHub, блог, бот

🔥26👍9🏆3🤔2🤯2

2.74K viewsVlad Lialin, 18:03

DL in NLP

Новости NLP одной строкой #8

1. AI Art and Reliable Pretrained Language Models — The Gradient о DALL-E, больших моделях и всему тому что вы любите.
1. В paperspace теперь можно бесплатно попробовать IPU в ноутбуках (это как TPU, но не от гугла а от graphcore). Вот тут туториал. Выглядит кривовато, но интересно.
1. Efficient Training on a Single GPU — отличный туториал по производительности. Отлично подходит и для новичков и для тех кто уже хорошо знаком с pytorch. Начинают с простых вещей вроде gradient accumulation и заканчивают bf16 и Deepspeed Zero.
1. Рассказ о том как TensorFlow модельку ускоряли с помощью XLA. В 1000 раз быстрее eager, в 5-10 раз быстрее pytorch при семплировании (но медленнее pytorch при beam search). Коротко: фиксируйте шейпы батчей, используйте tf.function и jit.compile.
1. DP-Transformers 🙃— тренировка трансформеров с differential privacy от Microsoft.
1. Google Universal Image Embeddings Challenge — задачка на Kaggle по retreival схожих изображений от гугла. Обещают интересный датасет в котором сочетается куча различных доменов — от фотографий одежды до мемов.
1. GLM-130B — en-ch моделька на 130B праметров. Говорят что зирошотит лучше BLOOM, OPT, и GPT-3.
1. Data Science Pet Projects — статья на хабре о том зачем и как делать пет-проекты. Очень наболевшая для меня тема — рекомендую.
1. Мега простое объяснение как писать свои декораторы в питоне

👍32🔥1😁1

4.25K viewsVlad Lialin, 17:12

DL in NLP

Тут в эйай ньюз обсуждение кэнселинга stable Diffusion и я решил сформулировать свои мысли. Мне интересно как будет меняться домен копирайта и лицензий под влиянием Codex, DALL-E и друзей. Вот три момента на подумать:

1. Если смотреть на текущие популярные свободные лицензии, многие из них (MIT, Apache, CC) требуют прикладывания копии лицензии с именами авторов к вашему продукту. Это сделать не очень сложно, но в текущих датасетах (том же LAION) такой метаинформации пока нет.

1. Когда эти лицензии составлялись никто не представлял себе в каких объёмах код/картинки могут быть использованы и что станет возможно автоматически генерировать сопоставимые по качеству код/картинки. Вангую что в ближайший год начнут распространяется новые виды лизензий которые будут копиями MIT/CC/Apache но с припиской что тренировать на этом нельзя. Как именно это будет сформулировано - очень интересно. Думаю что BigScience RAIL - это первая ласточка AI-aware лицензий.

1. В принципе уровень образованности в плане opensouce лицензий очень низок. Не все понимают разницу даже между MIT и GPLv3, но хуже то что зачастую на лицензии вообще не обращают внимания. Не исключаю что в LAION-5B может находиться много картинок которые не позволяют свое использование без разрешения автора. И если так и окажется, всем будет больно.

эйай ньюз

Что думаете по поводу этого, господа?

Нужно ли запретить все эти выкрутасы с открытыми генеративными моделями, дабы сохранить ценность работы честных работяг, либо стоит адаптироваться и учиться встраивать AI в свою рабочую рутину и становиться более ко…

👍11

4.43K viewsVlad Lialin, edited 15:26

DL in NLP

Forwarded from AI для Всех

Андрей Карпати (ex Tesla AI) выложил новую лекцию

«!!!! Итак, я записал (новую!) 2h25m лекцию "The spelled-out intro to neural networks and backpropagation: building micrograd".
Это кульминация примерно 8 лет навязчивых мыслей о том, как лучше объяснить нейронные сети и обратное распространение.

Если вы знаете Python, смутно помните, как проходили производные в средней школе, посмотрите это видео и к концу не поймете обратное распространение и суть нейронных сетей, тогда я съем ботинок :D»

Смотреть

YouTube

The spelled-out intro to neural networks and backpropagation: building micrograd

This is the most step-by-step spelled-out explanation of backpropagation and training of neural networks. It only assumes basic knowledge of Python and a vague recollection of calculus from high school.

Links:
- micrograd on github: https://github.com/k…

👍38🔥7😱2👎1

3.74K viewsVlad Lialin, 16:04

DL in NLP

Новости NLP одной строкой #9

1. Stable Diffusion уже в Diffusers от HuggingFace. По слухам релиз весов будет на след неделе.
1. Бесплатный (но медленный) плейграунд OPT-175B
1. Топовая вводная лекция по backpropagation от Андрея Карпати.
1. PALM-540B может декомпозировать задачи для роботов, если взвесить генерацию с помощью value function. Начинаю верить что через 5 лет роботы будут повсюду и полезны.
1. Тред TIm Dettmers о том как работает int8 в Transformers. TL;DR — часть сетки квантизуется, а часть (аутлаеры) нет. Особенно важно для моделей > 6B
1. Классный трюк как можно использовать изображения Dalle-Mini как сид Stable Diffusion и получать безумные но реалистичные изображения.
1. Отличный блогпост об интерпретируемости моделей и о связи между преобразованием фурье и grokking.

Google

stable_diffusion.ipynb

Run, share, and edit Python notebooks

👍31

5.17K viewsVlad Lialin, edited 19:21

DL in NLP

Forwarded from (sci)Berloga Всех Наук и Технологий

🚀 @SBERLOGABIG online seminar on data science:
👨‍🔬 Татьяна Шаврина (AIRI, Sberdevices) «Многоязычное приключение или как мы учили mGPT: многоязычная модель GPT-3 для 61 языка мира»
⌚️ Четверг 25 августа, 18.00 по Москве

В докладе мы расскажем о проблемах, которые возникали во время обучения мультиязычной модели, посмотрим ее архитектуру, способы оценки — и дальнейшее развитие.

О докладчике: Татьяна Шаврина,
Главный эксперт по технологиям, RnD NLP, SberDevices
Руководитель исследовательских проектов, AI Research Institute.
Автор тг канала: @rybolos_channel - подписывайтесь !

Google calendar link

Ссылка на зум будет доступна на канале: https://t.iss.one/sberlogabig перед началом доклада - подписывайтесь!

👍14👎12

3.9K viewsVlad Lialin, 14:47

DL in NLP

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

Новости NLP (и не только) одной строкой #10

1. Using AI to generate fashion — как использовать DALL-E inpainting в видео. Просто добавьте EbSynth + DAIN.
1. AI Test Kitchen от Google — попытка гугла выкатить демки их нейросеток (например LaMDA или PARTI) обычным людям. Записаться в бету можно уже сейчас.
1. Landing a job at top-tier AI labs — хороший блогпост о том как выучить DL и пройти в DeepMind всего за 4 года. Спойлер — это сложно.
1. Statement of purpose Abudakar Abid (фаундер Gradio) который позволил ему пройти в MIT и Stanford.
1. Training Data Extraction Challenge — соревнование по экстракции данных из языковых моделей.
1. Lexica — a search engine for AI-generated images and prompts (and seeds).
1. Исследование Anthropic о том как эффективнее всего алайнить языковые модели. RL с human feedback работает лучше всех.

👍29🔥11❤1

5K viewsVlad Lialin, 18:50

DL in NLP

Cегодня прочитал Transformer Circuits и это прямо хорошо

Основная идея - представить трансформер как последовательность матричных и тензорных произведений и использовать свойства тензорного произведения чтобы построить эквивалетную сеть, которую проще интерпретировать.

Теперь немного конкретнее про те вещи которые мне показались интересными.

Проще думать о том как работает трансформер, если смотреть на residual сеть как на основную. Остальные слои от неё отбранчовываются и добавляют/убирают информацию.

Attention heads — независимые друг от друга операторы (даже с учётом mixing matrix) которые переносят информацию из одних токенов в другие.

Дальше работают с упрощённым трансформером без LayerNorm и FFN.

Однослойный transformer можно (нестрого) интерпретировать как биграмную и скип-триграмную языковую модель. Что такое скип-триграммы? Например если у вас есть текст twitter.com/username/status, то [twitter, ..., /] может быть скиптриграммой в которой пропущено /username Авторы показали что в обученной модели такая скиптриграмма сильно повышает вероятность status.

Такой подход позволяет показать ограничения однослойной модели. Например так как триграмма [keep, ...., in] повышает вероятность mind а [keep, ..., at] вероятность bay, то модель также должна повышать верояности [keep, ..., at] -> mind и [keep, ..., in] -> bay. И несколько таких "багов" модели даже нашли.

👍40❤5

6.09K viewsVlad Lialin, edited 17:50

DL in NLP

Кажется Андрея Карпатого потянуло на образование. В прошлом месяце вышла его лекция по backprop, а теперь лекция по n-gram языковым моделям (count-based и neural)

И будет больше! Вот гитхаб: nn zero to hero

YouTube

The spelled-out intro to language modeling: building makemore

We implement a bigram character-level language model, which we will further complexify in followup videos into a modern Transformer language model, like GPT. In this video, the focus is on (1) introducing torch.Tensor and its subtleties and use in efficiently…

🔥44👍7❤1

6.32K viewsVlad Lialin, 22:32

DL in NLP

Forwarded from Love. Death. Transformers.

Валентин малых перезапускает бесплатный курс по NLP от ODS.AI

Блог

Хабр

Новый запуск курса Natural Language Processing

TL;DR: Этой осенью сообщество Open Data Science и компания Huawei делают новый запуск курса по обработке естественного языка. Вот страница нашего курса. Для того, чтобы его пройти, нужно...

👍37🔥5❤1

4K viewsVlad Lialin, 15:09

DL in NLP

Скоро запускается новый ран Deep Learning Foundations от fast.ai 🔥

У fast.ai есть два главных курса:
1. Deep Learning for Coders, которй использует top-down подход где вас в начале учат black box тулзам и как быстро решать задачи, а потом постепенно знакомят с тем как эти black box работают
1. Deep Learning Foundations — отличное продолжение первого курса, которое работает совсем подругому. Bottom-up подход, объясняются самые основы и постепенно вы доходите от бэкпропа до всяких новых методов. Последний раз курс обновлялся в 2019, что по меркам DL довольно давно.

Новая итерация Deep Learning Foundations будет включать пару новых топиков, в том числе сontrastive learning, latent variables, и диффузионные модели такие как Stable Diffusion.

Курс будет доступен бесплатно "early 2023". Есть платная версия с доступом в октябре (проходить курс вместе с тем как он записывается в University of Queensland), но это стоит $500 😒, что как-то не очень доступно.

В любом случае курсы от fast.ai (даже их старые версии) это неплохой вариант быстро въехать в DL или взглянуть на DL под новым углом. Несмотря на то что у fast.ai много questionable coding practices, мне всё ещё кажется что курс очень интересный и сильно отличается от всех остальных.

Practical Deep Learning for Coders

Practical Deep Learning for Coders - Practical Deep Learning

A free course designed for people with some coding experience, who want to learn how to apply deep learning and machine learning to practical problems.

👍24🔥5❤3

4.39K viewsVlad Lialin, 16:23

DL in NLP

Ускоряем нейросетки с помощью PyTorch 1.2 и nvFuser

Кто такой этот ваш nvFuser? Это новый компилятор который заменяет/дополняет TorchScript и позволяет фьюзить несколько GPU операций в одну. Это особенно хорошо работает с последовательностями поэлементных операций, таких как сложные функции активации или последовательность простых операций как bias->dropout->layerNorm

Чем это отличается от гугловского XLA? Неплохо умеет работать с dynamic shapes, например если у вас у разных батчей разная длина последовательности, XLA придётся всё перекомпилировать, а nvFuser будет работать нормально. Замедление по сравнению со статическими шейпами есть но оно небольшое (сравните столбики Composite Definition и Random Sizes).

А вот тут официальный туториал от PyTorch

👍17🥰2😢1

4.71K viewsVlad Lialin, 15:17

DL in NLP

❤1

4.63K viewsVlad Lialin, 15:17

DL in NLP

❤1

4.93K viewsVlad Lialin, 15:17

DL in NLP

Forwarded from Hints research (ex Market Research)

Друзья, сейчас важно помочь с релокацией тем, кто хочет уехать, но не может финансово сделать это в одиночку.

Вероятно многим в канале это не актуально, но прошу об услуге
1. Поделитесь с теми, кому это поможет
2. Поставьте в комментарии к городу, в котором вы находитесь, что вы там, это поможет запустить активность чата
——
Чат для поиска людей, с которыми можно скооперироваться для аренды жилья за границей

https://t.iss.one/friends_for_relocate

Зачем это?
- многие уезжают по одиночке
- многим дорого снимать квартиру на одного
- а если снимать вместе то сильно дешевле
- квартиры уже сильно подорожали (в 2-3 раза) плюс однушки заняты

Как использовать
- выбирайте из списка в канале город, куда собираетесь ехать
- пишите в комментарии когда собираетесь ехать, или что уже приехали и ищете соседей
- пишите тем кто едет туда же
- снимайте квартиру совместно

Зовите других людей
- многие не решаются уезжать, потому что уже очень дорого, а зарплата не позволяет
- расскажите им про чат, чтобы они увидели, с кем могут скооперироваться, как могут сэкономить, и наконец решились уехать

👍40💩21🔥4😢3😁2❤1👎1

3.67K viewsVlad Lialin, 05:16

DL in NLP

BigScience announces BigCode project

1. 15B языковая модель для кода
1. Первая задача: сделать хороший большой датасет, причём с оглядкой на лицензии чтобы не было всяких вопросов о GPLv3
1. Вторая задача: разработка новых тулз для эвалюации кодогенерирующих моделей, чтобы они были проще и более доступны
1. Третья задача: исследование всех возможных трюков (включая архитектурные) чтобы сделать инферренс быстрым
1. Деньги на тренировку даёт ServiceNow
1. Если хотите присоединиться к коллаборации, а именно готовы писать код и участвовать в обсуждениях, вот ссылочка

👍16🔥8

11.3K viewsVlad Lialin, 16:12

DL in NLP

Одной строкой #10

1. У Tesla прошёл AI day. Показали робота Optimus, который выглядит кривовато, но утверждают что его сделали за несколько месяцев (из личных источников: около года). Это очень быстро для робототехники, где всё не так сильно меняется как в DL. В отличие от boston dynamics - упирают на автономию, а не на remote control (но пока этого нет). Посмотрим что покажут ещё через год.
1. Сontext distillation - step-by-step reasoning для автолейбелинга, а потом дообуение на этих лейблах но без step-by-step. В результате минимальные потери в качестве, но более быстрый инференс.
1. Large Language Models Can Self-Improve - идея в том чтобы модель сгенерировала несколько chain of thought, после чего по majority vote выбирается правильный ответ, потом на этом можно обучаться. Докидывает по 4-5 пунктов.
1. Обзор результатов WMT-22 — метрики всё ещё плохие, сравнивать модели между собой становится всё сложнее, тк они становятся лучше. Самая нерешённая задача: низкоресурсный перевод между далёкими друг от друга языками.
1. Dilated Neighborhood Attention Transformer - vision коммьютини начинает знакомиться с различными сопособами sparse attention. В этот раз сделали dialation. Вангую что в будущем все трансформеры будут с каким-то простым sparse-механизмом типо этого или strided + global tokens.
1. Action Transcription - transcription к почти любому видео в интернете. Если у видео есть приложенные captions, то от их просто загрузит, а если нет — использует OpenAI Whisper для транскрипции и перевода на английский. Интерфейс очень забавный — вы создаёте issue на гитхабе со ссылкой, а дальше всё за вас делает github actions.
1. TorchOK - новая библиотечка которая позволяет строить пайплайны для нейросеток. На мой взгяд это чуть более высокоуровневый Lightning, чуть более prod-oriented, с забавным названием.

🔥20👍2😁2

3.93K viewsVlad Lialin, edited 16:15

About

Blog

Apps

Platform