DL in NLP

Новый дайджест из мира NLP

1. Лекции MIT по эффективному DL
1. Гайд по distributed training и PEFT
1. Deep Neural Networks Tend to Extrapolate Predictably — чем более OOD инпут тем больше решение сходится к среднему ответу (лучшему input-independent ответу)
1. Ring Attention with Blockwise Transformers for Near-Infinite Context — эффективная коммуникация для параллелизации attention между разными GPU
1. Value-Guided Monte-Carlo Tree Search decoding — MCTS применили к NLP и получилось отлично

Надеюсь что у вас все хорошо
🇮🇱

Sumanth's Personal Website

Everything about Distributed Training and Efficient Finetuning | Sumanth's Personal Website

A deep dive into distributed training and efficient finetuning - DeepSpeed ZeRO, FSDP, practical guidelines and gotchas with multi-GPU and multi-node training

🔥40❤10👍7😁1

14K viewsVlad Lialin, 18:50

DL in NLP

Google закроет и этот продукт #293

Когда конкуренты в виде WandB и CometML начали давить на Tensorboard, гугл решил что их проблема не ненадёжный интерфейс, не невозможность строить графики с любыми X и Y уже после того как вы всё залогали, или очень убогий логгинг гиперпараметров. Гугл решили что проблема в том что у них нету своего облака для лога экспериментов и сделали tensorboard.dev

Сегодня это облако закрывается. Если вы храните на нём что-то полезное, в имеиле описано как это скачать.

Но серьёзно, кто-то ещё пользуется tensorboard вместо wandb/clearml?

😁28👍2😢2❤1

8.48K viewsVlad Lialin, edited 19:55

DL in NLP

Forwarded from gonzo-обзоры ML статей

Я таки добрался поразвлекаться с GPT-4V и старыми картинками из классической работы:

https://gonzoml.substack.com/p/building-machines-that-learn-and

Gonzo ML

"Building Machines That Learn and Think Like People", 7 years later

In the post about GPT-4V, I mentioned the paper “Building Machines That Learn and Think Like People” (https://arxiv.org/abs/1604.00289) by Brenden Lake, Tomer Ullman, Joshua Tenenbaum, and Samuel Gershman. In that seminal paper the authors suggested that…

🔥23👍2❤1🥱1

6.14K viewsVlad Lialin, 22:24

DL in NLP

Large Language Models (in 2023)
Видео, слайды

Лекция от Hyung Won Chung из OpenAI о языковых модельках. Где мы находимся и куда мы идём. Очень рекомендую, а вот короткий пересказ:

Perspective of "Yet"
Если что-то не работает на текущем размере LLM, не стоит думать что это в принципе не работает, мы это много раз видели. Те свойства моделей которые мы нашли в 2022 могут не быть в моделях 2024 года. Из-за этого те кто только погружаются в DL могут иногда иметь лучшую интуицию чем те кто там уже давно и выработал её за предыдущие 10 лет. А ещё пишите свои скрипты так чтобы вы могли перезапустить их через год на новых модельках 😅

How is the scaling actually done?
Натренировать самую большую в мире модель гораздо сложнее чем просто написать новый конфиг где в 20 раз больше слоёв. Для эффективного использования серверов надо правильно понимать боттлеки в системах текущего размера и того размера которые вы хотите тренировать. Они могут быть разными.

Рассказал почему GSPMD так крут, и я теперь понял почему гугловцы так любили Mesh-Tensorflow. Для того чтобы параллелизовать матричное умножение в нём одновременно по нескольких осям (data parallel + tensor parallel + model parallel) вам не нужно переписывать модель, вы просто декорируете train_step и пишите по каким осям тензоров он распределяется.

Post-training
Тут классический рассказ о том как работает RLHF

Can we learn an objective function?
В RLHF мы больше не задаём reward-функцию, она выучивается другой моделью. Hyung Won Chung делает ещё один шаг и говорит что кросс-энтропия это серьёзный текущий боттлнек тк она может учить модель только очень конкретным вещам, таким как предсказание следующего токена. Возможно будущие модели мы будем учить на более абстрактых reward-функциях вместо этого. По аналогии с тем что мы со вреенем отказались от hand-written фичей в пользу DL и скоро мы откажемся от hand-written objective functions в пользу выучивания reward model.

Последний тейк интересен, мне лично в это не очень верится (так что скорее всего правда 🤣)

YouTube

Large Language Models (in 2023)

I gave a talk at Seoul National University.

I titled the talk “Large Language Models (in 2023)”. This was an ambitious attempt to summarize our exploding field.

Trying to summarize the field forced me to think about what really matters in the field. While…

🔥35👍7❤5🥰2

10.8K viewsVlad Lialin, edited 23:29

DL in NLP

Пара слайдов о GSPMD. Статические графы реально очень круты для параллелизации.

❤6👍1🤯1

6.46K viewsVlad Lialin, 23:33

DL in NLP

Efficient Streaming Language Models with Attention Sinks
Xiao et al
arxiv.org/abs/2309.17453
Github

Забавная статья где делают так чтобы трансформеры генерировали текст бесконечно

Идея похожа на Recurrent Memory Transformer: мы считаем attention не на всех токенах, а только на последних L и нескольких первых

Логика: в attention maps первые токены используются моделями как некоторая attention-помойка. Если их убрать и наивно переиспользовать kv-cache следующих токенов для window attention нормализация softmax в attention сильно изменится и перплексия полетит в бесконечность

Авторы предложили добавить в начало текста 4 пустых токена и всегда держать их в kv-cache, когда остальные используются как в window attention. И внезапно это заработало даже без файнтюна

На мой взгляд, статья проводит линию между длинными контекстами и длинными текстами. Тут модель не может обращаться к информации из старых токенов. Это может быть не интересно с позиции чтения длинных текстов, но полезно с позиции деплоя и генерации

👍24🔥6❤1

5.76K viewsVlad Lialin, 15:12

DL in NLP

Forwarded from Сиолошная

Год назад Adept.AI, стартап, основателем которого являлся первый автор оригинальной статьи Attention is all you need, представил модель ACT-1. Это был первый шаг на пути достижения их цели — автоматизации работы в браузере. Вместо выполнения задач вручную можно просто говорить "купи мне билеты до Барселоны на конец недели" — и по идее должно работать. И это было до ChatGPT!

Сейчас уже таких стартапов развелось пруд пруди, даже Sam Altman недавно проинвестировал в Induced.AI (фаундерам по 18-19 лет!), которые делают Zapier для браузера.

Но я чего пишу. Вчера они выложили в опенсорс маленькую версию своего мультимодального трансформера, который лежит под капотом продукта. Модель на 8 миллиардов параметров с максимально простой и понятной архитектурой — картинка нарезается на кусочки и подаётся в трансформер перед текстовым запросом. Среди особенностей:
1️⃣разработана с нуля для digital-агентов, поэтому может поддерживать произвольные разрешения изображений, отвечать на вопросы о графиках и диаграммах, отвечать на вопросы, связанные с UI (по скриншотам), а также выполнять точную локализацию объектов на изображении
2️⃣модель быстрая — можно получить ответы на большие изображения менее чем за 100 миллисекунд
3️⃣модель заточена на их юзкейсы (браузерные агенты), но при этом хорошо работает и в стандартных тестах понимания изображений, таких как VQA и Image Captioning

В общем, если хочется парсить скриншоты или отвечать на вопросы по диграммам — можно присмотреться к модельке. OCR тоже рабоатет, причём, в двух режимах — понять текст в выделенной области и найти область, где написан заданный текст.

Ссылка на анонс
Ссылка на HF

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥28👍5❤2👌1

4.39K viewsVlad Lialin, 14:02

DL in NLP

Improving Image Generation with Better Captions
cdn.openai.com/papers/dall-e-3.pdf

Внезапно, OpenAI выложили статью (не model card) с описанием куска DALL-E 3.

Главная цель — улучшить prompt following. Решили что проблема на самом деле в качестве датасета. После чего натренировали хорошую систему для imagine captioning на основе LLM и сгенерировали очнь подробные описания картинок из датасета. Финальный тренировочный датасет состоял на 95% из псевдооейблов.

Деталей про саму тренировку DALL-E 3 мало, только лишь сказали что детали заметно отличаются от DALLE-2. Хотя бы не было лицемерного «это все для вашей безопасности» в этой части статьи.

🤡19👍6❤1🔥1

10.8K viewsVlad Lialin, 19:00

DL in NLP

Forwarded from ̶с̶а̶м̶̶о̶изолента мёбиуса

Хороший мини-курс по лингвистике для NLPшников недавно выпустила Лиза Былинина: bylinina.github.io/ling_course.

Зачем эта наука нам вообще нужна? Не столько даже для того, чтобы решать задачи с её помощью, а чтобы правильно задачи ставить и описывать проблемы.
Для меня в последний год, когда я много работаю с языками, которых не понимаю, это особенно важно: нужен понятийный набор, чтобы адекватно такие языки обсуждать.

Поэтому - рекомендую.

👌31👍10🔥3✍2

5.12K viewsVlad Lialin, 21:44

DL in NLP

Тут прошла PyTorch Conference 2023
linuxfoundation.org/blog/-pytorch-conference-2023-news

На ней показали ExecuTorch, такой маленький пайторч который умеет только в инференс, но быстрее, меньше, лучше. Пока внимательно не смотрел, но выглядит классно.

Спустя почти год после PyTorch 2.0.1. вышел 2.1. Из классных фичей: поддержка более динамических шейпов для torch.compile, но если я правильно понял если он у вас не работал то он и не заработает, лишь уменьшили число рекомпиляций. Новый distribudet.checkpoint выглядит очень круто, писать такое самому можно, но не хочется. Посмотрим как работает, когда будем тренировать что-то что не помещается в одну ноду. Torch.sparse теперь умеет в MxN sparsity которая появилась в предыдущем поколении nvidia.

В общем обновления торча выглядят неплохо, кажется раньше между новыми минорными не проходило настолько много времени. После того как pytorch вошел в linux foundation они будто стали медленнее развиваться. А ещё показали унылые программы сертификации на конференции и тут уже пахнет ~~трупами~~ oracle. В общем к торчу не привыкайте, посмотрим что там нового у *JAX

Но чтобы не заканчивать на грустном, вот новые классные маленькие фичи:
1. torch.device теперь можно использовать как context manager 🔥
1. В LayerNorm теперь можно выключить bias 🔥
1. functorch.einops.rearrange 🔥🔥🔥
1. Allow non-uniform requires_grad for use_orig_params=True в FSDP (это личная радость, возможно теперь FSDP будет юзабельным)
1. Better function annotations for nn.functional

www.linuxfoundation.org

News from PyTorch Conference 2023

At the 2023 PyTorch Conference, we announced several new innovations for PyTorch and exciting prospects for the future of the PyTorch Foundation.

🔥31👍3

8.99K viewsVlad Lialin, 07:02

DL in NLP

Сорри, накипело

🤡43😁24👍16🔥12💯3🌚2👎1🕊1

8.78K viewsVlad Lialin, 20:17

DL in NLP

OpenAI Dev Day TL;DR
youtube.com/watch?v=U9mJuUkhUzk

Platform:
1. GPT 4 Turbo
128 Context Length | JSON mode replies | Better function calling | Deterministic mode | Logprobs | Retreival | Image input API | 2-3 times cheaper
1. Text to speech API
1. Whisper V3 (github)
1. Custom Models (invite only?)
1. Help with copyright claims against you
1. Assistants API (url)
Persistent Threads | Retreival | Code Interpreter | File input (incl. PDFs)

ChatGPT:
1. Unified GPT4 model
1. GPTs — basically plugins 2.0 — chatgpt.com/create
1. You can code them via a conversation
1. GPT Store

YouTube

OpenAI DevDay: Opening Keynote

Join us for the opening keynote from OpenAI DevDay — OpenAI’s first developer conference.

We’re gathering developers from around the world for an in-person day of programming to learn about the latest AI advancements and explore what lies ahead.

New models…

👍4

8.93K viewsVlad Lialin, edited 17:59

DL in NLP

Audio

Решил оценить Text-to-Speech от OpenAI
Это мозговзрывательно хорошо (хотя всё ещё не идеально) и кажется весьма дёшево.

Модель мультиязычная и очень неплохо умеет в смесь языков в одном и том же тексте. Да и работает весьма быстро.

Решил запихать в него один из постов этого канала. Что думаете?

🔥57👍12❤3🥰2

8.9K viewsVlad Lialin, 22:10

DL in NLP

x.com/guitaricet/status/1723044439755534765

Это ощущение когда твой опыт model analysis оказывается полезен: ты однозначно видишь галлюцинации модели в ревью твоей статьи 🤦‍♂️

Дно пробито

😁49💩8🥴4👍3🔥3😱2😢2❤1

7.27K viewsVlad Lialin, edited 18:31

DL in NLP

Non-Intrusive Adaptation: Input-Centric Parameter-efficient Fine-Tuning for Versatile Multimodal Modeling
Wang et al.
arxiv.org/abs/2310.12100

Новый PEFT metod, AdaLink. Архитектура максимально простая: это адаптер перед эмбеддингами с skip connection.

Использовали для того чтобы адаптировать PALI-X на downstream задачи. Тк PALI мультимодальная, делали разные AdaLink для разных видов токенов (картинки и текст). По результатам заметро обходит prompt tuning, но не всегда дотягивает до LoRA. Однако в отличие от LoRA модели с AdaLink проще сёрвить в multitask сетапе.

🔥11👍6✍2

5.92K viewsVlad Lialin, 16:46

DL in NLP

Forwarded from Сиолошная

🥺

Sam Altman departs the company

https://openai.com/blog/openai-announces-leadership-transition

Mr. Altman’s departure follows a deliberative review process by the board, which concluded that

he was not consistently candid in his communications with the board

, hindering its ability to exercise its responsibilities. The board no longer has confidence in his ability to continue leading OpenAI.

Кроме этого, кресло председателя совета директоров потерял Greg Brockman (кофаундер, в компании с первого дня, ex-CTO Stripe). Mira Murati, девушка родом из Албании и CTO OpenAI, будет исполнять роль CEO, пока ищут нового. В составе совета директоров, помимо неё, остались:

— Chief scientist Ilya Sutskever
— Independent director, Adam D’Angelo (CEO Quora)
— Independent director, Tasha McCauley (technology entrepreneur)
— Helen Toner (Georgetown Center for Security and Emerging Technology’s )

Please open Telegram to view this post

VIEW IN TELEGRAM

😱37🤣3😢2😭2❤1

5.21K viewsVlad Lialin, 20:54

About

Blog

Apps

Platform