DL in NLP
12.5K subscribers
547 photos
13 videos
27 files
1.1K links
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
Download Telegram
Новый дайджест из мира NLP

1. Лекции MIT по эффективному DL
1. Гайд по distributed training и PEFT
1. Deep Neural Networks Tend to Extrapolate Predictably — чем более OOD инпут тем больше решение сходится к среднему ответу (лучшему input-independent ответу)
1. Ring Attention with Blockwise Transformers for Near-Infinite Context — эффективная коммуникация для параллелизации attention между разными GPU
1. Value-Guided Monte-Carlo Tree Search decoding — MCTS применили к NLP и получилось отлично

Надеюсь что у вас все хорошо
🇮🇱
🔥4010👍7😁1
Google закроет и этот продукт #293

Когда конкуренты в виде WandB и CometML начали давить на Tensorboard, гугл решил что их проблема не ненадёжный интерфейс, не невозможность строить графики с любыми X и Y уже после того как вы всё залогали, или очень убогий логгинг гиперпараметров. Гугл решили что проблема в том что у них нету своего облака для лога экспериментов и сделали tensorboard.dev

Сегодня это облако закрывается. Если вы храните на нём что-то полезное, в имеиле описано как это скачать.

Но серьёзно, кто-то ещё пользуется tensorboard вместо wandb/clearml?
😁28👍2😢21
Large Language Models (in 2023)
Видео, слайды

Лекция от Hyung Won Chung из OpenAI о языковых модельках. Где мы находимся и куда мы идём. Очень рекомендую, а вот короткий пересказ:

Perspective of "Yet"
Если что-то не работает на текущем размере LLM, не стоит думать что это в принципе не работает, мы это много раз видели. Те свойства моделей которые мы нашли в 2022 могут не быть в моделях 2024 года. Из-за этого те кто только погружаются в DL могут иногда иметь лучшую интуицию чем те кто там уже давно и выработал её за предыдущие 10 лет. А ещё пишите свои скрипты так чтобы вы могли перезапустить их через год на новых модельках 😅

How is the scaling actually done?
Натренировать самую большую в мире модель гораздо сложнее чем просто написать новый конфиг где в 20 раз больше слоёв. Для эффективного использования серверов надо правильно понимать боттлеки в системах текущего размера и того размера которые вы хотите тренировать. Они могут быть разными.

Рассказал почему GSPMD так крут, и я теперь понял почему гугловцы так любили Mesh-Tensorflow. Для того чтобы параллелизовать матричное умножение в нём одновременно по нескольких осям (data parallel + tensor parallel + model parallel) вам не нужно переписывать модель, вы просто декорируете train_step и пишите по каким осям тензоров он распределяется.

Post-training
Тут классический рассказ о том как работает RLHF

Can we learn an objective function?
В RLHF мы больше не задаём reward-функцию, она выучивается другой моделью. Hyung Won Chung делает ещё один шаг и говорит что кросс-энтропия это серьёзный текущий боттлнек тк она может учить модель только очень конкретным вещам, таким как предсказание следующего токена. Возможно будущие модели мы будем учить на более абстрактых reward-функциях вместо этого. По аналогии с тем что мы со вреенем отказались от hand-written фичей в пользу DL и скоро мы откажемся от hand-written objective functions в пользу выучивания reward model.

Последний тейк интересен, мне лично в это не очень верится (так что скорее всего правда 🤣)
🔥35👍75🥰2
Пара слайдов о GSPMD. Статические графы реально очень круты для параллелизации.
6👍1🤯1
Efficient Streaming Language Models with Attention Sinks
Xiao et al
arxiv.org/abs/2309.17453
Github

Забавная статья где делают так чтобы трансформеры генерировали текст бесконечно

Идея похожа на Recurrent Memory Transformer: мы считаем attention не на всех токенах, а только на последних L и нескольких первых

Логика: в attention maps первые токены используются моделями как некоторая attention-помойка. Если их убрать и наивно переиспользовать kv-cache следующих токенов для window attention нормализация softmax в attention сильно изменится и перплексия полетит в бесконечность

Авторы предложили добавить в начало текста 4 пустых токена и всегда держать их в kv-cache, когда остальные используются как в window attention. И внезапно это заработало даже без файнтюна

На мой взгляд, статья проводит линию между длинными контекстами и длинными текстами. Тут модель не может обращаться к информации из старых токенов. Это может быть не интересно с позиции чтения длинных текстов, но полезно с позиции деплоя и генерации
👍24🔥61
Forwarded from Сиолошная
Год назад Adept.AI, стартап, основателем которого являлся первый автор оригинальной статьи Attention is all you need, представил модель ACT-1. Это был первый шаг на пути достижения их цели — автоматизации работы в браузере. Вместо выполнения задач вручную можно просто говорить "купи мне билеты до Барселоны на конец недели" — и по идее должно работать. И это было до ChatGPT!

Сейчас уже таких стартапов развелось пруд пруди, даже Sam Altman недавно проинвестировал в Induced.AI (фаундерам по 18-19 лет!), которые делают Zapier для браузера.

Но я чего пишу. Вчера они выложили в опенсорс маленькую версию своего мультимодального трансформера, который лежит под капотом продукта. Модель на 8 миллиардов параметров с максимально простой и понятной архитектурой — картинка нарезается на кусочки и подаётся в трансформер перед текстовым запросом. Среди особенностей:
1️⃣разработана с нуля для digital-агентов, поэтому может поддерживать произвольные разрешения изображений, отвечать на вопросы о графиках и диаграммах, отвечать на вопросы, связанные с UI (по скриншотам), а также выполнять точную локализацию объектов на изображении
2️⃣модель быстрая — можно получить ответы на большие изображения менее чем за 100 миллисекунд
3️⃣модель заточена на их юзкейсы (браузерные агенты), но при этом хорошо работает и в стандартных тестах понимания изображений, таких как VQA и Image Captioning

В общем, если хочется парсить скриншоты или отвечать на вопросы по диграммам — можно присмотреться к модельке. OCR тоже рабоатет, причём, в двух режимах — понять текст в выделенной области и найти область, где написан заданный текст.

Ссылка на анонс
Ссылка на HF
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥28👍52👌1
Improving Image Generation with Better Captions
cdn.openai.com/papers/dall-e-3.pdf

Внезапно, OpenAI выложили статью (не model card) с описанием куска DALL-E 3.

Главная цель — улучшить prompt following. Решили что проблема на самом деле в качестве датасета. После чего натренировали хорошую систему для imagine captioning на основе LLM и сгенерировали очнь подробные описания картинок из датасета. Финальный тренировочный датасет состоял на 95% из псевдооейблов.

Деталей про саму тренировку DALL-E 3 мало, только лишь сказали что детали заметно отличаются от DALLE-2. Хотя бы не было лицемерного «это все для вашей безопасности» в этой части статьи.
🤡19👍61🔥1
Хороший мини-курс по лингвистике для NLPшников недавно выпустила Лиза Былинина: bylinina.github.io/ling_course.

Зачем эта наука нам вообще нужна? Не столько даже для того, чтобы решать задачи с её помощью, а чтобы правильно задачи ставить и описывать проблемы.
Для меня в последний год, когда я много работаю с языками, которых не понимаю, это особенно важно: нужен понятийный набор, чтобы адекватно такие языки обсуждать.

Поэтому - рекомендую.
👌31👍10🔥32
Тут прошла PyTorch Conference 2023
linuxfoundation.org/blog/-pytorch-conference-2023-news

На ней показали ExecuTorch, такой маленький пайторч который умеет только в инференс, но быстрее, меньше, лучше. Пока внимательно не смотрел, но выглядит классно.

Спустя почти год после PyTorch 2.0.1. вышел 2.1. Из классных фичей: поддержка более динамических шейпов для torch.compile, но если я правильно понял если он у вас не работал то он и не заработает, лишь уменьшили число рекомпиляций. Новый distribudet.checkpoint выглядит очень круто, писать такое самому можно, но не хочется. Посмотрим как работает, когда будем тренировать что-то что не помещается в одну ноду. Torch.sparse теперь умеет в MxN sparsity которая появилась в предыдущем поколении nvidia.

В общем обновления торча выглядят неплохо, кажется раньше между новыми минорными не проходило настолько много времени. После того как pytorch вошел в linux foundation они будто стали медленнее развиваться. А ещё показали унылые программы сертификации на конференции и тут уже пахнет трупами oracle. В общем к торчу не привыкайте, посмотрим что там нового у *JAX

Но чтобы не заканчивать на грустном, вот новые классные маленькие фичи:
1. torch.device теперь можно использовать как context manager 🔥
1. В LayerNorm теперь можно выключить bias 🔥
1. functorch.einops.rearrange 🔥🔥🔥
1. Allow non-uniform requires_grad for use_orig_params=True в FSDP (это личная радость, возможно теперь FSDP будет юзабельным)
1. Better function annotations for nn.functional
🔥31👍3
Сорри, накипело
🤡43😁24👍16🔥12💯3🌚2👎1🕊1
OpenAI Dev Day TL;DR
youtube.com/watch?v=U9mJuUkhUzk

Platform:
1. GPT 4 Turbo
128 Context Length | JSON mode replies | Better function calling | Deterministic mode | Logprobs | Retreival | Image input API | 2-3 times cheaper
1. Text to speech API
1. Whisper V3 (github)
1. Custom Models (invite only?)
1. Help with copyright claims against you
1. Assistants API (url)
Persistent Threads | Retreival | Code Interpreter | File input (incl. PDFs)

ChatGPT:
1. Unified GPT4 model
1. GPTs — basically plugins 2.0 — chatgpt.com/create
1. You can code them via a conversation
1. GPT Store
👍4
Audio
Решил оценить Text-to-Speech от OpenAI
Это мозговзрывательно хорошо (хотя всё ещё не идеально) и кажется весьма дёшево.

Модель мультиязычная и очень неплохо умеет в смесь языков в одном и том же тексте. Да и работает весьма быстро.

Решил запихать в него один из постов этого канала. Что думаете?
🔥57👍123🥰2
x.com/guitaricet/status/1723044439755534765

Это ощущение когда твой опыт model analysis оказывается полезен: ты однозначно видишь галлюцинации модели в ревью твоей статьи 🤦‍♂️

Дно пробито
😁49💩8🥴4👍3🔥3😱2😢21
Non-Intrusive Adaptation: Input-Centric Parameter-efficient Fine-Tuning for Versatile Multimodal Modeling
Wang et al.
arxiv.org/abs/2310.12100

Новый PEFT metod, AdaLink. Архитектура максимально простая: это адаптер перед эмбеддингами с skip connection.

Использовали для того чтобы адаптировать PALI-X на downstream задачи. Тк PALI мультимодальная, делали разные AdaLink для разных видов токенов (картинки и текст). По результатам заметро обходит prompt tuning, но не всегда дотягивает до LoRA. Однако в отличие от LoRA модели с AdaLink проще сёрвить в multitask сетапе.
🔥11👍62
Forwarded from Сиолошная
🥺

Sam Altman departs the company

https://openai.com/blog/openai-announces-leadership-transition

Mr. Altman’s departure follows a deliberative review process by the board, which concluded that
he was not consistently candid in his communications with the board
, hindering its ability to exercise its responsibilities. The board no longer has confidence in his ability to continue leading OpenAI.


Кроме этого, кресло председателя совета директоров потерял Greg Brockman (кофаундер, в компании с первого дня, ex-CTO Stripe). Mira Murati, девушка родом из Албании и CTO OpenAI, будет исполнять роль CEO, пока ищут нового. В составе совета директоров, помимо неё, остались:

— Chief scientist Ilya Sutskever
— Independent director, Adam D’Angelo (CEO Quora)
— Independent director, Tasha McCauley (technology entrepreneur)
— Helen Toner (Georgetown Center for Security and Emerging Technology’s )
Please open Telegram to view this post
VIEW IN TELEGRAM
😱37🤣3😢2😭21