DL in NLP
12.5K subscribers
547 photos
13 videos
27 files
1.1K links
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
Download Telegram
Google закроет и этот продукт #293

Когда конкуренты в виде WandB и CometML начали давить на Tensorboard, гугл решил что их проблема не ненадёжный интерфейс, не невозможность строить графики с любыми X и Y уже после того как вы всё залогали, или очень убогий логгинг гиперпараметров. Гугл решили что проблема в том что у них нету своего облака для лога экспериментов и сделали tensorboard.dev

Сегодня это облако закрывается. Если вы храните на нём что-то полезное, в имеиле описано как это скачать.

Но серьёзно, кто-то ещё пользуется tensorboard вместо wandb/clearml?
😁28👍2😢21
Large Language Models (in 2023)
Видео, слайды

Лекция от Hyung Won Chung из OpenAI о языковых модельках. Где мы находимся и куда мы идём. Очень рекомендую, а вот короткий пересказ:

Perspective of "Yet"
Если что-то не работает на текущем размере LLM, не стоит думать что это в принципе не работает, мы это много раз видели. Те свойства моделей которые мы нашли в 2022 могут не быть в моделях 2024 года. Из-за этого те кто только погружаются в DL могут иногда иметь лучшую интуицию чем те кто там уже давно и выработал её за предыдущие 10 лет. А ещё пишите свои скрипты так чтобы вы могли перезапустить их через год на новых модельках 😅

How is the scaling actually done?
Натренировать самую большую в мире модель гораздо сложнее чем просто написать новый конфиг где в 20 раз больше слоёв. Для эффективного использования серверов надо правильно понимать боттлеки в системах текущего размера и того размера которые вы хотите тренировать. Они могут быть разными.

Рассказал почему GSPMD так крут, и я теперь понял почему гугловцы так любили Mesh-Tensorflow. Для того чтобы параллелизовать матричное умножение в нём одновременно по нескольких осям (data parallel + tensor parallel + model parallel) вам не нужно переписывать модель, вы просто декорируете train_step и пишите по каким осям тензоров он распределяется.

Post-training
Тут классический рассказ о том как работает RLHF

Can we learn an objective function?
В RLHF мы больше не задаём reward-функцию, она выучивается другой моделью. Hyung Won Chung делает ещё один шаг и говорит что кросс-энтропия это серьёзный текущий боттлнек тк она может учить модель только очень конкретным вещам, таким как предсказание следующего токена. Возможно будущие модели мы будем учить на более абстрактых reward-функциях вместо этого. По аналогии с тем что мы со вреенем отказались от hand-written фичей в пользу DL и скоро мы откажемся от hand-written objective functions в пользу выучивания reward model.

Последний тейк интересен, мне лично в это не очень верится (так что скорее всего правда 🤣)
🔥35👍75🥰2
Пара слайдов о GSPMD. Статические графы реально очень круты для параллелизации.
6👍1🤯1
Efficient Streaming Language Models with Attention Sinks
Xiao et al
arxiv.org/abs/2309.17453
Github

Забавная статья где делают так чтобы трансформеры генерировали текст бесконечно

Идея похожа на Recurrent Memory Transformer: мы считаем attention не на всех токенах, а только на последних L и нескольких первых

Логика: в attention maps первые токены используются моделями как некоторая attention-помойка. Если их убрать и наивно переиспользовать kv-cache следующих токенов для window attention нормализация softmax в attention сильно изменится и перплексия полетит в бесконечность

Авторы предложили добавить в начало текста 4 пустых токена и всегда держать их в kv-cache, когда остальные используются как в window attention. И внезапно это заработало даже без файнтюна

На мой взгляд, статья проводит линию между длинными контекстами и длинными текстами. Тут модель не может обращаться к информации из старых токенов. Это может быть не интересно с позиции чтения длинных текстов, но полезно с позиции деплоя и генерации
👍24🔥61
Forwarded from Сиолошная
Год назад Adept.AI, стартап, основателем которого являлся первый автор оригинальной статьи Attention is all you need, представил модель ACT-1. Это был первый шаг на пути достижения их цели — автоматизации работы в браузере. Вместо выполнения задач вручную можно просто говорить "купи мне билеты до Барселоны на конец недели" — и по идее должно работать. И это было до ChatGPT!

Сейчас уже таких стартапов развелось пруд пруди, даже Sam Altman недавно проинвестировал в Induced.AI (фаундерам по 18-19 лет!), которые делают Zapier для браузера.

Но я чего пишу. Вчера они выложили в опенсорс маленькую версию своего мультимодального трансформера, который лежит под капотом продукта. Модель на 8 миллиардов параметров с максимально простой и понятной архитектурой — картинка нарезается на кусочки и подаётся в трансформер перед текстовым запросом. Среди особенностей:
1️⃣разработана с нуля для digital-агентов, поэтому может поддерживать произвольные разрешения изображений, отвечать на вопросы о графиках и диаграммах, отвечать на вопросы, связанные с UI (по скриншотам), а также выполнять точную локализацию объектов на изображении
2️⃣модель быстрая — можно получить ответы на большие изображения менее чем за 100 миллисекунд
3️⃣модель заточена на их юзкейсы (браузерные агенты), но при этом хорошо работает и в стандартных тестах понимания изображений, таких как VQA и Image Captioning

В общем, если хочется парсить скриншоты или отвечать на вопросы по диграммам — можно присмотреться к модельке. OCR тоже рабоатет, причём, в двух режимах — понять текст в выделенной области и найти область, где написан заданный текст.

Ссылка на анонс
Ссылка на HF
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥28👍52👌1
Improving Image Generation with Better Captions
cdn.openai.com/papers/dall-e-3.pdf

Внезапно, OpenAI выложили статью (не model card) с описанием куска DALL-E 3.

Главная цель — улучшить prompt following. Решили что проблема на самом деле в качестве датасета. После чего натренировали хорошую систему для imagine captioning на основе LLM и сгенерировали очнь подробные описания картинок из датасета. Финальный тренировочный датасет состоял на 95% из псевдооейблов.

Деталей про саму тренировку DALL-E 3 мало, только лишь сказали что детали заметно отличаются от DALLE-2. Хотя бы не было лицемерного «это все для вашей безопасности» в этой части статьи.
🤡19👍61🔥1
Хороший мини-курс по лингвистике для NLPшников недавно выпустила Лиза Былинина: bylinina.github.io/ling_course.

Зачем эта наука нам вообще нужна? Не столько даже для того, чтобы решать задачи с её помощью, а чтобы правильно задачи ставить и описывать проблемы.
Для меня в последний год, когда я много работаю с языками, которых не понимаю, это особенно важно: нужен понятийный набор, чтобы адекватно такие языки обсуждать.

Поэтому - рекомендую.
👌31👍10🔥32
Тут прошла PyTorch Conference 2023
linuxfoundation.org/blog/-pytorch-conference-2023-news

На ней показали ExecuTorch, такой маленький пайторч который умеет только в инференс, но быстрее, меньше, лучше. Пока внимательно не смотрел, но выглядит классно.

Спустя почти год после PyTorch 2.0.1. вышел 2.1. Из классных фичей: поддержка более динамических шейпов для torch.compile, но если я правильно понял если он у вас не работал то он и не заработает, лишь уменьшили число рекомпиляций. Новый distribudet.checkpoint выглядит очень круто, писать такое самому можно, но не хочется. Посмотрим как работает, когда будем тренировать что-то что не помещается в одну ноду. Torch.sparse теперь умеет в MxN sparsity которая появилась в предыдущем поколении nvidia.

В общем обновления торча выглядят неплохо, кажется раньше между новыми минорными не проходило настолько много времени. После того как pytorch вошел в linux foundation они будто стали медленнее развиваться. А ещё показали унылые программы сертификации на конференции и тут уже пахнет трупами oracle. В общем к торчу не привыкайте, посмотрим что там нового у *JAX

Но чтобы не заканчивать на грустном, вот новые классные маленькие фичи:
1. torch.device теперь можно использовать как context manager 🔥
1. В LayerNorm теперь можно выключить bias 🔥
1. functorch.einops.rearrange 🔥🔥🔥
1. Allow non-uniform requires_grad for use_orig_params=True в FSDP (это личная радость, возможно теперь FSDP будет юзабельным)
1. Better function annotations for nn.functional
🔥31👍3
Сорри, накипело
🤡43😁24👍16🔥12💯3🌚2👎1🕊1
OpenAI Dev Day TL;DR
youtube.com/watch?v=U9mJuUkhUzk

Platform:
1. GPT 4 Turbo
128 Context Length | JSON mode replies | Better function calling | Deterministic mode | Logprobs | Retreival | Image input API | 2-3 times cheaper
1. Text to speech API
1. Whisper V3 (github)
1. Custom Models (invite only?)
1. Help with copyright claims against you
1. Assistants API (url)
Persistent Threads | Retreival | Code Interpreter | File input (incl. PDFs)

ChatGPT:
1. Unified GPT4 model
1. GPTs — basically plugins 2.0 — chatgpt.com/create
1. You can code them via a conversation
1. GPT Store
👍4
Audio
Решил оценить Text-to-Speech от OpenAI
Это мозговзрывательно хорошо (хотя всё ещё не идеально) и кажется весьма дёшево.

Модель мультиязычная и очень неплохо умеет в смесь языков в одном и том же тексте. Да и работает весьма быстро.

Решил запихать в него один из постов этого канала. Что думаете?
🔥57👍123🥰2
x.com/guitaricet/status/1723044439755534765

Это ощущение когда твой опыт model analysis оказывается полезен: ты однозначно видишь галлюцинации модели в ревью твоей статьи 🤦‍♂️

Дно пробито
😁49💩8🥴4👍3🔥3😱2😢21
Non-Intrusive Adaptation: Input-Centric Parameter-efficient Fine-Tuning for Versatile Multimodal Modeling
Wang et al.
arxiv.org/abs/2310.12100

Новый PEFT metod, AdaLink. Архитектура максимально простая: это адаптер перед эмбеддингами с skip connection.

Использовали для того чтобы адаптировать PALI-X на downstream задачи. Тк PALI мультимодальная, делали разные AdaLink для разных видов токенов (картинки и текст). По результатам заметро обходит prompt tuning, но не всегда дотягивает до LoRA. Однако в отличие от LoRA модели с AdaLink проще сёрвить в multitask сетапе.
🔥11👍62
Forwarded from Сиолошная
🥺

Sam Altman departs the company

https://openai.com/blog/openai-announces-leadership-transition

Mr. Altman’s departure follows a deliberative review process by the board, which concluded that
he was not consistently candid in his communications with the board
, hindering its ability to exercise its responsibilities. The board no longer has confidence in his ability to continue leading OpenAI.


Кроме этого, кресло председателя совета директоров потерял Greg Brockman (кофаундер, в компании с первого дня, ex-CTO Stripe). Mira Murati, девушка родом из Албании и CTO OpenAI, будет исполнять роль CEO, пока ищут нового. В составе совета директоров, помимо неё, остались:

— Chief scientist Ilya Sutskever
— Independent director, Adam D’Angelo (CEO Quora)
— Independent director, Tasha McCauley (technology entrepreneur)
— Helen Toner (Georgetown Center for Security and Emerging Technology’s )
Please open Telegram to view this post
VIEW IN TELEGRAM
😱37🤣3😢2😭21
Увольнение SamА очень внезапная новость

Что пока известно:
OpenAI организован хитро и for-profit часть компании подчиняется non-profit, а конкретно board of directors. Их целью стоит чтобы safe AGI benefited whole humanity, в то время как for-profit часть openai, как любая компания, нацелена на получение денег.

Из официальной новости читается что этот board of directors решил что SamA ведет компанию не туда (конкретно not consistently candid in his communications with the board, hindering its ability to exercise its responsibilities) и его пора заменить. При этом и Greg Brokman тоже досталось, он теперь не в board of directors.

UPD: Greg Brokman тоже уходит
UPD2: https://x.com/gdb/status/1725736242137182594
UPD3: по слухам Сэма уговаривают обратно 🤦‍♂️
UPD4: всё как говорил Дамблдор, нет ничего что не может победить сила любви ❤️
UPD5: Microsoft создала новое подразделение Advabced AI которое возглавит Сэм и в него по слухам уходят сотни людей из OpenAI
UPD6: 740+ из 770 сотрудников OpenAI подписали ультиматум board of directors, что они покинут компанию если председатели не уйдут
UPD7: New York Times публикует статью в которой утверждается что Sama много манипулировал и врал сотрудникам и board, что в конце концов и привело к падению доверия
UPD8: Sama is officially back

Я думаю мы ещё долго будем видеть отголоски этой истории. Запасаемся попкорном
28🤔13👍4👎2😁2🌚1
Sama and GDB are officially back 🎉

x.com/openai/status/1727206187077370115

x.com/gdb/status/1727208843137179915

Но я думаю что отголоски этой клоунады будут еще долго отдаваться. И в виде долговременных последствий и в виде новостей и в виде конспирологических теорий о том что случилось на самом деле 🤡

Если что основной таймлайн этой истории, очень сжато, есть в предыдущем посте.
🤡41🎉8🤯4🥰2