DL in NLP
12.7K subscribers
546 photos
13 videos
27 files
1.09K links
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
Download Telegram
Первый день NeurIPS 2022

День expo и прочих не очень важных вещей, но вот что было классного

1. PyTorch: fully sharded data parallel (FSDP) скоро войдёт в сам торч. Это когда ты распиливаешь веса своей нейросети, параметры своих оптимизаторов и градиенты нескольким GPU, но при этом вычисления всё ещё проводятся в data parallel режиме. Такой подход работает быстрее чем model parallel и в принципе проще в общении. Добавили классную фичу meta-device которая позволяет при инициализации загружать в память только ту часть нейросети которая вам нужна на этой GPU.
1. Новые фичи для профайлера. Стек должен стать более читаемым и добавили фичей для distributed. Если вы всё ещё не пользуетесь, вот блогпост.

На этом объективно интересное закочнилось и дальше я общался с рандомными людьми которые иногда оказывались очень крутыми и с будками компаний, где искал куда податься на работу после выпуска

1. Будка Apple выглядит как миниатюрный Apple Store
1. Оказывается у Disney есть диплёрнинг рисёч 🤯. Общался с рисечером который работает на стыке оптики и геометрического DL.
1. Спотифай активно применяет RL в проде, например для вашей домашней странички. Кроме этого у них есть NLP исследования в применении к подкастам, что интересно тк тексты очень длинные и с несколькими спикерами.
1. Weights and Biases активно работают над двумя новыми фичами: production monitoring и CI/CD для моделей.
1. По слухам GPT-4 тренируют на нескольких десятках тысяч GPU. Также кажется что большим компаниям уже показывают демки текущей модели под жёстким NDA. Вроде бы скачок возможностей между GPT-3 и GPT-4 такой же огромный как и был между GPT-2 и GPT-3.
1. ServiceNow — если вы не знаете кто это, я не удивлюсь. Всё что знал про них раньше, это что они спонсируют BigCode железом. Выяснилось что у них есть интересный рисёч вместе в MILA в Канаде.
1. Как бедный студент я насобирал кучу мерча, тк не за свои же деньги покупать блокноты и футболки 😅

Во второй день начинаются статьи и постер-сессии. Так что следующий пост будет куда более техническим
Яндекс назвал лауреатов своей ежегодной научной премии

Ученые, которые занимаются исследованиями в области компьютерных наук, получат по миллиону рублей на развитие своих проектов. В 2022 году лауреатами стали шесть молодых ученых:

Максим Великанов — занимается теорией deep learning, изучает бесконечно широкие нейронные сети и статистическую физику;

Петр Мокров — исследует градиентные потоки Вассерштейна, нелинейную фильтрацию и байесовскую логистическую регрессию;

Максим Кодрян — занимается deep learning, а также оптимизацией и генерализацией нейросетевых моделей;

Руслан Рахимов — работает с нейронной визуализацией, CV и deep learning;

Сергей Самсонов — изучает алгоритмы Монте-Карло с марковскими цепями, стохастическую аппроксимацию и другие темы;

Тарас Хахулин — работает в области компьютерного зрения.

Круто, что отдельно выделяют и научных руководителей. В этом году гранты получили двое — Дмитрий Ветров, заведующий Центром глубинного обучения и байесовских методов ВШЭ, и Алексей Наумов, доцент факультета компьютерных наук ВШЭ, заведующий Международной лаборатории стохастических алгоритмов и анализа многомерных данных.

Подробнее о премии и лауреатах 2022 года — на сайте.

#промо
NeurIPS 2022 день 2 (часть 1)

В отличие от *ACL-конференций, на NeurIPS почти все статьи презентуются на гиганских постер-сессиях по тысячу статей за раз. Это довольно хардкорно, но зато можно пропустить все неинтересные тебе статьи. Подборка приглянувшихся статей:

1. ActionNet — большой мультимодальный датасет с wearable-сенсоров
1. WinoGAViL — бенчмарк с неочевидными ассоциациями слов и картинок
1. GLOBEM — интересный датасет сочетающий в себе инфу с телефонов (screen, location, steps per day, call log, bluetooth, sleep, ...) и психологических опросников. Панчлайн в том что он собирался с 2018 по 2021 год, то есть включает ковид.
1. DecSPS — новый метод оптимизации который не требует тюнинга LR. Плюс куча теории как именно он работает и почему сходится к оптимальному решению в overparametrized-режиме.
1. Beyond Johnson-Lindenstrauss — новый метод стохастического уменьшения размерности данных который работает лучше JL и всё ещё довольно легко считается. Куча теории прилагается.
1. Learning very simple generative models is hard — (очень high-level) доказательство того что даже простые генеративные модели требуют больших сеток
1. Kernel Multimodal Continuous Attention — новый метод continuous attention который позволяет работать с time series и длинными текстами
1. How to measure network invariance — статья где меряли насколько обычные нейросети тренируемые на аугментированных данных инвариантны к поворотам vs специальные инвариантные сети. На удивление, инвариантность почти не меняется во время тренировки
1. Ask4Help — RL-модельку научили просить помощи у эксперта тогда когда ей надо (и учиться от этого эксперта). Сложность была в том чтобы модель не обращалась к эксперту всё время
1. Analysing Diffusion Models — в начале диффузии модель в основном смотрит на conditioning чтобы сгенерить картинку, а в конце почти полностью игнорирует промпт и просто делает super-resolution

И это далеко не все интересные статьи, но завтра будет ещё больше 😅
NeurIPS 2022 день 2 (часть 2)

Все интересные статьи не поместились в один пост, поэтому добавляем

1. Natural Prover — вместо того чтобы тренировать нейросеть делать формальные мат доказательства, просто натренируйте LM на статьях и она будет писать их в человекочитаемом виде (и делать это лучше чем формальные)
1. CodeRL — если вашу code-LM потюнить на том чтобы она проходила текст-кейсы ваших задачек она будет гененировать правильные решения чаще. А ещё можно использовать получившуюся value funciton чтобы обрывать генерацию кода и начинать сначала.
1. Probably robust detection of out-of-distribution data — хитрый но дешёвый подход к тому как детекстить OOD и при этом быть устойчивым к adversarial атакам
1. Exploring length generalization — для того чтобы ваша моделька могла экстраполировать на длинные тексты вам надо использовать много хаков (см табличку)
1. Trajectory of Mini-Batch Momentum — теория минимального размера batch size для того чтобы momentum работал
Forwarded from эйай ньюз
OpenAI сегодня выкатили мощного чат-бота ChatGPT

В отличие от GPT-3, ChatGPT – это модель которая специально тренирована вести интерактивный диалог и сохранять канву разговора.

Формат диалога позволяет ChatGPT отвечать на дополнительные вопросы, признавать свои ошибки, оспаривать неверные предпосылки и отклонять неуместные запросы.

Для обучения ресерчеров взяли GPT-3.5 и зафайнтюнили ее для ведения диалога с помощью алгоритм Reinforcement Learning from Human Feedback алгоритма.

На картинках можете увидеть несколько примеров диалогов.

Подробности и больше примеров в блогпосте.

Поговорить с этим ботом можно тут. Но прямо сейчас там переполнены сервера.

@ai_newz
NeurIPS 2022 день 3

Новая пачка постеров!

1. Adversarial reprogramming revisited — оказывается атаковать можно не только натренированные сети, но и случайно инициализированные и заставлять их делать прозвольные задачи
1. STaR — файнтюнить сетки на chain of thought лучше с промптами которые эти нейросетки сами генерят.
1. Solving Schodinger equation with deep learning — если докинуть в нейросети чуть-чуть физики можно решать стационарное уравнение шрёдингера достаточно точно и гораздо быстрее чем классичекими методами
1. Exploit reward shifting — value-based методы могут работать сильно лучше если просто добавить к реворду константу R' = R + C. Добавление позитивной делает метод более осторожным в exploration, негативной — более рискованым.
1. Navigating Wikipedia — RL агента научили эффективно ходить по графу википедии. И для этого даже не нужно делать рассчёты минимального пути в графе — обучения с помощью случайных траекторий хватает чтобы агент научился делать это эффективно.
1. Hyperparameter Optimizers with Transformers — в гугле взяли историю всех их экспериментов с перебором гиперпараметров и научили трансформер предсказывать оптимальные гиперпараметры по датасету и модели.
1. Staircase attention — хитрый аттеншн который позволяет считать себя рекурсивно и на более длинных последовательностях

Новая пачка слухов!

1. В ближашие месяцы в bitsandbytes завезут int4-инференс. То же качество, но ещё в два раза меньше памяти.
1. Туда же добавят файнтюниг квантизованных моделей. Будет работать так: модель в int4, через неё бэкпропаемся в адаптеры в fp16 и их обучаем.
1. Новый пост от Tim Dettmers о хардвере для диплернинга выйдет через несколько недель. Пока что можете перечитать старый
Forwarded from AI Для Всех
Профессия будущего - заклинатель языковых моделей

Языковой интерфейс для систем искусственного интеллекта создаст мир, в котором существуют волшебники. Ценность любого волшебника будет связана с его способностью плести из слов заклинания. Волшебники смогут использовать свои слова, для того что бы воплощать любые идеи в жизнь.

Ссылка
Какие актуальные инструменты нужны для развития в Data Science?

5 декабря в 18:00 пройдет открытый урок онлайн-курса «Machine Learning. Professional» в OTUS. Тема: «Один в поле не воин: методы ансамблирования в машинном обучении».

Кому подходит этот урок:
1. IT-специалистам которые хотят освоить продвинутые методы ML и перейти в Data Science
1. Дата-сайентистам, желающим углубиться в профессию
1. Тем, кто самостоятельно изучает Data Science и уже изучил основы ML

На занятии вы узнаете основные подходы к ансамблированию, которые сегодня используют в ML, изучите устройство наиболее популярных методов ансамблирования (Bagging, Random Forest, Boosting) и примените их на практике.

🟡 Пройдите вступительный тест, чтобы записаться на урок
https://otus.pw/NKQw/

#промо
Please open Telegram to view this post
VIEW IN TELEGRAM
PyTorch Conference 2022 / PyTorch 2.0

Рядом с NeurIPS (буквально через дорогу) сегодня проходит конференция на которой говорят про происходило с PyTorch и коммьюнити за последний год, и показывают новые фичи PyTorch.

И первая большая новость: torch.compile

Под капотом torch.compile использует TorchDynamo и работает напрямую с байткодом питона чтобы понять граф вычислений и зафьюзить некоторые операции вместе. На практике это может давать ускорение на 20-80%.

Главное отличие от torch.script/torch.jit которое обещают: torch.compile реально должен работать добавлением одной строчки и уже так работает в 90%+ репозиториев.

Вторая большая новость: PyTorch 2.0

Грядут большие изменения API, которые упростят добавление новых бэкендов. Это позволит добавлять поддержку кастомного хардвера быстрее (graphcore, habana, cerebras). Добавят torch.export, который будет более простой версией trace. Упростят квантизацию и добавят новые фичи в distributed (pipeline parallelism?).

2.0 доступен в nightly сегодня. Полностью backward-compatible с PyTorch 1.X (fuck you semantic versioning). Конференция только началась, будет больше новостей о PyTorch, stay tuned.
PyTorch Conference 2022 / Poster Session

1. Generalized shapes: Block sparsity, MaskedTensor, NestedTensor
Sparse потихоньку приходит в DL и в том числе в торч. Block-sparse матрицы будут полезны всяким графам. Masked Tensor удобен для того чтобы не учитывать какие-то переменные в операциях аггрегации e.g., attention masking будет быстрее. NestedTensor позволяет быстрее рассчитывать тексты разных длин в одном батче.

1. xFormers — эффективные attention с cuda/triton кернелами. Есть блочный attention, но гравная фича: FlashAttention. Этот трюк позволяет считать точный attention быстрее и с меньшим потреблением памяти. Работает это так что имплементация учитывает то что все текущие GPU ограничены в скорости памяти а не в скорости вычислений. Вот статья. Вобще библиотеку сильно улучшиили и теперь должно быть проще использовать отдельные блоки, а не просто делать конфиг. Надо будет поиграться.

1. AutoMAD: mixed mode autodiff
for PyTorch models
Позволяет автоматически выбирать backprop/forward differentiation для разных слоёв. Может быть очень полезно в больших моделях или если у вас просто посреди модели огромная матрица вычисляется (бывает).

1. DistributedTensor — новая фича torch (пока в бете), которая делает tensor parallel. Очень полезно для больших моделей. Может работать гораздо быстрее чем model parallel. Кроме этого есть специальная прослойка которая позвоялет эффективно использовать FSDP + tensor parallel.

1. Better Transformer — проектик внутри пайторча который ускоряет nn.Transformer с помощью NestedTensor, FlashAttention итд. Местами ускорение в разы. Надеюсь что 🤗 подхватит.
Forwarded from Некстджен и Усиление+ (Yuri Krupenin)
Добро пожаловать на вечернюю службу церкви свидетелей технологической сингулярности: сегодня выясняется, что если ChatGPT очень попросить, то она может прикинуться Linux-компьютером (если попросить отдельно — с видеокартой Nvidia и корректно отрабатывающей nvidia-smi), правильно выполнять консольные команды (с запоминанием состояния окружения: из "файлов" "читается" то, что вы в них "записали") и даже несложные скрипты на Python.

Отдельное веселье начинается, если попросить модель выполнить с помощью "cURL" "реквесты" к "веб-сервисам" или "открыть" "сайт" с помощью "Lynx" (модель, конечно, по заветам Бострома/Уоттса изолирована от всего внешнего интернета и никаких сетевых запросов никуда не отправляет).

Хорошо, у нас закончился лимит кавычек на день, на прощание отметим только, что комментарии представляют не меньший интерес, чем сам пост.

https://www.engraved.blog/building-a-virtual-machine-inside/
Congrats to OpenAI on winning the Turing Test
Source: тык
Forwarded from эйай ньюз
Ёпрст, вот это юзкейс реальной пользы от AI в жизни обычного работяги!

Теперь только через ChatGPT буду общаться с саппортами и катать заявы при любом недовольстве.

Боюсь только, что и отвечать на мои письма скоро начнет такой же ChatGPT 😭

@ai_newz