DL in NLP
12.5K subscribers
547 photos
13 videos
27 files
1.1K links
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
Download Telegram
NeurIPS 2022 день 3

Новая пачка постеров!

1. Adversarial reprogramming revisited — оказывается атаковать можно не только натренированные сети, но и случайно инициализированные и заставлять их делать прозвольные задачи
1. STaR — файнтюнить сетки на chain of thought лучше с промптами которые эти нейросетки сами генерят.
1. Solving Schodinger equation with deep learning — если докинуть в нейросети чуть-чуть физики можно решать стационарное уравнение шрёдингера достаточно точно и гораздо быстрее чем классичекими методами
1. Exploit reward shifting — value-based методы могут работать сильно лучше если просто добавить к реворду константу R' = R + C. Добавление позитивной делает метод более осторожным в exploration, негативной — более рискованым.
1. Navigating Wikipedia — RL агента научили эффективно ходить по графу википедии. И для этого даже не нужно делать рассчёты минимального пути в графе — обучения с помощью случайных траекторий хватает чтобы агент научился делать это эффективно.
1. Hyperparameter Optimizers with Transformers — в гугле взяли историю всех их экспериментов с перебором гиперпараметров и научили трансформер предсказывать оптимальные гиперпараметры по датасету и модели.
1. Staircase attention — хитрый аттеншн который позволяет считать себя рекурсивно и на более длинных последовательностях

Новая пачка слухов!

1. В ближашие месяцы в bitsandbytes завезут int4-инференс. То же качество, но ещё в два раза меньше памяти.
1. Туда же добавят файнтюниг квантизованных моделей. Будет работать так: модель в int4, через неё бэкпропаемся в адаптеры в fp16 и их обучаем.
1. Новый пост от Tim Dettmers о хардвере для диплернинга выйдет через несколько недель. Пока что можете перечитать старый
👍20🔥106
Forwarded from AI для Всех
Профессия будущего - заклинатель языковых моделей

Языковой интерфейс для систем искусственного интеллекта создаст мир, в котором существуют волшебники. Ценность любого волшебника будет связана с его способностью плести из слов заклинания. Волшебники смогут использовать свои слова, для того что бы воплощать любые идеи в жизнь.

Ссылка
🥰28😐9🤔3👍1
Какие актуальные инструменты нужны для развития в Data Science?

5 декабря в 18:00 пройдет открытый урок онлайн-курса «Machine Learning. Professional» в OTUS. Тема: «Один в поле не воин: методы ансамблирования в машинном обучении».

Кому подходит этот урок:
1. IT-специалистам которые хотят освоить продвинутые методы ML и перейти в Data Science
1. Дата-сайентистам, желающим углубиться в профессию
1. Тем, кто самостоятельно изучает Data Science и уже изучил основы ML

На занятии вы узнаете основные подходы к ансамблированию, которые сегодня используют в ML, изучите устройство наиболее популярных методов ансамблирования (Bagging, Random Forest, Boosting) и примените их на практике.

🟡 Пройдите вступительный тест, чтобы записаться на урок
https://otus.pw/NKQw/

#промо
Please open Telegram to view this post
VIEW IN TELEGRAM
👎29🤮10👍53🤡3🔥2😁1
PyTorch Conference 2022 / PyTorch 2.0

Рядом с NeurIPS (буквально через дорогу) сегодня проходит конференция на которой говорят про происходило с PyTorch и коммьюнити за последний год, и показывают новые фичи PyTorch.

И первая большая новость: torch.compile

Под капотом torch.compile использует TorchDynamo и работает напрямую с байткодом питона чтобы понять граф вычислений и зафьюзить некоторые операции вместе. На практике это может давать ускорение на 20-80%.

Главное отличие от torch.script/torch.jit которое обещают: torch.compile реально должен работать добавлением одной строчки и уже так работает в 90%+ репозиториев.

Вторая большая новость: PyTorch 2.0

Грядут большие изменения API, которые упростят добавление новых бэкендов. Это позволит добавлять поддержку кастомного хардвера быстрее (graphcore, habana, cerebras). Добавят torch.export, который будет более простой версией trace. Упростят квантизацию и добавят новые фичи в distributed (pipeline parallelism?).

2.0 доступен в nightly сегодня. Полностью backward-compatible с PyTorch 1.X (fuck you semantic versioning). Конференция только началась, будет больше новостей о PyTorch, stay tuned.
🔥62👍122🏆2
PyTorch Conference 2022 / Poster Session

1. Generalized shapes: Block sparsity, MaskedTensor, NestedTensor
Sparse потихоньку приходит в DL и в том числе в торч. Block-sparse матрицы будут полезны всяким графам. Masked Tensor удобен для того чтобы не учитывать какие-то переменные в операциях аггрегации e.g., attention masking будет быстрее. NestedTensor позволяет быстрее рассчитывать тексты разных длин в одном батче.

1. xFormers — эффективные attention с cuda/triton кернелами. Есть блочный attention, но гравная фича: FlashAttention. Этот трюк позволяет считать точный attention быстрее и с меньшим потреблением памяти. Работает это так что имплементация учитывает то что все текущие GPU ограничены в скорости памяти а не в скорости вычислений. Вот статья. Вобще библиотеку сильно улучшиили и теперь должно быть проще использовать отдельные блоки, а не просто делать конфиг. Надо будет поиграться.

1. AutoMAD: mixed mode autodiff
for PyTorch models
Позволяет автоматически выбирать backprop/forward differentiation для разных слоёв. Может быть очень полезно в больших моделях или если у вас просто посреди модели огромная матрица вычисляется (бывает).

1. DistributedTensor — новая фича torch (пока в бете), которая делает tensor parallel. Очень полезно для больших моделей. Может работать гораздо быстрее чем model parallel. Кроме этого есть специальная прослойка которая позвоялет эффективно использовать FSDP + tensor parallel.

1. Better Transformer — проектик внутри пайторча который ускоряет nn.Transformer с помощью NestedTensor, FlashAttention итд. Местами ускорение в разы. Надеюсь что 🤗 подхватит.
34👍9
Forwarded from Некстджен и Усиление+ (Yuri Krupenin)
Добро пожаловать на вечернюю службу церкви свидетелей технологической сингулярности: сегодня выясняется, что если ChatGPT очень попросить, то она может прикинуться Linux-компьютером (если попросить отдельно — с видеокартой Nvidia и корректно отрабатывающей nvidia-smi), правильно выполнять консольные команды (с запоминанием состояния окружения: из "файлов" "читается" то, что вы в них "записали") и даже несложные скрипты на Python.

Отдельное веселье начинается, если попросить модель выполнить с помощью "cURL" "реквесты" к "веб-сервисам" или "открыть" "сайт" с помощью "Lynx" (модель, конечно, по заветам Бострома/Уоттса изолирована от всего внешнего интернета и никаких сетевых запросов никуда не отправляет).

Хорошо, у нас закончился лимит кавычек на день, на прощание отметим только, что комментарии представляют не меньший интерес, чем сам пост.

https://www.engraved.blog/building-a-virtual-machine-inside/
👍242
😁66🤣21
Congrats to OpenAI on winning the Turing Test
Source: тык
🔥48😁21👍1👎1
Forwarded from эйай ньюз
Ёпрст, вот это юзкейс реальной пользы от AI в жизни обычного работяги!

Теперь только через ChatGPT буду общаться с саппортами и катать заявы при любом недовольстве.

Боюсь только, что и отвечать на мои письма скоро начнет такой же ChatGPT 😭

@ai_newz
😁77🔥2👍1
High-dimensional probability это совершенно топовый курс, который даёт вам кучу тулзов и методов которые активно используются в современной теории диплернинга. В 2018 я проходил курс по этой книге на физтехе и это был самый хардкорный и самый полезный курс за всю магистратуру. Очень советую если вы любите/умеете в матан и хотите начать понимать теорию того почему этот ваш машинлернинг работает.
🔥23🙏1
Not a paper, but a very cool stuff!

Roman Vershynin, professor of mathematics at the University of California, Irvine, and the author of the well-known book "High dimensional probability. An introduction with applications in Data Science" has just published materials from his course on the same topic!

The book itself is freely available in internet (https://www.math.uci.edu/~rvershyn/papers/HDP-book/HDP-book.pdf), yet I myself has two hard copies of it :)

Now the videos and lecture notes from the course that was run remotely at Kyiv National University this fall during bombing are published: https://www.math.uci.edu/~rvershyn/teaching/hdp/hdp.html
👍5🔥51
Forwarded from AbstractDL
GPT тайно файнтюнит себя через attention во время инференса (by Microsoft)

Авторы немного поколдовали над формулами этэншна и смогли свести их к SGD — оказалось, что трансформеры сами осуществляют внутри себя градиентный спуск и используют механизм внимания в качестве неявного оптимизатора!

Теперь понятно, почему few-shot learning так круто работает, ведь модели полноценно учат себя пока смотрят на контекст. К тому же эксперименты показали, что активации при файнтюнинге и при few-shot демонстрации примеров обновляются примерно одинаково.

А раз attention ≈ SGD, то почему бы не попробовать добавить в него momentum? И это действительно помогло! Модель стала обучаться быстрее, тестовая перплексия получилась ниже, а few-shot заработал ещё лучше.

Статья
🤯87🔥15👍9
Applyingml - забавный сайт с практическими советами как применять ML в реальной жизни.

Зашло The first rule of machine learning: Start without machine learning

Интересно как GPT-3/4 все это поменяют, но пока что советы выглядят полезными.

https://applyingml.com
👍21🔥8
Как вы наверное заметили, вести канал последний месяц получалось не очень и одна из причин - накопвшийся бэклог из-за которого ты откладываешь написание поста, что приводит к увеличению бэклога ну и так далее.

Поэтому вот все ссылки, неосвелненные нефильтрованные (часть 1):

1. twitter.com/KirkDBorne/status/1607761216847622145
1. youtu.be/KV5gbOmHbjU
1. github.com/gdb/pyseidon
1. www.nytimes.com/interactive/2022/12/26/magazine/yejin-choi-interview.html
1. twitter.com/karpathy/status/1607791537978748929
1. twitter.com/DrJimFan/status/1600884409355227137
1. twitter.com/emollick/status/1607589896222576640
🔥8🎉1🙈1
Forwarded from Vic
Вот еще хорошая статья LAMBADA: Backward Chaining for Automated Reasoning in Natural
Language
https://arxiv.org/pdf/2212.13894.pdf

Тред в Твиттере https://twitter.com/martin_gorner/status/1608450724433907714?cn=ZmxleGlibGVfcmVjcw%3D%3D&refsrc=email

Похоже, что описывается хороший подход к логическому выводу, и в статье говорят, что метод дает намного лучше и более глубокий проход при проверке сгенерированного доказательства - чем CoT - то есть цепочка, которую промтами можно собрать.

This paper is, in part, a traditional algorithm, a "depth-first search algorithm over the facts and the rules", starting from the desired conclusion and trying to logically reach the premises (facts and rules).

Authors compare this approach toChain Of Thought Reasoning and show impressive results, especially once you check the validity of the generated proof.
👍4
Если ИТ – это ваш конек, то Тинькофф ждет вас 23 января на катке

Ледовый ИТ-квест, нетворкинг, дискуссии со спикерами в теплом шатре и многое другое. Вечер точно будет насыщенным и приятным. За коньки не беспокойтесь — их выдадут бесплатно.

Не медлите, регистрируйтесь сами и зовите коллег — будет весело!
💩44👍13👎7🤡4🥰1