DL in NLP – Telegram

DL in NLP

12.7K subscribers

546 photos

13 videos

27 files

1.09K links

Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)

Download Telegram

About

Blog

Apps

Platform

12.7K subscribers

Forwarded from AI Для Всех

Профессия будущего - заклинатель языковых моделей

Языковой интерфейс для систем искусственного интеллекта создаст мир, в котором существуют волшебники. Ценность любого волшебника будет связана с его способностью плести из слов заклинания. Волшебники смогут использовать свои слова, для того что бы воплощать любые идеи в жизнь.

Ссылка

2.6K viewsVlad Lialin, 03:54

Какие актуальные инструменты нужны для развития в Data Science?

5 декабря в 18:00 пройдет открытый урок онлайн-курса «Machine Learning. Professional» в OTUS. Тема: «Один в поле не воин: методы ансамблирования в машинном обучении».

Кому подходит этот урок:
1. IT-специалистам которые хотят освоить продвинутые методы ML и перейти в Data Science
1. Дата-сайентистам, желающим углубиться в профессию
1. Тем, кто самостоятельно изучает Data Science и уже изучил основы ML

На занятии вы узнаете основные подходы к ансамблированию, которые сегодня используют в ML, изучите устройство наиболее популярных методов ансамблирования (Bagging, Random Forest, Boosting) и примените их на практике.

🟡

Пройдите вступительный тест, чтобы записаться на урок
https://otus.pw/NKQw/

#промо

Please open Telegram to view this post

VIEW IN TELEGRAM

3.2K viewsVlad Lialin, 10:57

PyTorch Conference 2022 / PyTorch 2.0

Рядом с NeurIPS (буквально через дорогу) сегодня проходит конференция на которой говорят про происходило с PyTorch и коммьюнити за последний год, и показывают новые фичи PyTorch.

И первая большая новость: torch.compile

Под капотом torch.compile использует TorchDynamo и работает напрямую с байткодом питона чтобы понять граф вычислений и зафьюзить некоторые операции вместе. На практике это может давать ускорение на 20-80%.

Главное отличие от torch.script/torch.jit которое обещают: torch.compile реально должен работать добавлением одной строчки и уже так работает в 90%+ репозиториев.

Вторая большая новость: PyTorch 2.0

Грядут большие изменения API, которые упростят добавление новых бэкендов. Это позволит добавлять поддержку кастомного хардвера быстрее (graphcore, habana, cerebras). Добавят torch.export, который будет более простой версией trace. Упростят квантизацию и добавят новые фичи в distributed (pipeline parallelism?).

2.0 доступен в nightly сегодня. Полностью backward-compatible с PyTorch 1.X (fuck you semantic versioning). Конференция только началась, будет больше новостей о PyTorch, stay tuned.

15.3K viewsVlad Lialin, edited 15:46

PyTorch Conference 2022 / Poster Session

1. Generalized shapes: Block sparsity, MaskedTensor, NestedTensor
Sparse потихоньку приходит в DL и в том числе в торч. Block-sparse матрицы будут полезны всяким графам. Masked Tensor удобен для того чтобы не учитывать какие-то переменные в операциях аггрегации e.g., attention masking будет быстрее. NestedTensor позволяет быстрее рассчитывать тексты разных длин в одном батче.

1. xFormers — эффективные attention с cuda/triton кернелами. Есть блочный attention, но гравная фича: FlashAttention. Этот трюк позволяет считать точный attention быстрее и с меньшим потреблением памяти. Работает это так что имплементация учитывает то что все текущие GPU ограничены в скорости памяти а не в скорости вычислений. Вот статья. Вобще библиотеку сильно улучшиили и теперь должно быть проще использовать отдельные блоки, а не просто делать конфиг. Надо будет поиграться.

1. AutoMAD: mixed mode autodiff
for PyTorch models
Позволяет автоматически выбирать backprop/forward differentiation для разных слоёв. Может быть очень полезно в больших моделях или если у вас просто посреди модели огромная матрица вычисляется (бывает).

1. DistributedTensor — новая фича torch (пока в бете), которая делает tensor parallel. Очень полезно для больших моделей. Может работать гораздо быстрее чем model parallel. Кроме этого есть специальная прослойка которая позвоялет эффективно использовать FSDP + tensor parallel.

1. Better Transformer — проектик внутри пайторча который ускоряет nn.Transformer с помощью NestedTensor, FlashAttention итд. Местами ускорение в разы. Надеюсь что 🤗 подхватит.

4.4K viewsVlad Lialin, 19:46

Forwarded from Некстджен и Усиление+ (Yuri Krupenin)

Добро пожаловать на вечернюю службу церкви свидетелей технологической сингулярности: сегодня выясняется, что если ChatGPT очень попросить, то она может прикинуться Linux-компьютером (если попросить отдельно — с видеокартой Nvidia и корректно отрабатывающей nvidia-smi), правильно выполнять консольные команды (с запоминанием состояния окружения: из "файлов" "читается" то, что вы в них "записали") и даже несложные скрипты на Python.

Отдельное веселье начинается, если попросить модель выполнить с помощью "cURL" "реквесты" к "веб-сервисам" или "открыть" "сайт" с помощью "Lynx" (модель, конечно, по заветам Бострома/Уоттса изолирована от всего внешнего интернета и никаких сетевых запросов никуда не отправляет).

Хорошо, у нас закончился лимит кавычек на день, на прощание отметим только, что комментарии представляют не меньший интерес, чем сам пост.

https://www.engraved.blog/building-a-virtual-machine-inside/

Building A Virtual Machine inside ChatGPT

Unless you have been living under a rock, you have heard of this new ChatGPT assistant made by OpenAI. Did you know, that you can run a whole virtual machine inside of ChatGPT?

5.1K viewsVlad Lialin, 15:59

5.4K viewsVlad Lialin, 16:36

Congrats to OpenAI on winning the Turing Test
Source: тык

4.7K viewsVlad Lialin, edited 20:05

Forwarded from эйай ньюз

Ёпрст, вот это юзкейс реальной пользы от AI в жизни обычного работяги!

Теперь только через ChatGPT буду общаться с саппортами и катать заявы при любом недовольстве.

Боюсь только, что и отвечать на мои письма скоро начнет такой же ChatGPT 😭

@ai_newz

4.4K viewsVlad Lialin, 06:00

High-dimensional probability это совершенно топовый курс, который даёт вам кучу тулзов и методов которые активно используются в современной теории диплернинга. В 2018 я проходил курс по этой книге на физтехе и это был самый хардкорный и самый полезный курс за всю магистратуру. Очень советую если вы любите/умеете в матан и хотите начать понимать теорию того почему этот ваш машинлернинг работает.

5.0K viewsVlad Lialin, 16:55

Forwarded from gonzo-обзоры ML статей

Not a paper, but a very cool stuff!

Roman Vershynin, professor of mathematics at the University of California, Irvine, and the author of the well-known book "High dimensional probability. An introduction with applications in Data Science" has just published materials from his course on the same topic!

The book itself is freely available in internet (https://www.math.uci.edu/~rvershyn/papers/HDP-book/HDP-book.pdf), yet I myself has two hard copies of it :)

Now the videos and lecture notes from the course that was run remotely at Kyiv National University this fall during bombing are published: https://www.math.uci.edu/~rvershyn/teaching/hdp/hdp.html

4.4K viewsVlad Lialin, 16:55

Forwarded from AbstractDL

GPT тайно файнтюнит себя через attention во время инференса (by Microsoft)

Авторы немного поколдовали над формулами этэншна и смогли свести их к SGD — оказалось, что трансформеры сами осуществляют внутри себя градиентный спуск и используют механизм внимания в качестве неявного оптимизатора!

Теперь понятно, почему few-shot learning так круто работает, ведь модели полноценно учат себя пока смотрят на контекст. К тому же эксперименты показали, что активации при файнтюнинге и при few-shot демонстрации примеров обновляются примерно одинаково.

А раз attention ≈ SGD, то почему бы не попробовать добавить в него momentum? И это действительно помогло! Модель стала обучаться быстрее, тестовая перплексия получилась ниже, а few-shot заработал ещё лучше.

Статья

3.0K viewsVlad Lialin, 15:03

Applyingml - забавный сайт с практическими советами как применять ML в реальной жизни.

Зашло The first rule of machine learning: Start without machine learning

Интересно как GPT-3/4 все это поменяют, но пока что советы выглядят полезными.

https://applyingml.com

ApplyingML - Papers, Guides, and Interviews with ML practitioners

Curated papers and blogs, ghost knowledge, and interviews with experienced ML practitioners on how to apply machine learning in industry.

4.2K viewsVlad Lialin, 15:39

Как вы наверное заметили, вести канал последний месяц получалось не очень и одна из причин - накопвшийся бэклог из-за которого ты откладываешь написание поста, что приводит к увеличению бэклога ну и так далее.

Поэтому вот все ссылки, неосвелненные нефильтрованные (часть 1):

1. twitter.com/KirkDBorne/status/1607761216847622145
1. youtu.be/KV5gbOmHbjU
1. github.com/gdb/pyseidon
1. www.nytimes.com/interactive/2022/12/26/magazine/yejin-choi-interview.html
1. twitter.com/karpathy/status/1607791537978748929
1. twitter.com/DrJimFan/status/1600884409355227137
1. twitter.com/emollick/status/1607589896222576640

3.4K viewsVlad Lialin, 17:23

Рандомные интересные ссылки (часть 2):

1. Evaluating Large Language Models (LLMs) with Eleuther AI
1. twitter.com/soleio/status/1607106379357249536
1. BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting
1. Do DALL-E and Flamingo Understand Each Other?
1. Write your next scientific paper with the writing backwards technique
1. Лучшие статьи 2022
1. twitter.com/Jeande_d/status/1606383104418926593
1. t.iss.one/airi_research_institute/174
1. twitter.com/_akhaliq/status/1605774104384135168

3.3K viewsVlad Lialin, 17:31

Forwarded from Vic

Вот еще хорошая статья LAMBADA: Backward Chaining for Automated Reasoning in Natural
Language
https://arxiv.org/pdf/2212.13894.pdf

Тред в Твиттере https://twitter.com/martin_gorner/status/1608450724433907714?cn=ZmxleGlibGVfcmVjcw%3D%3D&refsrc=email

Похоже, что описывается хороший подход к логическому выводу, и в статье говорят, что метод дает намного лучше и более глубокий проход при проверке сгенерированного доказательства - чем CoT - то есть цепочка, которую промтами можно собрать.

This paper is, in part, a traditional algorithm, a "depth-first search algorithm over the facts and the rules", starting from the desired conclusion and trying to logically reach the premises (facts and rules).

Authors compare this approach toChain Of Thought Reasoning and show impressive results, especially once you check the validity of the generated proof.

X (formerly Twitter)

Martin Görner on X

Large Language Models are getting good at formal logic:
https://t.co/UHWqM2B7QG LAMBADA: Backward Chaining for Automated Reasoning.

3.9K viewsVlad Lialin, 17:36

Рандомные интересные ссылки (часть 3):

1. What Building "Copilot for X" Really Takes
1. 🤗 tutorial notebooks for semantic segmentation
1. FiDO: Fusion-in-Decoder optimized for stronger performance and faster inference
1. Prompt Engineering Guide
1. twitter.com/gabriel_ilharco/status/1603415656699162624
1. Любимые твиты Андрея Карпати 😂
1. twitter.com/richardmcngo/status/1603862969276051457
1. twitter.com/richardmcngo/status/1603862969276051457

4.8K viewsVlad Lialin, edited 17:49

Если ИТ – это ваш конек, то Тинькофф ждет вас 23 января на катке

Ледовый ИТ-квест, нетворкинг, дискуссии со спикерами в теплом шатре и многое другое. Вечер точно будет насыщенным и приятным. За коньки не беспокойтесь — их выдадут бесплатно.

Не медлите, регистрируйтесь сами и зовите коллег — будет весело!

4.9K viewsVlad Lialin, edited 09:01

Forwarded from Rebryk Blog

🤯 Cmd J - ChatGPT shortcut for Chrome

Последнее время я каждый день по много раз использую ChatGPT. В основном, чтобы она исправила мой кривой английский или задую ей глупые вопросы 😆

Но мне надоело постоянно копировать текст из текущей вкладки, переключаться на ChatGPT, вставлять текст, дописывать промпт, получать ответ и копировать его обратно. Хочется же проще это делать!

Поэтому мы с ребятами собрали Cmd J - командная панель, через которую можно дергать ChatGPT на любом сайте. Выделяешь текст, затем ⌘J, выбираешь быстро команду или пишешь свой промпт, а затем жмякаешь ентер, чтобы вставить результат обратно. Красота!

Пока правда вставка работает далеко не на всех сайтах. Кто бы мог подумать, что это оказывается сложная задача!

Пока расширение находится в сторе на ревью, вы можете его установить себе из архивчика. Смотрите первый коммент под постом.

Если приложение будет падать или работать через раз, то это норма, хах. Жалобы и фидбек кидайте мне в личку @rebryk

А если у вас есть на уме очень классные промты, которые вы сами гоняете каждый день, то их тоже присылайте. Самые классные добавим в релиз!

Ну как вам?

3.3K viewsVlad Lialin, 00:46

Мини-подборка лекций по большим языковым моделям

1. Stanford cs224n lecture: Scaling Language Models
1. Full stack DL: Foundation Models

1. Пожалуй ещё более крутая ссылка от подписчика на целый курс по LM

Stanford CS224N NLP with Deep Learning | Spring 2022 | Guest Lecture: Scaling Language Models

For more information about Stanford's Artificial Intelligence professional and graduate programs visit: https://stanford.io/3w46jar

To learn more about this course visit: https://online.stanford.edu/courses/cs224n-natural-language-processing-deep-learning…

4.6K viewsVlad Lialin, edited 22:34