DL in NLP – Telegram

DL in NLP

12.5K subscribers

547 photos

13 videos

27 files

1.1K links

Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)

Download Telegram

About

Blog

Apps

Platform

12.5K subscribers

Forwarded from эйай ньюз

Ёпрст, вот это юзкейс реальной пользы от AI в жизни обычного работяги!

Теперь только через ChatGPT буду общаться с саппортами и катать заявы при любом недовольстве.

Боюсь только, что и отвечать на мои письма скоро начнет такой же ChatGPT 😭

@ai_newz

😁77🔥2👍1

4.44K viewsVlad Lialin, 06:00

High-dimensional probability это совершенно топовый курс, который даёт вам кучу тулзов и методов которые активно используются в современной теории диплернинга. В 2018 я проходил курс по этой книге на физтехе и это был самый хардкорный и самый полезный курс за всю магистратуру. Очень советую если вы любите/умеете в матан и хотите начать понимать теорию того почему этот ваш машинлернинг работает.

🔥23🙏1

5.04K viewsVlad Lialin, 16:55

Forwarded from gonzo-обзоры ML статей

Not a paper, but a very cool stuff!

Roman Vershynin, professor of mathematics at the University of California, Irvine, and the author of the well-known book "High dimensional probability. An introduction with applications in Data Science" has just published materials from his course on the same topic!

The book itself is freely available in internet (https://www.math.uci.edu/~rvershyn/papers/HDP-book/HDP-book.pdf), yet I myself has two hard copies of it :)

Now the videos and lecture notes from the course that was run remotely at Kyiv National University this fall during bombing are published: https://www.math.uci.edu/~rvershyn/teaching/hdp/hdp.html

👍5🔥5❤1

4.38K viewsVlad Lialin, 16:55

Forwarded from AbstractDL

GPT тайно файнтюнит себя через attention во время инференса (by Microsoft)

Авторы немного поколдовали над формулами этэншна и смогли свести их к SGD — оказалось, что трансформеры сами осуществляют внутри себя градиентный спуск и используют механизм внимания в качестве неявного оптимизатора!

Теперь понятно, почему few-shot learning так круто работает, ведь модели полноценно учат себя пока смотрят на контекст. К тому же эксперименты показали, что активации при файнтюнинге и при few-shot демонстрации примеров обновляются примерно одинаково.

А раз attention ≈ SGD, то почему бы не попробовать добавить в него momentum? И это действительно помогло! Модель стала обучаться быстрее, тестовая перплексия получилась ниже, а few-shot заработал ещё лучше.

Статья

🤯87🔥15👍9

2.99K viewsVlad Lialin, 15:03

Applyingml - забавный сайт с практическими советами как применять ML в реальной жизни.

Зашло The first rule of machine learning: Start without machine learning

Интересно как GPT-3/4 все это поменяют, но пока что советы выглядят полезными.

https://applyingml.com

ApplyingML - Papers, Guides, and Interviews with ML practitioners

Curated papers and blogs, ghost knowledge, and interviews with experienced ML practitioners on how to apply machine learning in industry.

👍21🔥8

4.22K viewsVlad Lialin, 15:39

Как вы наверное заметили, вести канал последний месяц получалось не очень и одна из причин - накопвшийся бэклог из-за которого ты откладываешь написание поста, что приводит к увеличению бэклога ну и так далее.

Поэтому вот все ссылки, неосвелненные нефильтрованные (часть 1):

1. twitter.com/KirkDBorne/status/1607761216847622145
1. youtu.be/KV5gbOmHbjU
1. github.com/gdb/pyseidon
1. www.nytimes.com/interactive/2022/12/26/magazine/yejin-choi-interview.html
1. twitter.com/karpathy/status/1607791537978748929
1. twitter.com/DrJimFan/status/1600884409355227137
1. twitter.com/emollick/status/1607589896222576640

🔥8🎉1🙈1

3.43K viewsVlad Lialin, 17:23

Рандомные интересные ссылки (часть 2):

1. Evaluating Large Language Models (LLMs) with Eleuther AI
1. twitter.com/soleio/status/1607106379357249536
1. BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting
1. Do DALL-E and Flamingo Understand Each Other?
1. Write your next scientific paper with the writing backwards technique
1. Лучшие статьи 2022
1. twitter.com/Jeande_d/status/1606383104418926593
1. t.iss.one/airi_research_institute/174
1. twitter.com/_akhaliq/status/1605774104384135168

❤11

3.28K viewsVlad Lialin, 17:31

Forwarded from Vic

Вот еще хорошая статья LAMBADA: Backward Chaining for Automated Reasoning in Natural
Language
https://arxiv.org/pdf/2212.13894.pdf

Тред в Твиттере https://twitter.com/martin_gorner/status/1608450724433907714?cn=ZmxleGlibGVfcmVjcw%3D%3D&refsrc=email

Похоже, что описывается хороший подход к логическому выводу, и в статье говорят, что метод дает намного лучше и более глубокий проход при проверке сгенерированного доказательства - чем CoT - то есть цепочка, которую промтами можно собрать.

This paper is, in part, a traditional algorithm, a "depth-first search algorithm over the facts and the rules", starting from the desired conclusion and trying to logically reach the premises (facts and rules).

Authors compare this approach toChain Of Thought Reasoning and show impressive results, especially once you check the validity of the generated proof.

X (formerly Twitter)

Martin Görner on X

Large Language Models are getting good at formal logic:
https://t.co/UHWqM2B7QG LAMBADA: Backward Chaining for Automated Reasoning.

👍4

3.91K viewsVlad Lialin, 17:36

Рандомные интересные ссылки (часть 3):

1. What Building "Copilot for X" Really Takes
1. 🤗 tutorial notebooks for semantic segmentation
1. FiDO: Fusion-in-Decoder optimized for stronger performance and faster inference
1. Prompt Engineering Guide
1. twitter.com/gabriel_ilharco/status/1603415656699162624
1. Любимые твиты Андрея Карпати 😂
1. twitter.com/richardmcngo/status/1603862969276051457
1. twitter.com/richardmcngo/status/1603862969276051457

❤12👍3👎1

4.8K viewsVlad Lialin, edited 17:49

Если ИТ – это ваш конек, то Тинькофф ждет вас 23 января на катке

Ледовый ИТ-квест, нетворкинг, дискуссии со спикерами в теплом шатре и многое другое. Вечер точно будет насыщенным и приятным. За коньки не беспокойтесь — их выдадут бесплатно.

Не медлите, регистрируйтесь сами и зовите коллег — будет весело!

💩44👍13👎7🤡4🥰1

4.97K viewsVlad Lialin, edited 09:01

Forwarded from Rebryk Blog

🤯 Cmd J - ChatGPT shortcut for Chrome

Последнее время я каждый день по много раз использую ChatGPT. В основном, чтобы она исправила мой кривой английский или задую ей глупые вопросы 😆

Но мне надоело постоянно копировать текст из текущей вкладки, переключаться на ChatGPT, вставлять текст, дописывать промпт, получать ответ и копировать его обратно. Хочется же проще это делать!

Поэтому мы с ребятами собрали Cmd J - командная панель, через которую можно дергать ChatGPT на любом сайте. Выделяешь текст, затем ⌘J, выбираешь быстро команду или пишешь свой промпт, а затем жмякаешь ентер, чтобы вставить результат обратно. Красота!

Пока правда вставка работает далеко не на всех сайтах. Кто бы мог подумать, что это оказывается сложная задача!

Пока расширение находится в сторе на ревью, вы можете его установить себе из архивчика. Смотрите первый коммент под постом.

Если приложение будет падать или работать через раз, то это норма, хах. Жалобы и фидбек кидайте мне в личку @rebryk

А если у вас есть на уме очень классные промты, которые вы сами гоняете каждый день, то их тоже присылайте. Самые классные добавим в релиз!

Ну как вам?

🔥36👍5🤯2⚡1🙈1

3.36K viewsVlad Lialin, 00:46

Мини-подборка лекций по большим языковым моделям

1. Stanford cs224n lecture: Scaling Language Models
1. Full stack DL: Foundation Models

1. Пожалуй ещё более крутая ссылка от подписчика на целый курс по LM

Stanford CS224N NLP with Deep Learning | Spring 2022 | Guest Lecture: Scaling Language Models

For more information about Stanford's Artificial Intelligence professional and graduate programs visit: https://stanford.io/3w46jar

To learn more about this course visit: https://online.stanford.edu/courses/cs224n-natural-language-processing-deep-learning…

👍25🔥2

4.69K viewsVlad Lialin, edited 22:34

Deep Learning был одним из немногих источников хороших новостей в 2022 году, поэтому хотелось составить список статей которые запомнились и сильно на меня повлияли (лучше поздно чем никогда):

1. Latent Diffusion — он же Stable Diffusion, который сделал text2image доступным для обычных людей
1. OPT: Open Pre-trained Transformer — неожиданный и очень приятный релиз целой линейки 0.1B-175B языковых моделей от фейсбука (пост)
1. 🌸 BLOOM — результат работы BigScience, показавший, что DL сообщество может коллабораровать at scale (пост)
1. 8-bit Matrix Multiplication for Transformers at Scale — квантизованные трансформеры которые позволяют впихать невпихуемое и комфортно рабоать с 15B моделями на одной 3090. Абсолютный game changer для меня и для всей индустрии.
1. 🦩 Flamingo — статья которая показала что склеивать замороженые предтренированные модели это хорошо, а также дала рецепт к огромным мультимодальным датасетам через использование структуры HTML.
1. LAION-5B — image-text датасет примерно бесконечного размера. Думаю мы увидим много интересных статей на его основе в 2023.

Демократизация больших моделей была сильным трендом, мы получили не одну а две 175B+ оперсонсных модели. И с помощью int8 обычные рисёчеры даже могут инферить их на одной машине с ~8GPU. Или даже не своей картошке с помощью petals.

Добавим в список ещё пару менее попсовых статей:
1. Training a Helpful and Harmless Assistant with RLHF — предвесник ChatGPT от Anthropic который остался незаслуженно незамеченым
1. Simple Local Attentions Remain Competitive for Long-Context Tasks — мы либо всё ещё не придумали хороший long attention, либо ничего лучше local window + a few global tokens и не надо (пост)

Кроме этого я был приятно удивлён Neural Networks: Zero to Hero от Andrej Karpathy, очень рекомендую.

И воспользуясь случаем сделаю shameless plug моих статей, вдруг кому будет интересно:
1. Large scale probing of pre-trained langauge models
1. Learning to Ask Like a Physician
1. Pseudolabeling for video captioning pre-training works better than existing video-text datasets

OPT: Open Pre-trained Transformer Language Models

Large language models, which are often trained for hundreds of thousands of compute days, have shown remarkable capabilities for zero- and few-shot learning. Given their computational cost, these...

👍42🔥10❤6

7.64K viewsVlad Lialin, 17:01

Prompt Engineering 101

Хороший пост о том как формулировать промты для языковых моделей. Если кратко:

1. Include direct instructions in prompts
1. Give examples in prompts to get the best response
1. Align prompt instructions with the task’s end goal
1. Use personas to get more specific voices
1. Include acceptable responses in prompts for consistency
1. Try different prompts to find what works best

Я бы ещё добавил что для больших моделей важно писать промты естественным языком. Например не надо делать example 1: <пример> example 2: <пример>. Но главное всё-таки иметь какой-то тестовый сет (не из двух примеров, а хотя бы из нескольких десятков) и экспериментировать на нём.

Humanloop – the platform for Large Language Model applications

Prompt Engineering 101

In this post, we'll explore the fundamentals of prompt engineering. We'll explain how Large Language Models (LLMs) interpret prompts to generate outputs, and provide tips and tricks to get you started prototyping and implementing LLMs quickly.

👍20👎1😁1

6.79K viewsVlad Lialin, 16:00

How Nvidia’s CUDA Monopoly In Machine Learning Is Breaking - OpenAI Triton And PyTorch 2.0
www.semianalysis.com/p/nvidiaopenaitritonpytorch

Сейчас NVIDIA GPUs повсюду в DL и для новых игроков на рынке железа довольно трудно соперничать с ними потому что чтобы поддерживать например pytorch им нужно писать низкоуровневый код для поддержки 2000+ операторов пайторча. PyTorch 2.0 меняет это и уменьшает число базовых операторов в 10 раз, плюс начинает более нативно поддерживать статические графы. Triton, PrimTorch и TorchDynamo этому помогают. В особенности Triton, который является альтертанивой CUDA от OpenAI на котором можно писать более универсальный код. Это поможет как AMD, так и новым стартапам вроде Cerebras или Graphcore.

Чем вообще стартапы могут нас удивить? В статье хорошо описан подход Cerebras и SRAM vs DRAM. Оч советую пробежаться по ней, надеюсь скоро в мире AI-железа будет интересно.

How Nvidia’s CUDA Monopoly In Machine Learning Is Breaking – OpenAI Triton And PyTorch 2.0

Over the last decade, the landscape of machine learning software development has undergone significant changes. Many frameworks have come and gone, but most have relied heavily on leveraging Nvidia…

👍30🔥8❤3

4.28K viewsVlad Lialin, edited 17:27

Новая странная IDE, которая будет эдитить за вас код. Интересно посмотреть насколько взлетит (и сколько будет стоить)

twitter.com/amanrsanger/status/1615539968772050946

А ещё мне одному кажется что все новые (2022+) IDE похожи на Atom?

😁10

3.78K viewsVlad Lialin, 18:34

В прошлом году общался с Albert Webson (автор Т0) и он рассказывал про свою статью где они показали что языковые модели могут решать задачи ULU (SuperGLUE?) даже если промт нерелевантен или misleading.

Теперь вышла новая статья от их группы в Brown university, где показывают что люди в общем ведут себя похоже.

И вообще интересно что мы стали сравнивать модели с людьми уже не в качестве бенчмарка, а именно чтобы узнать насколько мы похожи 🤔

🤔26👍4

3.87K viewsVlad Lialin, edited 04:14

Deep Papers Episode 1 - InstructGPT: Aligning Language Models to Human Intention
youtu.be/RkFS6-GwCxE

Первый выпуск подкаста от AI Pub и сразу огонище. Двое рисёчкров из OpenAI рассказывают о ChatGPT, RLHF и как правильно алайнить модель к людям в long- и short-term (оказывается это разные задачи!)

Надеюсь что будет больше пары выпусков, чтобы не было как с подкастом Карпатого.

Deep Papers Episode 1 - ChatGPT and InstructGPT: Aligning Language Models to Human Intention

Deep Papers is a podcast series featuring deep dives on today’s seminal AI papers and research. Hosted by ai__pub creator Brian Burns and Arize AI founders Jason Lopatecki and Aparna Dhinakaran, each episode profiles the people and techniques behind cutting…

🔥14👎1

4.84K viewsVlad Lialin, 05:31

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

ChatGPT Pro - 42 бакса в месяц.
Basic - still free.

Хорошая новость в том, что сама ИИ-модель для обоих планов одинакова, поэтому пользователям не придется жертвовать качеством ради доступности. Однако профессиональный план предлагает некоторые дополнительные преимущества.

Во-первых, она будет доступна даже при высокой загрузке, гарантируя, что про-пользователи всегда смогут получить доступ к модели, пока остальные клянут зависающий ИИ. Кроме того, скорость отклика будет выше.

Ну и на сладкое - приоритетный доступ к новым функциям будет предоставлен пользователям профессионального плана.

Думаю, что для тех кто юзает chatGPT для бизнеса - это не деньги.

https://medium.com/@EleneeChek/chatgpt-professional-plan-available-for-42-usd-6554292aa486

👍11

3.09K viewsVlad Lialin, 17:50

Some high-quality shitposting

twitter.com/yoavgo/status/1616778408171642880?s=46&t=7mttmprOnIdRppxQnoCYUQ

🔥12😁8

3.44K viewsVlad Lialin, 17:59