High-dimensional probability это совершенно топовый курс, который даёт вам кучу тулзов и методов которые активно используются в современной теории диплернинга. В 2018 я проходил курс по этой книге на физтехе и это был самый хардкорный и самый полезный курс за всю магистратуру. Очень советую если вы любите/умеете в матан и хотите начать понимать теорию того почему этот ваш машинлернинг работает.
🔥23🙏1
Forwarded from gonzo-обзоры ML статей
Not a paper, but a very cool stuff!
Roman Vershynin, professor of mathematics at the University of California, Irvine, and the author of the well-known book "High dimensional probability. An introduction with applications in Data Science" has just published materials from his course on the same topic!
The book itself is freely available in internet (https://www.math.uci.edu/~rvershyn/papers/HDP-book/HDP-book.pdf), yet I myself has two hard copies of it :)
Now the videos and lecture notes from the course that was run remotely at Kyiv National University this fall during bombing are published: https://www.math.uci.edu/~rvershyn/teaching/hdp/hdp.html
Roman Vershynin, professor of mathematics at the University of California, Irvine, and the author of the well-known book "High dimensional probability. An introduction with applications in Data Science" has just published materials from his course on the same topic!
The book itself is freely available in internet (https://www.math.uci.edu/~rvershyn/papers/HDP-book/HDP-book.pdf), yet I myself has two hard copies of it :)
Now the videos and lecture notes from the course that was run remotely at Kyiv National University this fall during bombing are published: https://www.math.uci.edu/~rvershyn/teaching/hdp/hdp.html
👍5🔥5❤1
Forwarded from AbstractDL
GPT тайно файнтюнит себя через attention во время инференса (by Microsoft)
Авторы немного поколдовали над формулами этэншна и смогли свести их к SGD — оказалось, что трансформеры сами осуществляют внутри себя градиентный спуск и используют механизм внимания в качестве неявного оптимизатора!
Теперь понятно, почему few-shot learning так круто работает, ведь модели полноценно учат себя пока смотрят на контекст. К тому же эксперименты показали, что активации при файнтюнинге и при few-shot демонстрации примеров обновляются примерно одинаково.
А раз attention ≈ SGD, то почему бы не попробовать добавить в него momentum? И это действительно помогло! Модель стала обучаться быстрее, тестовая перплексия получилась ниже, а few-shot заработал ещё лучше.
Статья
Авторы немного поколдовали над формулами этэншна и смогли свести их к SGD — оказалось, что трансформеры сами осуществляют внутри себя градиентный спуск и используют механизм внимания в качестве неявного оптимизатора!
Теперь понятно, почему few-shot learning так круто работает, ведь модели полноценно учат себя пока смотрят на контекст. К тому же эксперименты показали, что активации при файнтюнинге и при few-shot демонстрации примеров обновляются примерно одинаково.
А раз attention ≈ SGD, то почему бы не попробовать добавить в него momentum? И это действительно помогло! Модель стала обучаться быстрее, тестовая перплексия получилась ниже, а few-shot заработал ещё лучше.
Статья
🤯87🔥15👍9
Applyingml - забавный сайт с практическими советами как применять ML в реальной жизни.
Зашло The first rule of machine learning: Start without machine learning
Интересно как GPT-3/4 все это поменяют, но пока что советы выглядят полезными.
https://applyingml.com
Зашло The first rule of machine learning: Start without machine learning
Интересно как GPT-3/4 все это поменяют, но пока что советы выглядят полезными.
https://applyingml.com
Applyingml
ApplyingML - Papers, Guides, and Interviews with ML practitioners
Curated papers and blogs, ghost knowledge, and interviews with experienced ML practitioners on how to apply machine learning in industry.
👍21🔥8
Как вы наверное заметили, вести канал последний месяц получалось не очень и одна из причин - накопвшийся бэклог из-за которого ты откладываешь написание поста, что приводит к увеличению бэклога ну и так далее.
Поэтому вот все ссылки, неосвелненные нефильтрованные (часть 1):
1. twitter.com/KirkDBorne/status/1607761216847622145
1. youtu.be/KV5gbOmHbjU
1. github.com/gdb/pyseidon
1. www.nytimes.com/interactive/2022/12/26/magazine/yejin-choi-interview.html
1. twitter.com/karpathy/status/1607791537978748929
1. twitter.com/DrJimFan/status/1600884409355227137
1. twitter.com/emollick/status/1607589896222576640
Поэтому вот все ссылки, неосвелненные нефильтрованные (часть 1):
1. twitter.com/KirkDBorne/status/1607761216847622145
1. youtu.be/KV5gbOmHbjU
1. github.com/gdb/pyseidon
1. www.nytimes.com/interactive/2022/12/26/magazine/yejin-choi-interview.html
1. twitter.com/karpathy/status/1607791537978748929
1. twitter.com/DrJimFan/status/1600884409355227137
1. twitter.com/emollick/status/1607589896222576640
🔥8🎉1🙈1
Рандомные интересные ссылки (часть 2):
1. Evaluating Large Language Models (LLMs) with Eleuther AI
1. twitter.com/soleio/status/1607106379357249536
1. BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting
1. Do DALL-E and Flamingo Understand Each Other?
1. Write your next scientific paper with the writing backwards technique
1. Лучшие статьи 2022
1. twitter.com/Jeande_d/status/1606383104418926593
1. t.iss.one/airi_research_institute/174
1. twitter.com/_akhaliq/status/1605774104384135168
1. Evaluating Large Language Models (LLMs) with Eleuther AI
1. twitter.com/soleio/status/1607106379357249536
1. BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting
1. Do DALL-E and Flamingo Understand Each Other?
1. Write your next scientific paper with the writing backwards technique
1. Лучшие статьи 2022
1. twitter.com/Jeande_d/status/1606383104418926593
1. t.iss.one/airi_research_institute/174
1. twitter.com/_akhaliq/status/1605774104384135168
❤11
Forwarded from Vic
Вот еще хорошая статья LAMBADA: Backward Chaining for Automated Reasoning in Natural
Language
https://arxiv.org/pdf/2212.13894.pdf
Тред в Твиттере https://twitter.com/martin_gorner/status/1608450724433907714?cn=ZmxleGlibGVfcmVjcw%3D%3D&refsrc=email
Похоже, что описывается хороший подход к логическому выводу, и в статье говорят, что метод дает намного лучше и более глубокий проход при проверке сгенерированного доказательства - чем CoT - то есть цепочка, которую промтами можно собрать.
This paper is, in part, a traditional algorithm, a "depth-first search algorithm over the facts and the rules", starting from the desired conclusion and trying to logically reach the premises (facts and rules).
Authors compare this approach toChain Of Thought Reasoning and show impressive results, especially once you check the validity of the generated proof.
Language
https://arxiv.org/pdf/2212.13894.pdf
Тред в Твиттере https://twitter.com/martin_gorner/status/1608450724433907714?cn=ZmxleGlibGVfcmVjcw%3D%3D&refsrc=email
Похоже, что описывается хороший подход к логическому выводу, и в статье говорят, что метод дает намного лучше и более глубокий проход при проверке сгенерированного доказательства - чем CoT - то есть цепочка, которую промтами можно собрать.
This paper is, in part, a traditional algorithm, a "depth-first search algorithm over the facts and the rules", starting from the desired conclusion and trying to logically reach the premises (facts and rules).
Authors compare this approach toChain Of Thought Reasoning and show impressive results, especially once you check the validity of the generated proof.
X (formerly Twitter)
Martin Görner on X
Large Language Models are getting good at formal logic:
https://t.co/UHWqM2B7QG LAMBADA: Backward Chaining for Automated Reasoning.
https://t.co/UHWqM2B7QG LAMBADA: Backward Chaining for Automated Reasoning.
👍4
Рандомные интересные ссылки (часть 3):
1. What Building "Copilot for X" Really Takes
1. 🤗 tutorial notebooks for semantic segmentation
1. FiDO: Fusion-in-Decoder optimized for stronger performance and faster inference
1. Prompt Engineering Guide
1. twitter.com/gabriel_ilharco/status/1603415656699162624
1. Любимые твиты Андрея Карпати 😂
1. twitter.com/richardmcngo/status/1603862969276051457
1. twitter.com/richardmcngo/status/1603862969276051457
1. What Building "Copilot for X" Really Takes
1. 🤗 tutorial notebooks for semantic segmentation
1. FiDO: Fusion-in-Decoder optimized for stronger performance and faster inference
1. Prompt Engineering Guide
1. twitter.com/gabriel_ilharco/status/1603415656699162624
1. Любимые твиты Андрея Карпати 😂
1. twitter.com/richardmcngo/status/1603862969276051457
1. twitter.com/richardmcngo/status/1603862969276051457
❤12👍3👎1
Если ИТ – это ваш конек, то Тинькофф ждет вас 23 января на катке
Ледовый ИТ-квест, нетворкинг, дискуссии со спикерами в теплом шатре и многое другое. Вечер точно будет насыщенным и приятным. За коньки не беспокойтесь — их выдадут бесплатно.
Не медлите, регистрируйтесь сами и зовите коллег — будет весело!
Ледовый ИТ-квест, нетворкинг, дискуссии со спикерами в теплом шатре и многое другое. Вечер точно будет насыщенным и приятным. За коньки не беспокойтесь — их выдадут бесплатно.
Не медлите, регистрируйтесь сами и зовите коллег — будет весело!
💩44👍13👎7🤡4🥰1
Forwarded from Rebryk Blog
🤯 Cmd J - ChatGPT shortcut for Chrome
Последнее время я каждый день по много раз использую ChatGPT. В основном, чтобы она исправила мой кривой английский или задую ей глупые вопросы 😆
Но мне надоело постоянно копировать текст из текущей вкладки, переключаться на ChatGPT, вставлять текст, дописывать промпт, получать ответ и копировать его обратно. Хочется же проще это делать!
Поэтому мы с ребятами собрали Cmd J - командная панель, через которую можно дергать ChatGPT на любом сайте. Выделяешь текст, затем ⌘J, выбираешь быстро команду или пишешь свой промпт, а затем жмякаешь ентер, чтобы вставить результат обратно. Красота!
Пока правда вставка работает далеко не на всех сайтах. Кто бы мог подумать, что это оказывается сложная задача!
Пока расширение находится в сторе на ревью, вы можете его установить себе из архивчика. Смотрите первый коммент под постом.
Если приложение будет падать или работать через раз, то это норма, хах. Жалобы и фидбек кидайте мне в личку @rebryk
А если у вас есть на уме очень классные промты, которые вы сами гоняете каждый день, то их тоже присылайте. Самые классные добавим в релиз!
Ну как вам?
Последнее время я каждый день по много раз использую ChatGPT. В основном, чтобы она исправила мой кривой английский или задую ей глупые вопросы 😆
Но мне надоело постоянно копировать текст из текущей вкладки, переключаться на ChatGPT, вставлять текст, дописывать промпт, получать ответ и копировать его обратно. Хочется же проще это делать!
Поэтому мы с ребятами собрали Cmd J - командная панель, через которую можно дергать ChatGPT на любом сайте. Выделяешь текст, затем ⌘J, выбираешь быстро команду или пишешь свой промпт, а затем жмякаешь ентер, чтобы вставить результат обратно. Красота!
Пока правда вставка работает далеко не на всех сайтах. Кто бы мог подумать, что это оказывается сложная задача!
Пока расширение находится в сторе на ревью, вы можете его установить себе из архивчика. Смотрите первый коммент под постом.
Если приложение будет падать или работать через раз, то это норма, хах. Жалобы и фидбек кидайте мне в личку @rebryk
А если у вас есть на уме очень классные промты, которые вы сами гоняете каждый день, то их тоже присылайте. Самые классные добавим в релиз!
Ну как вам?
🔥36👍5🤯2⚡1🙈1
Мини-подборка лекций по большим языковым моделям
1. Stanford cs224n lecture: Scaling Language Models
1. Full stack DL: Foundation Models
1. Пожалуй ещё более крутая ссылка от подписчика на целый курс по LM
1. Stanford cs224n lecture: Scaling Language Models
1. Full stack DL: Foundation Models
1. Пожалуй ещё более крутая ссылка от подписчика на целый курс по LM
YouTube
Stanford CS224N NLP with Deep Learning | Spring 2022 | Guest Lecture: Scaling Language Models
For more information about Stanford's Artificial Intelligence professional and graduate programs visit: https://stanford.io/3w46jar
To learn more about this course visit: https://online.stanford.edu/courses/cs224n-natural-language-processing-deep-learning…
To learn more about this course visit: https://online.stanford.edu/courses/cs224n-natural-language-processing-deep-learning…
👍25🔥2
Deep Learning был одним из немногих источников хороших новостей в 2022 году, поэтому хотелось составить список статей которые запомнились и сильно на меня повлияли (лучше поздно чем никогда):
1. Latent Diffusion — он же Stable Diffusion, который сделал text2image доступным для обычных людей
1. OPT: Open Pre-trained Transformer — неожиданный и очень приятный релиз целой линейки 0.1B-175B языковых моделей от фейсбука (пост)
1. 🌸 BLOOM — результат работы BigScience, показавший, что DL сообщество может коллабораровать at scale (пост)
1. 8-bit Matrix Multiplication for Transformers at Scale — квантизованные трансформеры которые позволяют впихать невпихуемое и комфортно рабоать с 15B моделями на одной 3090. Абсолютный game changer для меня и для всей индустрии.
1. 🦩 Flamingo — статья которая показала что склеивать замороженые предтренированные модели это хорошо, а также дала рецепт к огромным мультимодальным датасетам через использование структуры HTML.
1. LAION-5B — image-text датасет примерно бесконечного размера. Думаю мы увидим много интересных статей на его основе в 2023.
Демократизация больших моделей была сильным трендом, мы получили не одну а две 175B+ оперсонсных модели. И с помощью int8 обычные рисёчеры даже могут инферить их на одной машине с ~8GPU. Или даже не своей картошке с помощью petals.
Добавим в список ещё пару менее попсовых статей:
1. Training a Helpful and Harmless Assistant with RLHF — предвесник ChatGPT от Anthropic который остался незаслуженно незамеченым
1. Simple Local Attentions Remain Competitive for Long-Context Tasks — мы либо всё ещё не придумали хороший long attention, либо ничего лучше local window + a few global tokens и не надо (пост)
Кроме этого я был приятно удивлён Neural Networks: Zero to Hero от Andrej Karpathy, очень рекомендую.
И воспользуясь случаем сделаю shameless plug моих статей, вдруг кому будет интересно:
1. Large scale probing of pre-trained langauge models
1. Learning to Ask Like a Physician
1. Pseudolabeling for video captioning pre-training works better than existing video-text datasets
1. Latent Diffusion — он же Stable Diffusion, который сделал text2image доступным для обычных людей
1. OPT: Open Pre-trained Transformer — неожиданный и очень приятный релиз целой линейки 0.1B-175B языковых моделей от фейсбука (пост)
1. 🌸 BLOOM — результат работы BigScience, показавший, что DL сообщество может коллабораровать at scale (пост)
1. 8-bit Matrix Multiplication for Transformers at Scale — квантизованные трансформеры которые позволяют впихать невпихуемое и комфортно рабоать с 15B моделями на одной 3090. Абсолютный game changer для меня и для всей индустрии.
1. 🦩 Flamingo — статья которая показала что склеивать замороженые предтренированные модели это хорошо, а также дала рецепт к огромным мультимодальным датасетам через использование структуры HTML.
1. LAION-5B — image-text датасет примерно бесконечного размера. Думаю мы увидим много интересных статей на его основе в 2023.
Демократизация больших моделей была сильным трендом, мы получили не одну а две 175B+ оперсонсных модели. И с помощью int8 обычные рисёчеры даже могут инферить их на одной машине с ~8GPU. Или даже не своей картошке с помощью petals.
Добавим в список ещё пару менее попсовых статей:
1. Training a Helpful and Harmless Assistant with RLHF — предвесник ChatGPT от Anthropic который остался незаслуженно незамеченым
1. Simple Local Attentions Remain Competitive for Long-Context Tasks — мы либо всё ещё не придумали хороший long attention, либо ничего лучше local window + a few global tokens и не надо (пост)
Кроме этого я был приятно удивлён Neural Networks: Zero to Hero от Andrej Karpathy, очень рекомендую.
И воспользуясь случаем сделаю shameless plug моих статей, вдруг кому будет интересно:
1. Large scale probing of pre-trained langauge models
1. Learning to Ask Like a Physician
1. Pseudolabeling for video captioning pre-training works better than existing video-text datasets
arXiv.org
OPT: Open Pre-trained Transformer Language Models
Large language models, which are often trained for hundreds of thousands of compute days, have shown remarkable capabilities for zero- and few-shot learning. Given their computational cost, these...
👍42🔥10❤6
Prompt Engineering 101
Хороший пост о том как формулировать промты для языковых моделей. Если кратко:
1. Include direct instructions in prompts
1. Give examples in prompts to get the best response
1. Align prompt instructions with the task’s end goal
1. Use personas to get more specific voices
1. Include acceptable responses in prompts for consistency
1. Try different prompts to find what works best
Я бы ещё добавил что для больших моделей важно писать промты естественным языком. Например не надо делать example 1: <пример> example 2: <пример>. Но главное всё-таки иметь какой-то тестовый сет (не из двух примеров, а хотя бы из нескольких десятков) и экспериментировать на нём.
Хороший пост о том как формулировать промты для языковых моделей. Если кратко:
1. Include direct instructions in prompts
1. Give examples in prompts to get the best response
1. Align prompt instructions with the task’s end goal
1. Use personas to get more specific voices
1. Include acceptable responses in prompts for consistency
1. Try different prompts to find what works best
Я бы ещё добавил что для больших моделей важно писать промты естественным языком. Например не надо делать example 1: <пример> example 2: <пример>. Но главное всё-таки иметь какой-то тестовый сет (не из двух примеров, а хотя бы из нескольких десятков) и экспериментировать на нём.
Humanloop – the platform for Large Language Model applications
Prompt Engineering 101
In this post, we'll explore the fundamentals of prompt engineering. We'll explain how Large Language Models (LLMs) interpret prompts to generate outputs, and provide tips and tricks to get you started prototyping and implementing LLMs quickly.
👍20👎1😁1
How Nvidia’s CUDA Monopoly In Machine Learning Is Breaking - OpenAI Triton And PyTorch 2.0
www.semianalysis.com/p/nvidiaopenaitritonpytorch
Сейчас NVIDIA GPUs повсюду в DL и для новых игроков на рынке железа довольно трудно соперничать с ними потому что чтобы поддерживать например pytorch им нужно писать низкоуровневый код для поддержки 2000+ операторов пайторча. PyTorch 2.0 меняет это и уменьшает число базовых операторов в 10 раз, плюс начинает более нативно поддерживать статические графы. Triton, PrimTorch и TorchDynamo этому помогают. В особенности Triton, который является альтертанивой CUDA от OpenAI на котором можно писать более универсальный код. Это поможет как AMD, так и новым стартапам вроде Cerebras или Graphcore.
Чем вообще стартапы могут нас удивить? В статье хорошо описан подход Cerebras и SRAM vs DRAM. Оч советую пробежаться по ней, надеюсь скоро в мире AI-железа будет интересно.
www.semianalysis.com/p/nvidiaopenaitritonpytorch
Сейчас NVIDIA GPUs повсюду в DL и для новых игроков на рынке железа довольно трудно соперничать с ними потому что чтобы поддерживать например pytorch им нужно писать низкоуровневый код для поддержки 2000+ операторов пайторча. PyTorch 2.0 меняет это и уменьшает число базовых операторов в 10 раз, плюс начинает более нативно поддерживать статические графы. Triton, PrimTorch и TorchDynamo этому помогают. В особенности Triton, который является альтертанивой CUDA от OpenAI на котором можно писать более универсальный код. Это поможет как AMD, так и новым стартапам вроде Cerebras или Graphcore.
Чем вообще стартапы могут нас удивить? В статье хорошо описан подход Cerebras и SRAM vs DRAM. Оч советую пробежаться по ней, надеюсь скоро в мире AI-железа будет интересно.
SemiAnalysis
How Nvidia’s CUDA Monopoly In Machine Learning Is Breaking – OpenAI Triton And PyTorch 2.0
Over the last decade, the landscape of machine learning software development has undergone significant changes. Many frameworks have come and gone, but most have relied heavily on leveraging Nvidia…
👍30🔥8❤3
Новая странная IDE, которая будет эдитить за вас код. Интересно посмотреть насколько взлетит (и сколько будет стоить)
twitter.com/amanrsanger/status/1615539968772050946
А ещё мне одному кажется что все новые (2022+) IDE похожи на Atom?
twitter.com/amanrsanger/status/1615539968772050946
А ещё мне одному кажется что все новые (2022+) IDE похожи на Atom?
😁10
В прошлом году общался с Albert Webson (автор Т0) и он рассказывал про свою статью где они показали что языковые модели могут решать задачи ULU (SuperGLUE?) даже если промт нерелевантен или misleading.
Теперь вышла новая статья от их группы в Brown university, где показывают что люди в общем ведут себя похоже.
И вообще интересно что мы стали сравнивать модели с людьми уже не в качестве бенчмарка, а именно чтобы узнать насколько мы похожи 🤔
Теперь вышла новая статья от их группы в Brown university, где показывают что люди в общем ведут себя похоже.
И вообще интересно что мы стали сравнивать модели с людьми уже не в качестве бенчмарка, а именно чтобы узнать насколько мы похожи 🤔
🤔26👍4
Deep Papers Episode 1 - InstructGPT: Aligning Language Models to Human Intention
youtu.be/RkFS6-GwCxE
Первый выпуск подкаста от AI Pub и сразу огонище. Двое рисёчкров из OpenAI рассказывают о ChatGPT, RLHF и как правильно алайнить модель к людям в long- и short-term (оказывается это разные задачи!)
Надеюсь что будет больше пары выпусков, чтобы не было как с подкастом Карпатого.
youtu.be/RkFS6-GwCxE
Первый выпуск подкаста от AI Pub и сразу огонище. Двое рисёчкров из OpenAI рассказывают о ChatGPT, RLHF и как правильно алайнить модель к людям в long- и short-term (оказывается это разные задачи!)
Надеюсь что будет больше пары выпусков, чтобы не было как с подкастом Карпатого.
YouTube
Deep Papers Episode 1 - ChatGPT and InstructGPT: Aligning Language Models to Human Intention
Deep Papers is a podcast series featuring deep dives on today’s seminal AI papers and research. Hosted by ai__pub creator Brian Burns and Arize AI founders Jason Lopatecki and Aparna Dhinakaran, each episode profiles the people and techniques behind cutting…
🔥14👎1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
ChatGPT Pro - 42 бакса в месяц.
Basic - still free.
Хорошая новость в том, что сама ИИ-модель для обоих планов одинакова, поэтому пользователям не придется жертвовать качеством ради доступности. Однако профессиональный план предлагает некоторые дополнительные преимущества.
Во-первых, она будет доступна даже при высокой загрузке, гарантируя, что про-пользователи всегда смогут получить доступ к модели, пока остальные клянут зависающий ИИ. Кроме того, скорость отклика будет выше.
Ну и на сладкое - приоритетный доступ к новым функциям будет предоставлен пользователям профессионального плана.
Думаю, что для тех кто юзает chatGPT для бизнеса - это не деньги.
https://medium.com/@EleneeChek/chatgpt-professional-plan-available-for-42-usd-6554292aa486
Basic - still free.
Хорошая новость в том, что сама ИИ-модель для обоих планов одинакова, поэтому пользователям не придется жертвовать качеством ради доступности. Однако профессиональный план предлагает некоторые дополнительные преимущества.
Во-первых, она будет доступна даже при высокой загрузке, гарантируя, что про-пользователи всегда смогут получить доступ к модели, пока остальные клянут зависающий ИИ. Кроме того, скорость отклика будет выше.
Ну и на сладкое - приоритетный доступ к новым функциям будет предоставлен пользователям профессионального плана.
Думаю, что для тех кто юзает chatGPT для бизнеса - это не деньги.
https://medium.com/@EleneeChek/chatgpt-professional-plan-available-for-42-usd-6554292aa486
👍11
Some high-quality shitposting
twitter.com/yoavgo/status/1616778408171642880?s=46&t=7mttmprOnIdRppxQnoCYUQ
twitter.com/yoavgo/status/1616778408171642880?s=46&t=7mttmprOnIdRppxQnoCYUQ
🔥12😁8