Forwarded from AI Для Всех
Профессия будущего - заклинатель языковых моделей
Языковой интерфейс для систем искусственного интеллекта создаст мир, в котором существуют волшебники. Ценность любого волшебника будет связана с его способностью плести из слов заклинания. Волшебники смогут использовать свои слова, для того что бы воплощать любые идеи в жизнь.
Ссылка
Языковой интерфейс для систем искусственного интеллекта создаст мир, в котором существуют волшебники. Ценность любого волшебника будет связана с его способностью плести из слов заклинания. Волшебники смогут использовать свои слова, для того что бы воплощать любые идеи в жизнь.
Ссылка
Какие актуальные инструменты нужны для развития в Data Science?
5 декабря в 18:00 пройдет открытый урок онлайн-курса «Machine Learning. Professional» в OTUS. Тема: «Один в поле не воин: методы ансамблирования в машинном обучении».
Кому подходит этот урок:
1. IT-специалистам которые хотят освоить продвинутые методы ML и перейти в Data Science
1. Дата-сайентистам, желающим углубиться в профессию
1. Тем, кто самостоятельно изучает Data Science и уже изучил основы ML
На занятии вы узнаете основные подходы к ансамблированию, которые сегодня используют в ML, изучите устройство наиболее популярных методов ансамблирования (Bagging, Random Forest, Boosting) и примените их на практике.
🟡 Пройдите вступительный тест, чтобы записаться на урок
https://otus.pw/NKQw/
#промо
5 декабря в 18:00 пройдет открытый урок онлайн-курса «Machine Learning. Professional» в OTUS. Тема: «Один в поле не воин: методы ансамблирования в машинном обучении».
Кому подходит этот урок:
1. IT-специалистам которые хотят освоить продвинутые методы ML и перейти в Data Science
1. Дата-сайентистам, желающим углубиться в профессию
1. Тем, кто самостоятельно изучает Data Science и уже изучил основы ML
На занятии вы узнаете основные подходы к ансамблированию, которые сегодня используют в ML, изучите устройство наиболее популярных методов ансамблирования (Bagging, Random Forest, Boosting) и примените их на практике.
https://otus.pw/NKQw/
#промо
Please open Telegram to view this post
VIEW IN TELEGRAM
PyTorch Conference 2022 / PyTorch 2.0
Рядом с NeurIPS (буквально через дорогу) сегодня проходит конференция на которой говорят про происходило с PyTorch и коммьюнити за последний год, и показывают новые фичи PyTorch.
И первая большая новость:
Под капотом torch.compile использует TorchDynamo и работает напрямую с байткодом питона чтобы понять граф вычислений и зафьюзить некоторые операции вместе. На практике это может давать ускорение на 20-80%.
Главное отличие от torch.script/torch.jit которое обещают: torch.compile реально должен работать добавлением одной строчки и уже так работает в 90%+ репозиториев.
Вторая большая новость: PyTorch 2.0
Грядут большие изменения API, которые упростят добавление новых бэкендов. Это позволит добавлять поддержку кастомного хардвера быстрее (graphcore, habana, cerebras). Добавят
2.0 доступен в nightly сегодня. Полностью backward-compatible с PyTorch 1.X (fuck you semantic versioning). Конференция только началась, будет больше новостей о PyTorch, stay tuned.
Рядом с NeurIPS (буквально через дорогу) сегодня проходит конференция на которой говорят про происходило с PyTorch и коммьюнити за последний год, и показывают новые фичи PyTorch.
И первая большая новость:
torch.compile
Под капотом torch.compile использует TorchDynamo и работает напрямую с байткодом питона чтобы понять граф вычислений и зафьюзить некоторые операции вместе. На практике это может давать ускорение на 20-80%.
Главное отличие от torch.script/torch.jit которое обещают: torch.compile реально должен работать добавлением одной строчки и уже так работает в 90%+ репозиториев.
Вторая большая новость: PyTorch 2.0
Грядут большие изменения API, которые упростят добавление новых бэкендов. Это позволит добавлять поддержку кастомного хардвера быстрее (graphcore, habana, cerebras). Добавят
torch.export
, который будет более простой версией trace. Упростят квантизацию и добавят новые фичи в distributed (pipeline parallelism?).2.0 доступен в nightly сегодня. Полностью backward-compatible с PyTorch 1.X (fuck you semantic versioning). Конференция только началась, будет больше новостей о PyTorch, stay tuned.
PyTorch Conference 2022 / Poster Session
1. Generalized shapes: Block sparsity, MaskedTensor, NestedTensor
Sparse потихоньку приходит в DL и в том числе в торч. Block-sparse матрицы будут полезны всяким графам. Masked Tensor удобен для того чтобы не учитывать какие-то переменные в операциях аггрегации e.g., attention masking будет быстрее. NestedTensor позволяет быстрее рассчитывать тексты разных длин в одном батче.
1. xFormers — эффективные attention с cuda/triton кернелами. Есть блочный attention, но гравная фича: FlashAttention. Этот трюк позволяет считать точный attention быстрее и с меньшим потреблением памяти. Работает это так что имплементация учитывает то что все текущие GPU ограничены в скорости памяти а не в скорости вычислений. Вот статья. Вобще библиотеку сильно улучшиили и теперь должно быть проще использовать отдельные блоки, а не просто делать конфиг. Надо будет поиграться.
1. AutoMAD: mixed mode autodiff
for PyTorch models
Позволяет автоматически выбирать backprop/forward differentiation для разных слоёв. Может быть очень полезно в больших моделях или если у вас просто посреди модели огромная матрица вычисляется (бывает).
1. DistributedTensor — новая фича torch (пока в бете), которая делает tensor parallel. Очень полезно для больших моделей. Может работать гораздо быстрее чем model parallel. Кроме этого есть специальная прослойка которая позвоялет эффективно использовать FSDP + tensor parallel.
1. Better Transformer — проектик внутри пайторча который ускоряет nn.Transformer с помощью NestedTensor, FlashAttention итд. Местами ускорение в разы. Надеюсь что 🤗 подхватит.
1. Generalized shapes: Block sparsity, MaskedTensor, NestedTensor
Sparse потихоньку приходит в DL и в том числе в торч. Block-sparse матрицы будут полезны всяким графам. Masked Tensor удобен для того чтобы не учитывать какие-то переменные в операциях аггрегации e.g., attention masking будет быстрее. NestedTensor позволяет быстрее рассчитывать тексты разных длин в одном батче.
1. xFormers — эффективные attention с cuda/triton кернелами. Есть блочный attention, но гравная фича: FlashAttention. Этот трюк позволяет считать точный attention быстрее и с меньшим потреблением памяти. Работает это так что имплементация учитывает то что все текущие GPU ограничены в скорости памяти а не в скорости вычислений. Вот статья. Вобще библиотеку сильно улучшиили и теперь должно быть проще использовать отдельные блоки, а не просто делать конфиг. Надо будет поиграться.
1. AutoMAD: mixed mode autodiff
for PyTorch models
Позволяет автоматически выбирать backprop/forward differentiation для разных слоёв. Может быть очень полезно в больших моделях или если у вас просто посреди модели огромная матрица вычисляется (бывает).
1. DistributedTensor — новая фича torch (пока в бете), которая делает tensor parallel. Очень полезно для больших моделей. Может работать гораздо быстрее чем model parallel. Кроме этого есть специальная прослойка которая позвоялет эффективно использовать FSDP + tensor parallel.
1. Better Transformer — проектик внутри пайторча который ускоряет nn.Transformer с помощью NestedTensor, FlashAttention итд. Местами ускорение в разы. Надеюсь что 🤗 подхватит.
Forwarded from Некстджен и Усиление+ (Yuri Krupenin)
Добро пожаловать на вечернюю службу церкви свидетелей технологической сингулярности: сегодня выясняется, что если ChatGPT очень попросить, то она может прикинуться Linux-компьютером (если попросить отдельно — с видеокартой Nvidia и корректно отрабатывающей nvidia-smi), правильно выполнять консольные команды (с запоминанием состояния окружения: из "файлов" "читается" то, что вы в них "записали") и даже несложные скрипты на Python.
Отдельное веселье начинается, если попросить модель выполнить с помощью "cURL" "реквесты" к "веб-сервисам" или "открыть" "сайт" с помощью "Lynx" (модель, конечно, по заветам Бострома/Уоттса изолирована от всего внешнего интернета и никаких сетевых запросов никуда не отправляет).
Хорошо, у нас закончился лимит кавычек на день, на прощание отметим только, что комментарии представляют не меньший интерес, чем сам пост.
https://www.engraved.blog/building-a-virtual-machine-inside/
Отдельное веселье начинается, если попросить модель выполнить с помощью "cURL" "реквесты" к "веб-сервисам" или "открыть" "сайт" с помощью "Lynx" (модель, конечно, по заветам Бострома/Уоттса изолирована от всего внешнего интернета и никаких сетевых запросов никуда не отправляет).
Хорошо, у нас закончился лимит кавычек на день, на прощание отметим только, что комментарии представляют не меньший интерес, чем сам пост.
https://www.engraved.blog/building-a-virtual-machine-inside/
Engraved
Building A Virtual Machine inside ChatGPT
Unless you have been living under a rock, you have heard of this new ChatGPT assistant made by OpenAI. Did you know, that you can run a whole virtual machine inside of ChatGPT?
High-dimensional probability это совершенно топовый курс, который даёт вам кучу тулзов и методов которые активно используются в современной теории диплернинга. В 2018 я проходил курс по этой книге на физтехе и это был самый хардкорный и самый полезный курс за всю магистратуру. Очень советую если вы любите/умеете в матан и хотите начать понимать теорию того почему этот ваш машинлернинг работает.
Forwarded from gonzo-обзоры ML статей
Not a paper, but a very cool stuff!
Roman Vershynin, professor of mathematics at the University of California, Irvine, and the author of the well-known book "High dimensional probability. An introduction with applications in Data Science" has just published materials from his course on the same topic!
The book itself is freely available in internet (https://www.math.uci.edu/~rvershyn/papers/HDP-book/HDP-book.pdf), yet I myself has two hard copies of it :)
Now the videos and lecture notes from the course that was run remotely at Kyiv National University this fall during bombing are published: https://www.math.uci.edu/~rvershyn/teaching/hdp/hdp.html
Roman Vershynin, professor of mathematics at the University of California, Irvine, and the author of the well-known book "High dimensional probability. An introduction with applications in Data Science" has just published materials from his course on the same topic!
The book itself is freely available in internet (https://www.math.uci.edu/~rvershyn/papers/HDP-book/HDP-book.pdf), yet I myself has two hard copies of it :)
Now the videos and lecture notes from the course that was run remotely at Kyiv National University this fall during bombing are published: https://www.math.uci.edu/~rvershyn/teaching/hdp/hdp.html
Forwarded from AbstractDL
GPT тайно файнтюнит себя через attention во время инференса (by Microsoft)
Авторы немного поколдовали над формулами этэншна и смогли свести их к SGD — оказалось, что трансформеры сами осуществляют внутри себя градиентный спуск и используют механизм внимания в качестве неявного оптимизатора!
Теперь понятно, почему few-shot learning так круто работает, ведь модели полноценно учат себя пока смотрят на контекст. К тому же эксперименты показали, что активации при файнтюнинге и при few-shot демонстрации примеров обновляются примерно одинаково.
А раз attention ≈ SGD, то почему бы не попробовать добавить в него momentum? И это действительно помогло! Модель стала обучаться быстрее, тестовая перплексия получилась ниже, а few-shot заработал ещё лучше.
Статья
Авторы немного поколдовали над формулами этэншна и смогли свести их к SGD — оказалось, что трансформеры сами осуществляют внутри себя градиентный спуск и используют механизм внимания в качестве неявного оптимизатора!
Теперь понятно, почему few-shot learning так круто работает, ведь модели полноценно учат себя пока смотрят на контекст. К тому же эксперименты показали, что активации при файнтюнинге и при few-shot демонстрации примеров обновляются примерно одинаково.
А раз attention ≈ SGD, то почему бы не попробовать добавить в него momentum? И это действительно помогло! Модель стала обучаться быстрее, тестовая перплексия получилась ниже, а few-shot заработал ещё лучше.
Статья
Applyingml - забавный сайт с практическими советами как применять ML в реальной жизни.
Зашло The first rule of machine learning: Start without machine learning
Интересно как GPT-3/4 все это поменяют, но пока что советы выглядят полезными.
https://applyingml.com
Зашло The first rule of machine learning: Start without machine learning
Интересно как GPT-3/4 все это поменяют, но пока что советы выглядят полезными.
https://applyingml.com
Applyingml
ApplyingML - Papers, Guides, and Interviews with ML practitioners
Curated papers and blogs, ghost knowledge, and interviews with experienced ML practitioners on how to apply machine learning in industry.
Как вы наверное заметили, вести канал последний месяц получалось не очень и одна из причин - накопвшийся бэклог из-за которого ты откладываешь написание поста, что приводит к увеличению бэклога ну и так далее.
Поэтому вот все ссылки, неосвелненные нефильтрованные (часть 1):
1. twitter.com/KirkDBorne/status/1607761216847622145
1. youtu.be/KV5gbOmHbjU
1. github.com/gdb/pyseidon
1. www.nytimes.com/interactive/2022/12/26/magazine/yejin-choi-interview.html
1. twitter.com/karpathy/status/1607791537978748929
1. twitter.com/DrJimFan/status/1600884409355227137
1. twitter.com/emollick/status/1607589896222576640
Поэтому вот все ссылки, неосвелненные нефильтрованные (часть 1):
1. twitter.com/KirkDBorne/status/1607761216847622145
1. youtu.be/KV5gbOmHbjU
1. github.com/gdb/pyseidon
1. www.nytimes.com/interactive/2022/12/26/magazine/yejin-choi-interview.html
1. twitter.com/karpathy/status/1607791537978748929
1. twitter.com/DrJimFan/status/1600884409355227137
1. twitter.com/emollick/status/1607589896222576640
Рандомные интересные ссылки (часть 2):
1. Evaluating Large Language Models (LLMs) with Eleuther AI
1. twitter.com/soleio/status/1607106379357249536
1. BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting
1. Do DALL-E and Flamingo Understand Each Other?
1. Write your next scientific paper with the writing backwards technique
1. Лучшие статьи 2022
1. twitter.com/Jeande_d/status/1606383104418926593
1. t.iss.one/airi_research_institute/174
1. twitter.com/_akhaliq/status/1605774104384135168
1. Evaluating Large Language Models (LLMs) with Eleuther AI
1. twitter.com/soleio/status/1607106379357249536
1. BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting
1. Do DALL-E and Flamingo Understand Each Other?
1. Write your next scientific paper with the writing backwards technique
1. Лучшие статьи 2022
1. twitter.com/Jeande_d/status/1606383104418926593
1. t.iss.one/airi_research_institute/174
1. twitter.com/_akhaliq/status/1605774104384135168
Forwarded from Vic
Вот еще хорошая статья LAMBADA: Backward Chaining for Automated Reasoning in Natural
Language
https://arxiv.org/pdf/2212.13894.pdf
Тред в Твиттере https://twitter.com/martin_gorner/status/1608450724433907714?cn=ZmxleGlibGVfcmVjcw%3D%3D&refsrc=email
Похоже, что описывается хороший подход к логическому выводу, и в статье говорят, что метод дает намного лучше и более глубокий проход при проверке сгенерированного доказательства - чем CoT - то есть цепочка, которую промтами можно собрать.
This paper is, in part, a traditional algorithm, a "depth-first search algorithm over the facts and the rules", starting from the desired conclusion and trying to logically reach the premises (facts and rules).
Authors compare this approach toChain Of Thought Reasoning and show impressive results, especially once you check the validity of the generated proof.
Language
https://arxiv.org/pdf/2212.13894.pdf
Тред в Твиттере https://twitter.com/martin_gorner/status/1608450724433907714?cn=ZmxleGlibGVfcmVjcw%3D%3D&refsrc=email
Похоже, что описывается хороший подход к логическому выводу, и в статье говорят, что метод дает намного лучше и более глубокий проход при проверке сгенерированного доказательства - чем CoT - то есть цепочка, которую промтами можно собрать.
This paper is, in part, a traditional algorithm, a "depth-first search algorithm over the facts and the rules", starting from the desired conclusion and trying to logically reach the premises (facts and rules).
Authors compare this approach toChain Of Thought Reasoning and show impressive results, especially once you check the validity of the generated proof.
X (formerly Twitter)
Martin Görner on X
Large Language Models are getting good at formal logic:
https://t.co/UHWqM2B7QG LAMBADA: Backward Chaining for Automated Reasoning.
https://t.co/UHWqM2B7QG LAMBADA: Backward Chaining for Automated Reasoning.
Рандомные интересные ссылки (часть 3):
1. What Building "Copilot for X" Really Takes
1. 🤗 tutorial notebooks for semantic segmentation
1. FiDO: Fusion-in-Decoder optimized for stronger performance and faster inference
1. Prompt Engineering Guide
1. twitter.com/gabriel_ilharco/status/1603415656699162624
1. Любимые твиты Андрея Карпати 😂
1. twitter.com/richardmcngo/status/1603862969276051457
1. twitter.com/richardmcngo/status/1603862969276051457
1. What Building "Copilot for X" Really Takes
1. 🤗 tutorial notebooks for semantic segmentation
1. FiDO: Fusion-in-Decoder optimized for stronger performance and faster inference
1. Prompt Engineering Guide
1. twitter.com/gabriel_ilharco/status/1603415656699162624
1. Любимые твиты Андрея Карпати 😂
1. twitter.com/richardmcngo/status/1603862969276051457
1. twitter.com/richardmcngo/status/1603862969276051457
Если ИТ – это ваш конек, то Тинькофф ждет вас 23 января на катке
Ледовый ИТ-квест, нетворкинг, дискуссии со спикерами в теплом шатре и многое другое. Вечер точно будет насыщенным и приятным. За коньки не беспокойтесь — их выдадут бесплатно.
Не медлите, регистрируйтесь сами и зовите коллег — будет весело!
Ледовый ИТ-квест, нетворкинг, дискуссии со спикерами в теплом шатре и многое другое. Вечер точно будет насыщенным и приятным. За коньки не беспокойтесь — их выдадут бесплатно.
Не медлите, регистрируйтесь сами и зовите коллег — будет весело!
Forwarded from Rebryk Blog
🤯 Cmd J - ChatGPT shortcut for Chrome
Последнее время я каждый день по много раз использую ChatGPT. В основном, чтобы она исправила мой кривой английский или задую ей глупые вопросы 😆
Но мне надоело постоянно копировать текст из текущей вкладки, переключаться на ChatGPT, вставлять текст, дописывать промпт, получать ответ и копировать его обратно. Хочется же проще это делать!
Поэтому мы с ребятами собрали Cmd J - командная панель, через которую можно дергать ChatGPT на любом сайте. Выделяешь текст, затем ⌘J, выбираешь быстро команду или пишешь свой промпт, а затем жмякаешь ентер, чтобы вставить результат обратно. Красота!
Пока правда вставка работает далеко не на всех сайтах. Кто бы мог подумать, что это оказывается сложная задача!
Пока расширение находится в сторе на ревью, вы можете его установить себе из архивчика. Смотрите первый коммент под постом.
Если приложение будет падать или работать через раз, то это норма, хах. Жалобы и фидбек кидайте мне в личку @rebryk
А если у вас есть на уме очень классные промты, которые вы сами гоняете каждый день, то их тоже присылайте. Самые классные добавим в релиз!
Ну как вам?
Последнее время я каждый день по много раз использую ChatGPT. В основном, чтобы она исправила мой кривой английский или задую ей глупые вопросы 😆
Но мне надоело постоянно копировать текст из текущей вкладки, переключаться на ChatGPT, вставлять текст, дописывать промпт, получать ответ и копировать его обратно. Хочется же проще это делать!
Поэтому мы с ребятами собрали Cmd J - командная панель, через которую можно дергать ChatGPT на любом сайте. Выделяешь текст, затем ⌘J, выбираешь быстро команду или пишешь свой промпт, а затем жмякаешь ентер, чтобы вставить результат обратно. Красота!
Пока правда вставка работает далеко не на всех сайтах. Кто бы мог подумать, что это оказывается сложная задача!
Пока расширение находится в сторе на ревью, вы можете его установить себе из архивчика. Смотрите первый коммент под постом.
Если приложение будет падать или работать через раз, то это норма, хах. Жалобы и фидбек кидайте мне в личку @rebryk
А если у вас есть на уме очень классные промты, которые вы сами гоняете каждый день, то их тоже присылайте. Самые классные добавим в релиз!
Ну как вам?
Мини-подборка лекций по большим языковым моделям
1. Stanford cs224n lecture: Scaling Language Models
1. Full stack DL: Foundation Models
1. Пожалуй ещё более крутая ссылка от подписчика на целый курс по LM
1. Stanford cs224n lecture: Scaling Language Models
1. Full stack DL: Foundation Models
1. Пожалуй ещё более крутая ссылка от подписчика на целый курс по LM
YouTube
Stanford CS224N NLP with Deep Learning | Spring 2022 | Guest Lecture: Scaling Language Models
For more information about Stanford's Artificial Intelligence professional and graduate programs visit: https://stanford.io/3w46jar
To learn more about this course visit: https://online.stanford.edu/courses/cs224n-natural-language-processing-deep-learning…
To learn more about this course visit: https://online.stanford.edu/courses/cs224n-natural-language-processing-deep-learning…