NeurIPS 2022 день 3
Новая пачка постеров!
1. Adversarial reprogramming revisited — оказывается атаковать можно не только натренированные сети, но и случайно инициализированные и заставлять их делать прозвольные задачи
1. STaR — файнтюнить сетки на chain of thought лучше с промптами которые эти нейросетки сами генерят.
1. Solving Schodinger equation with deep learning — если докинуть в нейросети чуть-чуть физики можно решать стационарное уравнение шрёдингера достаточно точно и гораздо быстрее чем классичекими методами
1. Exploit reward shifting — value-based методы могут работать сильно лучше если просто добавить к реворду константу R' = R + C. Добавление позитивной делает метод более осторожным в exploration, негативной — более рискованым.
1. Navigating Wikipedia — RL агента научили эффективно ходить по графу википедии. И для этого даже не нужно делать рассчёты минимального пути в графе — обучения с помощью случайных траекторий хватает чтобы агент научился делать это эффективно.
1. Hyperparameter Optimizers with Transformers — в гугле взяли историю всех их экспериментов с перебором гиперпараметров и научили трансформер предсказывать оптимальные гиперпараметры по датасету и модели.
1. Staircase attention — хитрый аттеншн который позволяет считать себя рекурсивно и на более длинных последовательностях
Новая пачка слухов!
1. В ближашие месяцы в bitsandbytes завезут int4-инференс. То же качество, но ещё в два раза меньше памяти.
1. Туда же добавят файнтюниг квантизованных моделей. Будет работать так: модель в int4, через неё бэкпропаемся в адаптеры в fp16 и их обучаем.
1. Новый пост от Tim Dettmers о хардвере для диплернинга выйдет через несколько недель. Пока что можете перечитать старый
Новая пачка постеров!
1. Adversarial reprogramming revisited — оказывается атаковать можно не только натренированные сети, но и случайно инициализированные и заставлять их делать прозвольные задачи
1. STaR — файнтюнить сетки на chain of thought лучше с промптами которые эти нейросетки сами генерят.
1. Solving Schodinger equation with deep learning — если докинуть в нейросети чуть-чуть физики можно решать стационарное уравнение шрёдингера достаточно точно и гораздо быстрее чем классичекими методами
1. Exploit reward shifting — value-based методы могут работать сильно лучше если просто добавить к реворду константу R' = R + C. Добавление позитивной делает метод более осторожным в exploration, негативной — более рискованым.
1. Navigating Wikipedia — RL агента научили эффективно ходить по графу википедии. И для этого даже не нужно делать рассчёты минимального пути в графе — обучения с помощью случайных траекторий хватает чтобы агент научился делать это эффективно.
1. Hyperparameter Optimizers with Transformers — в гугле взяли историю всех их экспериментов с перебором гиперпараметров и научили трансформер предсказывать оптимальные гиперпараметры по датасету и модели.
1. Staircase attention — хитрый аттеншн который позволяет считать себя рекурсивно и на более длинных последовательностях
Новая пачка слухов!
1. В ближашие месяцы в bitsandbytes завезут int4-инференс. То же качество, но ещё в два раза меньше памяти.
1. Туда же добавят файнтюниг квантизованных моделей. Будет работать так: модель в int4, через неё бэкпропаемся в адаптеры в fp16 и их обучаем.
1. Новый пост от Tim Dettmers о хардвере для диплернинга выйдет через несколько недель. Пока что можете перечитать старый
👍20🔥10❤6
Forwarded from AI для Всех
Профессия будущего - заклинатель языковых моделей
Языковой интерфейс для систем искусственного интеллекта создаст мир, в котором существуют волшебники. Ценность любого волшебника будет связана с его способностью плести из слов заклинания. Волшебники смогут использовать свои слова, для того что бы воплощать любые идеи в жизнь.
Ссылка
Языковой интерфейс для систем искусственного интеллекта создаст мир, в котором существуют волшебники. Ценность любого волшебника будет связана с его способностью плести из слов заклинания. Волшебники смогут использовать свои слова, для того что бы воплощать любые идеи в жизнь.
Ссылка
🥰28😐9🤔3👍1
Какие актуальные инструменты нужны для развития в Data Science?
5 декабря в 18:00 пройдет открытый урок онлайн-курса «Machine Learning. Professional» в OTUS. Тема: «Один в поле не воин: методы ансамблирования в машинном обучении».
Кому подходит этот урок:
1. IT-специалистам которые хотят освоить продвинутые методы ML и перейти в Data Science
1. Дата-сайентистам, желающим углубиться в профессию
1. Тем, кто самостоятельно изучает Data Science и уже изучил основы ML
На занятии вы узнаете основные подходы к ансамблированию, которые сегодня используют в ML, изучите устройство наиболее популярных методов ансамблирования (Bagging, Random Forest, Boosting) и примените их на практике.
🟡 Пройдите вступительный тест, чтобы записаться на урок
https://otus.pw/NKQw/
#промо
5 декабря в 18:00 пройдет открытый урок онлайн-курса «Machine Learning. Professional» в OTUS. Тема: «Один в поле не воин: методы ансамблирования в машинном обучении».
Кому подходит этот урок:
1. IT-специалистам которые хотят освоить продвинутые методы ML и перейти в Data Science
1. Дата-сайентистам, желающим углубиться в профессию
1. Тем, кто самостоятельно изучает Data Science и уже изучил основы ML
На занятии вы узнаете основные подходы к ансамблированию, которые сегодня используют в ML, изучите устройство наиболее популярных методов ансамблирования (Bagging, Random Forest, Boosting) и примените их на практике.
https://otus.pw/NKQw/
#промо
Please open Telegram to view this post
VIEW IN TELEGRAM
👎29🤮10👍5❤3🤡3🔥2😁1
PyTorch Conference 2022 / PyTorch 2.0
Рядом с NeurIPS (буквально через дорогу) сегодня проходит конференция на которой говорят про происходило с PyTorch и коммьюнити за последний год, и показывают новые фичи PyTorch.
И первая большая новость:
Под капотом torch.compile использует TorchDynamo и работает напрямую с байткодом питона чтобы понять граф вычислений и зафьюзить некоторые операции вместе. На практике это может давать ускорение на 20-80%.
Главное отличие от torch.script/torch.jit которое обещают: torch.compile реально должен работать добавлением одной строчки и уже так работает в 90%+ репозиториев.
Вторая большая новость: PyTorch 2.0
Грядут большие изменения API, которые упростят добавление новых бэкендов. Это позволит добавлять поддержку кастомного хардвера быстрее (graphcore, habana, cerebras). Добавят
2.0 доступен в nightly сегодня. Полностью backward-compatible с PyTorch 1.X (fuck you semantic versioning). Конференция только началась, будет больше новостей о PyTorch, stay tuned.
Рядом с NeurIPS (буквально через дорогу) сегодня проходит конференция на которой говорят про происходило с PyTorch и коммьюнити за последний год, и показывают новые фичи PyTorch.
И первая большая новость:
torch.compile
Под капотом torch.compile использует TorchDynamo и работает напрямую с байткодом питона чтобы понять граф вычислений и зафьюзить некоторые операции вместе. На практике это может давать ускорение на 20-80%.
Главное отличие от torch.script/torch.jit которое обещают: torch.compile реально должен работать добавлением одной строчки и уже так работает в 90%+ репозиториев.
Вторая большая новость: PyTorch 2.0
Грядут большие изменения API, которые упростят добавление новых бэкендов. Это позволит добавлять поддержку кастомного хардвера быстрее (graphcore, habana, cerebras). Добавят
torch.export
, который будет более простой версией trace. Упростят квантизацию и добавят новые фичи в distributed (pipeline parallelism?).2.0 доступен в nightly сегодня. Полностью backward-compatible с PyTorch 1.X (fuck you semantic versioning). Конференция только началась, будет больше новостей о PyTorch, stay tuned.
🔥62👍12❤2🏆2
PyTorch Conference 2022 / Poster Session
1. Generalized shapes: Block sparsity, MaskedTensor, NestedTensor
Sparse потихоньку приходит в DL и в том числе в торч. Block-sparse матрицы будут полезны всяким графам. Masked Tensor удобен для того чтобы не учитывать какие-то переменные в операциях аггрегации e.g., attention masking будет быстрее. NestedTensor позволяет быстрее рассчитывать тексты разных длин в одном батче.
1. xFormers — эффективные attention с cuda/triton кернелами. Есть блочный attention, но гравная фича: FlashAttention. Этот трюк позволяет считать точный attention быстрее и с меньшим потреблением памяти. Работает это так что имплементация учитывает то что все текущие GPU ограничены в скорости памяти а не в скорости вычислений. Вот статья. Вобще библиотеку сильно улучшиили и теперь должно быть проще использовать отдельные блоки, а не просто делать конфиг. Надо будет поиграться.
1. AutoMAD: mixed mode autodiff
for PyTorch models
Позволяет автоматически выбирать backprop/forward differentiation для разных слоёв. Может быть очень полезно в больших моделях или если у вас просто посреди модели огромная матрица вычисляется (бывает).
1. DistributedTensor — новая фича torch (пока в бете), которая делает tensor parallel. Очень полезно для больших моделей. Может работать гораздо быстрее чем model parallel. Кроме этого есть специальная прослойка которая позвоялет эффективно использовать FSDP + tensor parallel.
1. Better Transformer — проектик внутри пайторча который ускоряет nn.Transformer с помощью NestedTensor, FlashAttention итд. Местами ускорение в разы. Надеюсь что 🤗 подхватит.
1. Generalized shapes: Block sparsity, MaskedTensor, NestedTensor
Sparse потихоньку приходит в DL и в том числе в торч. Block-sparse матрицы будут полезны всяким графам. Masked Tensor удобен для того чтобы не учитывать какие-то переменные в операциях аггрегации e.g., attention masking будет быстрее. NestedTensor позволяет быстрее рассчитывать тексты разных длин в одном батче.
1. xFormers — эффективные attention с cuda/triton кернелами. Есть блочный attention, но гравная фича: FlashAttention. Этот трюк позволяет считать точный attention быстрее и с меньшим потреблением памяти. Работает это так что имплементация учитывает то что все текущие GPU ограничены в скорости памяти а не в скорости вычислений. Вот статья. Вобще библиотеку сильно улучшиили и теперь должно быть проще использовать отдельные блоки, а не просто делать конфиг. Надо будет поиграться.
1. AutoMAD: mixed mode autodiff
for PyTorch models
Позволяет автоматически выбирать backprop/forward differentiation для разных слоёв. Может быть очень полезно в больших моделях или если у вас просто посреди модели огромная матрица вычисляется (бывает).
1. DistributedTensor — новая фича torch (пока в бете), которая делает tensor parallel. Очень полезно для больших моделей. Может работать гораздо быстрее чем model parallel. Кроме этого есть специальная прослойка которая позвоялет эффективно использовать FSDP + tensor parallel.
1. Better Transformer — проектик внутри пайторча который ускоряет nn.Transformer с помощью NestedTensor, FlashAttention итд. Местами ускорение в разы. Надеюсь что 🤗 подхватит.
❤34👍9
Forwarded from Некстджен и Усиление+ (Yuri Krupenin)
Добро пожаловать на вечернюю службу церкви свидетелей технологической сингулярности: сегодня выясняется, что если ChatGPT очень попросить, то она может прикинуться Linux-компьютером (если попросить отдельно — с видеокартой Nvidia и корректно отрабатывающей nvidia-smi), правильно выполнять консольные команды (с запоминанием состояния окружения: из "файлов" "читается" то, что вы в них "записали") и даже несложные скрипты на Python.
Отдельное веселье начинается, если попросить модель выполнить с помощью "cURL" "реквесты" к "веб-сервисам" или "открыть" "сайт" с помощью "Lynx" (модель, конечно, по заветам Бострома/Уоттса изолирована от всего внешнего интернета и никаких сетевых запросов никуда не отправляет).
Хорошо, у нас закончился лимит кавычек на день, на прощание отметим только, что комментарии представляют не меньший интерес, чем сам пост.
https://www.engraved.blog/building-a-virtual-machine-inside/
Отдельное веселье начинается, если попросить модель выполнить с помощью "cURL" "реквесты" к "веб-сервисам" или "открыть" "сайт" с помощью "Lynx" (модель, конечно, по заветам Бострома/Уоттса изолирована от всего внешнего интернета и никаких сетевых запросов никуда не отправляет).
Хорошо, у нас закончился лимит кавычек на день, на прощание отметим только, что комментарии представляют не меньший интерес, чем сам пост.
https://www.engraved.blog/building-a-virtual-machine-inside/
Engraved
Building A Virtual Machine inside ChatGPT
Unless you have been living under a rock, you have heard of this new ChatGPT assistant made by OpenAI. Did you know, that you can run a whole virtual machine inside of ChatGPT?
👍24❤2
High-dimensional probability это совершенно топовый курс, который даёт вам кучу тулзов и методов которые активно используются в современной теории диплернинга. В 2018 я проходил курс по этой книге на физтехе и это был самый хардкорный и самый полезный курс за всю магистратуру. Очень советую если вы любите/умеете в матан и хотите начать понимать теорию того почему этот ваш машинлернинг работает.
🔥23🙏1
Forwarded from gonzo-обзоры ML статей
Not a paper, but a very cool stuff!
Roman Vershynin, professor of mathematics at the University of California, Irvine, and the author of the well-known book "High dimensional probability. An introduction with applications in Data Science" has just published materials from his course on the same topic!
The book itself is freely available in internet (https://www.math.uci.edu/~rvershyn/papers/HDP-book/HDP-book.pdf), yet I myself has two hard copies of it :)
Now the videos and lecture notes from the course that was run remotely at Kyiv National University this fall during bombing are published: https://www.math.uci.edu/~rvershyn/teaching/hdp/hdp.html
Roman Vershynin, professor of mathematics at the University of California, Irvine, and the author of the well-known book "High dimensional probability. An introduction with applications in Data Science" has just published materials from his course on the same topic!
The book itself is freely available in internet (https://www.math.uci.edu/~rvershyn/papers/HDP-book/HDP-book.pdf), yet I myself has two hard copies of it :)
Now the videos and lecture notes from the course that was run remotely at Kyiv National University this fall during bombing are published: https://www.math.uci.edu/~rvershyn/teaching/hdp/hdp.html
👍5🔥5❤1
Forwarded from AbstractDL
GPT тайно файнтюнит себя через attention во время инференса (by Microsoft)
Авторы немного поколдовали над формулами этэншна и смогли свести их к SGD — оказалось, что трансформеры сами осуществляют внутри себя градиентный спуск и используют механизм внимания в качестве неявного оптимизатора!
Теперь понятно, почему few-shot learning так круто работает, ведь модели полноценно учат себя пока смотрят на контекст. К тому же эксперименты показали, что активации при файнтюнинге и при few-shot демонстрации примеров обновляются примерно одинаково.
А раз attention ≈ SGD, то почему бы не попробовать добавить в него momentum? И это действительно помогло! Модель стала обучаться быстрее, тестовая перплексия получилась ниже, а few-shot заработал ещё лучше.
Статья
Авторы немного поколдовали над формулами этэншна и смогли свести их к SGD — оказалось, что трансформеры сами осуществляют внутри себя градиентный спуск и используют механизм внимания в качестве неявного оптимизатора!
Теперь понятно, почему few-shot learning так круто работает, ведь модели полноценно учат себя пока смотрят на контекст. К тому же эксперименты показали, что активации при файнтюнинге и при few-shot демонстрации примеров обновляются примерно одинаково.
А раз attention ≈ SGD, то почему бы не попробовать добавить в него momentum? И это действительно помогло! Модель стала обучаться быстрее, тестовая перплексия получилась ниже, а few-shot заработал ещё лучше.
Статья
🤯87🔥15👍9
Applyingml - забавный сайт с практическими советами как применять ML в реальной жизни.
Зашло The first rule of machine learning: Start without machine learning
Интересно как GPT-3/4 все это поменяют, но пока что советы выглядят полезными.
https://applyingml.com
Зашло The first rule of machine learning: Start without machine learning
Интересно как GPT-3/4 все это поменяют, но пока что советы выглядят полезными.
https://applyingml.com
Applyingml
ApplyingML - Papers, Guides, and Interviews with ML practitioners
Curated papers and blogs, ghost knowledge, and interviews with experienced ML practitioners on how to apply machine learning in industry.
👍21🔥8
Как вы наверное заметили, вести канал последний месяц получалось не очень и одна из причин - накопвшийся бэклог из-за которого ты откладываешь написание поста, что приводит к увеличению бэклога ну и так далее.
Поэтому вот все ссылки, неосвелненные нефильтрованные (часть 1):
1. twitter.com/KirkDBorne/status/1607761216847622145
1. youtu.be/KV5gbOmHbjU
1. github.com/gdb/pyseidon
1. www.nytimes.com/interactive/2022/12/26/magazine/yejin-choi-interview.html
1. twitter.com/karpathy/status/1607791537978748929
1. twitter.com/DrJimFan/status/1600884409355227137
1. twitter.com/emollick/status/1607589896222576640
Поэтому вот все ссылки, неосвелненные нефильтрованные (часть 1):
1. twitter.com/KirkDBorne/status/1607761216847622145
1. youtu.be/KV5gbOmHbjU
1. github.com/gdb/pyseidon
1. www.nytimes.com/interactive/2022/12/26/magazine/yejin-choi-interview.html
1. twitter.com/karpathy/status/1607791537978748929
1. twitter.com/DrJimFan/status/1600884409355227137
1. twitter.com/emollick/status/1607589896222576640
🔥8🎉1🙈1
Рандомные интересные ссылки (часть 2):
1. Evaluating Large Language Models (LLMs) with Eleuther AI
1. twitter.com/soleio/status/1607106379357249536
1. BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting
1. Do DALL-E and Flamingo Understand Each Other?
1. Write your next scientific paper with the writing backwards technique
1. Лучшие статьи 2022
1. twitter.com/Jeande_d/status/1606383104418926593
1. t.iss.one/airi_research_institute/174
1. twitter.com/_akhaliq/status/1605774104384135168
1. Evaluating Large Language Models (LLMs) with Eleuther AI
1. twitter.com/soleio/status/1607106379357249536
1. BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting
1. Do DALL-E and Flamingo Understand Each Other?
1. Write your next scientific paper with the writing backwards technique
1. Лучшие статьи 2022
1. twitter.com/Jeande_d/status/1606383104418926593
1. t.iss.one/airi_research_institute/174
1. twitter.com/_akhaliq/status/1605774104384135168
❤11
Forwarded from Vic
Вот еще хорошая статья LAMBADA: Backward Chaining for Automated Reasoning in Natural
Language
https://arxiv.org/pdf/2212.13894.pdf
Тред в Твиттере https://twitter.com/martin_gorner/status/1608450724433907714?cn=ZmxleGlibGVfcmVjcw%3D%3D&refsrc=email
Похоже, что описывается хороший подход к логическому выводу, и в статье говорят, что метод дает намного лучше и более глубокий проход при проверке сгенерированного доказательства - чем CoT - то есть цепочка, которую промтами можно собрать.
This paper is, in part, a traditional algorithm, a "depth-first search algorithm over the facts and the rules", starting from the desired conclusion and trying to logically reach the premises (facts and rules).
Authors compare this approach toChain Of Thought Reasoning and show impressive results, especially once you check the validity of the generated proof.
Language
https://arxiv.org/pdf/2212.13894.pdf
Тред в Твиттере https://twitter.com/martin_gorner/status/1608450724433907714?cn=ZmxleGlibGVfcmVjcw%3D%3D&refsrc=email
Похоже, что описывается хороший подход к логическому выводу, и в статье говорят, что метод дает намного лучше и более глубокий проход при проверке сгенерированного доказательства - чем CoT - то есть цепочка, которую промтами можно собрать.
This paper is, in part, a traditional algorithm, a "depth-first search algorithm over the facts and the rules", starting from the desired conclusion and trying to logically reach the premises (facts and rules).
Authors compare this approach toChain Of Thought Reasoning and show impressive results, especially once you check the validity of the generated proof.
X (formerly Twitter)
Martin Görner on X
Large Language Models are getting good at formal logic:
https://t.co/UHWqM2B7QG LAMBADA: Backward Chaining for Automated Reasoning.
https://t.co/UHWqM2B7QG LAMBADA: Backward Chaining for Automated Reasoning.
👍4
Рандомные интересные ссылки (часть 3):
1. What Building "Copilot for X" Really Takes
1. 🤗 tutorial notebooks for semantic segmentation
1. FiDO: Fusion-in-Decoder optimized for stronger performance and faster inference
1. Prompt Engineering Guide
1. twitter.com/gabriel_ilharco/status/1603415656699162624
1. Любимые твиты Андрея Карпати 😂
1. twitter.com/richardmcngo/status/1603862969276051457
1. twitter.com/richardmcngo/status/1603862969276051457
1. What Building "Copilot for X" Really Takes
1. 🤗 tutorial notebooks for semantic segmentation
1. FiDO: Fusion-in-Decoder optimized for stronger performance and faster inference
1. Prompt Engineering Guide
1. twitter.com/gabriel_ilharco/status/1603415656699162624
1. Любимые твиты Андрея Карпати 😂
1. twitter.com/richardmcngo/status/1603862969276051457
1. twitter.com/richardmcngo/status/1603862969276051457
❤12👍3👎1
Если ИТ – это ваш конек, то Тинькофф ждет вас 23 января на катке
Ледовый ИТ-квест, нетворкинг, дискуссии со спикерами в теплом шатре и многое другое. Вечер точно будет насыщенным и приятным. За коньки не беспокойтесь — их выдадут бесплатно.
Не медлите, регистрируйтесь сами и зовите коллег — будет весело!
Ледовый ИТ-квест, нетворкинг, дискуссии со спикерами в теплом шатре и многое другое. Вечер точно будет насыщенным и приятным. За коньки не беспокойтесь — их выдадут бесплатно.
Не медлите, регистрируйтесь сами и зовите коллег — будет весело!
💩44👍13👎7🤡4🥰1