Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning
Тык
Как-то без помпы(либо я не заметил из-за того что твиттер читать без Tweetbot стало гораздо сложнее) Tim Dettmers обновил свой легендарный пост по выбору GPU. Теперь в него добавились Ampere (30XX) и Ada (40XX) GPUs и есть отличное описание того почему tensor cores крутые и почему теперь надо беспокоиться о скорости памяти, а не о числе ядер. Также Ada поддерживает FP8 (!=int8, который поддерживается и Ampere) который может привести к новому 2x скачку производительности в диплёрнинге. Также обновлены главы о sparse matrix multiplication, добавлены бенчмарки int8 и обновлены ответы на PCIe v4/5 и Infiniband.
Тык
Как-то без помпы
🔥38👍2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Aim — опенсорсный wandb
github.com/aimhubio/aim
Читал статью по multimodal scaling laws и наткнулся на Aim. С ходу выглядит как полный аналог почти всего того что я люблю в Wandb, но который можно использовать в суровом продакшне бесплатно.
1. логирование метрик и конфига
1. поиск по экспериментам с фильтрацием
1. интерфейс от которого не вытекают глаза (передаю приветTrains ClearML)
1. очень кастомизируемые графики, у которых можно модифицировать X и Y-оси в веб интерфейсе
Я летом пожил месяц в tensorboard, где если ты залогал loss по global step и не под update step проще перетренировать нейросеть чем построить loss vs update step. Это было плохо.
В общем если вы в суровой компании где нет in-house wandb, попробуйте Aim. И если уже пробовали, пишите в комменты о впечатлениях.
github.com/aimhubio/aim
Читал статью по multimodal scaling laws и наткнулся на Aim. С ходу выглядит как полный аналог почти всего того что я люблю в Wandb, но который можно использовать в суровом продакшне бесплатно.
1. логирование метрик и конфига
1. поиск по экспериментам с фильтрацием
1. интерфейс от которого не вытекают глаза (передаю привет
1. очень кастомизируемые графики, у которых можно модифицировать X и Y-оси в веб интерфейсе
Я летом пожил месяц в tensorboard, где если ты залогал loss по global step и не под update step проще перетренировать нейросеть чем построить loss vs update step. Это было плохо.
В общем если вы в суровой компании где нет in-house wandb, попробуйте Aim. И если уже пробовали, пишите в комменты о впечатлениях.
🔥33👍9❤1
⚡️Andrej Karpathy присоединяется к OpenAI
twitter.com/karpathy/status/1623476659369443328
Он там работал перед теслой, ещё до эпохи GPT-N и теперь возвращается.
Будет интересно чем он будет заниматься. В тесле он сделал крутую инфраструктуру работы с данными, но кроме этого придумал и несколько нейросетевых вещей. Например language of lanes изначально его идея.
twitter.com/karpathy/status/1623476659369443328
Он там работал перед теслой, ещё до эпохи GPT-N и теперь возвращается.
Будет интересно чем он будет заниматься. В тесле он сделал крутую инфраструктуру работы с данными, но кроме этого придумал и несколько нейросетевых вещей. Например language of lanes изначально его идея.
Twitter
Some personal news: I am joining OpenAI (again :)). Like many others both in/out of AI, I am very inspired by the impact of their work and I have personally benefited greatly from it. The future potential is especially exciting; it is a great pleasure to…
🔥63👍5
Forwarded from Neural Shit
Интересная статья для тех, кто ковыряется с языковыми модельками, особенно с gpt2 и gpt3.
Суть вкратце: чуваки нашли "аномальные" токены, большинство из которых выглядят как-то странно, например "externalToEVA", "rawdownloadcloneembedreportprint", "PsyNetMessage". Так вот, если попросить какую-либо GPT3 модельку повторить это слово или спросить, что это слово обозначает с параметром "temperature" равным нулю, модель начинает вести себя странно: повторяет не то, троит, агрится, генерирует какой-то бред про священое писание, говорит, что у вас нет доступа к данной информации (прям SCP какой-то, лол), может вообще послать нахуй. Некоторые из токенов ломают и ChatGPT.
Там же в статье список этих токенов и возможное объяснение, почему так происходит.
Зачем вам эта информация вам я не знаю, но кажется, для себя я нашёл занятие на вечер: буду задрачивать GPT3 этими токенами по разному их комбинируя, чтобы смотреть на хуйню.
Суть вкратце: чуваки нашли "аномальные" токены, большинство из которых выглядят как-то странно, например "externalToEVA", "rawdownloadcloneembedreportprint", "PsyNetMessage". Так вот, если попросить какую-либо GPT3 модельку повторить это слово или спросить, что это слово обозначает с параметром "temperature" равным нулю, модель начинает вести себя странно: повторяет не то, троит, агрится, генерирует какой-то бред про священое писание, говорит, что у вас нет доступа к данной информации (прям SCP какой-то, лол), может вообще послать нахуй. Некоторые из токенов ломают и ChatGPT.
Там же в статье список этих токенов и возможное объяснение, почему так происходит.
Зачем вам эта информация вам я не знаю, но кажется, для себя я нашёл занятие на вечер: буду задрачивать GPT3 этими токенами по разному их комбинируя, чтобы смотреть на хуйню.
Lesswrong
SolidGoldMagikarp (plus, prompt generation) — LessWrong
Researchers have discovered a set of "glitch tokens" that cause ChatGPT and other language models to produce bizarre, erratic, and sometimes inapprop…
😁42👍11🔥9
Forwarded from Hacker News
Bing ChatGTP demands an apology from user for claiming it's 2023 (🔥 Score: 151+ in 3 hours)
Link: https://readhacker.news/s/5xZh3
Comments: https://readhacker.news/c/5xZh3
Link: https://readhacker.news/s/5xZh3
Comments: https://readhacker.news/c/5xZh3
Reddit
From the bing community on Reddit: the customer service of the new bing chat is amazing
Explore this post and more from the bing community
👍3💩2🥰1
DeepSchool
У нас сегодня немного необычное #промо
Канал DeepSchool — это то чем изначально был DlinNLP, но про Computer Vision. В нем есть материалы как для новичков: какие бывают функции активации и как работает ViT — так и для тех кто уже активно работает с DL: практические советы работы с данными и применения диплёрнинга. Вот что они говорят про себя:
1. целая команда авторов и все – практикующие ML инженеры. Поэтому они стараются положить в каждый пост совет из практики, даже если рассказывают базовую теорию.
1. оригинальные посты, каждый из них проходит ревью у нескольких авторов и иногда по 3-4 раза
1. есть отдельный редактор который который правит текст, чтобы читателям было проще разобраться в теме статьи.
Про NLP они не пишут (пока что), но есть посты, которые полезны любому DL-инженеру. А если вы решаете CV-задачи, то точно рекомендую заглянуть. Перейти и подписаться можно тут.
А теперь про то почему это промо необычное. Канал разрабатывается командой школы deepschool.ru, которую основал мой очень старый друг. Я знаю Тимура с 5 лет и он для меня сын маминой подруги и в мемном и в буквальном смысле ❤️. В 2017 я предложил ему погрузиться в Deep Learning и завертелось. Знаю что он очень старается обучать людей так чтобы они реально получали полезные навыки. Так что подписываемся на оригинальный контент, думаю много кому будет интересно.
У нас сегодня немного необычное #промо
Канал DeepSchool — это то чем изначально был DlinNLP, но про Computer Vision. В нем есть материалы как для новичков: какие бывают функции активации и как работает ViT — так и для тех кто уже активно работает с DL: практические советы работы с данными и применения диплёрнинга. Вот что они говорят про себя:
1. целая команда авторов и все – практикующие ML инженеры. Поэтому они стараются положить в каждый пост совет из практики, даже если рассказывают базовую теорию.
1. оригинальные посты, каждый из них проходит ревью у нескольких авторов и иногда по 3-4 раза
1. есть отдельный редактор который который правит текст, чтобы читателям было проще разобраться в теме статьи.
Про NLP они не пишут (пока что), но есть посты, которые полезны любому DL-инженеру. А если вы решаете CV-задачи, то точно рекомендую заглянуть. Перейти и подписаться можно тут.
А теперь про то почему это промо необычное. Канал разрабатывается командой школы deepschool.ru, которую основал мой очень старый друг. Я знаю Тимура с 5 лет и он для меня сын маминой подруги и в мемном и в буквальном смысле ❤️. В 2017 я предложил ему погрузиться в Deep Learning и завертелось. Знаю что он очень старается обучать людей так чтобы они реально получали полезные навыки. Так что подписываемся на оригинальный контент, думаю много кому будет интересно.
👍21❤4🖕3⚡1
When a distinguished but elderly scientist states that something is possible, he is almost certainly right. When he states that something is impossible, he is very probably wrong.
en.wikipedia.org/wiki/Clarke%27s_three_laws
Кажется ЛеКун переметнулся из первой команды во вторую 🤷♂️
en.wikipedia.org/wiki/Clarke%27s_three_laws
Кажется ЛеКун переметнулся из первой команды во вторую 🤷♂️
Wikipedia
Clarke's three laws
three adages proposed by British science fiction writer Arthur C. Clarke about science and technology
👍7🔥2
Forwarded from AI для Всех
Андрей Карпати анонсировал умного ассистента от Open AI. Звучит очень резонно, учитывая работы open-source сообщества по Open Assistant.
🤔22🔥10👍5❤1🤨1