Forwarded from Artificial stupidity
Forwarded from cydoroga
Привет!
Вкратце: и то, и то.
Осталось понять, что именно мы считаем оптимальным.
Я про Gittins index много не скажу, но взять ucb и Thompson sampling.
Оба имеют асимптотики на регрет, которые нельзя превзойти, не зная среды.
Это доказывается тем, что можно вывести нижнюю оценку на регрет любого такого алгоритма.
И типа они равны.
Но там хватает нюансов: где-то речь идет про минимаксный регрет, где-то про байесовский, оба регрета связаны друг с другом.
Так что, практической разницы, мне кажется, мало - оба алгоритма оптимальны.
А если интересны именно асимптотики, советую почитать книжку
https://tor-lattimore.com/downloads/book/book.pdf
Там про все эти алгоритмы есть в очень разных сеттингах
Вкратце: и то, и то.
Осталось понять, что именно мы считаем оптимальным.
Я про Gittins index много не скажу, но взять ucb и Thompson sampling.
Оба имеют асимптотики на регрет, которые нельзя превзойти, не зная среды.
Это доказывается тем, что можно вывести нижнюю оценку на регрет любого такого алгоритма.
И типа они равны.
Но там хватает нюансов: где-то речь идет про минимаксный регрет, где-то про байесовский, оба регрета связаны друг с другом.
Так что, практической разницы, мне кажется, мало - оба алгоритма оптимальны.
А если интересны именно асимптотики, советую почитать книжку
https://tor-lattimore.com/downloads/book/book.pdf
Там про все эти алгоритмы есть в очень разных сеттингах
Forwarded from Блог о Data Science 💻 Наука о данных (Red Powerful)
Вы все уже слышали про студента, который с помощью ChatGPT написал диплом. Но таких инструментов сейчас достаточно много, они могут упростить нам работу с написанием рутинных вещей.
Нужно ли объяснять, что это такое? Вы все уже много раз про него слышали, это наш основной инструмент, но нужно проверять все то, что он пишет и не верить ему сразу.
Википедия для AI инструментов, там можно найти больше подобных
сервисов на вкус и цвет.
Частично-бесплатный сервис для создания и генерации контекта на основе AI. Я от него просто в восторге!
Вроде как бесплатный, конкурент Rytr. Но не уверен, что у него есть те же функции, например генерация заголовков, ключевых слов и тд.
Сервис, который объясняет что же там написано в этих заумных научных работах. Отлично поможет перефразировать чужие работы в наш диплом для объёма.
Для любителей пейперов
Теперь с лёгкостью можно найти схожие пейперы.
300 докеров на этот пост и делаю вторую часть!
Не забываем заходить в чат и делится постом с сокурсниками!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Cracking code interview and USA life
Алоха. Готовитесь к интервью по систем дизайну и осталось совсем мало времени?
Вот вам подборка популярных систем дизайнов, супрер поверхностное, но полезное чиво, для освежения знаний перед интервью.
https://www.educative.io/blog/top-10-system-design-interview-questions#proximity
#рекомендасьен #статьи #article
Вот вам подборка популярных систем дизайнов, супрер поверхностное, но полезное чиво, для освежения знаний перед интервью.
https://www.educative.io/blog/top-10-system-design-interview-questions#proximity
#рекомендасьен #статьи #article
Forwarded from Artem Ryblov’s Data Science Weekly (Artem Ryblov)
CS 229 ― Machine Learning Cheatsheet
Set of illustrated Machine Learning cheatsheets covering the content of the CS 229 class.
They can (hopefully!) be useful to all future students of this course, as well as to anyone else interested in Machine Learning.
Navigational hashtags: #armknowledgesharing #armcheetsheets
General hashtags: #machinelearning #students #content #supervisedlearning #unsupervisedlearning #deeplearning #tips #tricks #statistics #probability #calculus
Set of illustrated Machine Learning cheatsheets covering the content of the CS 229 class.
They can (hopefully!) be useful to all future students of this course, as well as to anyone else interested in Machine Learning.
Navigational hashtags: #armknowledgesharing #armcheetsheets
General hashtags: #machinelearning #students #content #supervisedlearning #unsupervisedlearning #deeplearning #tips #tricks #statistics #probability #calculus
stanford.edu
Teaching - CS 229
Teaching page of Shervine Amidi, Adjunct Lecturer at Stanford University.
Forwarded from AbstractDL
This media is not supported in your browser
VIEW IN TELEGRAM
FROMAGe: самый простой способ сделать мультимодального чатбота
Авторам потребовалось всего 24 часа чтобы на 1 GPU обучить это чудо! Идея очень похожа на Flamingo, но ещё проще и не требует больших датасетов.
За основу взяли замороженные ViT и OPT, а чтобы склеить их вместе — добавляют два обучаемых линейных слоя для отображения эмбеддингов (text2image и image2text). Затем визуальные эмбеддинги картинок подаются вместо псевдо-текстовых токенов. Для поиска и вывода картинок добавляется новый спец-токен [RET].
Для обучения используют общедоступный датасет CC3M из пар картинка-текст. В качестве лосса: CrossEntropy по тексту + контрастив лосс для токена [RET] (поиск картинок).
Код и чекпоинты выложены в открытый доступ, прям все 11 мегабайтов весов залиты на гитхаб 😂
P.S. Думаю, что если в GPT-4 добавят поддержку картинок, то это будет именно так.
Статья, GitHub, блог
Авторам потребовалось всего 24 часа чтобы на 1 GPU обучить это чудо! Идея очень похожа на Flamingo, но ещё проще и не требует больших датасетов.
За основу взяли замороженные ViT и OPT, а чтобы склеить их вместе — добавляют два обучаемых линейных слоя для отображения эмбеддингов (text2image и image2text). Затем визуальные эмбеддинги картинок подаются вместо псевдо-текстовых токенов. Для поиска и вывода картинок добавляется новый спец-токен [RET].
Для обучения используют общедоступный датасет CC3M из пар картинка-текст. В качестве лосса: CrossEntropy по тексту + контрастив лосс для токена [RET] (поиск картинок).
Код и чекпоинты выложены в открытый доступ, прям все 11 мегабайтов весов залиты на гитхаб 😂
P.S. Думаю, что если в GPT-4 добавят поддержку картинок, то это будет именно так.
Статья, GitHub, блог
Forwarded from AbstractDL
🔥FlexGen: как запустить OPT-175B на своём ноутбуке
Просто восторг! Самую большую открытую языковую модель теперь можно запустить на одной 16GB GPU и при этом не ждать генерацию целую вечность — скорость 1 токен в секунду!
Причём ускорение и сжатие модели делается очень просто:
P.S. В их репозитории даже есть пример чатбота на основе OPT-66B
Статья, GitHub
Просто восторг! Самую большую открытую языковую модель теперь можно запустить на одной 16GB GPU и при этом не ждать генерацию целую вечность — скорость 1 токен в секунду!
Причём ускорение и сжатие модели делается очень просто:
model = OptLM(model)P.S. В их репозитории даже есть пример чатбота на основе OPT-66B
Статья, GitHub
Forwarded from Nick
Всем доброго дня 👋🏼
Сегодня написал про GNN для Financial Networks:
https://www.linkedin.com/posts/nikita-iserson_graph-graphneuralnetworks-banking-activity-7033369524817027072-syFI
Сегодня написал про GNN для Financial Networks:
https://www.linkedin.com/posts/nikita-iserson_graph-graphneuralnetworks-banking-activity-7033369524817027072-syFI
Linkedin
Nikita I. on LinkedIn: #graph #graphneuralnetworks #banking #machinelearning #financialnetwork… | 23 comments
🕸 Why use Graph Machine Learning for Finance❓🏦
Graph & Graph Neural Networks are the very hot topic for many top industry and academic conferences. But what… | 23 comments on LinkedIn
Graph & Graph Neural Networks are the very hot topic for many top industry and academic conferences. But what… | 23 comments on LinkedIn
Forwarded from Заскуль питона (Аналитика данных)
Hello World, в сегодняшнем посте хочу рассказать про HARD-скиллы, которые помогут вам стать запакованным стажером / джуном дата-аналитиком. Да, тема достаточно заезженная, но можно составить какую-то Road-Map для этого. Хочу максимально разжевать это, чтобы было какое-то понимание. Вот, вы решили стать DA, потому что это достаточно перспективное направление. Окей, все классно, но с чего же начать?
Какой же «Истинный» пак дата-аналитика?
В какой же последовательности я бы изучал сейчас?
Казалось бы, зачем это всё надо? Оперативно найти вопрос по интересующей вас теме на зарубежных форумах и не тратить своё время и время других на решение какой-то проблемы. Сейчас так вообще, можно забить всё в ChatGPT и решить конкретную задачу. Здесь речь идет скорее про то, что гуглить - это важно и в этом нет ничего такого.
В целом, похож на pandas (Python library), выстроенная структура поможет быстро адаптироваться под Python и начать работать с реальными данными. Номер один сейчас, имхо - это
Окей, мы продвинулись дальше, на очереди Python. Его нужно знать хорошо, чтобы писать функции и применять к конкретным переменным, понимать работу циклов, работу со словарями, строками, списками. Здесь можно без ООП, нам нужно быстро прогнать теорию и научиться реализовывать это на практике. Есть классный
Далее, математическая статистика и теория вероятностей. Предлагаю совместить это с Python, поскольку голая теория по этим двум дисциплинам очень плохо запоминается, а практика важна. Предлагаю начать со статистики и теории вероятностей на Stepik. Ранее, я скидывал тестовое разных компаний, можно глянуть тут. Сгенерировать свои данные и посмотреть как это реально может работать, понимать распределения, описание статистики + подкрепить A/B тестами, если хотите. Можно посмотреть вот этот мини-курс, чтобы понять как статистика и теория вероятностей работает в Python.
Please open Telegram to view this post
VIEW IN TELEGRAM
karpov.courses
Симулятор SQL | karpov.courses
Запишитесь на бесплатный интерактивный симулятор SQL онлайн для практики: online-training в школе Karpov Courses.
Forwarded from Заскуль питона (Аналитика данных)
В основном, это средство визуализации, построение дешбордов, но на 1 шаге, мы уже их строили, более глубже можно узнать, посмотрев курс тут. Друг на друга они в целом похоже, поэтому выбрать BI-систему для изучения - не так важно.
Но зачем в итоге нужны аналитики, почему не может всех заменить OpenAI? Во-первых, кто будет составлять запросы для ИИ? Во-вторых, кто понимает специфику бизнеса и интерпретацию различных метрик?
Понимание этого помогает вам и компании, в которой вы работаете, расти. Однотипные выгрузки, преобразования данных без формулирования выводов не нужно. Мы должны видеть, где проблемы в нашем продукте, чтобы впоследствии можно было принять решение по его дальнейшему развитию. Тренажер для погружения в продакт-менеджмент
Если вдруг понимаете, что вам это нужно (для стажировки, работы), "ботается" за 3-4 дня. Курс по Excel c практикой
Ну, без опыта вас не берут на работу, а без работы у вас нет опыта. Всё, жизнь, ужасна. Посмотрите мой предыдущий пост, там написаны основные пути решения. Упакуйте участие в каких-либо проектах как релевантный опыт. Зачастую HR смотрят на стек, что вы делали на работе, а также стаж.
Хочу провести эксперимент над собой и запустить формат марафона по Machine Learning, Deep Learning, где буду делиться тем, как продвигается обучение, что смотрю. Начинаю с относительного нуля, но есть желание в этом разобраться. Пишите комментарии, интересно ли это будет вам.
По Hard-скиллам можете также посмотреть у моего друга с канала Блог о Data Science, ссылка на пост тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DevFM
NULL в PostgreSQL
Очень захватывающая статья, погружающая в специфику NULL. Вроде понятно, что это такое, но всё не так просто – точнее, неопределённо.
Перечислим ряд особенностей NULL, которые нам показались интересными.
NULL это такая штука, которая может оказаться в столбце с любым типом данных и попасть на вход любому оператору или функции.
Следующее, что важно понимать — чем NULL не является. Пустая строка, ноль, пустой массив, массив NULL – это всё не NULL. Но есть особенность – запись, в которой все поля NULL сама является NULL. В статье автор приводит неочевидные примеры на этот счёт.
Если в каких-то бинарных операциях затаится NULL, то на выходе результат окажется тоже NULL. Но и в этом случае есть небольшие особенности.
Сравнивать что-то с NULL мало полезно — все равно получим NULL. Даже если захотим сравнить NULL и NULL. В результате получим сами знаете что.
Оказывается, имеет смысл писать "IS TRUE", а не "= TRUE". Потому что результат первой операции всегда будет TRUE или FALSE, а вот во втором варианте может выскочить неожиданный NULL.
Если хочется посчитать NULL или найти не NULL аргумент, то для этого есть специальные функции num_nulls и coalesce.
Такой привычный COUNT – и тот работает с подвохом. COUNT по конкретному полю посчитает только строки, где выражение NOT NULL, а вот COUNT(*) посчитает всё, включая NULL.
Если при сортировках хочется управлять NULL, то есть ключевое слово NULLS FIRST.
С индексами тоже интересно. Postgres использует индекс для поиска NULL значений. Если значений NULL много, плохая селективность, то лучше использовать последовательное сканирование вместо индекса. Чтобы исключить NULL из индекса можно использовать partial индекс с наложением условия IS NOT NULL. Автор дает практические советы, как найти кандидатов на такую оптимизацию.
Общий совет: если не планируете явно обрабатывать NULL, то стоит навешивать ограничение NOT NULL. Говоря об ограничениях, UNIQUE позволяет создать несколько записей со значением NULL, но в Postgres 14 появилась возможность запретить несколько NULL-записей.
Вывод таков, что существует миллион нюансов при работе с таким зверем, как NULL. Все их не запомнить, но важно понимать, что они есть. Когда пишите тот или иной запрос, всегда задавайте себе вопрос, а учёл ли я NULL.
#skills #database
Очень захватывающая статья, погружающая в специфику NULL. Вроде понятно, что это такое, но всё не так просто – точнее, неопределённо.
Перечислим ряд особенностей NULL, которые нам показались интересными.
NULL это такая штука, которая может оказаться в столбце с любым типом данных и попасть на вход любому оператору или функции.
Следующее, что важно понимать — чем NULL не является. Пустая строка, ноль, пустой массив, массив NULL – это всё не NULL. Но есть особенность – запись, в которой все поля NULL сама является NULL. В статье автор приводит неочевидные примеры на этот счёт.
Если в каких-то бинарных операциях затаится NULL, то на выходе результат окажется тоже NULL. Но и в этом случае есть небольшие особенности.
Сравнивать что-то с NULL мало полезно — все равно получим NULL. Даже если захотим сравнить NULL и NULL. В результате получим сами знаете что.
Оказывается, имеет смысл писать "IS TRUE", а не "= TRUE". Потому что результат первой операции всегда будет TRUE или FALSE, а вот во втором варианте может выскочить неожиданный NULL.
Если хочется посчитать NULL или найти не NULL аргумент, то для этого есть специальные функции num_nulls и coalesce.
Такой привычный COUNT – и тот работает с подвохом. COUNT по конкретному полю посчитает только строки, где выражение NOT NULL, а вот COUNT(*) посчитает всё, включая NULL.
Если при сортировках хочется управлять NULL, то есть ключевое слово NULLS FIRST.
С индексами тоже интересно. Postgres использует индекс для поиска NULL значений. Если значений NULL много, плохая селективность, то лучше использовать последовательное сканирование вместо индекса. Чтобы исключить NULL из индекса можно использовать partial индекс с наложением условия IS NOT NULL. Автор дает практические советы, как найти кандидатов на такую оптимизацию.
Общий совет: если не планируете явно обрабатывать NULL, то стоит навешивать ограничение NOT NULL. Говоря об ограничениях, UNIQUE позволяет создать несколько записей со значением NULL, но в Postgres 14 появилась возможность запретить несколько NULL-записей.
Вывод таков, что существует миллион нюансов при работе с таким зверем, как NULL. Все их не запомнить, но важно понимать, что они есть. Когда пишите тот или иной запрос, всегда задавайте себе вопрос, а учёл ли я NULL.
#skills #database
Хабр
NULL-значения в PostgreSQL: правила и исключения
Навскидку многим кажется, что они знакомы с поведением NULL-значений в PostgreSQL, однако иногда неопределённые значения преподносят сюрпризы. Мы с коллегами написали статью на основе моего доклада с...