ПОДБОРКА КУРСОВ [RU]. 1 Часть 👨🔬
Всем привет, многие спрашивали по поводу курсов. Так вот, публикую актуальный список того, что позволит вам в кратчайшие сроки окунуться в этот ваш Data Science [1 часть].
База всех баз:
—————————
📊 SQL. По сути хлеб каждого DS-специалиста - это данные. Учимся доставать их таким образом, чтобы это было полезно всем (в том числе и бизнесу). В 💙 мы работаем с Vertica + ClickHouse.
💯 Симулятор SQL от karpov.courses. В мое время не было данного курса, однако, сейчас советую абсолютно всем. Сжатая теория, постоянная практика + блок продуктовой секции, где предстоит решать продуктовые задачи для бизнеса (достать данные, правильно интерпретировать, сделать выводы). Must-have.
Набить руку можно также на других тренажерах, например, тут и тут ( однако, я советую сразу начать решать задачи с собеседований в крупные айти-компании, например, в FAANG на StrataScratch и Leetcode
Далее, переходим к документации + GPT + Google, если нам нужно что-то дополнительно узнать, не боимся гуглить и спрашивать - это нормально💼
—————————
🐍 Python. Преобразование данных, работа с типами данных, функциями, циклами, классами
💯 Инди-курс программирования на Python и поколение Python (1 часть, 2 часть). В первом курсе все достаточно емко рассказано по основам, во втором же, более глубокое погружение.
😀 Хэндбук: Основы Python. От базовых вещей до работы с библиотеками. Советую туда не сразу нырять, а остановиться на первых двух.
➡️ Основы Python от karpov.courses. Доступно не все, полная версия к концу июля, однако, советую присмотреться, думаю будет также годно как и SQL
—————————
📊 Статистика и теория вероятностей. А кто говорил, что будет просто? Учимся понимать специфику данных, принимать решения на основе цифр.
💯 Основы статистики (первая и вторая часть). Здесь великий Анатолий Карпов проходит по базам. Проверка гипотез, распределения. Советую просмотреть первую часть и сразу применять все на практике в Python. В этом вам может помочь следующий плейлист от Глеба Михайлова + совмещение этого видео для понимания того, что вообще происходит.
🎲 Теория вероятностей от CSC на Stepik. Советую, чтобы более глубоко понимать, как работать со случайными величинами и с вероятностями в целом. Лично я смотрел тогда, когда необходимо было подготовиться к собеседованиям.
—————————
🧠 Продуктовое мышление. Понимаем более глубоко, а все ли мы делаем правильно, а приносим ли мы профит продукту, нашим пользователям.
💯 Советую присмотреться к лекциям Школы менеджеров Яндекса и совмещать это все с product-map, где собраны лучшие практики по части продукт- и продакт-менеджмента. Также, я недавно выкатывал пост по этому поводу, можете посмотреть тут
—————————
📈 BI-Системы. Продвинутая визуализация для отражения текущего состояния бизнеса. Будь то различные метрики или графики, которые отражают ситуацию прямо сейчас.
Практически все сейчас сидят на PowerBI, Redash, SuperSet, DataLens. У Яндекса есть курс по DataLens, у SuperSet есть документация + разбор на YouTube от🔥 , работа в Redash идет в том же симуляторе SQL, который был выше. Все BI-системы похожи друг на друга, поэтому знание специфики работы в одной из них, позволит вам быстро адаптироваться к другой. Однако, функционал, может различаться. В 💙 мы работаем с SuperSet.
У моих друзей также недавно вышли посты с источниками по Data Science, также переходите. По мне, это очень классно, что каждый через призму своего опыта показывает, какие источники оказались наиболее полезными:
🐈 Dimension — ссылка на пост
🛞 Азим — ссылка на пост
🥰 Ставьте реакции, репостите запись, а я выложу вторую часть с подборкой курсов, где будет представлено более глубокое погружение в продуктовую аналитику, аналитику данных и Machine Learning. Также я пилю ноутбук с русской адаптацией курса по Deep Learning (Глубокое обучение), в ближайшем времени также анонсирую
Всем привет, многие спрашивали по поводу курсов. Так вот, публикую актуальный список того, что позволит вам в кратчайшие сроки окунуться в этот ваш Data Science [1 часть].
База всех баз:
—————————
Набить руку можно также на других тренажерах, например, тут и тут ( однако, я советую сразу начать решать задачи с собеседований в крупные айти-компании, например, в FAANG на StrataScratch и Leetcode
Далее, переходим к документации + GPT + Google, если нам нужно что-то дополнительно узнать, не боимся гуглить и спрашивать - это нормально
—————————
—————————
—————————
—————————
Практически все сейчас сидят на PowerBI, Redash, SuperSet, DataLens. У Яндекса есть курс по DataLens, у SuperSet есть документация + разбор на YouTube от
У моих друзей также недавно вышли посты с источниками по Data Science, также переходите. По мне, это очень классно, что каждый через призму своего опыта показывает, какие источники оказались наиболее полезными:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤98🔥50🤩29👍18🥰13🐳13👏7❤🔥1🎉1💩1🍌1
ПОДБОРКА КУРСОВ [RU]. 2 Часть 🧠
Всем привет, нас уже 1600, благодарочка. Выпускаю 2 часть материалов для обучения в сфере Data Science🤔
Ну что же, когда мы уже обучились базе, можно приступать к более интересным материалам.
Есть несколько путей развития, все зависит от специфики того, чем вы хотите заниматься в будущем. Однако, советую присмотреться ко всем материалам😱
1. Анализ данных👍
👦 Анализ данных [ВШЭ] - у курса очень разнообразное наполнение, советую присмотреться. Однако, уроков слишком много, поэтому не советую закапываться слишком глубоко.
🤨 Теория и практика онлайн-экспериментов [ВШЭ]
Теоретическая база по A/B тестам, советую сразу совмещать с кодом, в первой части я об этом писал.
😮 Computer Science Center. Анализ данных. По сути, все рассказывается весьма интересно, приведены куски кода, что я очень люблю.
2. Machine learning [ВШЭ + ODS + GPT + Networking]😱
🤖 Основы машинного обучения - сочетание теории и практики. Советую проходить системно и сочетать с домашками, которые прикреплены к курсу. У ВШЭ очень много материалов, как вы поняли ❤️
🔑 Kaggle - место, где люди соревнуются в DS-соревнованиях от крупных компаний и получают за это различные призы. Здесь можно черпать различные фишки по написанию кода, реализации методов и поиска коммьюнити.
🦜 ods.ai - платформа, где представлены различные курсы, соревнования по Data Science. Недавно проходило соревнование по NLP от Alfa-Bank,но не нашлось времени в нем поучаствовать 😡
🎹 Продолжая писать о Machine Learning, также хочется упомянуть курс Юрия Кашницкого. Ближе к теории, однако, курс идет плавно и размеренно.
🗯 Да, да и еще раз да. Личный ментор, который местами галлюцинирует, но это исправляется.
😀 Хэндбук от Яндекс по Machine Learning (не советую приступать сразу, отобьете себе все желание). Математическое или около того обоснование, что происходит. Отсутствует как таковая практика
🕸 Если уж вы совсем преисполнились, тогда вэлком на курс по машинному обучению к Воронцову.
Есть также другие курсы, например, ВШЭ от своей магистратуры выпускала серии по NLP, разработке ML-сервиса и др.
————————————
Параллельно советую читать, смотреть различные бизнес-кейсы компаний, чтобы более глубоко понять специфику работы в компаниях:
> AvitoTech
> Ozon Tech
> Яндекс
————————————
3. Deep Learning☺️
🔥 Deep Learning School от МФТИ - курс на Stepik, где сочетается теория и практика. Советую залетать тогда, когда уже есть база и когда есть команда, с которой можно будет это все запушить. Тяжелый курс 😡
😢 Глубокое обучение для текстовых данных - базовые концепции в NLP, кода нет
🦌 Хотите research? Идите на arxiv.org и разбирайте различные научные статьи. Кстати, их разбор есть у Игоря Котенкова на YouTube: Transformers, RLHF
Конечно же, это не все источники, есть еще и зарубежные.
Накидайте🔥 реакций, пишите комментарии, а я выложу handbook [RU] по Deep Learning и расскажу про то, чем успел позаниматься в Ozon и как проходит мое обучение.
Всем привет, нас уже 1600, благодарочка. Выпускаю 2 часть материалов для обучения в сфере Data Science
Ну что же, когда мы уже обучились базе, можно приступать к более интересным материалам.
Есть несколько путей развития, все зависит от специфики того, чем вы хотите заниматься в будущем. Однако, советую присмотреться ко всем материалам
1. Анализ данных
Теоретическая база по A/B тестам, советую сразу совмещать с кодом, в первой части я об этом писал.
2. Machine learning [ВШЭ + ODS + GPT + Networking]
Есть также другие курсы, например, ВШЭ от своей магистратуры выпускала серии по NLP, разработке ML-сервиса и др.
————————————
Параллельно советую читать, смотреть различные бизнес-кейсы компаний, чтобы более глубоко понять специфику работы в компаниях:
> AvitoTech
> Ozon Tech
> Яндекс
————————————
3. Deep Learning
Конечно же, это не все источники, есть еще и зарубежные.
Накидайте
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Заскуль питона (Data Science)
ПОДБОРКА КУРСОВ [RU]. 1 Часть 👨🔬
Всем привет, многие спрашивали по поводу курсов. Так вот, публикую актуальный список того, что позволит вам в кратчайшие сроки окунуться в этот ваш Data Science [1 часть].
База всех баз:
—————————
📊SQL. По сути хлеб каждого…
Всем привет, многие спрашивали по поводу курсов. Так вот, публикую актуальный список того, что позволит вам в кратчайшие сроки окунуться в этот ваш Data Science [1 часть].
База всех баз:
—————————
📊SQL. По сути хлеб каждого…
🔥71❤13🐳10👍2💩1
Forwarded from Блог о Data Science 💻 (Danil Kartushov)
Если вы тоже замечаете магию, стоящую за гигантскими объемами данных, встречайте - клуб Whale Data Science! Наш новый современный коллектив состоит всего из восьми избранных участников, которые, несомненно, внесут свой уникальный вклад в область Data Science.
Наша цель - обмен знаниями, идеями и опытом в мире Data Science и Искусственного Интеллекта.
Следите за нашими обновлениями и постами. Вместе мы сможем раскрыть все возможности, которые дает нам Data Science, и открыть для себя новые горизонты знаний! 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Friends Blog
Danil Kartushov invites you to add the folder “Friends Blog”, which includes 7 chats.
🐳13🔥8❤7💩1
Как стать экономистом без регистрации и СМС 😅
Решил посмотреть на днях выписку на госуслугах с мест, где я работал и работаю сейчас👍
Оказывается, код выполняемой функции в💙 у меня следующий: 2511.8. Что это может значить? Может аналитик данных? Продуктовый аналитик? Не-а, я системный аналитик в расшифровке, что очень странно, но не суть. Сошлемся на то, что написание документации сразу меняет код в выписке. Но это еще не всё.
Ранее я также работал аналитиком данных, но в компании поменьше. Знаете, какой у меня код? Правильно - 2631.5. Я экономист по занятости и социально-трудовым вопросам. Найс тыкался в оракле, питончике и писал модельки👦
А говорили, что экономистом без образования никуда не берут. Обманули, получается?😮
А кто вы? Делитесь в комментариях, ставьте реакции🎹
P.S: приложил в комментариях инструкцию, где это можно посмотреть😅
Решил посмотреть на днях выписку на госуслугах с мест, где я работал и работаю сейчас
Оказывается, код выполняемой функции в
Ранее я также работал аналитиком данных, но в компании поменьше. Знаете, какой у меня код? Правильно - 2631.5. Я экономист по занятости и социально-трудовым вопросам. Найс тыкался в оракле, питончике и писал модельки
А говорили, что экономистом без образования никуда не берут. Обманули, получается?
А кто вы? Делитесь в комментариях, ставьте реакции
P.S: приложил в комментариях инструкцию, где это можно посмотреть
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳20❤5🔥5👍2😁1🤩1
Первый день - получение всех доступов к базам данных, инструментов для активной работы. Сразу же запулили несколько курсов, которые необходимо пройти в течение месяца, иначе отключат VPN или вообще отрубят все сервисы. Мотивация - во!
Когда мне проводили онбординг, показывали то, над чем работали в компании, я сначала думал, что у меня есть какой-то синдром самозванца и я попал сюда случайно. Сел я за первые курсы и мягко говоря был в шоке с того, что для отработки запросов нужно учитывать кучу мелочей, ранее я об этом даже и не задумывался. Кто хоть как-то знаком с компанией OZON и ее стеком знает, что в требованиях обычно указывается Vertica и ClickHouse, тому доказательство рандомная вакансия, которая размещена на их сайте.
Так вот, Vertica - эта такая штука, в которой приходится проводить большую часть времени, разбираться с тем, где что лежит, чтобы в конце концов сформировать витрину, которая далее будет перенаправлена в ClickHouse для формирования дашбордов в Superset. При формировании запроса нужно добиваться оптимального создания таблицы (распределения по кластерам, создание проекций и др.), поскольку в
Окей, нам нужно создать систему отчетности таким образом, чтобы люди пользовались ей регулярно и получали актуальную информацию по расписанию. В этом помогает AirFlow. Очень простой инструмент, но по сути он является ключевым. Прикиньте, я первый раз написал документацию и понимаю то, что так будет намного быстрее как мне разбираться с тем, что я делал, так и людям, которые будут искать похожие проекты, чувствуется профит и полезность
Я сейчас каждый день езжу в офис, знакомлюсь со всеми, в том числе и с заказчиками. Из плюсов, это кофе и вкусняшки на кофепоинтах, фрукты, овощи, ну и конечно же МИЛТИ, как без этого. Также приходится заниматься и другой работой, активно сижу и читаю исследования ребят из других команд, очень круто узнавать что-то новое для себя и в дальнейшем использовать
Поделитесь тем, кто где сейчас работает, с чем вам приходиться сталкиваться, очень интересно будет почитать, что-нибудь обсудить. Пишите, что бы вы хотели еще узнать, возможно, более подробно про задачи и что вообще нужно для того, чтобы комфортно себя чувствовать в команде. А я пойду писать пост про то, зачем вообще нужно отдыхать, какой от этого может быть плюс
Please open Telegram to view this post
VIEW IN TELEGRAM
❤35🔥11🐳10👍4😁3
Друзья, как смотрите на то, чтобы я разбирал зарубежные статьи на том же arxiv.org или Хабр по ML, DS и другим крутым штукам? Ставьте реакции, если вам это интересно 😬
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥121🐳26❤10👍10🤩2🌭2🥰1
Happy birthday to me! 🎁
♟ Изначально я создавал этот канал в сентябре / ноябре 2022 года для себя (может отметим юбилей с момента первого поста 😈 ), своих заметок, но потом это разрослось в нечто такое, которое позволяет объединять людей, обмениваться опытом и разбирать интересные кейсы.
🍆 Благодаря вам было набрано (почти) 2000 подписчиков, то ли еще будет. Спасибо что продолжаете смотреть, несмотря на то, что иногда постов не бывает. Пытаюсь наладить режим и заново сформировать привычку выкладывать регулярно полезные посты, правда 🐰
Спасибо за доверие, фидбек и интересные комментарии, люблю🫶
Спасибо окружению (и pyenv тоже), которое выстраивается вокруг, вы заставляете развиваться и становиться сильней в сфере😐
Кстати, у нас есть чатик, заходите, будет интересно пообщаться!😮
Кто отрикролился?
Спасибо за доверие, фидбек и интересные комментарии, люблю
Спасибо окружению (и pyenv тоже), которое выстраивается вокруг, вы заставляете развиваться и становиться сильней в сфере
Кстати, у нас есть чатик, заходите, будет интересно пообщаться!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥52❤11💘4👍2🎉1
С Днём знаний! Админу скоро в школу 🥰
Делитесь тем, как проводите 1-ое сентября🥰
Делитесь тем, как проводите 1-ое сентября
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24🐳9❤3🤩1🏆1💘1
Forwarded from Блог о Data Science 💻 (𝘿𝙖𝙣𝙞𝙡 𝙆𝙖𝙧𝙩𝙪𝙨𝙝𝙤𝙫)
А вот и осень, первые холода и депрессия
Сегодня закончилось мероприятие AI TALLENT HUB в рамках которого я совместно с @bogdanisssimo, @ai_minds и @AnTkDm делали AI INFLUENCE.
Идея в том, что бы создать инструмент для автоматизации работы с контентом.
Самые популярные каналы ~ обзорные каналы на какие-то новости, инструменты и тд.
Наш проект к сожалению не оценили ребята из ИТМО, меня честно задела фраза мол нет потенциала, АИ не умеет создавать ничего нового.
Вернёмся к каналам, вы, наверное все знаете канал Игоря Котенкова. Вам всем нравится как он обозревает те или иные вещи в сфере АИ. Почему бы не автоматизировать этот процесс. Да он не будет такой же углублённый или мемный. Если вы рисерчер, то вы очевидно следите за Женей из @j_links.
Так почему бы не автоматизировать процесс обработки папир?
Почему бы не автоматизировать новостные дайджесты?
Почему бы не автоматизировать перевод зарубежных подкастов, статей?
Сейчас бот умеет:
- В автономном или полуавтоном режиме писать в канал
- Делать обзор на посты других каналов
- Daily посты на тему X
Если вам стало интересно, что из этого получится подпишитесь на канал @ImNotAuthentic сделаю туда пост о том почему человек, как и GPT не создаёт ничего нового!
Жду от вас реакты тонну🐳
и помните: новое — хорошо забытое старое @notedatasciencechat
Сегодня закончилось мероприятие AI TALLENT HUB в рамках которого я совместно с @bogdanisssimo, @ai_minds и @AnTkDm делали AI INFLUENCE.
Идея в том, что бы создать инструмент для автоматизации работы с контентом.
Самые популярные каналы ~ обзорные каналы на какие-то новости, инструменты и тд.
Наш проект к сожалению не оценили ребята из ИТМО, меня честно задела фраза мол нет потенциала, АИ не умеет создавать ничего нового.
Сразу вспоминается следующее:
- ИИ никогда не сможет написать симфонию
- А вы сможете?
Вернёмся к каналам, вы, наверное все знаете канал Игоря Котенкова. Вам всем нравится как он обозревает те или иные вещи в сфере АИ. Почему бы не автоматизировать этот процесс. Да он не будет такой же углублённый или мемный. Если вы рисерчер, то вы очевидно следите за Женей из @j_links.
Так почему бы не автоматизировать процесс обработки папир?
Почему бы не автоматизировать новостные дайджесты?
Почему бы не автоматизировать перевод зарубежных подкастов, статей?
Сейчас бот умеет:
- В автономном или полуавтоном режиме писать в канал
- Делать обзор на посты других каналов
- Daily посты на тему X
Если вам стало интересно, что из этого получится подпишитесь на канал @ImNotAuthentic сделаю туда пост о том почему человек, как и GPT не создаёт ничего нового!
Жду от вас реакты тонну
и помните: новое — хорошо забытое старое @notedatasciencechat
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳22👍4❤2🔥1
Hadoop - что это за зверь? 😤
Друзья, всем привет, в этом посте хотелось бы разобрать что такое Hadoop и зачем он вообще нужен для аналитики / машинного обучения.
Вообще, хотелось бы начать с того, что это вообще такое. Hadoop - экосистема из нескольких утилит и фреймворков, позволяющая работать с Big Data.
Три концепции Big Data:
💪 Volume - Объем.
🏃♀️ Velocity - Скорость поступления данных.
🏖 Variety - Разнородность данных.
Из чего состоит Hadoop и что лежит в основе?
🗂 HDFS - распределенное хранилище для хранения файлов больших размеров с возможностью потокового доступа к информации. Представьте, что вы перекачиваете данные из одной БД в другую, результаты вычислений хранятся в формате parquet, который, благодаря обработке занимает меньше памяти.
👹 MapReduce - Используется для распределенных задач с использованием нод, которые образуют кластер.
📖 Yarn - система планирования заданий и управления кластером (Yet Another Resource Negotiator), которую также называют MapReduce 2.0 (MRv2).
✨ Spark - фреймворк, который обрабатывает данные в оперативной памяти, используя кэширование (в 100 раз быстрее Hadoop, x10 при вычислении на диске).
🧺 Hive - интерфейс доступа к данным. Он позволяет выполнять запросы, используя SQL синтаксис и обращаться с данными, как с таблицами БД).
💻 А теперь представьте, что вы решаете ML-задачу, где ваша модель обучается на огромном количестве данных (взять любую крупную компанию, которая внедряет ML задачи повсеместно). Это и рекомендательные системы, и скоринг пользователей, и внедрение различных A/B тестов с дальнейшей раскаткой на всех пользователей. Кажется, что ресурсов, предоставляемых различными сервисами по типу AIRFLOW может быть недостаточно при выполнении базовых запросов в SQL и дальнейшей обработкой, например, в pandas 🐼
И представьте, можно выполнять простые SQL запросы с помощью spark.sql()
🤨 Возьмем pandas и Spark.
Spark может решать различные типы задач по обработке данных. Он поддерживает пакетную обработку, обработку в реальном времени и интерактивную обработку больших наборов данных.
Pandas в основном используется для обработки структурированных данных, включая табличные, временные ряды и столбчатые данные.
Более подробно можно почитать тут
🤔 Полезные материалы по Spark можно почитать в следующих статьях
Под капотом Apache Spark лежит несколько концепций, с которыми я предлагаю ознакомиться по ссылочке на Хабре
ML-pipeline и практическое применение Spark с разбором кода на Хабре
Документация по Spark здесь
Классная статья с основными концепциями Hadoop (фото к посту взято оттуда). Хабр линк here
🐘 Ставьте реакции, делитесь тем, приходилось ли вам использовать Hadoop.
Друзья, всем привет, в этом посте хотелось бы разобрать что такое Hadoop и зачем он вообще нужен для аналитики / машинного обучения.
Вообще, хотелось бы начать с того, что это вообще такое. Hadoop - экосистема из нескольких утилит и фреймворков, позволяющая работать с Big Data.
Три концепции Big Data:
Из чего состоит Hadoop и что лежит в основе?
Spark может решать различные типы задач по обработке данных. Он поддерживает пакетную обработку, обработку в реальном времени и интерактивную обработку больших наборов данных.
Pandas в основном используется для обработки структурированных данных, включая табличные, временные ряды и столбчатые данные.
Более подробно можно почитать тут
Под капотом Apache Spark лежит несколько концепций, с которыми я предлагаю ознакомиться по ссылочке на Хабре
ML-pipeline и практическое применение Spark с разбором кода на Хабре
Документация по Spark здесь
Классная статья с основными концепциями Hadoop (фото к посту взято оттуда). Хабр линк here
Please open Telegram to view this post
VIEW IN TELEGRAM
❤35🐳12👍6🔥6
https://t.iss.one/zasql_python?boost истории ннада? 👍
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Заскуль питона (Data Science)
Проголосуйте за канал, чтобы он получил больше возможностей.
👎22🤮6👍3🐳3❤2🥱1🌭1🤨1
Всем привет! Сегодня напишу свое мнение об алгоритмах, постараюсь донести, а нужно это или нет.
Ну или базовый вопрос собеседующего: «А можно проще?»
#алгоритмы
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳18🔥7❤4🤣2🤩1
🆎 CUPED как метод сокращения дисперсии для проведения A/B экспериментов.
🤭 Всем привет! В этом посте хочу рассказать о том что такое CUPED, зачем он нужен?
🤩 CUPED (Controlled-experiment Using Pre-Experiment Data) - один из методов сокращения дисперсии при проведении экспериментов, используемый в индустрии на основе данных предэкспериментального периода. Обычно метрику, которая используется до эксперимента, называется ковариатой.
🔨 Предположим, мы дизайним эксперимент, рассчитываем MDE (Minimum Detectable Effect) и Sample Size (необходимый размер выборки для проведения A/B теста). Рассмотрим стандартную формулу для нахождения MDE подробней:
🕺 Обычно в экспериментах мы можем влиять на размер выборки (по сути длительность эксперимента и количество трафика и дисперсию метрики).
🍴 Отсюда два вопроса:
а) Можем ли мы нагенерить столько трафика, чтобы MDE стало допсутимым при выборе определенной метрики?
б) Можем ли мы что-то сделать с целевой метрикой и соответствующей дисперсией, чтобы сократить MDE?
🍿 А к чему вообще сокращать MDE? Для того чтобы детектировать большее количество прокрашиваемых экспериментов и сокращать время для проведения экспериментов.
Итак, к CUPED. Канонический вид:
😐 Давайте рассмотрим матожидание Ycuped
🤸 Вуаля, оценка получается несмещенной, то есть благодаря поправке на среднее значение ковариаты мы получили такое же матожидание.
😨 А что с дисперсией? Нам ведь нужно понять, как это повлияет на MDE при дизайне эксперимента
🫡 Нам нужно минимизировать дисперсию. Решим относительно параметра theta, можно взять производную, или посмотреть на вершину параболы.
Обратная замена:
🚘 Нашли точку, в которой дисперсия достигает минимума (вершина параболы). Вывели соответствующие значение theta.
😏 Чем больше ковариация, тем больше линейная связь между двумя случайными величинами, поэтому обычно и берут метрики до эксперимента, которые сильно коррелируют друг с другом (эта же метрика в предэкспериментальном периоде).
🫴 На практике выбор сильно коррелированной метрики в предэкспериментальном периоде позволяет сократить дисперсию в несколько раз, что приводит к увеличению чувствительности теста.
😱 НО! есть ограничения, которые также я опишу в следующих постах.
⌨️ А какие способы снижения дисперсии знаете вы? Пишите в комментариях, ставьте реакции. Следующая часть не заставит себя долго ждать 😀
#аб
MDE = (F(1-alpha / 2) + F(1 - beta)) * sqrt(Var(X)) / sqrt(sample_size)
F(1-alpha / 2) - квантильная функция для 1 - ошибки первого рода (двусторонняя гипотеза) aka критическое значение для H0
F(1 - beta) - квантильная функция для мощности
Var(X) - дисперсия метрики
sample_size - размер выборки (обычно рассчитывается на основе трафика, целевых действий)
а) Можем ли мы нагенерить столько трафика, чтобы MDE стало допсутимым при выборе определенной метрики?
б) Можем ли мы что-то сделать с целевой метрикой и соответствующей дисперсией, чтобы сократить MDE?
Итак, к CUPED. Канонический вид:
Ycuped = Y - theta * (X - Xmean)
Ycuped - модифицированная метрика CUPED
theta = некий коэффициент, про который я напишу ниже
X - значение ковариаты в предэкспериментальном периоде
Xmean - среднее значение ковариаты в предэкспериментальном периоде
E(Ycuped) = E(Y) - E(theta * X) + E(theta * Xmean) = E(Y) - theta * E(X) + theta * E(Xmean) = E(Y) - theta * E(X) + theta * E(X) = E(Y)
Проведем замену X - Xmean = k
Var(Ycuped) = Var(Y - theta * (X - Xmean))
Var(Ycuped) = Var(Y - theta * k) = Var(Y) - 2 * cov(Y, theta * k) + Var(theta * k) = Var(Y) - 2 * theta * cov(Y, k) + theta^2 * Var(k) = theta^2 * Var(k) - 2 * theta * cov(Y,K) + Var(Y)
theta (вершина) = - b / 2a = 2 * cov(Y,k) / 2 * Var(K) = cov(Y,k) / Var(k).
Обратная замена:
theta (вершина) = cov(Y, (X - Xmean)) / Var(X - Xmean) = cov(Y, X) / Var(X)
#аб
Please open Telegram to view this post
VIEW IN TELEGRAM
или как научиться понимать свой продукт
Представьте, вы как человек, который связан с бизнес-юнитом компании, решаете протестировать фичу, но у вас нет понимания того, как это может затронуть метрики. В крупных компаниях, обычно, есть стенд метрик, который позволяет отслеживать здоровье компании.
Так вот, иерархия помогает определить взаимосвязи между различными метриками и понять, почему изменилась «North Star».
Почему это необходимо? По моему мнению, это нужно для ускоренного принятия решений и понимания взаимосвязей между компонентами
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15 9🐳6❤3🦄3🌭1
(пока название не придумал).
Какие основные навыки нужны в сфере Data Science?
Одно из ключевых для меня это:
А как вы считаете, что является одним из самых важных навыков, что бы вы выделили для себя? Пишите в комментариях свой ТОП-3, ставьте
Please open Telegram to view this post
VIEW IN TELEGRAM
Заезженная задача, которую регулярно дают на собеседованиях.
Проверьте гипотезу H0: Пауль выбирает победителя футбольного матча случайно. Сделайте вывод.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁26 8🔥3❤2👍2🌭1
🆎 Что такое p-value и почему оно меньше alpha?
🎧 Работая в компании и проводя эксперименты, мы перестаем задумываться о таких вещах и пользуемся этим утверждением (если изменения статзначимы) как данность. В этом посте я расскажу почему это так.
🐶 Обычно трактуют несколько определений.
🔥 Давайте разберём более подробно. Предположим, у нас есть какая-то статистика (фиксируем H0). Это может быть среднее, какое-то число, полученное эмпирическим методом. В целом общем то, что имеем мы СЕЙЧАС.
🍑 Построили распределение статистики до проведения эксперимента. Например, выборочное среднее. Получили нормальное распределение, H0 в этом случае верна. Обычно в индустрии берут уровень значимости равный 0.01, 0.05.
😑 Что это значит для нас? Мы можем задать числом вероятность получить такие же или более экстремальные значения. В этом случае мы фиксируем alpha и можем взять то значение статистики, получая которое в дальнейшем мы отвергаем H0. Без изменений это будет FPR (False Positive Rate). Тут вопрос бизнесу, в каких случаях мы хотим ошибаться. Понятно, что если мы выберем медиану распределения статистику FPR будет 50%, что является недопустимым.
🤗 Получили числено наше критическое значение, относительно которого мы будем считать критическую область (обычно это является излишком, так как мы фиксируем alpha на уровне 0.05, 0.01)
😎 Если мы проводим эксперимент и получаем значение больше нашей отсечки при верной H0, то H0 отвергается.
🙂 Давайте разберемся с p-value.
🚙 Это значит, что мы должны найти значение функции распределения в точке для исходного распределения статистики.
😐 Почему так? Потому что для статистики при верной H0 мы хотим получим вероятность получения таких же или более экстремальных значений статистики.
🕺 p-value < alpha. Эта запись эквивалентна тому, что ФАКТИЧЕСКОЕ значение статистики оказалось БОЛЬШЕ (в нашем случае) КРИТИЧЕСКОГО значения статистики при верной H0.
🍺 Ставьте 🕺 , если пост оказался полезным, делитесь с коллегами, друзьями, а я пойду дальше.
Поддержать канал
p-value – это вероятность получить значение статистики критерия равное наблюдаемому или более нетипичное по сравнению с наблюдаемым при условии, что нулевая гипотеза верна
p-value – это минимальный уровень значимости, на котором нулевая гипотеза может быть отвергнута.
Давайте пока остановимся на односторонней гипотезе stat > val
Точнее, 1 - distr.cdf(stat)
Поддержать канал
Please open Telegram to view this post
VIEW IN TELEGRAM