Please open Telegram to view this post
VIEW IN TELEGRAM
😁23 10🐳2
Всем привет! В этом посте затронем бутстрап, рассмотрим основные аспекты и ограничения.
Стандартный алгоритм выглядит следующим образом:
То, что мы можем оценивать доверительные интервалы для статистик (обычно в индустрии используют разницу между двумя статистиками), использовать более сложные метрики для анализа (например, Ratio-метрики), рассчитать p-value и сделать какие-то выводы.
К ограничениям я бы отнес следующее:
https://habr.com/ru/amp/publications/679842/
https://habr.com/ru/amp/publications/762648/
UPD. Предпосылка бутстрапа:
Разница между статистикой, вычисленной по случайной выборке, и статистикой, вычисленной по генеральной совокупности, должна аппроксимироваться разницей между статистикой, вычисленной по случайной выборке, и статистикой, вычисленной по выборке с возвращением из этой случайной выборки
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22 11❤8👍1
CUPED с несколькими ковариатами
🏆 В оригинальной статье CUPED говорится о том, что возможно использование нескольких ковариат на предэкспериментальном периоде.
Для понимания того, что здесь происходит, советую ознакомиться с предыдущим постом
🔍 Для поиска коэффициента theta в оригинальной интерпретации используется метод наименьших квадратов (МНК) для линейной регрессии со свободным коэффициентом и одним регрессором (нашей ковариатой).
Наткнулся на статью, в которой один phd показывает, что возможно использовать несколько ковариат и указывает на основные моменты. Статья называется CUPED with Multiple Covariates and A Simpler the Delta Method Calculation. Недавно узнал, что с этим работают в Booking, но статьи не нашёл)
❔ Если здесь сидят ребята, которые занимаются продвинутыми методами A/B тестирования, скажите, вы использовали это раньше или нет? Как по мне, рабочий вариант, но ковариаты нужно подбирать таким образом, чтобы не было основной метрики в предэкспериментальном периоде, как мне кажется, поскольку возникнет мультиколлинеарность.
Пока не тестил, как это может снизить метрику, но в статье с CUPED with Multiple Covariates... есть пример с генерацией вектора theta для каждой из метрик, можно покрутить.
Если вы хотите бустануть канал, видеть истории с полезными материалами или просто кастомные реакции, делайте тык.
Для понимания того, что здесь происходит, советую ознакомиться с предыдущим постом
Наткнулся на статью, в которой один phd показывает, что возможно использовать несколько ковариат и указывает на основные моменты. Статья называется CUPED with Multiple Covariates and A Simpler the Delta Method Calculation. Недавно узнал, что с этим работают в Booking, но статьи не нашёл)
Пока не тестил, как это может снизить метрику, но в статье с CUPED with Multiple Covariates... есть пример с генерацией вектора theta для каждой из метрик, можно покрутить.
Если вы хотите бустануть канал, видеть истории с полезными материалами или просто кастомные реакции, делайте тык.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Propensity Score. Как оценить эффект без стандартных A/B тестов.
Доклад от😀 , в котором говорится о том, как правильно измерять эффект при условии того, что мы раскатили фичу на всех (есть ограничения на проведения A/B теста)
❓ Здесь освещаются основные моменты, связанные с Look-a-like, diff-n-diff, IPTW, как бороться со смещениями при оценке эффекта и др.
👍 Советую к просмотру, достаточно годно.
📚 Короткая статья на Хабре от Лида промо Сбермаркета про Propensity Score Matching
🕺 Если на посте наберется N реакций, постараюсь написать более подробно про это
Доклад от
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁25 12😭3🤡1🤝1
Ура! Мы сделали это. Спасибо, что продолжаете активно следить за каналом. Всех люблю
Возможно разбор заданий, материалы, которые я читаю, либо что-то для вката в IT. Очень интересен ваш фидбек!
Please open Telegram to view this post
VIEW IN TELEGRAM
такс, поступило предложение разбирать задачи с собесов, если наберется 100 (150?) реакций, будем качать эту тему 😁
Зовите друзей! Добьем😑
Зовите друзей! Добьем
Please open Telegram to view this post
VIEW IN TELEGRAM
❤141🔥32 24👍9
Заскуль питона (Data Science)
такс, поступило предложение разбирать задачи с собесов, если наберется 100 (150?) реакций, будем качать эту тему 😁 Зовите друзей! Добьем 😑
или все-таки роадмап с нуля… Тоже накиньте реакций, если интересно 🙏
Please open Telegram to view this post
VIEW IN TELEGRAM
❤112🔥29 24🙏7
Заскуль питона (Data Science)
такс, поступило предложение разбирать задачи с собесов, если наберется 100 (150?) реакций, будем качать эту тему 😁 Зовите друзей! Добьем 😑
Начнем с достаточно распространенной задачи. Представьте, что у вас есть игровой автомат, он выдает значение X и равномерного распределения [0, 1]. Игрок может забрать выигрыш после первого нажатия в качестве выигрыша, либо еще раз сыграть и забрать выигрыш последней попытки. Как нужно действовать игроку? Какое матожидание данной стратегии? Вариаций у задачи много, но в классической вариации она выглядит именно так.
Пишите, в комментариях рассуждения. Разбор будет через какой-то промежуток времени, пока не решил как выкладывать.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🌭1
Если вы продакт-менеджеры и ДЕ и другие… пишите тут. Посчитаем вас также, а то обделили 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
😁11❤1
Также вдруг, если есть желание, можете вступить в чатик, он же не просто так существует для комментов https://t.iss.one/my_it_frogs
Please open Telegram to view this post
VIEW IN TELEGRAM
У академии аналитиков Авито есть в открытом доступе свой курс по прикладной статистике. Сам курс проходил, могу сказать, что для A/B тестов самое то, но нужно знать первый курс статистики про распределения, ЦПТ, ЗБЧ и проверку гипотез из статистики. Помимо этого, есть Python, на котором показывают как всё это применять на практике (про A/A тесты на исторических данных тоже было). Годная штука, которая позволяет наглядно показать как работают статкритерии и прочее.
Если проходили или слышали, отпишите. Ставьте реакции, если сделать подобную подборку хороший материалов.
UPD: осенью будет вторая часть по продвинутым методам, но могу уже на канале дать подспорье для успешного прохождения
Если проходили или слышали, отпишите. Ставьте реакции, если сделать подобную подборку хороший материалов.
UPD: осенью будет вторая часть по продвинутым методам, но могу уже на канале дать подспорье для успешного прохождения
🔥50 12❤8👍3
Как бы я сейчас построил свое обучение в продуктовой аналитике / аналитике данных?
👁 Если вы ждали этот пост, ставьте реакции, пишите комментарии. В следующем посте расскажу о своих планах на ближайший год
Всем привет! Сегодня напишу о том, что бы я изменил в своем обучении, если я бы вкатывался сейчас. Давайте перейдем к самому простому, как мне кажется, это стек. Базово на аналитика данных / аналитика предлагается следующее:
🐍 Python - для обработки данных, ETL-процессов, первичной визуализации, построения ML моделей, работа с тем же Spark / Hadoop для работы с большим объемом данных.
💻 SQL - работа с СУБД, по сути данные это наш хлеб. Любые логи, записи по пользователям / клиентам, различные фичи пользователей. По моему мнению, аналитик ОБЯЗАН уметь работать с SQL, без этого никуда. Поскольку первично если собирается неправильно получится следующее: garbage in garbage out
📊 Визуализация - бизнесу нужно интерпретировать данные в удобном формате, для этого используют дашборды. Это понятно + на основе них аналитик может понимать в удобном формате как можно генерить гипотезы. Для этого подойдут Superset, Yandex DataLens, Tableu, PowerBI, FineBI и др.
Что ж, с этим разобрались, базово это выглядит так, но если углубляться в мой стек, который я использовал в💙 - это Gitlab, Hadoop, Airflow, SQL (ClickHouse, Vertica, MS SQL, PostgreSQL), Python, Superset.
Далее, все зависит от специфики. Если для вас достаточно быть ETL-разработчиком, можно остановиться на этом, владея базовым видением, но можно пойти дальше в сторону изучения продукта, различных тенденций и что самое главное понимания как ответить на главные вопросы бизнесу. Что мы делаем? Зачем мы это делаем? Как в будущем это отразиться на нас?
Сюда наслаивается и развитие продуктового мышления, и статистика с эконометрикой и ML, и A/B тесты, различные продвинутые методы и др.
К роадмапу (помните, что🗯 ваш друг):
0. SQL - лучший бесплатный курс по SQL ever от🔥 . Если пользователь ClickHouse, можно документацию на русском глянуть, достаточно хорошо описано. Если пользователь Vertica 😬 , то можно также документацию на английском
1. Про Python у меня был пост, можно глянуть тут
2. По визуализации можно зайти в соответствующие чаты и читать документацию. По Superset документация и соответствующий чат в телеграме. По Yandex DataLens есть курс от❤️
3. Статистика и теория вероятностей. У ФЭН ВШЭ есть хороший курс с систематизацией того, как выводятся методы, которые мы привыкли видеть. Систематизация на уровне дисциплины без упрощения. Если вдруг оказалось сложным и непонятным, можно ВЕРХНЕУРОВНЕВО вернуться к любимому Анатолию Карпову и основам статистики на степике
4. Прикладная статистика, эконометрика, уход в АБ тесты и продвинутые методы. С курсом от ВШЭ (там кстати есть Python в блоке статистики) очень хорошо сочетаются следующие курсы: Прикладная статистика от МФТИ и ААА в открытом доступе (предыдущий пост). И также курс по эконометрике от ВШЭ от Бориса Демешева на R
4* Если вдруг предыдущий пункт оказывается непосильным, подрубаем ChatGPT, ведем конспектики и смотрим Глеба Михайлова с его практическим руководством к АБ + подкрепляем статьями на Хабр. Могу отдельным постом выложить какие статьи я читаю, для чего и т.д., как систематизирую знания.
4.1. Продвинутые методы A/B тестирования. Предыдущие посты были про любимый CUPED. Сюда наслаиваются еще и дельта-методы, стратификации, линеаризации, SPRT, VWE и др. Про это также будет отдельный пост.
5. Продуктовое мышление. Для прокачки этого можно посмотреть различные мок-интервью, чего очень много. Авито, видео. Продуктовые кейсы на собеседовании, иерархии метрик и так далее. Есть над чем подумать. Еще сюда
6. Работа с большими данными. Если вы дойдете до этого, то советую ознакомиться с документацией Spark, в частности работа с Pyspark (плейлист на YouTube) основы работы с Hadoop. Здесь вы поймете какие есть ограничения при работе, будете работать над ускорением расчетов, оптимизацией и другое.
Всем привет! Сегодня напишу о том, что бы я изменил в своем обучении, если я бы вкатывался сейчас. Давайте перейдем к самому простому, как мне кажется, это стек. Базово на аналитика данных / аналитика предлагается следующее:
Что ж, с этим разобрались, базово это выглядит так, но если углубляться в мой стек, который я использовал в
Далее, все зависит от специфики. Если для вас достаточно быть ETL-разработчиком, можно остановиться на этом, владея базовым видением, но можно пойти дальше в сторону изучения продукта, различных тенденций и что самое главное понимания как ответить на главные вопросы бизнесу. Что мы делаем? Зачем мы это делаем? Как в будущем это отразиться на нас?
Сюда наслаивается и развитие продуктового мышления, и статистика с эконометрикой и ML, и A/B тесты, различные продвинутые методы и др.
К роадмапу (помните, что
0. SQL - лучший бесплатный курс по SQL ever от
1. Про Python у меня был пост, можно глянуть тут
2. По визуализации можно зайти в соответствующие чаты и читать документацию. По Superset документация и соответствующий чат в телеграме. По Yandex DataLens есть курс от
3. Статистика и теория вероятностей. У ФЭН ВШЭ есть хороший курс с систематизацией того, как выводятся методы, которые мы привыкли видеть. Систематизация на уровне дисциплины без упрощения. Если вдруг оказалось сложным и непонятным, можно ВЕРХНЕУРОВНЕВО вернуться к любимому Анатолию Карпову и основам статистики на степике
4. Прикладная статистика, эконометрика, уход в АБ тесты и продвинутые методы. С курсом от ВШЭ (там кстати есть Python в блоке статистики) очень хорошо сочетаются следующие курсы: Прикладная статистика от МФТИ и ААА в открытом доступе (предыдущий пост). И также курс по эконометрике от ВШЭ от Бориса Демешева на R
4* Если вдруг предыдущий пункт оказывается непосильным, подрубаем ChatGPT, ведем конспектики и смотрим Глеба Михайлова с его практическим руководством к АБ + подкрепляем статьями на Хабр. Могу отдельным постом выложить какие статьи я читаю, для чего и т.д., как систематизирую знания.
4.1. Продвинутые методы A/B тестирования. Предыдущие посты были про любимый CUPED. Сюда наслаиваются еще и дельта-методы, стратификации, линеаризации, SPRT, VWE и др. Про это также будет отдельный пост.
5. Продуктовое мышление. Для прокачки этого можно посмотреть различные мок-интервью, чего очень много. Авито, видео. Продуктовые кейсы на собеседовании, иерархии метрик и так далее. Есть над чем подумать. Еще сюда
6. Работа с большими данными. Если вы дойдете до этого, то советую ознакомиться с документацией Spark, в частности работа с Pyspark (плейлист на YouTube) основы работы с Hadoop. Здесь вы поймете какие есть ограничения при работе, будете работать над ускорением расчетов, оптимизацией и другое.
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤90🔥42 20👍15🤯2😢2🍾2🦄2👾2🆒1
7. Основы ML. Что ж, дошли до этого этапа, значит есть потенциал, идем смотреть лекции Жени Соколова от ВШЭ и кайфуем от жизни. Достаточно все классно объяснено + подкреплено соответствующей практикой.
Если есть чего добавить или изменить пишите в комментариях. 120+ реакций и я рассказываю о дальнейших планах не в💙 . Упс, спойлеры подъехали!
UPD: Ещё по АБ тестированию есть очень крутой курс от я практикума.
https://practicum.yandex.ru/statistics-basic/
Если есть чего добавить или изменить пишите в комментариях. 120+ реакций и я рассказываю о дальнейших планах не в
UPD: Ещё по АБ тестированию есть очень крутой курс от я практикума.
https://practicum.yandex.ru/statistics-basic/
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥75❤15 11👍3👾2🆒1🦄1
Ладно, так уж и быть, можно сюда реакций тоже дать, если действительно хотите знать, куда я ухожу из 💙
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥94 35❤14👀4👍1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁14 8👍4🔥1😢1
Заскуль питона (Data Science) pinned «Ладно, так уж и быть, можно сюда реакций тоже дать, если действительно хотите знать, куда я ухожу из 💙 »
Please open Telegram to view this post
VIEW IN TELEGRAM