🆎 MDE и Uplift в A/B тестах
MDE - минимальный детектируемый эффект в A/B тестах. Тот эффект, который мы планируем задетектировать при заданном уровне мощности и ошибке первого рода.
Например, мы рассчитали критическое значение из нулевого распределения статистики (верной H0). Придумали критерий и зафиксировали alpha на уровне 0.05.
1️⃣ Что в данном случае ошибка первого рода?
Это вероятность того, что мы примем альтернативную гипотезу при условии, что нулевая верна. Поэтому заранее всегда и определяют ошибку первого рода.
2️⃣ Что такое ошибка второго рода?
Теперь представьте, что у нас есть альтернативное распределение статистики (H1). Мощность - это вероятность того, что мы отклонили нулевую гипотезу, при условии, что альтернатива верны (TP).
😙 Так вот, MDE говорит следующее. При заданном уровне мощности и ошибки первого рода найди мне МИНИМАЛЬНЫЙ ЭФФЕКТ.
Напоминаю, что формула MDE выглядит так, в предыдущем посте есть:
🐍 Самостоятельно можно запрогать и посмотреть следующим образом:
Как мы видим: минимальное значение статистики при условии, что мощность = 0.8.
😱 А когда мы сравниваем наблюдаемый аплифт с MDE, подставляя фактические значения после теста, мы можем получить, например, мощность, которая оказалась меньше, чем при дизайне
✝️ Означает ли это то, что критерий плох?
Нет, потому что в ситуации получения статзначимых результатов нас волнует только значение p-value при верной H0 (при односторонней гипотезе).
🥂 Дополнительные материалы, которые советую почитать по этой теме:
1. Статья на Хабр. Как же мощно я провел A/B-тест, или почему не стоит сравнивать наблюдаемый аплифт с MDE.
2. Статья на Medium. Когда останавливать A/B-тест? Часть 1: MDE
3. Статья на X engineering. Power, minimal detectable effect, and bucket size estimation in A/B tests
4. Хабр. Шесть причин, почему ваши A/B-тесты не работают
Ставьте🕺 , если пост был интересным, делитесь с друзьями, пишите комментарии
🍔 Если захотите какие-то кастомные реакции, оформление текстов, велком (буст).
Поддержать канал
MDE - минимальный детектируемый эффект в A/B тестах. Тот эффект, который мы планируем задетектировать при заданном уровне мощности и ошибке первого рода.
Например, мы рассчитали критическое значение из нулевого распределения статистики (верной H0). Придумали критерий и зафиксировали alpha на уровне 0.05.
Это вероятность того, что мы примем альтернативную гипотезу при условии, что нулевая верна. Поэтому заранее всегда и определяют ошибку первого рода.
Теперь представьте, что у нас есть альтернативное распределение статистики (H1). Мощность - это вероятность того, что мы отклонили нулевую гипотезу, при условии, что альтернатива верны (TP).
Напоминаю, что формула MDE выглядит так, в предыдущем посте есть:
import numpy as np
from scipy.stats import norm
alpha = 0.05
power = 0.8
std = 20
sample_size = 10000
(norm.ppf(1 - alpha) + norm.ppf(power)) * std / np.sqrt(sample_size)
from scipy.stats import norm
mu_h0 = 100
std = 20
alpha = 0.05
power = 0.8
crit_value = norm(mu_h0, std).ppf(1 - alpha)
diff = np.linspace(0, 100, 10000)
powers = 1 - norm(mu_h0 + diff, std).cdf(crit_value)
mu_h1 = mu_h0 + diff
mu_actual_power = mu_h1[powers >= power].min()
print(mu_actual_power)
print(mu_h0 + (norm.ppf(1 - alpha) + norm.ppf(power)) * std)
Как мы видим: минимальное значение статистики при условии, что мощность = 0.8.
Нет, потому что в ситуации получения статзначимых результатов нас волнует только значение p-value при верной H0 (при односторонней гипотезе).
1. Статья на Хабр. Как же мощно я провел A/B-тест, или почему не стоит сравнивать наблюдаемый аплифт с MDE.
2. Статья на Medium. Когда останавливать A/B-тест? Часть 1: MDE
3. Статья на X engineering. Power, minimal detectable effect, and bucket size estimation in A/B tests
4. Хабр. Шесть причин, почему ваши A/B-тесты не работают
Ставьте
Поддержать канал
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Заскуль питона (Data Science)
🆎 CUPED как метод сокращения дисперсии для проведения A/B экспериментов.
🤭 Всем привет! В этом посте хочу рассказать о том что такое CUPED, зачем он нужен?
🤩 CUPED (Controlled-experiment Using Pre-Experiment Data) - один из методов сокращения дисперсии…
🤭 Всем привет! В этом посте хочу рассказать о том что такое CUPED, зачем он нужен?
🤩 CUPED (Controlled-experiment Using Pre-Experiment Data) - один из методов сокращения дисперсии…
Please open Telegram to view this post
VIEW IN TELEGRAM
❤17 13🔥6🌭2
Предположим, у нас есть две метрики. Количество людей по дням, кто купил мороженое и количество купленных солнцезащитных очков. Это не означает, что солнцезащитные очки покупают, потому что покупают мороженое
Температура. Из-за повышения температуры люди чаще покупают мороженое. Как правило, повышение температуры свидетельствует о частом появлении солнца. Тем самым, количество продаж солнцезащитных очков увеличивается.
Если вкратце, то задача трактуется следующим образом. Предположим, у нас в комнате сидит 23 человека. Какова вероятность того, что хотя бы у одной пары будет день рождения в один день? Ошибочно, мы считаем, что 23 / 365, на самом деле ~ 50%. В общем случае, это не парадокс, а то, что мы изначально думаем о другом.
А какие вы еще знаете парадоксы, с какими сталкивались? Пишите комментарии, ставьте
Поддержать канал
Please open Telegram to view this post
VIEW IN TELEGRAM
Наткнулся на митап от EXPF, который я пропустил
🔄 Здесь рассматривается то, как наладить процесс A/B тестов, как вообще выглядит весь жизненный цикл.
☝️ Как проверить валидность A/B тестов? Предположим, что мы наблюдаем Sample Ratio Mismatch. Можем ли мы доверять A/B после проведения?
📊 Как подобрать прокси-метрику? Если вкратце, наша метрика должна обладать двумя свойствами: Сонаправленность с таргетом и повышенная чувствительность
👍 Сбор качественных данных для A/B тестирования. Тут про Data Quality, как команда проверяет данные + даны некоторые рекомендации по сбору и обработке данных.
Ставьте🕺 если пост оказался полезным, пишите комментарии.
Поддержать канал
Ставьте
Поддержать канал
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁23 10🐳2
Всем привет! В этом посте затронем бутстрап, рассмотрим основные аспекты и ограничения.
Стандартный алгоритм выглядит следующим образом:
То, что мы можем оценивать доверительные интервалы для статистик (обычно в индустрии используют разницу между двумя статистиками), использовать более сложные метрики для анализа (например, Ratio-метрики), рассчитать p-value и сделать какие-то выводы.
К ограничениям я бы отнес следующее:
https://habr.com/ru/amp/publications/679842/
https://habr.com/ru/amp/publications/762648/
UPD. Предпосылка бутстрапа:
Разница между статистикой, вычисленной по случайной выборке, и статистикой, вычисленной по генеральной совокупности, должна аппроксимироваться разницей между статистикой, вычисленной по случайной выборке, и статистикой, вычисленной по выборке с возвращением из этой случайной выборки
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22 11❤8👍1
CUPED с несколькими ковариатами
🏆 В оригинальной статье CUPED говорится о том, что возможно использование нескольких ковариат на предэкспериментальном периоде.
Для понимания того, что здесь происходит, советую ознакомиться с предыдущим постом
🔍 Для поиска коэффициента theta в оригинальной интерпретации используется метод наименьших квадратов (МНК) для линейной регрессии со свободным коэффициентом и одним регрессором (нашей ковариатой).
Наткнулся на статью, в которой один phd показывает, что возможно использовать несколько ковариат и указывает на основные моменты. Статья называется CUPED with Multiple Covariates and A Simpler the Delta Method Calculation. Недавно узнал, что с этим работают в Booking, но статьи не нашёл)
❔ Если здесь сидят ребята, которые занимаются продвинутыми методами A/B тестирования, скажите, вы использовали это раньше или нет? Как по мне, рабочий вариант, но ковариаты нужно подбирать таким образом, чтобы не было основной метрики в предэкспериментальном периоде, как мне кажется, поскольку возникнет мультиколлинеарность.
Пока не тестил, как это может снизить метрику, но в статье с CUPED with Multiple Covariates... есть пример с генерацией вектора theta для каждой из метрик, можно покрутить.
Если вы хотите бустануть канал, видеть истории с полезными материалами или просто кастомные реакции, делайте тык.
Для понимания того, что здесь происходит, советую ознакомиться с предыдущим постом
Наткнулся на статью, в которой один phd показывает, что возможно использовать несколько ковариат и указывает на основные моменты. Статья называется CUPED with Multiple Covariates and A Simpler the Delta Method Calculation. Недавно узнал, что с этим работают в Booking, но статьи не нашёл)
Пока не тестил, как это может снизить метрику, но в статье с CUPED with Multiple Covariates... есть пример с генерацией вектора theta для каждой из метрик, можно покрутить.
Если вы хотите бустануть канал, видеть истории с полезными материалами или просто кастомные реакции, делайте тык.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Propensity Score. Как оценить эффект без стандартных A/B тестов.
Доклад от😀 , в котором говорится о том, как правильно измерять эффект при условии того, что мы раскатили фичу на всех (есть ограничения на проведения A/B теста)
❓ Здесь освещаются основные моменты, связанные с Look-a-like, diff-n-diff, IPTW, как бороться со смещениями при оценке эффекта и др.
👍 Советую к просмотру, достаточно годно.
📚 Короткая статья на Хабре от Лида промо Сбермаркета про Propensity Score Matching
🕺 Если на посте наберется N реакций, постараюсь написать более подробно про это
Доклад от
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁25 12😭3🤡1🤝1
Ура! Мы сделали это. Спасибо, что продолжаете активно следить за каналом. Всех люблю
Возможно разбор заданий, материалы, которые я читаю, либо что-то для вката в IT. Очень интересен ваш фидбек!
Please open Telegram to view this post
VIEW IN TELEGRAM
такс, поступило предложение разбирать задачи с собесов, если наберется 100 (150?) реакций, будем качать эту тему 😁
Зовите друзей! Добьем😑
Зовите друзей! Добьем
Please open Telegram to view this post
VIEW IN TELEGRAM
❤141🔥32 24👍9
Заскуль питона (Data Science)
такс, поступило предложение разбирать задачи с собесов, если наберется 100 (150?) реакций, будем качать эту тему 😁 Зовите друзей! Добьем 😑
или все-таки роадмап с нуля… Тоже накиньте реакций, если интересно 🙏
Please open Telegram to view this post
VIEW IN TELEGRAM
❤112🔥29 24🙏7
Заскуль питона (Data Science)
такс, поступило предложение разбирать задачи с собесов, если наберется 100 (150?) реакций, будем качать эту тему 😁 Зовите друзей! Добьем 😑
Начнем с достаточно распространенной задачи. Представьте, что у вас есть игровой автомат, он выдает значение X и равномерного распределения [0, 1]. Игрок может забрать выигрыш после первого нажатия в качестве выигрыша, либо еще раз сыграть и забрать выигрыш последней попытки. Как нужно действовать игроку? Какое матожидание данной стратегии? Вариаций у задачи много, но в классической вариации она выглядит именно так.
Пишите, в комментариях рассуждения. Разбор будет через какой-то промежуток времени, пока не решил как выкладывать.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🌭1
Если вы продакт-менеджеры и ДЕ и другие… пишите тут. Посчитаем вас также, а то обделили 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
😁11❤1
Также вдруг, если есть желание, можете вступить в чатик, он же не просто так существует для комментов https://t.iss.one/my_it_frogs
Please open Telegram to view this post
VIEW IN TELEGRAM
У академии аналитиков Авито есть в открытом доступе свой курс по прикладной статистике. Сам курс проходил, могу сказать, что для A/B тестов самое то, но нужно знать первый курс статистики про распределения, ЦПТ, ЗБЧ и проверку гипотез из статистики. Помимо этого, есть Python, на котором показывают как всё это применять на практике (про A/A тесты на исторических данных тоже было). Годная штука, которая позволяет наглядно показать как работают статкритерии и прочее.
Если проходили или слышали, отпишите. Ставьте реакции, если сделать подобную подборку хороший материалов.
UPD: осенью будет вторая часть по продвинутым методам, но могу уже на канале дать подспорье для успешного прохождения
Если проходили или слышали, отпишите. Ставьте реакции, если сделать подобную подборку хороший материалов.
UPD: осенью будет вторая часть по продвинутым методам, но могу уже на канале дать подспорье для успешного прохождения
🔥50 12❤8👍3
Как бы я сейчас построил свое обучение в продуктовой аналитике / аналитике данных?
👁 Если вы ждали этот пост, ставьте реакции, пишите комментарии. В следующем посте расскажу о своих планах на ближайший год
Всем привет! Сегодня напишу о том, что бы я изменил в своем обучении, если я бы вкатывался сейчас. Давайте перейдем к самому простому, как мне кажется, это стек. Базово на аналитика данных / аналитика предлагается следующее:
🐍 Python - для обработки данных, ETL-процессов, первичной визуализации, построения ML моделей, работа с тем же Spark / Hadoop для работы с большим объемом данных.
💻 SQL - работа с СУБД, по сути данные это наш хлеб. Любые логи, записи по пользователям / клиентам, различные фичи пользователей. По моему мнению, аналитик ОБЯЗАН уметь работать с SQL, без этого никуда. Поскольку первично если собирается неправильно получится следующее: garbage in garbage out
📊 Визуализация - бизнесу нужно интерпретировать данные в удобном формате, для этого используют дашборды. Это понятно + на основе них аналитик может понимать в удобном формате как можно генерить гипотезы. Для этого подойдут Superset, Yandex DataLens, Tableu, PowerBI, FineBI и др.
Что ж, с этим разобрались, базово это выглядит так, но если углубляться в мой стек, который я использовал в💙 - это Gitlab, Hadoop, Airflow, SQL (ClickHouse, Vertica, MS SQL, PostgreSQL), Python, Superset.
Далее, все зависит от специфики. Если для вас достаточно быть ETL-разработчиком, можно остановиться на этом, владея базовым видением, но можно пойти дальше в сторону изучения продукта, различных тенденций и что самое главное понимания как ответить на главные вопросы бизнесу. Что мы делаем? Зачем мы это делаем? Как в будущем это отразиться на нас?
Сюда наслаивается и развитие продуктового мышления, и статистика с эконометрикой и ML, и A/B тесты, различные продвинутые методы и др.
К роадмапу (помните, что🗯 ваш друг):
0. SQL - лучший бесплатный курс по SQL ever от🔥 . Если пользователь ClickHouse, можно документацию на русском глянуть, достаточно хорошо описано. Если пользователь Vertica 😬 , то можно также документацию на английском
1. Про Python у меня был пост, можно глянуть тут
2. По визуализации можно зайти в соответствующие чаты и читать документацию. По Superset документация и соответствующий чат в телеграме. По Yandex DataLens есть курс от❤️
3. Статистика и теория вероятностей. У ФЭН ВШЭ есть хороший курс с систематизацией того, как выводятся методы, которые мы привыкли видеть. Систематизация на уровне дисциплины без упрощения. Если вдруг оказалось сложным и непонятным, можно ВЕРХНЕУРОВНЕВО вернуться к любимому Анатолию Карпову и основам статистики на степике
4. Прикладная статистика, эконометрика, уход в АБ тесты и продвинутые методы. С курсом от ВШЭ (там кстати есть Python в блоке статистики) очень хорошо сочетаются следующие курсы: Прикладная статистика от МФТИ и ААА в открытом доступе (предыдущий пост). И также курс по эконометрике от ВШЭ от Бориса Демешева на R
4* Если вдруг предыдущий пункт оказывается непосильным, подрубаем ChatGPT, ведем конспектики и смотрим Глеба Михайлова с его практическим руководством к АБ + подкрепляем статьями на Хабр. Могу отдельным постом выложить какие статьи я читаю, для чего и т.д., как систематизирую знания.
4.1. Продвинутые методы A/B тестирования. Предыдущие посты были про любимый CUPED. Сюда наслаиваются еще и дельта-методы, стратификации, линеаризации, SPRT, VWE и др. Про это также будет отдельный пост.
5. Продуктовое мышление. Для прокачки этого можно посмотреть различные мок-интервью, чего очень много. Авито, видео. Продуктовые кейсы на собеседовании, иерархии метрик и так далее. Есть над чем подумать. Еще сюда
6. Работа с большими данными. Если вы дойдете до этого, то советую ознакомиться с документацией Spark, в частности работа с Pyspark (плейлист на YouTube) основы работы с Hadoop. Здесь вы поймете какие есть ограничения при работе, будете работать над ускорением расчетов, оптимизацией и другое.
Всем привет! Сегодня напишу о том, что бы я изменил в своем обучении, если я бы вкатывался сейчас. Давайте перейдем к самому простому, как мне кажется, это стек. Базово на аналитика данных / аналитика предлагается следующее:
Что ж, с этим разобрались, базово это выглядит так, но если углубляться в мой стек, который я использовал в
Далее, все зависит от специфики. Если для вас достаточно быть ETL-разработчиком, можно остановиться на этом, владея базовым видением, но можно пойти дальше в сторону изучения продукта, различных тенденций и что самое главное понимания как ответить на главные вопросы бизнесу. Что мы делаем? Зачем мы это делаем? Как в будущем это отразиться на нас?
Сюда наслаивается и развитие продуктового мышления, и статистика с эконометрикой и ML, и A/B тесты, различные продвинутые методы и др.
К роадмапу (помните, что
0. SQL - лучший бесплатный курс по SQL ever от
1. Про Python у меня был пост, можно глянуть тут
2. По визуализации можно зайти в соответствующие чаты и читать документацию. По Superset документация и соответствующий чат в телеграме. По Yandex DataLens есть курс от
3. Статистика и теория вероятностей. У ФЭН ВШЭ есть хороший курс с систематизацией того, как выводятся методы, которые мы привыкли видеть. Систематизация на уровне дисциплины без упрощения. Если вдруг оказалось сложным и непонятным, можно ВЕРХНЕУРОВНЕВО вернуться к любимому Анатолию Карпову и основам статистики на степике
4. Прикладная статистика, эконометрика, уход в АБ тесты и продвинутые методы. С курсом от ВШЭ (там кстати есть Python в блоке статистики) очень хорошо сочетаются следующие курсы: Прикладная статистика от МФТИ и ААА в открытом доступе (предыдущий пост). И также курс по эконометрике от ВШЭ от Бориса Демешева на R
4* Если вдруг предыдущий пункт оказывается непосильным, подрубаем ChatGPT, ведем конспектики и смотрим Глеба Михайлова с его практическим руководством к АБ + подкрепляем статьями на Хабр. Могу отдельным постом выложить какие статьи я читаю, для чего и т.д., как систематизирую знания.
4.1. Продвинутые методы A/B тестирования. Предыдущие посты были про любимый CUPED. Сюда наслаиваются еще и дельта-методы, стратификации, линеаризации, SPRT, VWE и др. Про это также будет отдельный пост.
5. Продуктовое мышление. Для прокачки этого можно посмотреть различные мок-интервью, чего очень много. Авито, видео. Продуктовые кейсы на собеседовании, иерархии метрик и так далее. Есть над чем подумать. Еще сюда
6. Работа с большими данными. Если вы дойдете до этого, то советую ознакомиться с документацией Spark, в частности работа с Pyspark (плейлист на YouTube) основы работы с Hadoop. Здесь вы поймете какие есть ограничения при работе, будете работать над ускорением расчетов, оптимизацией и другое.
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤90🔥42 20👍15🤯2😢2🍾2🦄2👾2🆒1
7. Основы ML. Что ж, дошли до этого этапа, значит есть потенциал, идем смотреть лекции Жени Соколова от ВШЭ и кайфуем от жизни. Достаточно все классно объяснено + подкреплено соответствующей практикой.
Если есть чего добавить или изменить пишите в комментариях. 120+ реакций и я рассказываю о дальнейших планах не в💙 . Упс, спойлеры подъехали!
UPD: Ещё по АБ тестированию есть очень крутой курс от я практикума.
https://practicum.yandex.ru/statistics-basic/
Если есть чего добавить или изменить пишите в комментариях. 120+ реакций и я рассказываю о дальнейших планах не в
UPD: Ещё по АБ тестированию есть очень крутой курс от я практикума.
https://practicum.yandex.ru/statistics-basic/
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥75❤15 11👍3👾2🆒1🦄1