Please open Telegram to view this post
VIEW IN TELEGRAM
😭15 9😁4👾2❤1👍1🌭1
🆎 MDE и Uplift в A/B тестах
MDE - минимальный детектируемый эффект в A/B тестах. Тот эффект, который мы планируем задетектировать при заданном уровне мощности и ошибке первого рода.
Например, мы рассчитали критическое значение из нулевого распределения статистики (верной H0). Придумали критерий и зафиксировали alpha на уровне 0.05.
1️⃣ Что в данном случае ошибка первого рода?
Это вероятность того, что мы примем альтернативную гипотезу при условии, что нулевая верна. Поэтому заранее всегда и определяют ошибку первого рода.
2️⃣ Что такое ошибка второго рода?
Теперь представьте, что у нас есть альтернативное распределение статистики (H1). Мощность - это вероятность того, что мы отклонили нулевую гипотезу, при условии, что альтернатива верны (TP).
😙 Так вот, MDE говорит следующее. При заданном уровне мощности и ошибки первого рода найди мне МИНИМАЛЬНЫЙ ЭФФЕКТ.
Напоминаю, что формула MDE выглядит так, в предыдущем посте есть:
🐍 Самостоятельно можно запрогать и посмотреть следующим образом:
Как мы видим: минимальное значение статистики при условии, что мощность = 0.8.
😱 А когда мы сравниваем наблюдаемый аплифт с MDE, подставляя фактические значения после теста, мы можем получить, например, мощность, которая оказалась меньше, чем при дизайне
✝️ Означает ли это то, что критерий плох?
Нет, потому что в ситуации получения статзначимых результатов нас волнует только значение p-value при верной H0 (при односторонней гипотезе).
🥂 Дополнительные материалы, которые советую почитать по этой теме:
1. Статья на Хабр. Как же мощно я провел A/B-тест, или почему не стоит сравнивать наблюдаемый аплифт с MDE.
2. Статья на Medium. Когда останавливать A/B-тест? Часть 1: MDE
3. Статья на X engineering. Power, minimal detectable effect, and bucket size estimation in A/B tests
4. Хабр. Шесть причин, почему ваши A/B-тесты не работают
Ставьте🕺 , если пост был интересным, делитесь с друзьями, пишите комментарии
🍔 Если захотите какие-то кастомные реакции, оформление текстов, велком (буст).
Поддержать канал
MDE - минимальный детектируемый эффект в A/B тестах. Тот эффект, который мы планируем задетектировать при заданном уровне мощности и ошибке первого рода.
Например, мы рассчитали критическое значение из нулевого распределения статистики (верной H0). Придумали критерий и зафиксировали alpha на уровне 0.05.
Это вероятность того, что мы примем альтернативную гипотезу при условии, что нулевая верна. Поэтому заранее всегда и определяют ошибку первого рода.
Теперь представьте, что у нас есть альтернативное распределение статистики (H1). Мощность - это вероятность того, что мы отклонили нулевую гипотезу, при условии, что альтернатива верны (TP).
Напоминаю, что формула MDE выглядит так, в предыдущем посте есть:
import numpy as np
from scipy.stats import norm
alpha = 0.05
power = 0.8
std = 20
sample_size = 10000
(norm.ppf(1 - alpha) + norm.ppf(power)) * std / np.sqrt(sample_size)
from scipy.stats import norm
mu_h0 = 100
std = 20
alpha = 0.05
power = 0.8
crit_value = norm(mu_h0, std).ppf(1 - alpha)
diff = np.linspace(0, 100, 10000)
powers = 1 - norm(mu_h0 + diff, std).cdf(crit_value)
mu_h1 = mu_h0 + diff
mu_actual_power = mu_h1[powers >= power].min()
print(mu_actual_power)
print(mu_h0 + (norm.ppf(1 - alpha) + norm.ppf(power)) * std)
Как мы видим: минимальное значение статистики при условии, что мощность = 0.8.
Нет, потому что в ситуации получения статзначимых результатов нас волнует только значение p-value при верной H0 (при односторонней гипотезе).
1. Статья на Хабр. Как же мощно я провел A/B-тест, или почему не стоит сравнивать наблюдаемый аплифт с MDE.
2. Статья на Medium. Когда останавливать A/B-тест? Часть 1: MDE
3. Статья на X engineering. Power, minimal detectable effect, and bucket size estimation in A/B tests
4. Хабр. Шесть причин, почему ваши A/B-тесты не работают
Ставьте
Поддержать канал
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Заскуль питона (Data Science)
🆎 CUPED как метод сокращения дисперсии для проведения A/B экспериментов.
🤭 Всем привет! В этом посте хочу рассказать о том что такое CUPED, зачем он нужен?
🤩 CUPED (Controlled-experiment Using Pre-Experiment Data) - один из методов сокращения дисперсии…
🤭 Всем привет! В этом посте хочу рассказать о том что такое CUPED, зачем он нужен?
🤩 CUPED (Controlled-experiment Using Pre-Experiment Data) - один из методов сокращения дисперсии…
Please open Telegram to view this post
VIEW IN TELEGRAM
❤17 13🔥6🌭2
Предположим, у нас есть две метрики. Количество людей по дням, кто купил мороженое и количество купленных солнцезащитных очков. Это не означает, что солнцезащитные очки покупают, потому что покупают мороженое
Температура. Из-за повышения температуры люди чаще покупают мороженое. Как правило, повышение температуры свидетельствует о частом появлении солнца. Тем самым, количество продаж солнцезащитных очков увеличивается.
Если вкратце, то задача трактуется следующим образом. Предположим, у нас в комнате сидит 23 человека. Какова вероятность того, что хотя бы у одной пары будет день рождения в один день? Ошибочно, мы считаем, что 23 / 365, на самом деле ~ 50%. В общем случае, это не парадокс, а то, что мы изначально думаем о другом.
А какие вы еще знаете парадоксы, с какими сталкивались? Пишите комментарии, ставьте
Поддержать канал
Please open Telegram to view this post
VIEW IN TELEGRAM
Наткнулся на митап от EXPF, который я пропустил
🔄 Здесь рассматривается то, как наладить процесс A/B тестов, как вообще выглядит весь жизненный цикл.
☝️ Как проверить валидность A/B тестов? Предположим, что мы наблюдаем Sample Ratio Mismatch. Можем ли мы доверять A/B после проведения?
📊 Как подобрать прокси-метрику? Если вкратце, наша метрика должна обладать двумя свойствами: Сонаправленность с таргетом и повышенная чувствительность
👍 Сбор качественных данных для A/B тестирования. Тут про Data Quality, как команда проверяет данные + даны некоторые рекомендации по сбору и обработке данных.
Ставьте🕺 если пост оказался полезным, пишите комментарии.
Поддержать канал
Ставьте
Поддержать канал
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁23 10🐳2
Всем привет! В этом посте затронем бутстрап, рассмотрим основные аспекты и ограничения.
Стандартный алгоритм выглядит следующим образом:
То, что мы можем оценивать доверительные интервалы для статистик (обычно в индустрии используют разницу между двумя статистиками), использовать более сложные метрики для анализа (например, Ratio-метрики), рассчитать p-value и сделать какие-то выводы.
К ограничениям я бы отнес следующее:
https://habr.com/ru/amp/publications/679842/
https://habr.com/ru/amp/publications/762648/
UPD. Предпосылка бутстрапа:
Разница между статистикой, вычисленной по случайной выборке, и статистикой, вычисленной по генеральной совокупности, должна аппроксимироваться разницей между статистикой, вычисленной по случайной выборке, и статистикой, вычисленной по выборке с возвращением из этой случайной выборки
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22 11❤8👍1
CUPED с несколькими ковариатами
🏆 В оригинальной статье CUPED говорится о том, что возможно использование нескольких ковариат на предэкспериментальном периоде.
Для понимания того, что здесь происходит, советую ознакомиться с предыдущим постом
🔍 Для поиска коэффициента theta в оригинальной интерпретации используется метод наименьших квадратов (МНК) для линейной регрессии со свободным коэффициентом и одним регрессором (нашей ковариатой).
Наткнулся на статью, в которой один phd показывает, что возможно использовать несколько ковариат и указывает на основные моменты. Статья называется CUPED with Multiple Covariates and A Simpler the Delta Method Calculation. Недавно узнал, что с этим работают в Booking, но статьи не нашёл)
❔ Если здесь сидят ребята, которые занимаются продвинутыми методами A/B тестирования, скажите, вы использовали это раньше или нет? Как по мне, рабочий вариант, но ковариаты нужно подбирать таким образом, чтобы не было основной метрики в предэкспериментальном периоде, как мне кажется, поскольку возникнет мультиколлинеарность.
Пока не тестил, как это может снизить метрику, но в статье с CUPED with Multiple Covariates... есть пример с генерацией вектора theta для каждой из метрик, можно покрутить.
Если вы хотите бустануть канал, видеть истории с полезными материалами или просто кастомные реакции, делайте тык.
Для понимания того, что здесь происходит, советую ознакомиться с предыдущим постом
Наткнулся на статью, в которой один phd показывает, что возможно использовать несколько ковариат и указывает на основные моменты. Статья называется CUPED with Multiple Covariates and A Simpler the Delta Method Calculation. Недавно узнал, что с этим работают в Booking, но статьи не нашёл)
Пока не тестил, как это может снизить метрику, но в статье с CUPED with Multiple Covariates... есть пример с генерацией вектора theta для каждой из метрик, можно покрутить.
Если вы хотите бустануть канал, видеть истории с полезными материалами или просто кастомные реакции, делайте тык.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Propensity Score. Как оценить эффект без стандартных A/B тестов.
Доклад от😀 , в котором говорится о том, как правильно измерять эффект при условии того, что мы раскатили фичу на всех (есть ограничения на проведения A/B теста)
❓ Здесь освещаются основные моменты, связанные с Look-a-like, diff-n-diff, IPTW, как бороться со смещениями при оценке эффекта и др.
👍 Советую к просмотру, достаточно годно.
📚 Короткая статья на Хабре от Лида промо Сбермаркета про Propensity Score Matching
🕺 Если на посте наберется N реакций, постараюсь написать более подробно про это
Доклад от
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁25 12😭3🤡1🤝1
Ура! Мы сделали это. Спасибо, что продолжаете активно следить за каналом. Всех люблю
Возможно разбор заданий, материалы, которые я читаю, либо что-то для вката в IT. Очень интересен ваш фидбек!
Please open Telegram to view this post
VIEW IN TELEGRAM
такс, поступило предложение разбирать задачи с собесов, если наберется 100 (150?) реакций, будем качать эту тему 😁
Зовите друзей! Добьем😑
Зовите друзей! Добьем
Please open Telegram to view this post
VIEW IN TELEGRAM
❤141🔥32 24👍9
Заскуль питона (Data Science)
такс, поступило предложение разбирать задачи с собесов, если наберется 100 (150?) реакций, будем качать эту тему 😁 Зовите друзей! Добьем 😑
или все-таки роадмап с нуля… Тоже накиньте реакций, если интересно 🙏
Please open Telegram to view this post
VIEW IN TELEGRAM
❤112🔥29 24🙏7
Заскуль питона (Data Science)
такс, поступило предложение разбирать задачи с собесов, если наберется 100 (150?) реакций, будем качать эту тему 😁 Зовите друзей! Добьем 😑
Начнем с достаточно распространенной задачи. Представьте, что у вас есть игровой автомат, он выдает значение X и равномерного распределения [0, 1]. Игрок может забрать выигрыш после первого нажатия в качестве выигрыша, либо еще раз сыграть и забрать выигрыш последней попытки. Как нужно действовать игроку? Какое матожидание данной стратегии? Вариаций у задачи много, но в классической вариации она выглядит именно так.
Пишите, в комментариях рассуждения. Разбор будет через какой-то промежуток времени, пока не решил как выкладывать.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🌭1
Если вы продакт-менеджеры и ДЕ и другие… пишите тут. Посчитаем вас также, а то обделили 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
😁11❤1
Также вдруг, если есть желание, можете вступить в чатик, он же не просто так существует для комментов https://t.iss.one/my_it_frogs
Please open Telegram to view this post
VIEW IN TELEGRAM
У академии аналитиков Авито есть в открытом доступе свой курс по прикладной статистике. Сам курс проходил, могу сказать, что для A/B тестов самое то, но нужно знать первый курс статистики про распределения, ЦПТ, ЗБЧ и проверку гипотез из статистики. Помимо этого, есть Python, на котором показывают как всё это применять на практике (про A/A тесты на исторических данных тоже было). Годная штука, которая позволяет наглядно показать как работают статкритерии и прочее.
Если проходили или слышали, отпишите. Ставьте реакции, если сделать подобную подборку хороший материалов.
UPD: осенью будет вторая часть по продвинутым методам, но могу уже на канале дать подспорье для успешного прохождения
Если проходили или слышали, отпишите. Ставьте реакции, если сделать подобную подборку хороший материалов.
UPD: осенью будет вторая часть по продвинутым методам, но могу уже на канале дать подспорье для успешного прохождения
🔥50 12❤8👍3