Заскуль питона (Data Science) pinned «A/B тесты завтра! Админ наработался. Накидайте реакций для мотивашки 🙃»
Совместно с Enjoyer’ом HSE (ПМИ) @ArseniySem
Планируем организовать встречу в мск на следующей неделе (предположительно выходные). Пообщаемся поближе, обсудим какие-то классные кейсы, да и просто отдохнём. По поводу места будем решать на неделе 🥹
Возможно, вы увидите всех админов и сможете быкануть за периодичность выхода различных постов 😈
Всем удачи, будем ждать!
Планируем организовать встречу в мск на следующей неделе (предположительно выходные). Пообщаемся поближе, обсудим какие-то классные кейсы, да и просто отдохнём. По поводу места будем решать на неделе 🥹
Возможно, вы увидите всех админов и сможете быкануть за периодичность выхода различных постов 😈
Всем удачи, будем ждать!
😍11
A/B тест.
Если вы видите этот пост, значит вы попали в контрольную группу, для вас поста нет.
ШУТКА
Покажите, как вы ждёте этот пост что ли 🙃
Если вы видите этот пост, значит вы попали в контрольную группу, для вас поста нет.
Покажите, как вы ждёте этот пост что ли 🙃
🐳20🔥7💯4🤔2⚡1😁1
Самая любимая тема, пожалуй, для всех продактов, встречаем, A/B тесты! По факту мы тестируем то, как ведет себя метрика при изменении в продукте
В нашей команде есть админ, который их не признает
Нулевая гипотеза H(0) — то от чего, мы отталкиваемся, зачастую говорят, что различий между выборками нет, связи нет (среднее не различается).
Альтернативная гипотеза (H1) — то, что мы хотим принять (различия есть, все классно), связь присутствует.
p-value — вероятность получить такие же или большие различия между выборками.
Ошибка l рода — Отклонение верной нулевой гипотезы (обычно берется 5%, об этом чуть позже).
Ошибка ll рода — Принятие неверной нулевой гипотезы.
и другие... Precison, recall, ЦПТ (для
Почитать подробнее: link 🔗
Вообще, что это такое? Представьте, что у вас есть-какой то продукт, например, каналЗАСКУЛЬ ПИТОНА , я хочу увеличить глубины просмотра, количество реакций. Скорее всего, я куплю Telegram-премиум, чтобы было больше стикеров с анимациями (из простого).
Давайте простенький пример, чтобы вообще понять, как это рассчитывается (
Retention-менеджер канала пришел к создателю паблика и узнал, что продуктом удовлетворены 80% пользователей. Вместе со вторым админом создатель пошел, выбрал 100 человек, оказалось, что деятельностью канала удовлетворены 70% пользователей. Можно ли верить менеджеру?
H0 - различий нет, это случайность
H1 - различия присутствует, Retention-менеджер решил всех обмануть и рекламитьказино .
Окей, сформулировали, дальше что? Искусственно создаем выборку, пример кода напишу ниже
2. mean - среднее значение, смотрим на реальное выпадение единички из выборки с размером в 100 человек.
3. далее цикл, который прогоняется 10000 раз, чтобы все получилось репрезентативненько
4. Смотрим также на среднее значение в полученном списке (возвращается True - 1, False - 0).
5. Получаем p-value. Оно подвязано к ошибке первого рода, которую мы заранее знаем до проведения эксперимента (обычно берется 0.05, 0.01). Если p-value меньше ошибки первого рода, то мы отклоняем нулевую гипотезу и принимаем альтернативную.
pval < 0.05, значит retention-менеджера можно пинать пожопе .
Вводные есть, понимание появилось. А теперь к реальной практике.Самые главные работяги, маркетологи навалились и начали пушить идею о том, что продукт будет расти, если мы поменяем кнопку или интерфейс (как сделал VK, my best friends, если вы видели, что музыку перенесли на главную страницу пользователя до того, как это стало мейнстримом, поздравляю, вы попали в тестовую группу).
Окей, какие-то отступления были, маркетологи хотят видеть цифры и понять, нужно ли оставлять или нет. Какие требования?
1. САМОЕ ВАЖНОЕ! Проводить A/B тест одновременно для A и B групп, потому что иначе результаты будут криво отображаться. А теперь вопрос на миллион, с которым я столкнулся относительно недавно. А как проводить A/B тест в ритейле? Как создать 2 альтернативные вселенные, в которых я поменяю полку с попкорном и чипсами? Как? Ответ от X5: link 🔗
2. Тест в одно и то же время при равных условиях. Если нам нужны метрики по типу продаж дополнительно закладываем время, в которое пользователь может заплатить за наш продукт. То есть, условно 14 дней теста + еще 3 дня для объективной оценки.
3. Изолируем группы, сплитим на различные группы (если у нас B2B/B2C сегмент, то нужно подумать).
link от SkyPro 🔗
Хорошо, поняли, это база. Теперь берем и радуемся, но нам нужно знать о / об:
- ошибке первого рода.
- минимальном размере выборки.
- случайности и объективности эксперимента.
- временном диапазоне.
Какие термины нужно обязательно знать?Выборка - подмножество из генеральной совокупности.
Нулевая гипотеза H(0) — то от чего, мы отталкиваемся, зачастую говорят, что различий между выборками нет, связи нет (среднее не различается).
Альтернативная гипотеза (H1) — то, что мы хотим принять (различия есть, все классно), связь присутствует.
p-value — вероятность получить такие же или большие различия между выборками.
Ошибка l рода — Отклонение верной нулевой гипотезы (обычно берется 5%, об этом чуть позже).
Ошибка ll рода — Принятие неверной нулевой гипотезы.
и другие... Precison, recall, ЦПТ (для
Bootstrap
)Почитать подробнее: link 🔗
Вообще, что это такое? Представьте, что у вас есть-какой то продукт, например, канал
Давайте простенький пример, чтобы вообще понять, как это рассчитывается (
Bootstrap
)Retention-менеджер канала пришел к создателю паблика и узнал, что продуктом удовлетворены 80% пользователей. Вместе со вторым админом создатель пошел, выбрал 100 человек, оказалось, что деятельностью канала удовлетворены 70% пользователей. Можно ли верить менеджеру?
H0 - различий нет, это случайность
H1 - различия присутствует, Retention-менеджер решил всех обмануть и рекламить
Окей, сформулировали, дальше что? Искусственно создаем выборку, пример кода напишу ниже
import numpy as np
pval = np.mean([np.random.binomial(1, 0.8, size = 100).mean() <= 0.70 for _ in range (10000)]
)
1. Генерируем выборку из библиотеки numpy. Биномиальное распределение (с вероятностью 0.8 выпадет единичка, с вероятностью 0.2 - нолик, size - размер выборки). Мы предположили, что данные пришли из той же выборки.2. mean - среднее значение, смотрим на реальное выпадение единички из выборки с размером в 100 человек.
3. далее цикл, который прогоняется 10000 раз, чтобы все получилось репрезентативненько
4. Смотрим также на среднее значение в полученном списке (возвращается True - 1, False - 0).
5. Получаем p-value. Оно подвязано к ошибке первого рода, которую мы заранее знаем до проведения эксперимента (обычно берется 0.05, 0.01). Если p-value меньше ошибки первого рода, то мы отклоняем нулевую гипотезу и принимаем альтернативную.
pval < 0.05, значит retention-менеджера можно пинать по
Вводные есть, понимание появилось. А теперь к реальной практике.
Окей, какие-то отступления были, маркетологи хотят видеть цифры и понять, нужно ли оставлять или нет. Какие требования?
1. САМОЕ ВАЖНОЕ! Проводить A/B тест одновременно для A и B групп, потому что иначе результаты будут криво отображаться. А теперь вопрос на миллион, с которым я столкнулся относительно недавно. А как проводить A/B тест в ритейле? Как создать 2 альтернативные вселенные, в которых я поменяю полку с попкорном и чипсами? Как? Ответ от X5: link 🔗
2. Тест в одно и то же время при равных условиях. Если нам нужны метрики по типу продаж дополнительно закладываем время, в которое пользователь может заплатить за наш продукт. То есть, условно 14 дней теста + еще 3 дня для объективной оценки.
3. Изолируем группы, сплитим на различные группы (если у нас B2B/B2C сегмент, то нужно подумать).
link от SkyPro 🔗
Хорошо, поняли, это база. Теперь берем и радуемся, но нам нужно знать о / об:
- ошибке первого рода.
- минимальном размере выборки.
- случайности и объективности эксперимента.
- временном диапазоне.
vc.ru
A/B тесты — что это такое и как использовать? — ProductStar на vc.ru
Генерирование новых идей — неотъемлемая часть развития любого продукта. Разумеется, не каждая идея повысит конверсию, увеличит аудиторию или положительно повлияет на другую метрику. Как тогда быстро проверять идеи и гипотезы? Существует множество инструментов…
👍14
О проверке результатов: link 🔗
Поиграться можно тут: link 🔗
Зачем оценивать размер выборки? link 🔗
Но нельзя же верить Bootstrap'у постоянно? Существует множество методов (z-test, t-test и др.). Что этого и для чего используются можно глянуть (СПОЙЛЕР: патриотам не смотреть! )
[EN] VK link 🔗
[EN] Study A/B testing (GitHub) link 🔗
[EN] scipy Documentation (library in Python) link 🔗
[EN] statsmodels Documentation (library in Python) link 🔗
[EN] A/B testing: A step-by-step guide in Python link 🔗
Советую посмотреть про различные методы подсчета результатов A/B теста. Дам псевдо-дшку для того, чтобы было понимание, cами показатели можете видеть на картинке (используйте proportion z-test)
- COUNT - количество пользователей, которые посетили сайт
- SELL - количество пользователей, которые купили продукт
- CR - конверсия, отношение продаж к количеству пользователей.
Фух, вроде всё. Если есть дополнения, пишите в комменты, будем рады! За труды ставьте реакции, пишите комментарии, зовите друзей)
Поиграться можно тут: link 🔗
Зачем оценивать размер выборки? link 🔗
Но нельзя же верить Bootstrap'у постоянно? Существует множество методов (z-test, t-test и др.). Что этого и для чего используются можно глянуть (
[EN] VK link 🔗
[EN] Study A/B testing (GitHub) link 🔗
[EN] scipy Documentation (library in Python) link 🔗
[EN] statsmodels Documentation (library in Python) link 🔗
[EN] A/B testing: A step-by-step guide in Python link 🔗
Советую посмотреть про различные методы подсчета результатов A/B теста. Дам псевдо-дшку для того, чтобы было понимание, cами показатели можете видеть на картинке (используйте proportion z-test)
- COUNT - количество пользователей, которые посетили сайт
- SELL - количество пользователей, которые купили продукт
- CR - конверсия, отношение продаж к количеству пользователей.
Фух, вроде всё. Если есть дополнения, пишите в комменты, будем рады! За труды ставьте реакции, пишите комментарии, зовите друзей)
❤11👍4
Заскуль питона (Data Science) pinned «Самая любимая тема, пожалуй, для всех продактов, встречаем, A/B тесты! По факту мы тестируем то, как ведет себя метрика при изменении в продукте В нашей команде есть админ, который их не признает Какие термины нужно обязательно знать? Выборка - подмножество…»
Заскуль питона (Data Science) pinned «Совместно с Enjoyer’ом HSE (ПМИ) @ArseniySem Планируем организовать встречу в мск на следующей неделе (предположительно выходные). Пообщаемся поближе, обсудим какие-то классные кейсы, да и просто отдохнём. По поводу места будем решать на неделе 🥹 Возможно…»
Друзья, всем привет, мы определились с местом, где проведем нашу первую, но не последнюю встречу. Циферблат Москва Кузнецкий Мост по адресу: г. Москва, ул. Кузнецкий мост 19, стр.1. Если у вас есть возможность прийти, будем рады вас видеть. В опросе ниже проголосуйте за день, в который вам будет удобней всего встретиться с нами!
Друзья, всем привет, на этой неделе не удалось встретиться, админ сожалеет. Я озадачился тем, чтобы попробовать поступить в ШАД (Яндекс), это будет неплохой опыт, как для меня, человека, который учится даже не по направлению бизнес-информатики))))
Первый пост по теме подготовка кШАДУ АДУ, объявляется открытым. Набор будет в апреле следующего года, поэтому можно попробовать заспидранить основные моменты. Пока что на руках есть рекомендации от Яндекс, которые они дают для этого.
1. Алгоритмы: построение и анализ (Т. Кормен, Ч. Лейзерсон, Р. Риверст, К. Штайн)
2. Задачи и теоремы линейной алгебры (В. Прасолов)
3. Основные понятия теории вероятностей (А. Колмогоров)
4. Курс теории вероятностей и математической статистики (Б. Севастьянов)
5. Курс комбинаторики А. М. Райгородского на YouTube.
6. Тренажёры по написанию кода: Codeforces, LeetCode или TopCoder
и т.д. и т.п., можно глянуть по ссылке от ЯШКИ.
Ну что ж, поехали. #собираюсьвад
Первый пост по теме подготовка к
1. Алгоритмы: построение и анализ (Т. Кормен, Ч. Лейзерсон, Р. Риверст, К. Штайн)
2. Задачи и теоремы линейной алгебры (В. Прасолов)
3. Основные понятия теории вероятностей (А. Колмогоров)
4. Курс теории вероятностей и математической статистики (Б. Севастьянов)
5. Курс комбинаторики А. М. Райгородского на YouTube.
6. Тренажёры по написанию кода: Codeforces, LeetCode или TopCoder
и т.д. и т.п., можно глянуть по ссылке от ЯШКИ.
Ну что ж, поехали. #собираюсьвад
YouTube
Комбинаторика - Райгородский Андрей Михайлович
Share your videos with friends, family, and the world
👨💻9🔥3
ШАД.zip
638 MB
🟡⚫️🔴⚪️ Откопал инфу по ШАД, к которой готовился один из выпускников. Выгружалась zip достаточно долго, потому что исходник был на сайте, который был залочен для РФ, press F.
Навигация:
1_Online_Test – решение задач с теста на Питоне от автора
2_Exams – задачи с экзаменов 2012-2018 и их решения.
3_Interviews – задачи с интервью прошлых лет и их решения.
4_Books – все книги, перечисленные в программе для поступления в ШАД, плюс еще много разных полезных книг, которыми пользовался автор при подготовке.
5_Formulae – различные конспекты, формулы и шпаргалки. Если нужно освежить в памяти отдельные темы или нет времени целиком прочитать книги.
6_Problemsets – задачи, близкие к экзаменам и интервью в ШАД. Сейчас там лежат листки по теорверу ФКН Вышки.
More_materials – дополнительные материалы по подготовке, на которые наткнулся в Интернете. Сам не успел ими воспользоваться, интересные задачи там найдутся
#готовлюськаду
Навигация:
1_Online_Test – решение задач с теста на Питоне от автора
2_Exams – задачи с экзаменов 2012-2018 и их решения.
3_Interviews – задачи с интервью прошлых лет и их решения.
4_Books – все книги, перечисленные в программе для поступления в ШАД, плюс еще много разных полезных книг, которыми пользовался автор при подготовке.
5_Formulae – различные конспекты, формулы и шпаргалки. Если нужно освежить в памяти отдельные темы или нет времени целиком прочитать книги.
6_Problemsets – задачи, близкие к экзаменам и интервью в ШАД. Сейчас там лежат листки по теорверу ФКН Вышки.
More_materials – дополнительные материалы по подготовке, на которые наткнулся в Интернете. Сам не успел ими воспользоваться, интересные задачи там найдутся
#готовлюськаду
🔥11👍6❤3👨💻1
This media is not supported in your browser
VIEW IN TELEGRAM
Всем доброе утро 😎
Сегодня пост ✅
Сегодня пост ✅
🐳8❤6😁4
Коллеги, всем привет! Пора подвести итоги этого года.
> поучаствовать в хакатоне и занять 8-е место из 250.
> создан канал и набрано 455 подписчиков, спасибо всем.
> пройдены различные курсы, админ за 6 месяцев успел практиковаться в аналитике.
Просмотрено:
SQL, Python, статистика, A/B тесты, PowerBI / Tableu / SuperSet, API, JSON.
> ВСЕ админы устроились на работку.
А вообще кто мы? Студенты 3-го курса РАНХиГС, которые поняли, что хотят поменять что-то в своей жизни. Мы изначально манагеры (в корочке это написано).
Изначально этот канал создавался для того чтобы скидывать полезные материалы и находить отклик среди других людей.
В следующем году хочу, чтобы каждый оставался с нами, обещаем больше контента. От команды желаем не раскисать и топить дальше, вы справитесь!
Планы на следующий год:
> Продуктовая аналитика, подтянуть A/B.
> ML, Deep Learning
> ШАД (посмотрим по загруженности).
> Еще админов, чтобы не было провала по времени в контенте.
> Возможно устроиться на стажку, посмотрим. Если захотим, будем скидывать всё то, что необходимо для подготовки.
Какие прогнозы на следующий год?
Всё также. Если вы думаете, что очень много нормальных аналитиков, Data Scientist'ов, ML'щиков в СНГ, это не правда, стремитесь быть лучше, всё будет классно.
Еще раз спасибо всем, вы заставляетесь двигаться вперед. Надеюсь, вы также находите отклик, просматривая материалы на канале. Дальше - больше!
Ждем ваших комментариев, чтобы понимать чего хотите от нас, обещаем, что в новый год все исполнится)
- Гляньте вот этот курс по SQL, это очень классный материал.
> Список материалов
Хэндбук от Яндекс по ML
Хэндбук от Яндекс по Python
Источник знаний - Google. Что-то не понимаете, гуглите (правило любого аналитика)
Телеграм канал - это наше общее детище, над которым мы работаем все ВМЕСТЕ, поэтому если у вас есть какие-то вопросы / желание помочь - пишите.
P.S: Админ не может погрязнуть в учебе
> поучаствовать в хакатоне и занять 8-е место из 250.
> создан канал и набрано 455 подписчиков, спасибо всем.
> пройдены различные курсы, админ за 6 месяцев успел практиковаться в аналитике.
Просмотрено:
SQL, Python, статистика, A/B тесты, PowerBI / Tableu / SuperSet, API, JSON.
> ВСЕ админы устроились на работку.
А вообще кто мы? Студенты 3-го курса РАНХиГС, которые поняли, что хотят поменять что-то в своей жизни. Мы изначально манагеры (в корочке это написано).
Изначально этот канал создавался для того чтобы скидывать полезные материалы и находить отклик среди других людей.
В следующем году хочу, чтобы каждый оставался с нами, обещаем больше контента. От команды желаем не раскисать и топить дальше, вы справитесь!
Планы на следующий год:
> Продуктовая аналитика, подтянуть A/B.
> ML, Deep Learning
> ШАД (посмотрим по загруженности).
> Еще админов, чтобы не было провала по времени в контенте.
> Возможно устроиться на стажку, посмотрим. Если захотим, будем скидывать всё то, что необходимо для подготовки.
Какие прогнозы на следующий год?
Всё также. Если вы думаете, что очень много нормальных аналитиков, Data Scientist'ов, ML'щиков в СНГ, это не правда, стремитесь быть лучше, всё будет классно.
Еще раз спасибо всем, вы заставляетесь двигаться вперед. Надеюсь, вы также находите отклик, просматривая материалы на канале. Дальше - больше!
Ждем ваших комментариев, чтобы понимать чего хотите от нас, обещаем, что в новый год все исполнится)
- Гляньте вот этот курс по SQL, это очень классный материал.
> Список материалов
Хэндбук от Яндекс по ML
Хэндбук от Яндекс по Python
Источник знаний - Google. Что-то не понимаете, гуглите (правило любого аналитика)
Телеграм канал - это наше общее детище, над которым мы работаем все ВМЕСТЕ, поэтому если у вас есть какие-то вопросы / желание помочь - пишите.
P.S: Админ не может погрязнуть в учебе
karpov.courses
Симулятор SQL | karpov.courses
Запишитесь на бесплатный интерактивный симулятор SQL онлайн для практики: online-training в школе Karpov Courses.
👍30🔥4❤1
Я же выпускаю посты, где реакции?
P.S: угадайте, к чему подводка...
30 реакций и админ сядет за пост 😎
P.S: угадайте, к чему подводка...
30 реакций и админ сядет за пост 😎
❤🔥24🐳8🤨5🔥4🤓3❤1🥰1🤯1🍾1
… А дело в том, что я, видимо, не так распределил контрольные и тестовые группы.
Всем привет, я снова вернулся с A/B тестами, но хочется более структурно разобрать все нюансы и тонкости. Запускаю пилотный пост, если все понравится, буду продолжать выпускать.
Кажется, что знание этого, поможет вам устроиться на позицию продуктового аналитика. Кто это такой и вообще чем они занимаются, расскажу в следующем посте.
Начнём с вводных:
Теория вероятностей и математическая статистика.
- Закон больших чисел
- Понимание того, что случайные события можно свести к системе.
- Различные виды распределений. Что за распределение, его особенности, про это будет следующий пост.
- Математика: мода, медиана, математическое ожидание, дисперсия.
Мода - самое часто встречающееся число в выборке
Медиана - середина интервала после упорядочивания элементов по возрастанию
Математическое ожидание - среднее в генеральной совокупности
Дисперсия - средний показатель отклонения значения от среднего.
Вообще, какая основная задача A/B тестов? Это растить продукт за счёт проведения экспериментов с различными вариантами страницы, приложения и так далее. Понятно, что просто внедрить новую фичу в наш продукт не получится, поскольку это затратно по средствам и мы не понимаем, как пользователи могут отреагировать на данное нововведение. Таким образом, нам нужно на основе наших данных свести среднее значение метрики к среднему.
Как мы это можем сделать?
⁃ Доверительные интервалы.
⁃ Бесконечно симулировать эксперименты, чтобы в конечном счете получить среднее значение.
⁃ Использовать непараметрические методы при сравнении.
Что нужно для А/Б теста?
Сформулированная гипотеза
Нулевая гипотеза - то, что у нас есть в базисе. Например, что, после изменения показатели метрики не изменятся.
Альтернативная гипотеза - то, что мы хотим проверить. После изменения показатели метрики изменятся.
Размер выборки - один из важных показателей, который определяет сколько людей необходимо для получения статистически значимого результата.
Понятно, что теория вероятностей и статистика имеет какую-то математическую ошибку, поэтому будем изначально закладывать при проведении эксперимента.
Ошибка первого рода - вероятность отклонить верную нулевую гипотезу (обычно 5%).
Ошибка второго рода - вероятность не
отклонить неверную нулевую гипотезу (обычно 20%).
Как запомнить? Вот, представьте, вы пришли со вспоротым животом в поликлинику, а, вместо того, чтобы прооперировать вас, врачи сказали, что все хорошо, можете идти домой (ошибка первого рода, мы отклонили верную нулевую гипотезу). Представьте, что вы пришли в больницу, узнать свой диагноз, а врачи там считают, что разрезать всех, а после, зашивать, это норма (ошибка второго рода, мы приняли неверную нулевую гипотезу) 🤔
О какой же метрике все это время идёт речь? Тот таргет, который мы проверяем. Это может быть CTR, показатель конверсии, средний чек и другое 🎯
Изучаемая метрика - после результатов проведения мы будем опираться либо на усреднённые данные этой метрики в каждой из групп, либо на другое, обобщающее число в выборке 💻
Время проведения - очень важная метрика, поскольку при первичном проведении, захочется увидеть статистически значимый результат, например, у нас все выполнилось, среднее во B группе, больше, чем среднее в A группе, поэтому останавливаем проведение ⏳
Минимальный ожидаемый эффект - прирост по метрике, который мы хотим получить при формулировании гипотезы 📈
Пример формулирования гипотезы: Изменение системы выдачи на сайте позволит увеличить показатель конверсии на 20%. Нулевая гипотеза: Ничего не изменится, средние в двух группах равны. Альтернативная гипотеза: Средние в двух группах не равны 😊
Друзья, я хочу выкатить исчерпывающие посты по A/B тестам, возможно, без ML. Поэтому, если у вас есть какие-то идеи про что написать, с чем вы сталкиваетесь на работе, пишите, буду рад почитать, оформим как рабочий кейс. Здесь главное, больше практики что ли 🏋️♀️
Всем привет, я снова вернулся с A/B тестами, но хочется более структурно разобрать все нюансы и тонкости. Запускаю пилотный пост, если все понравится, буду продолжать выпускать.
Кажется, что знание этого, поможет вам устроиться на позицию продуктового аналитика. Кто это такой и вообще чем они занимаются, расскажу в следующем посте.
Начнём с вводных:
Теория вероятностей и математическая статистика.
- Закон больших чисел
- Понимание того, что случайные события можно свести к системе.
- Различные виды распределений. Что за распределение, его особенности, про это будет следующий пост.
- Математика: мода, медиана, математическое ожидание, дисперсия.
Мода - самое часто встречающееся число в выборке
Медиана - середина интервала после упорядочивания элементов по возрастанию
Математическое ожидание - среднее в генеральной совокупности
Дисперсия - средний показатель отклонения значения от среднего.
Вообще, какая основная задача A/B тестов? Это растить продукт за счёт проведения экспериментов с различными вариантами страницы, приложения и так далее. Понятно, что просто внедрить новую фичу в наш продукт не получится, поскольку это затратно по средствам и мы не понимаем, как пользователи могут отреагировать на данное нововведение. Таким образом, нам нужно на основе наших данных свести среднее значение метрики к среднему.
Как мы это можем сделать?
⁃ Доверительные интервалы.
⁃ Бесконечно симулировать эксперименты, чтобы в конечном счете получить среднее значение.
⁃ Использовать непараметрические методы при сравнении.
Что нужно для А/Б теста?
Сформулированная гипотеза
Нулевая гипотеза - то, что у нас есть в базисе. Например, что, после изменения показатели метрики не изменятся.
Альтернативная гипотеза - то, что мы хотим проверить. После изменения показатели метрики изменятся.
Размер выборки - один из важных показателей, который определяет сколько людей необходимо для получения статистически значимого результата.
Понятно, что теория вероятностей и статистика имеет какую-то математическую ошибку, поэтому будем изначально закладывать при проведении эксперимента.
Ошибка первого рода - вероятность отклонить верную нулевую гипотезу (обычно 5%).
Ошибка второго рода - вероятность не
отклонить неверную нулевую гипотезу (обычно 20%).
Как запомнить? Вот, представьте, вы пришли со вспоротым животом в поликлинику, а, вместо того, чтобы прооперировать вас, врачи сказали, что все хорошо, можете идти домой (ошибка первого рода, мы отклонили верную нулевую гипотезу). Представьте, что вы пришли в больницу, узнать свой диагноз, а врачи там считают, что разрезать всех, а после, зашивать, это норма (ошибка второго рода, мы приняли неверную нулевую гипотезу) 🤔
О какой же метрике все это время идёт речь? Тот таргет, который мы проверяем. Это может быть CTR, показатель конверсии, средний чек и другое 🎯
Изучаемая метрика - после результатов проведения мы будем опираться либо на усреднённые данные этой метрики в каждой из групп, либо на другое, обобщающее число в выборке 💻
Время проведения - очень важная метрика, поскольку при первичном проведении, захочется увидеть статистически значимый результат, например, у нас все выполнилось, среднее во B группе, больше, чем среднее в A группе, поэтому останавливаем проведение ⏳
Минимальный ожидаемый эффект - прирост по метрике, который мы хотим получить при формулировании гипотезы 📈
Пример формулирования гипотезы: Изменение системы выдачи на сайте позволит увеличить показатель конверсии на 20%. Нулевая гипотеза: Ничего не изменится, средние в двух группах равны. Альтернативная гипотеза: Средние в двух группах не равны 😊
Друзья, я хочу выкатить исчерпывающие посты по A/B тестам, возможно, без ML. Поэтому, если у вас есть какие-то идеи про что написать, с чем вы сталкиваетесь на работе, пишите, буду рад почитать, оформим как рабочий кейс. Здесь главное, больше практики что ли 🏋️♀️
👍12🔥3
Понятно, что нужно учитывать статистику и без этого никак, поскольку изначально, вам может казаться, что если тот или иной показатель в двух группах отличается, например, среднее метрики, то этот вариант является успешней, чем другой.
Например, мы хотим понять, как изменение дизайна отразилось на пользователях. Взяли первую группу, не меняли ничего, получили, что из 100 пользователей 60 нравится сайт. В другой группе, мы поменяли дизайн, выбрали 10 человек, из них 7 сказали, что нравится. Казалось бы показатели 0,6 и 0,7, однако, не все так просто, потому что данные значения могли получится случайно. Это как бросить много раз монетку. Понятно, что вероятность выпадения 1/2 (это работает при большом количестве подбрасываний), однако, из 100 бросков может выпасть 90 орлов и 10 решек. Этот пример я рассмотрю в следующем посте.
Вторая часть не заставит себя долго ждать, если наберется достаточное количество реакций. Поговорим про распределения, p-value (критерий, определяющий значимость теста) и различных статистических методах по проверке гипотез, количество групп (оказывается можно запускать и A/B/n тестирование, но есть очень много подводных камней, квантили и другое (приближаемся к математике). Тренировочные датасеты будут, их можно найти на Kaggle, периодически буду выкладывать 🤩
Полезные материалы 🅰️🅱️
Карпов. Матстат
«Учебник» по A/B тестам, для ознакомления можно глянуть Ссылка
Как провести A/B тестирование
A/B testing [EN]
VK A/B testing [EN]
Пишите комментарии, ставьте реакции, буду ждать фидбека 😎
Например, мы хотим понять, как изменение дизайна отразилось на пользователях. Взяли первую группу, не меняли ничего, получили, что из 100 пользователей 60 нравится сайт. В другой группе, мы поменяли дизайн, выбрали 10 человек, из них 7 сказали, что нравится. Казалось бы показатели 0,6 и 0,7, однако, не все так просто, потому что данные значения могли получится случайно. Это как бросить много раз монетку. Понятно, что вероятность выпадения 1/2 (это работает при большом количестве подбрасываний), однако, из 100 бросков может выпасть 90 орлов и 10 решек. Этот пример я рассмотрю в следующем посте.
Вторая часть не заставит себя долго ждать, если наберется достаточное количество реакций. Поговорим про распределения, p-value (критерий, определяющий значимость теста) и различных статистических методах по проверке гипотез, количество групп (оказывается можно запускать и A/B/n тестирование, но есть очень много подводных камней, квантили и другое (приближаемся к математике). Тренировочные датасеты будут, их можно найти на Kaggle, периодически буду выкладывать 🤩
Полезные материалы 🅰️🅱️
Карпов. Матстат
«Учебник» по A/B тестам, для ознакомления можно глянуть Ссылка
Как провести A/B тестирование
A/B testing [EN]
VK A/B testing [EN]
Пишите комментарии, ставьте реакции, буду ждать фидбека 😎
Stepik: online education
Основы статистики
Курс знакомит слушателей с основными понятиями и методами математической статистики. В течение трех недель мы рассмотрим наиболее широко используемые статистические методы и принципы, стоящие за ними. Полученных знаний будет достаточно для решения широкого…
👍16🔥5