Правильный ответ на вопрос про боксплот: нет правильного ответа
Мнения в опросе разделились, побеждает ответ про максимальные и минимальные значения в пределах 1.5 IQR, а также довольно популярным оказался ответ про верхний и нижний квартили (на момент написания поста 31% и 19%, соответственно).
Однако я сама проголосовала за отсутствие однозначного ответа, так как в боксплоте могут быть разные настройки усов, поэтому нужно всегда подписывать, что означает ваш боксплот и читать обозначения. В большинстве случаев дефолтный боксплот будет действительно с наблюдаемым максимальным и минимальным значением от соответствующего квартиля в пределах 1.5 IQR, но могут быть и другие варианты.
В комментариях к опросу их обсудили, выношу их сюда в пост.
- Минимум и максимум: довольно часто встречаются боксплоты, где усы обозначают максимум и минимум, даже в статье Variations of Box Plots он именно такой (спасибо Максиму Кузнецову @bqmaks за ссылку на статью).
- 10% и 90% данных: в FastQC, биоинформатическом туле для контроля качества секвенирования, усы боксплотов обозначают 10% и 90% данных, цитата из документации:
Пример боксплотов оттуда на прикрепленной картинке
- Верхний и нижний квартили обычно обозначают сам ящик, а не усы, возможно популярность этого варианта объясняется тем, что люди невнимательно прочитали вопрос
- Все остальные варианты. Как было подмечено в комментариях, при желании в боксплоте можно настроить все что угодно, даже стандартное отклонение и доверительные интервалы, что конечно не рекомендуется делать.
На картинке к опросу боксплот соответствовал самому дефолтному варианту с 1.5 IQR, код для построения был такой:
Таким образом, наиболее близким к правильному ответу будет вариант, что усы боксплота соответствуют наблюдаемым максимальным и минимальным значениям от соответствующего квартиля в пределах 1.5 IQR, но могут быть и другие варианты, поэтому всегда нужно подписывать и проверять подписи ✍️
P.S. приходите 20 мая на лекцию по визуализации данных: https://bioinf.me/stat_myths
#base_stat
Мнения в опросе разделились, побеждает ответ про максимальные и минимальные значения в пределах 1.5 IQR, а также довольно популярным оказался ответ про верхний и нижний квартили (на момент написания поста 31% и 19%, соответственно).
Однако я сама проголосовала за отсутствие однозначного ответа, так как в боксплоте могут быть разные настройки усов, поэтому нужно всегда подписывать, что означает ваш боксплот и читать обозначения. В большинстве случаев дефолтный боксплот будет действительно с наблюдаемым максимальным и минимальным значением от соответствующего квартиля в пределах 1.5 IQR, но могут быть и другие варианты.
В комментариях к опросу их обсудили, выношу их сюда в пост.
- Минимум и максимум: довольно часто встречаются боксплоты, где усы обозначают максимум и минимум, даже в статье Variations of Box Plots он именно такой (спасибо Максиму Кузнецову @bqmaks за ссылку на статью).
- 10% и 90% данных: в FastQC, биоинформатическом туле для контроля качества секвенирования, усы боксплотов обозначают 10% и 90% данных, цитата из документации:
The upper and lower whiskers represent the 10% and 90% points
Пример боксплотов оттуда на прикрепленной картинке
- Верхний и нижний квартили обычно обозначают сам ящик, а не усы, возможно популярность этого варианта объясняется тем, что люди невнимательно прочитали вопрос
- Все остальные варианты. Как было подмечено в комментариях, при желании в боксплоте можно настроить все что угодно, даже стандартное отклонение и доверительные интервалы, что конечно не рекомендуется делать.
На картинке к опросу боксплот соответствовал самому дефолтному варианту с 1.5 IQR, код для построения был такой:
library(tidyverse)
library(palmerpenguins)
penguins %>%
filter(species == 'Gentoo') %>%
ggplot(aes(species, bill_length_mm))+
geom_boxplot()+
theme_minimal()
Таким образом, наиболее близким к правильному ответу будет вариант, что усы боксплота соответствуют наблюдаемым максимальным и минимальным значениям от соответствующего квартиля в пределах 1.5 IQR, но могут быть и другие варианты, поэтому всегда нужно подписывать и проверять подписи ✍️
P.S. приходите 20 мая на лекцию по визуализации данных: https://bioinf.me/stat_myths
#base_stat
5🔥30👍14❤7✍4
Как я перепутала средние чеки и ARPPU и заруинила несколько A/B тестов
Я работаю в команде платежей, поэтому основные A/B тесты у нас проводятся на последнем этапе воронки - от нажатия кнопки “Купить” до успешной оплаты. Мы используем конверсию в успешную оплату как ключевую метрику и ARPPU как вспомогательную, это достаточно стандартный подход.
Иногда бывает, что одна из метрик падает, а другая растет. Чтобы понять, что на самом деле происходит с выручкой, мы используем прогнозную финмодель. Мой коллега Рома читал про это очень крутой доклад на Aha-25 (ссылка вот, попозже я может напишу развернутый отзыв на конфу).
Небольшая сноска про термины 🤓:
Средний чек (Average Order Value, AOV) - это просто вся выручка, деленная на количество транзакций, то есть буквально среднеарифметическое.
ARPPU (Average Revenue Per Paying User) - средняя выручка на платящего пользователя.
Пример: пользователь 1 купил на 200р, пользователь 2 купил на 100р, потом еще на 300р. Тогда средний чек будет (200+100+300)/3=200, а ARPPU = (200 + (100+300))/2 = 300, так как платящих пользователей 2 в этом примере.
Есть еще метрика ARPU - Average Revenue Per User, средняя выручка на пользователя (включая тех, кто не заплатил).
ARPPU будет всегда больше чем средний чек, как минимум не меньше.
В контексте A/B тестов эти метрики считаются базовыми и разбираются на любом курсе.
Моя ошибка была в том, что я считала средние чеки (просто
Почему используется именно ARPPU как метрика в A/B тестировании?
В принципе, можно использовать разные денежные метрики в зависимости от поставленной задачи. В нашем случае мы рассматриваем ARPPU в связке с конверсией. Используя финмодель, эта связка помогает принимать решения не “на глазок”, а с прогнозом реальной выручки. Но только если метрики посчитаны правильно — теперь я это точно не забуду 🙃
#analytics #AB_tests
Я работаю в команде платежей, поэтому основные A/B тесты у нас проводятся на последнем этапе воронки - от нажатия кнопки “Купить” до успешной оплаты. Мы используем конверсию в успешную оплату как ключевую метрику и ARPPU как вспомогательную, это достаточно стандартный подход.
Иногда бывает, что одна из метрик падает, а другая растет. Чтобы понять, что на самом деле происходит с выручкой, мы используем прогнозную финмодель. Мой коллега Рома читал про это очень крутой доклад на Aha-25 (ссылка вот, попозже я может напишу развернутый отзыв на конфу).
Небольшая сноска про термины 🤓:
Средний чек (Average Order Value, AOV) - это просто вся выручка, деленная на количество транзакций, то есть буквально среднеарифметическое.
ARPPU (Average Revenue Per Paying User) - средняя выручка на платящего пользователя.
Пример: пользователь 1 купил на 200р, пользователь 2 купил на 100р, потом еще на 300р. Тогда средний чек будет (200+100+300)/3=200, а ARPPU = (200 + (100+300))/2 = 300, так как платящих пользователей 2 в этом примере.
Есть еще метрика ARPU - Average Revenue Per User, средняя выручка на пользователя (включая тех, кто не заплатил).
ARPPU будет всегда больше чем средний чек, как минимум не меньше.
В контексте A/B тестов эти метрики считаются базовыми и разбираются на любом курсе.
Моя ошибка была в том, что я считала средние чеки (просто
mean(revenue)
), но почему-то думала что это уже ARPPU, таким образом проанализировала несколько результатов тестов. Ошибку случайно заметил продакт, когда сверял исторические данные и увидел, что мои значения "ARPPU" по порядку величины подозрительно похожи на средние чеки 🤦♀️. Пришлось пересчитывать, благо принципиально выводы не поменялись, но несколько тестов были признаны неуспешными, а после пересчета оказалось, что все нормально.Почему используется именно ARPPU как метрика в A/B тестировании?
В принципе, можно использовать разные денежные метрики в зависимости от поставленной задачи. В нашем случае мы рассматриваем ARPPU в связке с конверсией. Используя финмодель, эта связка помогает принимать решения не “на глазок”, а с прогнозом реальной выручки. Но только если метрики посчитаны правильно — теперь я это точно не забуду 🙃
#analytics #AB_tests
Закрытый клуб маркетинговой и продуктовой аналитики. Доклады и конференции в мире MarTech и Продуктовой аналитики.
Matemarketing Education
Образовательная платформа
🔥45❤19👍6🙏2
🌱 Мендель, хи-квадрат и споры о статистике
В середине XIX века монах Грегор Мендель скрещивал сорта гороха и вывел знаменитые соотношения 3:1 и 9:3:3:1, которые стали фундаментом для понимания наследования признаков. Мы со школы знаем Менделя как отца генетики, и наверняка все помнят тот самый зеленый гладкий и желтый морщинистый горошек для иллюстрации законов дигибридного скрещивания.
В своей работе Мендель выбрал признаки, которые зависят только от одного гена, так называемые моногенные признаки — форма семян, цвет семян, высота стебля и тд, всего 7 признаков.
Мендель провёл десятки тысяч скрещиваний и получил соотношения 3:1 и 9:3:3:1. Это пример моногенного наследования — когда признак зависит от одного гена, и подчиняется простым законам, тем самым законам Менделя, которые назовут в его честь сильно позже:
1) Закон единообразия гибридов первого поколения: доминантный аллель подавляет рецессивный, и все гибриды первого поколения (F1) имеют одинаковый фенотип.
2) Закон расщепления признаков: при скрещивании гетерозигот (Aa × Aa) потомство делится в пропорции 3:1 по фенотипу и 1:2:1 по генотипу.
3) Закон независимого наследования признаков: при дигибридном скрещивании (два признака) гены наследуются независимо, давая соотношение 9:3:3:1 по фенотипу.
В целом можно сказать, что законы Менделя это “Hello world” от мира генетики. Во многих случаях они нарушаются, например если гены сцеплены, или если гомозиготы по рецессивному признаку не выживают, тогда расщепление будет другое. Однако было бы несправедливо сказать, что Менделю просто повезло наткнуться на удачный признак и удачный тип наследования, ведь был и неудачный опыт с ястребинкой, но это отдельная история.
Нас же интересует статистика.
В 1936 году Рональд Фишер, один из основателей современной статистики и синтетической теории эволюции, применил χ²-тест к данным Менделя и отметил, что результаты слишком близки к теоретическим пропорциям 3:1 и 9:3:3:1. Это вызвало подозрения.
Даже при моногенном наследовании должны были возникать отклонения от теоретических значений. Фишер предположил, что неизвестный ассистент Менделя мог неосознанно корректировать или отбирать данные, так как знал желаемое распределение.
Цитата Фишера:
По сути, Фишер обвинил Менделя в фальсификации данных, что вызвало бурные споры в научном сообществе, которые актуальны и сейчас (последнюю статью на эту тему нашла за 2019 год).
А что думают статистики сейчас?
Одна из ключевых современных работ — статья Pires & Branco (2010) в журнале Statistical Science. Авторы предложили простую, но элегантную статистическую модель, которая объясняет «слишком идеальные» данные Менделя без фальсификации.
Их гипотеза:
То есть если эксперимент давал пропорции хуже, чем предполагалось, его повторяли. А если новый результат был ближе к теории — брали его. Это не фальсификация, а unconscious bias, то есть неосознанная предвзятость.
Авторы показали, что такая модель:
- воспроизводит распределение p-value в данных Менделя,
- снимает подозрения в преднамеренной фальсификации,
- объясняет низкие χ²-значения лучше, чем честная выборка с независимыми тестами.
При этом они подчёркивают, несмотря на то, что замечание Фишера обосновано с точки зрения статистики, предложенная модель разрешает долгое противоречие между Менделем и Фишером, отцами современной генетики и статистики.
#stats
В комментарии закину фотографию из музея Менделя в Брно
В середине XIX века монах Грегор Мендель скрещивал сорта гороха и вывел знаменитые соотношения 3:1 и 9:3:3:1, которые стали фундаментом для понимания наследования признаков. Мы со школы знаем Менделя как отца генетики, и наверняка все помнят тот самый зеленый гладкий и желтый морщинистый горошек для иллюстрации законов дигибридного скрещивания.
В своей работе Мендель выбрал признаки, которые зависят только от одного гена, так называемые моногенные признаки — форма семян, цвет семян, высота стебля и тд, всего 7 признаков.
Мендель провёл десятки тысяч скрещиваний и получил соотношения 3:1 и 9:3:3:1. Это пример моногенного наследования — когда признак зависит от одного гена, и подчиняется простым законам, тем самым законам Менделя, которые назовут в его честь сильно позже:
1) Закон единообразия гибридов первого поколения: доминантный аллель подавляет рецессивный, и все гибриды первого поколения (F1) имеют одинаковый фенотип.
2) Закон расщепления признаков: при скрещивании гетерозигот (Aa × Aa) потомство делится в пропорции 3:1 по фенотипу и 1:2:1 по генотипу.
3) Закон независимого наследования признаков: при дигибридном скрещивании (два признака) гены наследуются независимо, давая соотношение 9:3:3:1 по фенотипу.
В целом можно сказать, что законы Менделя это “Hello world” от мира генетики. Во многих случаях они нарушаются, например если гены сцеплены, или если гомозиготы по рецессивному признаку не выживают, тогда расщепление будет другое. Однако было бы несправедливо сказать, что Менделю просто повезло наткнуться на удачный признак и удачный тип наследования, ведь был и неудачный опыт с ястребинкой, но это отдельная история.
Нас же интересует статистика.
В 1936 году Рональд Фишер, один из основателей современной статистики и синтетической теории эволюции, применил χ²-тест к данным Менделя и отметил, что результаты слишком близки к теоретическим пропорциям 3:1 и 9:3:3:1. Это вызвало подозрения.
Даже при моногенном наследовании должны были возникать отклонения от теоретических значений. Фишер предположил, что неизвестный ассистент Менделя мог неосознанно корректировать или отбирать данные, так как знал желаемое распределение.
Цитата Фишера:
"the data of most, if not all, of the experiments have been falsified so as to agree closely with Mendel’s expectations"
По сути, Фишер обвинил Менделя в фальсификации данных, что вызвало бурные споры в научном сообществе, которые актуальны и сейчас (последнюю статью на эту тему нашла за 2019 год).
А что думают статистики сейчас?
Одна из ключевых современных работ — статья Pires & Branco (2010) в журнале Statistical Science. Авторы предложили простую, но элегантную статистическую модель, которая объясняет «слишком идеальные» данные Менделя без фальсификации.
Их гипотеза:
Мендель мог из нескольких экспериментов публиковать только результаты с лучшим распределением, наиболее близким к теоретическому.
То есть если эксперимент давал пропорции хуже, чем предполагалось, его повторяли. А если новый результат был ближе к теории — брали его. Это не фальсификация, а unconscious bias, то есть неосознанная предвзятость.
Авторы показали, что такая модель:
- воспроизводит распределение p-value в данных Менделя,
- снимает подозрения в преднамеренной фальсификации,
- объясняет низкие χ²-значения лучше, чем честная выборка с независимыми тестами.
При этом они подчёркивают, несмотря на то, что замечание Фишера обосновано с точки зрения статистики, предложенная модель разрешает долгое противоречие между Менделем и Фишером, отцами современной генетики и статистики.
#stats
В комментарии закину фотографию из музея Менделя в Брно
2👍58❤24🔥14✍2
Отзыв о книге “Доверительное A/B тестирование” и фейлы перевода
Недавно дочитала эту книгу (в основном в переводе, но сверяясь с оригиналом). Книга очень крутая, настоящий must have для продуктовых аналитиков и продакт-менеджеров. Авторы буквально основатели A/B-тестирования в том виде, в каком мы его знаем.
Самые интересные и полезные темы для меня:
1. Введение, актуально не только для аналитиков, так как позволяет больше понять, почему не у всех бывает одинаковым интерфейс сайтов 😏
2. Этика A/B экспериментов, важная тема, которую мало обсуждают на курсах и в телеграм-каналах. Возможно, распишу про это подробнее в отдельном посте.
3. Про t-test и необходимо ли для него нормальное распределение выборки разобрано корректно, лучше чем в некоторых статистических пособиях. Более подробно про это была лекция от Института Биоинформатики.
4. Подводные камни A/B тестирования и способы их избежать: Sample Ratio Mismatch, сетевой эффект, парадокс Симпсона, необходимость A/A тестов и не только. Эти темы сейчас кажутся базовыми, так как много внимания уделяется на курсах, но во многом курсы и вдохновлены этой книгой.
5. Другие варианты экспериментов, когда A/B невозможен: Diff-in-Diff, interrupted time series и тд, неплохой обзор методов, но для глубокого изучения нужны дополнительные источники.
Еще мне было интересно почитать про историческое развитие метода, я даже вдохновилась написать про историю A/B задолго до появления интернета и бигтехов и первые A/B тесты в индустрии.
Но к сожалению перевод на русский от издательства ДМК Пресс оставляет желать лучшего.
Примеры ошибок в переводе:
– логи данных → данные журналов
– логарифмическое преобразование → преобразование журнала
– нулевая гипотеза → гипотеза нулевого значения или гипотеза о нуле
– статистически значимая разница → значительная разница (вот это по-моему одна из самых критичных ошибок)
– и множество мелких неточностей
В принципе в большинстве случаев понятно, о чем идет речь, плюс всегда можно посмотреть оригинал, тем не менее, такие ляпы затрудняют восприятие текста и вызывают недоверие к переводу.
Я бы рекомендовала читать книгу тем, кто хочет подтянуть именно продуктовую и методологическую часть A/B тестирования и повысить насмотренность. Но лучше иметь хороший бэкграунд в статистике и теории вероятностей, все-таки это не статистика и котики)
Пишите в комментариях, какие из вышеперечисленых тем хотелось бы разобрать подробнее!
#analytics #AB_tests
Недавно дочитала эту книгу (в основном в переводе, но сверяясь с оригиналом). Книга очень крутая, настоящий must have для продуктовых аналитиков и продакт-менеджеров. Авторы буквально основатели A/B-тестирования в том виде, в каком мы его знаем.
Самые интересные и полезные темы для меня:
1. Введение, актуально не только для аналитиков, так как позволяет больше понять, почему не у всех бывает одинаковым интерфейс сайтов 😏
2. Этика A/B экспериментов, важная тема, которую мало обсуждают на курсах и в телеграм-каналах. Возможно, распишу про это подробнее в отдельном посте.
3. Про t-test и необходимо ли для него нормальное распределение выборки разобрано корректно, лучше чем в некоторых статистических пособиях. Более подробно про это была лекция от Института Биоинформатики.
4. Подводные камни A/B тестирования и способы их избежать: Sample Ratio Mismatch, сетевой эффект, парадокс Симпсона, необходимость A/A тестов и не только. Эти темы сейчас кажутся базовыми, так как много внимания уделяется на курсах, но во многом курсы и вдохновлены этой книгой.
5. Другие варианты экспериментов, когда A/B невозможен: Diff-in-Diff, interrupted time series и тд, неплохой обзор методов, но для глубокого изучения нужны дополнительные источники.
Еще мне было интересно почитать про историческое развитие метода, я даже вдохновилась написать про историю A/B задолго до появления интернета и бигтехов и первые A/B тесты в индустрии.
Но к сожалению перевод на русский от издательства ДМК Пресс оставляет желать лучшего.
Примеры ошибок в переводе:
– логи данных → данные журналов
– логарифмическое преобразование → преобразование журнала
– нулевая гипотеза → гипотеза нулевого значения или гипотеза о нуле
– статистически значимая разница → значительная разница (вот это по-моему одна из самых критичных ошибок)
– и множество мелких неточностей
В принципе в большинстве случаев понятно, о чем идет речь, плюс всегда можно посмотреть оригинал, тем не менее, такие ляпы затрудняют восприятие текста и вызывают недоверие к переводу.
Я бы рекомендовала читать книгу тем, кто хочет подтянуть именно продуктовую и методологическую часть A/B тестирования и повысить насмотренность. Но лучше иметь хороший бэкграунд в статистике и теории вероятностей, все-таки это не статистика и котики)
Пишите в комментариях, какие из вышеперечисленых тем хотелось бы разобрать подробнее!
#analytics #AB_tests
5❤35👍17😁1
Загадка (все события вымышленны, любое совпадение случайно 😏):
Студент устроился джуном администратором баз данных в один известный бигтех
Проходит месяц. Наступил день зарплаты — а новичок за деньгами не приходит. Прошёл второй месяц, третий, четвёртый, а за зарплатой он так и не пришёл.
Стало его коллеге синьору интересно, что происходит. Он вызывает к себе этого студента и спрашивает:
— Ты что это за зарплатой не приходишь? Не нужна что ли?
— Зарплата?! Ой… А я-то думал, дали данные пользователей — и крутись как хочешь…
#stat_fun
Студент устроился джуном администратором баз данных в один известный бигтех
Проходит месяц. Наступил день зарплаты — а новичок за деньгами не приходит. Прошёл второй месяц, третий, четвёртый, а за зарплатой он так и не пришёл.
Стало его коллеге синьору интересно, что происходит. Он вызывает к себе этого студента и спрашивает:
— Ты что это за зарплатой не приходишь? Не нужна что ли?
#stat_fun
😁98💯6👀5🤔2❤1👎1
Сходила в гости к дружественному каналу "N айтишниц заходят в бар"
https://t.iss.one/n_it_girls/442
Немного рассказала про то, как попасть в аналитику данных, чуть подробнее про конкретные курсы и инструменты написала здесь https://t.iss.one/stats_for_science/105, а здесь больше про бэкграунд
#analytics
https://t.iss.one/n_it_girls/442
Немного рассказала про то, как попасть в аналитику данных, чуть подробнее про конкретные курсы и инструменты написала здесь https://t.iss.one/stats_for_science/105, а здесь больше про бэкграунд
#analytics
Telegram
N айтишниц заходят в бар
Они хотят знать, во что это выльется💸
По всем вопросам ☎️
https://forms.gle/6Wqszp7QqY2kyYm28
Дейтинг бот (работает на длинных каникулах) @N_dating_bot
По всем вопросам ☎️
https://forms.gle/6Wqszp7QqY2kyYm28
Дейтинг бот (работает на длинных каникулах) @N_dating_bot
🔥19❤10👍2
Небольшой интерактив: напишите самые раздражающие фразы, связанные со статистикой
Например:
1) p-value это вероятность того, что нулевая гипотеза верна
2) давайте проведем больше тестов и выберем тот, который покажет значимый результат
3) данные распределены ненормально, нужно делать непараметрический тест
4) достоверность различий
Продолжайте в комментариях!
Из предложенного выберу несколько фраз, и подробно разберу, в чем их ошибочность. Пока что в планах написать про "достоверность различий"
#stats
Например:
1) p-value это вероятность того, что нулевая гипотеза верна
2) давайте проведем больше тестов и выберем тот, который покажет значимый результат
3) данные распределены ненормально, нужно делать непараметрический тест
4) достоверность различий
Продолжайте в комментариях!
Из предложенного выберу несколько фраз, и подробно разберу, в чем их ошибочность. Пока что в планах написать про "достоверность различий"
#stats
❤25👍14❤🔥4😁4
В предыдущем посте я попросила написать самые раздражающие вещи, связанные со статистикой, набралось очень много ответов, спасибо, было интересно почитать.
В комментариях Дамир Марапов отметил важную мысль, которую я считаю нужным вынести отдельно.
Примеры в комментариях можно условно разделить на:
- Явные ошибки, например в определениях: p-value это вероятность того, что нулевая гипотеза верна, достоверность различий и тому подобное.
- Неточности и ошибки в методологии: например, для t-теста нужно нормальное распределение исходных данных. Тут сложнее, так как конечно нужно нормальное распределение выборочных средних, но в случае нормального распределения данных, это выполняется автоматически. Отсюда и берется этот алгоритм проверки на нормальность тестами Шапиро-Уилка и прочее. Но мы не можем сказать, что всегда можно использовать t-тест не глядя, по ЦПТ, равно как и использовать всегда непараметрические критерии.
И вот про методологию хотелось бы поговорить отдельно.
При обучении статистике сталкиваешься с алгоритмами и догмами (делайте так, а вот так неправильно), это касается всего, в том числе выбора статистического теста (немного писала, почему это плохо в материале про тест Велча). Но алгоритмы хороши только на этапе обучения, а дальше уже выясняется, что “есть нюанс”.
Простой пример из комментариев — корреляция бинарных переменных. Если честно, я тоже думала, что корреляции и ковариации бинарных величин не бывает (ну как вы собрались коррелировать 0 и 1?), но оказывается это имеет смысл, вот здесь можно почитать подробнее.
Даже такой карикатурный пример про продакта, который просит подсчитать результаты АБ теста в разных сегментах, чтобы найти хоть где-то значимые различия не всегда однозначно абсурден. Например, если мы обнаружили, что на какой-то платформе и в каком-то гео есть значимые различия, то можно провести дополнительное исследование конкретно в этом сегменте, чтобы подтвердить различия (особенно если у этого есть продуктовое обоснование). Но конечно в формулировке:
— это хрестоматийный пример как делать не надо.
Тест Манна-Уитни сравнивает медианы — это статистический миф, но при выполнении определенных условий (если совпадают формы распределений) тест Манна-Уитни действительно сравнивает медианы.
Подглядывание в A/B тесты - запрещено, но если делать sequential testing, то можно.
В общем, я хочу подчеркнуть, что многие статистические правила и рекомендации являются действительно рекомендациями, а не догмами, и что-то, что в учебнике было описано как неверное, может на самом деле быть применимым в определенных условиях.
Потому статистику невозможно освоить на хорошем уровне за один семестровый или годовой курс, хотя они дают хорошую базу для дальнейшего изучения. То же самое можно сказать про курсы повышения квалификации — это отличный задел на будущее, но не стоит думать, что после освоения такого курса вы сразу станете гуру статистики и никогда не будете ошибаться, просто перестанете делать очевидные ошибки.
Ну ладно, так у меня не купят рекламу)
Но если серьезно, то после любого курса нужно продолжать обучение, погружаться в детали, так как четкие алгоритмы и рекомендации хороши только для старта.
#stats
В комментариях Дамир Марапов отметил важную мысль, которую я считаю нужным вынести отдельно.
Примеры в комментариях можно условно разделить на:
- Явные ошибки, например в определениях: p-value это вероятность того, что нулевая гипотеза верна, достоверность различий и тому подобное.
- Неточности и ошибки в методологии: например, для t-теста нужно нормальное распределение исходных данных. Тут сложнее, так как конечно нужно нормальное распределение выборочных средних, но в случае нормального распределения данных, это выполняется автоматически. Отсюда и берется этот алгоритм проверки на нормальность тестами Шапиро-Уилка и прочее. Но мы не можем сказать, что всегда можно использовать t-тест не глядя, по ЦПТ, равно как и использовать всегда непараметрические критерии.
И вот про методологию хотелось бы поговорить отдельно.
При обучении статистике сталкиваешься с алгоритмами и догмами (делайте так, а вот так неправильно), это касается всего, в том числе выбора статистического теста (немного писала, почему это плохо в материале про тест Велча). Но алгоритмы хороши только на этапе обучения, а дальше уже выясняется, что “есть нюанс”.
Простой пример из комментариев — корреляция бинарных переменных. Если честно, я тоже думала, что корреляции и ковариации бинарных величин не бывает (ну как вы собрались коррелировать 0 и 1?), но оказывается это имеет смысл, вот здесь можно почитать подробнее.
Даже такой карикатурный пример про продакта, который просит подсчитать результаты АБ теста в разных сегментах, чтобы найти хоть где-то значимые различия не всегда однозначно абсурден. Например, если мы обнаружили, что на какой-то платформе и в каком-то гео есть значимые различия, то можно провести дополнительное исследование конкретно в этом сегменте, чтобы подтвердить различия (особенно если у этого есть продуктовое обоснование). Но конечно в формулировке:
найди мне хоть где-то в этом АБ значимые различия, поправку на множественное сравнение не делай, а то вся значимость уйдет
— это хрестоматийный пример как делать не надо.
Тест Манна-Уитни сравнивает медианы — это статистический миф, но при выполнении определенных условий (если совпадают формы распределений) тест Манна-Уитни действительно сравнивает медианы.
Подглядывание в A/B тесты - запрещено, но если делать sequential testing, то можно.
В общем, я хочу подчеркнуть, что многие статистические правила и рекомендации являются действительно рекомендациями, а не догмами, и что-то, что в учебнике было описано как неверное, может на самом деле быть применимым в определенных условиях.
Потому статистику невозможно освоить на хорошем уровне за один семестровый или годовой курс, хотя они дают хорошую базу для дальнейшего изучения. То же самое можно сказать про курсы повышения квалификации — это отличный задел на будущее, но не стоит думать, что после освоения такого курса вы сразу станете гуру статистики и никогда не будете ошибаться, просто перестанете делать очевидные ошибки.
Ну ладно, так у меня не купят рекламу)
Но если серьезно, то после любого курса нужно продолжать обучение, погружаться в детали, так как четкие алгоритмы и рекомендации хороши только для старта.
#stats
Telegram
Damir Marapov in Чат канала "Статистика и R"
Есть, конечно, абсолютные ошибки, когда люди называют белое черным. Но вот когда речь заходит о каких-либо алгоритмах - я уже остерегаюсь судить, что они совершенно неверные. Стараюсь уже сразу ничего не отрицать, а наоборот, поискать варианты, когда это…
5🔥29👍9❤8