Интернет-аналитика // Алексей Никушин
25.3K subscribers
1.49K photos
36 videos
236 files
1.36K links
Все вопросы - [email protected]

@a_nikushin
Download Telegram
Помните Виталия Черемисинова и Искандера Мирмахмадова из AIC, которые в одно время практически монополизировали всю публичную информацию на тему А/В-тестирования?

Они открыли что-то типа образовательного центра и агрегируют много толковых материалов в канале @exp_fest

Кроме них только @abtesting на эту тему.

И те и те пишут нечасто
Доступ к курсам.

Devtodev на три месяца открывает доступ к своим курсам.

- Математика в геймдизайне: теория и практика
- Маркетинг мобильных игр: базовый курс
- Игровая аналитика: от основ к продвинутым методам
- Геймдизайн: как делать игры, которые нравятся и приносят деньги
И другие

https://www.devtodev.com/education/online-course/

Harvard тоже открыл доступ к курсам.
Там не только наука о данных, но и науки о данных много. Доступ открыт на 8 недель, некоторые курсы длятся тоже 8 недель. Поэтому записывайтесь скорее. Иначе придётся доплачивать в конце.

https://online-learning.harvard.edu/subject/data-science

@internetanalytics
Одно из лучших (на мой взгляд) объяснений природы А/B-тестов от Вити Кантора @kantor_ai ⬇️
Forwarded from Kantor.AI (Victor Kantor)
Статзначимость в А/В тестах (часть 1/3)

Итак, победил вариант «Простыми словами про статзначимость в А/В тестах». Разбил ответ на три части: введение, непосредственно по теме и некоторые интересные моменты, которые тоже полезно обсудить. Кто знает ответы на вопросы, выделенные полужирным шрифтом в этом посте, могут просто пролистать его и переходить сразу ко второму.

Зачем вообще нужны А/В тесты?

Потребность в А/В тестах возникает тогда, когда мы хотим что-то улучшить. Например, взамен какого-то существующего алгоритма персональных рекомендаций товаров или старого интерфейса мобильного приложения внедрить новую версию. А/В тесты как метод отвечают на вопрос: «Как понять, что это правда будет улучшать важные для нас показатели?»

Посмотреть «стало ли продаж больше» и удовлетвориться такой оценкой нововведения — это очень топорный подход, который сработает только когда бизнес-показатели не зависят от времени и нововведение лишь одно. Обычно это не так. Бизнес растет или угасает, бывает «сезон» и «не сезон». Бывает очень много изменений за месяц, и понять, какое именно из них вызвало эффект, невозможно. Однако многие вещи в коммерческих компаниях (даже самых технологичных) и в 2020 году делаются без А/В тестирования. А еще больше — без оценки статзначимости. К А/В тестам не нужно относиться теологически, но стоит понимать силу и возможности инструмента.

Что такое статистическая значимость и A/A тесты?

Допустим, нет пока никакого нововведения, которое вы будете оценивать в А/В тесте, есть пользователи вашего сайта или приложения, и вы просто делите их на две группы и смотрите на результат в каждой (например, на конверсию посещений в покупки на сайте). Такой тест называется А/А тестом, и, наверное, вас не удивит, что даже при хорошем разбиении на группы результаты в них будут немного отличаться.

Статистическая значимость эффекта в А/В тесте, грубо говоря, означает, что различие между группами заметно больше, чем было бы в А/А тесте, т.е. «есть реальный эффект», а не случайные отклонения. Что это значит для бизнеса? То, что хотя бы при сохранении тех же условий, что и во время проведения А/В теста, эффект от нововведения с большой вероятностью будет какое-то время сохраняться (важное уточнение: эффект может затухать со временем, никто не отменял «эффект новизны»).
Forwarded from Kantor.AI (Victor Kantor)
Статзначимость в А/В тестах (часть 2/3)

Как проверяют гипотезы с помощью статистики

Рассмотрим простой пример: мы с другом 10 раз сыграли в шахматы, и он 10 раз победил, какова вероятность такого исхода, если мы с ним играем одинаково хорошо?

Если мы одинаково хороши, шанс выиграть у каждого 0.5, значит мой шанс проиграть все 10 игр был 0.5 в степени 10, т.е. около 0.001. Выглядит как не очень вероятное событие, придется признать, что друг все-таки играет лучше. Ровно так же мы будем делать и при проверке того, что между группами А и В в А/В тесте есть статзначимые различия.


Как работает проверка статзначимости в А/В

Работает это так: предположим, что у нас есть какое-то нововведение (новое оформление, новый интерфейс, новый алгоритм рекомендаций), и мы проводим А/В тест. А вот эффекта от нововведения нет и различия между группами на самом деле нет. Это в статистике называется «нулевой гипотезой» — тем, что мы в А/В тесте в идеале хотим отвергнуть.

Предположив, что нулевая гипотеза выполняется (статистически различия между группами нет), мы можем оценить, с какой вероятностью p можно увидеть разность показателей в группах больше, чем Y (тысяч долларов выручки, например). Как это сделать? Например, взять наши данные, много раз случайно разбить их на две группы и посмотреть, в каком проценте случаев различие между группами окажется больше Y. За счет случайности разбиений, даже если эффект в вашем разбиении на группы А и В был, в новых группах его не будет (т.к. пользователи случайно перемешаются), и можно считать это хорошей оценкой вероятности p.

Если вероятность p оказалась очень маленькой, значит разница в группах все-таки существенная.

И что, всегда делать несколько тысяч случайных разбиений?

Приведенный выше пример с моделированием А/А тестов — это лишь один из используемых на практике стат.критериев — перестановочный тест (с некоторыми оговорками, но не будем сейчас вдаваться в детали). По многим показателям этот стат.критерий не самый удобный, но зато очень просто иллюстрирует концепцию проверки гипотез.

В жизни же во многих случаях можно обойтись без численного моделирования и применить какие-то параметрические стат.тесты (те, в которых распределение величины Y, если нулевая гипотеза верна, выписывается явно формулой). Например, если мы считаем, что наша величина Y имеет нормальное распределение, то можно без численных экспериментов обойтись формулами для нормального распределения. На самом деле, не совсем, надо хотя бы проверить, что распределение правда нормальное, но на этом тоже не будем останавливаться.

Главное — получить распределение Y, при условии нулевой гипотезы. Численно, либо по формуле в рамках каких-то предположений. В нашем примере с шахматами тоже использовался параметрический тест — биномиальный.

Как понять, что вероятность p «мала» и что такое p-value?

Величина p в статистике называется p-value. Перед проведением любого А/В теста фиксируют уровень значимости, например 5%, и отвергают нулевую гипотезу только если p-value оказывается меньше уровня значимости. Т.е. мы допускаем вероятность 5% сказать, что эффект есть, когда его на самом деле нет. А/В тесты, к сожалению, вещь вероятностная, поэтому «точного» ответа на вопрос «есть ли эффект» не дают, только могут подтвердить его на каком-то уровне значимости. Само p-value в русской литературе называют достигаемым уровнем значимости (не путать с уровнем значимости выше — он был порогом, с которым сравниваем p-value).
Forwarded from Kantor.AI (Victor Kantor)
Статзначимость в А/В тестах: дополнительные вопросы (часть 3/3)

Я слышал, что p-value — это не вероятность нулевой гипотезы, что это значит?

Все верно, это известная бородатая ошибка при интерпретации p-value. P-value — это не вероятность нулевой гипотезы, а вероятность увидеть в тесте такой же «эффект» или больше, при условии справедливости нулевой гипотезы (т.е. когда эффекта на самом деле нет). От этого можно перейти к вероятности нулевой гипотезы, при условии наблюдаемого эффекта по теореме Байеса, если вдруг вы будете знать все нужные для формулы вероятности, но нужды в этом нет.

А еще я слышал, что нулевую гипотезу нельзя принять, о чем это?

В А/В тесте мы хотим отвергнуть нулевую гипотезу, посмотрев на фактические данные. Но можем не отвергнуть. Подтвердить нулевую гипотезу не можем: если нам не хватает свидетельств против чего-то, это еще не значит, что это что-то верно 🙂

Бытовая иллюстрация:
Старушка на лавочке у подъезда выбирает, как поприветствовать Васю. В качестве нулевой гипотезы она принимает утверждение, что Вася обычный парень. А в качестве альтернативы — что Вася наркоман. Чтобы выбрать доброжелательное или агрессивное приветствие, она оценивает, насколько Вася плохо выглядит сегодня. Если «еще терпимо», то заключает, что свидетельств против нулевой гипотезы не хватает и нужно приветствовать доброжелательно. В этом случае она, однако, не может быть уверена, что Вася не наркоман, т.е. принять нулевую гипотезу. Но как вдумчивая и образованная пожилая женщина, не спешит с выводами и собирает данные.

Везде выше постоянно говорилось о каком-то статистическом различии между результатами в группах А/В, которое либо есть, либо нет. А что это значит?

Вот здесь мы вступаем на территорию более сложных формулировок. Если объяснять это не на бытовом уровне, то вы сами выбираете смысл «статистического различия» при формулировке нулевой гипотезы и альтернативы. Например, если мы сравниваем средние чеки в группах А и В, то под «статистически неразличимыми» результатами мы можем иметь ввиду одинаковое матожидание среднего чека в группе А и в группе В. Это будет нулевой гипотезой. Альтернативой — различные матожидания. Есть критерии, которые в качестве нулевой гипотезы рассматривают совпадение медиан распределений или просто совпадение распределений.

А еще слышал что-то про множественную проверку гипотез? Это о чем?

Это о том, что если вы проверяете одновременно несколько гипотез на уровне значимости, скажем, 5% каждая (например, оцениваете эффект сразу и на средний чек, и на конверсию в покупку, и на конверсию в переход на страницу товара), то шанс ложного срабатывания теста хотя бы для одной гипотезы будет уже не 5%, а существенно больше. Есть разные способы учитывать этот эффект.
Одно из лучших (на мой взгляд) объяснений природы А/B-тестов от Вити Кантора @kantor_ai ⬆️
Агентство Wealth-X Analytics опубликовало отчет о богатстве россиян.

По итогам 2019-го года Россия стоит на 4 месте в мире по количеству миллиардеров. У нас 293 000 человека с крупным чистым доходом (>$1 млн) и 5 500 со сверхкрупным чистым доходом (от $30 млн). Последние составляют всего 2% населения и владеют 50% богатств страны, причем чаще, чем богачи других стран, выбирают ликвидные активы и недвижимость.

В Москве и Санкт-Петербурге сосредоточена треть богатств страны. В Москве 27% людей со сверхкрупным чистым доходом имеют доход более $100 млн, что ставит Москву на 7-е место среди городов всего мира по этому показателю.

Четверть богатств России сосредоточена в финансовом и банковском секторах, 10.6% в энергетике, 6.6% в недвижимости, 5.9% в НКО.

@internetanalytics
Wealth-X_The-Wealthy-in-Russia_2020.pdf
203 KB
Отчёт о распределении богатства россиян. @internetanalytics
MIT Tech Review опросил ⬆️ об использовании AI технологий 1 000 руководителей высшего звена крупных компаний мира в начале этого года. Аналитики предполагают, что страны Азиатско-Тихоокеанского региона готовы стать лидерами планеты в этой области. Лидерство может быть достигнуто благодаря раннему формированию в этом регионе mobile first рынков, наличию большого количества квалифицированных кадров и стимулирующей позиции правительств. Так, в бюджет одной Южной Кореи на 2020 год было заложено 4 млрд долларов на развитие технологий AI.

В 2017-м году только у 56% респондентов из Азии в компании были внедрены технологии AI, в 2019-м технологии применяются уже у 96%, а в других регионах в среднем только у 85%.
Чаще всего AI используют в IT менеджменте, обслуживании клиентов и R&D, но аналитики прогнозируют выход направления маркетинга на первое место к 2022-му году.

54% опрошенных считают, что главная ценность технологий AI - в экономии средств и повышении операционной эффективности. 60% опрошенных из разных стран утверждают, что ROI от внедрения AI соответствовал ожиданиям, а для 37% ROI превзошел ожидания. В Азиатско-Тихоокеанском регионе ROI был выше ожиданий в 46% случаев.

Консультанты McKinsey посчитали, что компании ассоциации АSEАN могли увеличить прибыль на 897 млрд долларов, если бы активнее пользовались технологиями ML.

Азиатско-Тихоокеанский регион стоит на первом месте по использованию AI для персонализации продуктов и расчета ценовой политики, что логично при лидерстве региона в e-commerce. E-com в регионе вырос на 25% за 2019-й год и достиг 2.3 трлн долларов.

@internetanalytics
Иллюстрации к опросу MIT об использовании технологий искусственного интеллекта
FunCorp заявили, что согласно внутренним данным и данным их партнеров - 27 крупных рекламных сетей, рынок мобильной рекламы упал на 50% за время пандемии. Спад идет в основном в high и mid tier advertising.

В самом FunCorp прибыль упала на 40-50% несмотря на рост аудитории.

COO компании утверждает, что не видел такого резкого падения на рынке рекламы в последние 10 лет. Возможно, рекламные сети ждет даже банкротство без поддержки крупных компаний, которые также переживают нелегкие времена.

Источник:
https://venturebeat.com/2020/04/20/funcorp-mobile-ad-revenues-fell-50-during-march-as-the-pandemic-grew/

@internetanalytics