Заскуль питона (Data Science)

Junior-Lead, based 🤝

🤝

Please open Telegram to view this post

VIEW IN TELEGRAM

😁2310🐳2

3.75K views08:20

Заскуль питона (Data Science)

🐱

Бутстрап или как оценить неопределенность в данных.

Всем привет! В этом посте затронем бутстрап, рассмотрим основные аспекты и ограничения.

😼 Этот метод позволяет построить эмпирическое распределение статистики на основе имеющейся выборки (как правило, мы работаем именно с ней).

Стандартный алгоритм выглядит следующим образом:

1️⃣ Берём выборочное распределение метрик, из которых впоследствии мы будем строить распределение статистики (среднее, n-ый квантиль и др.)
2️⃣ Выбираем количество бутстрап-итераций, т.е. сколько мы раз будем генерировать подвыборку
3️⃣ Семплируем подвыборку с возвращением ровно столько раз, сколько элементов в изначальной выборке
4️⃣ Повторяем это n раз, указанных на 2 шаге
5️⃣ Получаем распределение статистики.

🍦

Что это означает для нас?

То, что мы можем оценивать доверительные интервалы для статистик (обычно в индустрии используют разницу между двумя статистиками), использовать более сложные метрики для анализа (например, Ratio-метрики), рассчитать p-value и сделать какие-то выводы.

К ограничениям я бы отнес следующее:

❓

Бутстрап предполагает независимость данных, поэтому какие-нибудь метрики по типу: отношение роста к весу на людей не подойдет. Нарушаются предпосылки о независимости случайных величин.

⌛

Сложность вычисления на большой выборке пользователей. Да, создать генератор случайных величин - это классно. Но что имеем по факту? Многомиллионные A/B тесты, которые обсчитываются очень долго и командам остается либо придумывать варианты, связанные с параллелизмом расчетов, либо воспользоваться другим тестом для оценки изменений.

📚

Полезные материалы по теме:

https://habr.com/ru/amp/publications/679842/

https://habr.com/ru/amp/publications/762648/

😇

Понравился пост? Ставьте реакции, пишите комментарии, а я напишу в дальнейшем про виды бутстрапа

UPD. Предпосылка бутстрапа:
Разница между статистикой, вычисленной по случайной выборке, и статистикой, вычисленной по генеральной совокупности, должна аппроксимироваться разницей между статистикой, вычисленной по случайной выборке, и статистикой, вычисленной по выборке с возвращением из этой случайной выборки

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥2211❤8👍1

2.54K viewsedited 09:07

Заскуль питона (Data Science)

CUPED с несколькими ковариатами

🏆 В оригинальной статье CUPED говорится о том, что возможно использование нескольких ковариат на предэкспериментальном периоде.

Для понимания того, что здесь происходит, советую ознакомиться с предыдущим постом

🔍 Для поиска коэффициента theta в оригинальной интерпретации используется метод наименьших квадратов (МНК) для линейной регрессии со свободным коэффициентом и одним регрессором (нашей ковариатой).

Наткнулся на статью, в которой один phd показывает, что возможно использовать несколько ковариат и указывает на основные моменты. Статья называется CUPED with Multiple Covariates and A Simpler the Delta Method Calculation. Недавно узнал, что с этим работают в Booking, но статьи не нашёл)

❔ Если здесь сидят ребята, которые занимаются продвинутыми методами A/B тестирования, скажите, вы использовали это раньше или нет? Как по мне, рабочий вариант, но ковариаты нужно подбирать таким образом, чтобы не было основной метрики в предэкспериментальном периоде, как мне кажется, поскольку возникнет мультиколлинеарность.

Пока не тестил, как это может снизить метрику, но в статье с CUPED with Multiple Covariates... есть пример с генерацией вектора theta для каждой из метрик, можно покрутить.

Если вы хотите бустануть канал, видеть истории с полезными материалами или просто кастомные реакции, делайте тык.

Please open Telegram to view this post

VIEW IN TELEGRAM

10❤8🔥3

3.34K views07:56

Заскуль питона (Data Science)

Brrrrr 😆

Please open Telegram to view this post

VIEW IN TELEGRAM

33😁8😱5❤1

3.08K views07:25

Заскуль питона (Data Science)

Propensity Score. Как оценить эффект без стандартных A/B тестов.

Доклад от 😀, в котором говорится о том, как правильно измерять эффект при условии того, что мы раскатили фичу на всех (есть ограничения на проведения A/B теста)

❓ Здесь освещаются основные моменты, связанные с Look-a-like, diff-n-diff, IPTW, как бороться со смещениями при оценке эффекта и др.

👍

Советую к просмотру, достаточно годно.

📚

Короткая статья на Хабре от Лида промо Сбермаркета про Propensity Score Matching

🕺 Если на посте наберется N реакций, постараюсь написать более подробно про это

Please open Telegram to view this post

VIEW IN TELEGRAM

32❤11🔥6👍1

4.66K viewsedited 08:35

Заскуль питона (Data Science)

DROP DATABASE CASCADE 😁

Please open Telegram to view this post

VIEW IN TELEGRAM

😁2512😭3🤡1🤝1

5.45K views08:18

Заскуль питона (Data Science)

2️⃣

0️⃣

❗️

Ура! Мы сделали это. Спасибо, что продолжаете активно следить за каналом. Всех люблю 🙏

🦌

Скажите, что бы хотели видеть на канале в дальнейшем?

Возможно разбор заданий, материалы, которые я читаю, либо что-то для вката в IT. Очень интересен ваш фидбек!

Please open Telegram to view this post

VIEW IN TELEGRAM

18❤6🔥5

4.34K views07:51

Заскуль питона (Data Science)

такс, поступило предложение разбирать задачи с собесов, если наберется 100 (150?) реакций, будем качать эту тему 😁

Зовите друзей! Добьем 😑

Please open Telegram to view this post

VIEW IN TELEGRAM

❤141🔥3224👍9

4.51K viewsedited 07:57

Заскуль питона (Data Science)

или все-таки роадмап с нуля… Тоже накиньте реакций, если интересно 🙏

Please open Telegram to view this post

VIEW IN TELEGRAM

❤112🔥2924🙏7

4.39K views08:00

Заскуль питона (Data Science)

🍔

Набрали > 100 реакций, спасибо, значит задачам с собесов и разборам быть.

Начнем с достаточно распространенной задачи. Представьте, что у вас есть игровой автомат, он выдает значение X и равномерного распределения [0, 1]. Игрок может забрать выигрыш после первого нажатия в качестве выигрыша, либо еще раз сыграть и забрать выигрыш последней попытки. Как нужно действовать игроку? Какое матожидание данной стратегии? Вариаций у задачи много, но в классической вариации она выглядит именно так.

Пишите, в комментариях рассуждения. Разбор будет через какой-то промежуток времени, пока не решил как выкладывать.

Please open Telegram to view this post

VIEW IN TELEGRAM

9🔥6❤3

4.4K views10:50

Заскуль питона (Data Science)

Кто ты? 👑

Anonymous Poll

Пока не работаю, хочу вкатиться в продуктовую аналитику

13%

Пока не работаю, хочу вкатиться в аналитику данных

Пока не работаю, хочу вкатиться в IT (ответ в комментариях)

14%

Посмотреть результаты голосования

👍2🌭1

575 voters4.97K views10:56

Заскуль питона (Data Science)

Если вы продакт-менеджеры и ДЕ и другие… пишите тут. Посчитаем вас также, а то обделили 😁

Please open Telegram to view this post

VIEW IN TELEGRAM

😁11❤1

4.88K viewsedited 10:58

Заскуль питона (Data Science)

Также вдруг, если есть желание, можете вступить в чатик, он же не просто так существует для комментов https://t.iss.one/my_it_frogs

4.79K views11:02

Заскуль питона (Data Science)

💀

🍔

Please open Telegram to view this post

VIEW IN TELEGRAM

48😁23👍6🔥4💯4💔2❤1👨‍💻1

6.58K views15:51

Заскуль питона (Data Science)

У академии аналитиков Авито есть в открытом доступе свой курс по прикладной статистике. Сам курс проходил, могу сказать, что для A/B тестов самое то, но нужно знать первый курс статистики про распределения, ЦПТ, ЗБЧ и проверку гипотез из статистики. Помимо этого, есть Python, на котором показывают как всё это применять на практике (про A/A тесты на исторических данных тоже было). Годная штука, которая позволяет наглядно показать как работают статкритерии и прочее.

Если проходили или слышали, отпишите. Ставьте реакции, если сделать подобную подборку хороший материалов.

UPD: осенью будет вторая часть по продвинутым методам, но могу уже на канале дать подспорье для успешного прохождения

🔥5012❤8👍3

6.63K viewsedited 06:06

Заскуль питона (Data Science)

Как бы я сейчас построил свое обучение в продуктовой аналитике / аналитике данных?

👁 Если вы ждали этот пост, ставьте реакции, пишите комментарии. В следующем посте расскажу о своих планах на ближайший год

Всем привет! Сегодня напишу о том, что бы я изменил в своем обучении, если я бы вкатывался сейчас. Давайте перейдем к самому простому, как мне кажется, это стек. Базово на аналитика данных / аналитика предлагается следующее:

🐍

Python - для обработки данных, ETL-процессов, первичной визуализации, построения ML моделей, работа с тем же Spark / Hadoop для работы с большим объемом данных.

💻

SQL - работа с СУБД, по сути данные это наш хлеб. Любые логи, записи по пользователям / клиентам, различные фичи пользователей. По моему мнению, аналитик ОБЯЗАН уметь работать с SQL, без этого никуда. Поскольку первично если собирается неправильно получится следующее: garbage in garbage out

📊

Визуализация - бизнесу нужно интерпретировать данные в удобном формате, для этого используют дашборды. Это понятно + на основе них аналитик может понимать в удобном формате как можно генерить гипотезы. Для этого подойдут Superset, Yandex DataLens, Tableu, PowerBI, FineBI и др.

Что ж, с этим разобрались, базово это выглядит так, но если углубляться в мой стек, который я использовал в 💙 - это Gitlab, Hadoop, Airflow, SQL (ClickHouse, Vertica, MS SQL, PostgreSQL), Python, Superset.

Далее, все зависит от специфики. Если для вас достаточно быть ETL-разработчиком, можно остановиться на этом, владея базовым видением, но можно пойти дальше в сторону изучения продукта, различных тенденций и что самое главное понимания как ответить на главные вопросы бизнесу. Что мы делаем? Зачем мы это делаем? Как в будущем это отразиться на нас?

Сюда наслаивается и развитие продуктового мышления, и статистика с эконометрикой и ML, и A/B тесты, различные продвинутые методы и др.

К роадмапу (помните, что 🗯 ваш друг):

0. SQL - лучший бесплатный курс по SQL ever от 🔥. Если пользователь ClickHouse, можно документацию на русском глянуть, достаточно хорошо описано. Если пользователь Vertica 😬, то можно также документацию на английском

1. Про Python у меня был пост, можно глянуть тут

2. По визуализации можно зайти в соответствующие чаты и читать документацию. По Superset документация и соответствующий чат в телеграме. По Yandex DataLens есть курс от

❤️

3. Статистика и теория вероятностей. У ФЭН ВШЭ есть хороший курс с систематизацией того, как выводятся методы, которые мы привыкли видеть. Систематизация на уровне дисциплины без упрощения. Если вдруг оказалось сложным и непонятным, можно ВЕРХНЕУРОВНЕВО вернуться к любимому Анатолию Карпову и основам статистики на степике

4. Прикладная статистика, эконометрика, уход в АБ тесты и продвинутые методы. С курсом от ВШЭ (там кстати есть Python в блоке статистики) очень хорошо сочетаются следующие курсы: Прикладная статистика от МФТИ и ААА в открытом доступе (предыдущий пост). И также курс по эконометрике от ВШЭ от Бориса Демешева на R

4* Если вдруг предыдущий пункт оказывается непосильным, подрубаем ChatGPT, ведем конспектики и смотрим Глеба Михайлова с его практическим руководством к АБ + подкрепляем статьями на Хабр. Могу отдельным постом выложить какие статьи я читаю, для чего и т.д., как систематизирую знания.

4.1. Продвинутые методы A/B тестирования. Предыдущие посты были про любимый CUPED. Сюда наслаиваются еще и дельта-методы, стратификации, линеаризации, SPRT, VWE и др. Про это также будет отдельный пост.

5. Продуктовое мышление. Для прокачки этого можно посмотреть различные мок-интервью, чего очень много. Авито, видео. Продуктовые кейсы на собеседовании, иерархии метрик и так далее. Есть над чем подумать. Еще сюда

6. Работа с большими данными. Если вы дойдете до этого, то советую ознакомиться с документацией Spark, в частности работа с Pyspark (плейлист на YouTube) основы работы с Hadoop. Здесь вы поймете какие есть ограничения при работе, будете работать над ускорением расчетов, оптимизацией и другое.

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤98🔥4221👍15🤯2😢2🍾2🦄2👾2🙏1🆒1

18.8K viewsedited 08:47

Заскуль питона (Data Science)

7. Основы ML. Что ж, дошли до этого этапа, значит есть потенциал, идем смотреть лекции Жени Соколова от ВШЭ и кайфуем от жизни. Достаточно все классно объяснено + подкреплено соответствующей практикой.

Если есть чего добавить или изменить пишите в комментариях. 120+ реакций и я рассказываю о дальнейших планах не в 💙. Упс, спойлеры подъехали!

UPD: Ещё по АБ тестированию есть очень крутой курс от я практикума.
https://practicum.yandex.ru/statistics-basic/

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥78❤1711👍3👾2🆒1🦄1

8.18K viewsedited 08:47

Заскуль питона (Data Science)

Ладно, так уж и быть, можно сюда реакций тоже дать, если действительно хотите знать, куда я ухожу из 💙

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥9536❤14👀4👍1

5.44K views08:49

Заскуль питона (Data Science)

C’mon, bro. Bayesian stats… 👻

Please open Telegram to view this post

VIEW IN TELEGRAM

😁148👍4🔥1😢1

4.88K views09:51

Заскуль питона (Data Science)

Заскуль питона (Data Science) pinned «Ладно, так уж и быть, можно сюда реакций тоже дать, если действительно хотите знать, куда я ухожу из 💙»

09:53

Заскуль питона (Data Science)

🤓 Нашел классный материал по Causal Inference и A/B тестам на просторах интернета на английском языке. В целом, есть примеры, формулки, можно самому что-то запрогать. Тут от обычной статистики до продвинутых методов, на досуге можно глянуть. Есть часть глав недописанных, например девятая, в остальном все гуд. К прочтению или ознакомлению советую. Как мне показалось, не совсем полно написано про Variance Reduction, хотелось бы видеть больше методов. Гайд 2021 года, но всеми любимый CUPED не забыли.

Please open Telegram to view this post

VIEW IN TELEGRAM

18🔥5❤3🐳1🍓1🦄1👾1

4.95K views10:57

About

Blog

Apps

Platform