Заскуль питона (Data Science)

Мемы

Всем доброе утро! Сегодня суббота, а это значит, что нужно отдыхать, уделять время себе после рабочей неделе, предлагаю прислать любимые мемы про DS / IT / работу в комментарии.

😏 Если мемы будут классные, то я их выложу в @ds_memes, а пока начну эстафету в комментариях.

Следующий пост выложу про то, как устроен пайплайн публикации мемов.

🐳

@zasql_python

Please open Telegram to view this post

VIEW IN TELEGRAM

1😁11🐳42❤1

3.54K views08:21

Заскуль питона (Data Science)

😎 Крутые статьи на Хабре про A/B-тестирование от крупных компаний

A/B-тесты кажутся простыми: разделили аудиторию, сравнили метрики, сделали вывод. Но на практике можно легко допустить ошибку, которая приведёт к неправильным решениям. Собрал полезные статьи с Хабра, которые помогут разобраться в нюансах экспериментов и избежать классических фейлов и узнать что-то новое.

Топ постов от IT-компаний, в которых активно используется 🆎.

💙

Ozon

🟢

Шесть причин, почему ваши A/B-тесты не работают

🟢

Без А/B результат XЗ, или Как построить высоконагруженную платформу А/B-тестов

🖤

X5 Tech

🟢

А/Б тесты с метрикой отношения. Дельта-метод

🟢

Как проводить A/B-тестирование на 15 000 офлайн-магазинах

🟢

50 оттенков линейной регрессии, или почему всё, что вы знаете об A/B тестах, помещается в одно уравнение

🟢

Varioqub: за Mann-Whitney замолвите слово

🛒 Купер (ex. СберМаркет)

🟢

Линеаризация: зачем и как укрощать ratio-метрики в A/B-тестах

🟢

База: айсберг A/B-тестов

🌏 Авито

🟢

Как устроено A/B-тестирование в Авито

🟢

Как улучшить ваши A/B-тесты: лайфхаки аналитиков Авито. Часть 1

🟢

Как улучшить ваши A/B-тесты: лайфхаки аналитиков Авито. Часть 2

🟢

Сетап А/В-теста, который помог снизить MDE выручки в 2 раза

🟢

Как мы в Авито проводим A/B-тесты CRM-рассылок

🤪

Lamoda Tech

🟢

Как же мощно я провел A/B-тест, или почему не стоит сравнивать наблюдаемый аплифт с MDE

❤️

Яндекс

🟢

10 мифов об A/B-тестировании: как избежать распространённых заблуждений в статистическом анализе

🏦 Т-банк

🟢

Использование последовательного тестирования для уменьшения размера выборки

Ставьте 🐳, если подборка была полезной, сохраняйте к себе, чтобы не забыть! Следующую подборку сделаю по методам оценки эффекта без A/B тестирования

@zasql_python

👉

@ds_memes

Что-то забыл? Пишите в комментариях!

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳64❤10🔥95👍42

5.29K views06:46

Заскуль питона (Data Science)

Forwarded from Data Science Memes

Пятница, играем в русскую рулетку.

😏

@ds_memes

Please open Telegram to view this post

VIEW IN TELEGRAM

😁37🤣12😎3❤1🤯1

2.79K views12:40

Заскуль питона (Data Science)

Буквально 2 дня назад вышла статья Avito 🌍 по 🆎. Разбираем по шагам механику A/B-тестирования: математика, интуиция и код

Почитал, в целом могу сказать, что хорошее чтиво для разбора A/B тестов.

Обычно, я смотрю графически на то, как изменяется MDE (тут это написано в зависимости от длительности эксперимента), также смотрю и по количеству пользователей в эксперименте (10/10, 20/20 и тд), только равные группы пользователей.

🧑‍🎓

Теоретическое

def compare_mde(current_a, current_b, new_a, new_b):
    return np.sqrt(1/current_a + 1/current_b) / np.sqrt(1/new_a + 1/new_b)

# здесь смотрят на то, а как изменится mde, если мы перейдем от 10/10 к 50/50 разбиению
compare_mde(0.1, 0.1, 0.5, 0.5) # ~2.236

💻

Практическое

def check_mde_reduce_from_size(grouped_dataset, current_t, current_c, new_t, new_c):
    """
    Функция для сравнения MDE в текущем варианте сплитования и в новом.
    Параметры:
        - grouped_dataset: сгруппированный поюзерный датасет, на осоновании которого будут сравниваться MDE
        - current_t: доля пользователей в тесте в текущем сетапе
        - current_c: доля пользователей в контроле в текущем сетапе
        - new_t: доля пользователей в тесте в новом сетапе
        - new_c: доля пользователей в контроле в новом сетапе
    Возвращает:
        - отношение MDE_current / MDE_new
    """


    grouped_dataset['group_current'] = np.random.choice(['test', 'control', '-'],
                                                        p=[current_t, current_c, 1 - current_c - current_t],
                                                        size=len(grouped_dataset))
    grouped_dataset['group_new'] = np.random.choice(['test', 'control', '-'],
                                                    p=[new_t, new_c, 1 - new_t - new_c],
                                                    size=len(grouped_dataset))
    metric = 'promotion_revenue'


    test_curr = np.array(grouped_dataset[(grouped_dataset['group_current'] == 'test')][metric])
    control_curr = np.array(grouped_dataset[(grouped_dataset['group_current'] == 'control')][metric])

    test_new = np.array(grouped_dataset[(grouped_dataset['group_new'] == 'test')][metric])
    control_new = np.array(grouped_dataset[(grouped_dataset['group_new'] == 'control')][metric])

    MDE_current = get_relative_MDE(test_curr, control_curr, alpha=0.05, beta=0.2)
    MDE_new = get_relative_MDE(test_new, control_new, alpha=0.05, beta=0.2)
    return MDE_current / MDE_new

Из формулы MDE зачастую мы работаем с равными дисперсиями в выборкам, поэтому можно вынести из под корня константу в виде дисперсии и размера выборки, это вот тут.

Прикольно, что на практических сгенерированных примерах видно, что эти расчеты реально работают и можно использовать для реализации внутри компании, при дизайне / расчета A/B тестов.

Написано еще тут и про прокси-метрики, что их нужно выбирать в зависимости от каждого кейса, про оценку эффекта при переходе от обычной метрики к прокси-метрике, интерпретацию прокси-метрик

+ итоги правильной подготовки сетапа теста, где выбрали

а) сплит 50/50, а не 10/10
б) выбрали прокси-метрику, а не основную (которая обладает меньшей чувствительностью)
в) держать тест не 1, а 7 недель.

🔽

как результат, получили сокращение MDE в 9.2 раза!

Ну и дополнительно рассказали про контр-метрики, в очередной раз упомянули линеаризацию + доверительный интервал для оценки эффекта Ratio-метрик.

В целом, хорошая и ненапряжная статья, которую я вам советую прочитать, если хотите начать разбираться в A/B тестах + подметить для себя что-то новое)

Ставьте 🐳, если понравился пост, делитесь своими мыслями в комментариях.

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳34🔥105

3.79K views08:53

Заскуль питона (Data Science)

вот и думаем! Garbage in -> Garbage Out.

@zasql_python

👉

@ds_memes

Please open Telegram to view this post

VIEW IN TELEGRAM

23😁8🐳3

3.17K views08:27

Заскуль питона (Data Science)

Шпаргалки по визуализации в Python

✋ Всем привет! Аналитикам и другим специалистам в области анализа данных необходимо из семпла данных сделать какое-то исследование, найти закономерность в данных и презентовать это ПМ / руководству и др. Не для каждой задачи нужно строить дашборд, поскольку задача может требовать первичный анализ.

🤔 В начале не придаешь этому значения, так как таблицы для нас содержат уже достаточное количество информации + различные статистики. Но на этом этапе хочется иметь возможность визуализировать базовые или интересные штуковины, с помощью которых можно будет сгенерировать еще гипотез.

Визуализировать можно и через Matplotlib (база всех графиков в Python), Seaborn (более расширенный функционал, чем Matplotlib), Plotly (интерактивные графики).

⬇️ Ниже приведен в коде минимум, которым можно пользоваться. Это должно покрывать большое количество задач (~80%) на распределения, поведение метрики во времени. Конечно, есть и другие виды визуализации, но это базовые. Сюда еще можно отнести boxplot для визуализации.

import matplotlib.pyplot as plt
import numpy as np

# Данные
x = np.linspace(0, 10, 100)     # создаём массив от 0 до 10 из 100 точек
y = np.sin(x)                   # вычисляем sin(x)
data = np.random.randn(1000)    # 1000 случайных значений из нормального распределения

# Фигура с 2 графиками (subplots)
fig, ax = plt.subplots(1, 2, figsize=(12, 4))  # создаём фигуру с 1 строкой и 2 графиками

# Первый subplot: гистограмма
ax[0].hist(data, bins=20, color="skyblue", edgecolor="black")  # рисуем гистограмму
ax[0].set_title("Гистограмма")       # заголовок графика
ax[0].set_xlabel("Значения")         # подпись оси X
ax[0].set_ylabel("Частота")          # подпись оси Y
ax[0].grid(True)                     # включаем сетку

# Второй subplot: линейный график
ax[1].plot(x, y, label="sin(x)", color="red")  # рисуем линию sin(x)
ax[1].set_xlim(0, 12)                          # ограничение по оси X
ax[1].set_ylim(-2, 2)                          # ограничение по оси Y
ax[1].set_xticks([0,2,4,6,8,10])               # задаём кастомные тики по X
ax[1].set_yticks([-2,-1,0,1,2])                # задаём кастомные тики по Y
ax[1].set_xlabel("Ось X")                      # подпись оси X
ax[1].set_ylabel("Ось Y")                      # подпись оси Y
ax[1].set_title("Линейный график")             # заголовок графика
ax[1].legend()                                 # выводим легенду
ax[1].grid(True)                               # включаем сетку

❤️ Если вдруг, вы хотите делать более красивые графики, испытывать наслаждение при их построении, а также сделать их понятнее, вэлком ниже.

1️⃣ Matplotlib [дока]

🔗

Matplotlib CheatSheet (matplotlib.org)

🔗

Гайд на Kaggle по различным визуализациям

🔗

DataCamp Matplotlib CheatSheet

2️⃣ Seaborn [дока]

🔗

DataCamp Seaborn

🔗

Вот тут очень хорошо описано + есть по другим библиотекам

3️⃣ Plotly [дока]

🔗

Plotly Express, Colab

🔗

Plotly Cheatsheet

🙊 Сам я использую matplotlib и seaborn, потому что они быстро настраиваются, но кому-то заходит и Plotly, так как он при обычной настройке может сделать красоту. Каждому свое)

Ну и конечно же, можно использовать ChatGPT, Cursor и других ребят для отрисовки графиков, смотря какую цель преследуете

Ставьте 🐳, сохраняйте к себе, чтобы не потерять, тренируйтесь и все у вас получится!

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳50❤7🔥6

3.61K viewsedited 06:55

Заскуль питона (Data Science)

Forwarded from Data Science Memes

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

какой хороший 🤪

@ds_memes

Please open Telegram to view this post

VIEW IN TELEGRAM

😁41🔥2🥴2🌚1🫡1

2.36K views10:00

Заскуль питона (Data Science)

23

У меня сегодня День Рождения и по традиции я смотрю за тем, в какой точке я находился год назад и в какой сейчас, пока чувствуется, что растем.

Очень нравится следить за тем что произошло спустя год после прошлого поста. Лучше всего мне удается за этим следить с точки зрения количества подписчиков.

По-прежнему сохраняется темп и я очень рад, что так получается из года в год.

Возможно, в следующем году мне нужно будет регаться в РКН, если к этому времени мы все дружно не перейдем в мессенджер, который назвали в честь меня.

Приведу еще интересные факты за этот год

— Поступаю в этому году в магистратуру. К слову, у меня были опасения по поводу поступления в этом году, но все прошло хорошо. Я уже подал документы на одно направление в магистратуру, возможно, расскажу подробнее, можете пока гадать в какую). В ИТМО, например, прошел по портфолио в две магистратуры, но решил не идти.
— Я перешел на новое место работы, где ответственность растет с каждым днем, задачи интересные (инженерные, продуктовые), все, что мне нравится.
— Запустил автоматизированный канал @ds_memes, надеюсь, что с ним все будет хорошо и он будет существовать еще долгое время.
— Получил красный диплом и окончил бакалавриат.
— х2 подписчиков с момента предыдущего поста про мой ДР.
— +161 пост за этот год с момента предыдущего поста, что составляет 40% от всех постов.

Что хочется от себя в этом году

— Больше уделять времени здоровью (ментальное и физическое). Это очень важно для долгосрочных проектов и позволит в будущем не сломаться.
— Попытаться узнать что-то новое в магистратуре, поступаю на программу, связанную с анализом данных (ML), должно быть все ок. Учебный план даже хороший, все прикладные инструменты ранее трогал на курсах, посмотрим, что будет (вот еще и плюс контент для канала).
— Преподавать в университете / онлайн-школе. Хочется поделиться экспертизой, минимизировать те ошибки, которые я совершал, когда только вкатывался в аналитику.
— Сделать еще парочку проектов, которые будут качаться.
— Масштабировать канал (по темам, наполнению, сферам).

Спасибо, что остаетесь со мной, обещаю вас радовать новыми и новыми постами, пойду отмечать, всех обнял)

Если вдруг хотите меня поздравить, можно забустить канал, чтобы было очень много кастомных реакций и мы поменяли обои на самые лучшие!

10❤65🐳23🔥12👍3🤯1

2.19K views21:00

Заскуль питона (Data Science)

Data Driven: как аналитика двигает бизнес

🗺 20 сентября • Москва + онлайн

❤️ Если вы из тех, кто не только делает графики, но и влияет на метрики, то ивент для вас.
Яндекс собирает экспертов и показывает, как data-driven подход приносит рост.

Очень рад, что есть возможность посещать такие ивенты и пообщаться с большим количество интересных людей, узнать новое, обсудить интересующие вопросы. Всегда топлю за такое!

Для кого
Продуктовые аналитики / аналитики данных и DS. Про продукт, метрики, эксперименты.
Дата инженеры, системные и BI аналитики. Про пайплайны, витрины, прод и качество данных.

2 трека: продуктовый и инженерный
Спикеры: аналитики из команд Поиска, Алисы, Карт (лайнап дополняется)
Практика: реальные кейсы, обсуждение решений, Q&A

🍪

Нетворкинг
1. Дискуссии и живые разборы. Всегда зарождается в обсуждениях что-то новое и прикольное.
2. 1:1 с C-level. Всегда интересно спросить вопросы про работу и не только, уточнить про подходы / развитие. Если есть такая возможность — нужно пользоваться.
3. Эксперты Яндекс Поиска и Рекламных технологий. За нетворкинг с такими крутыми ребятами лайк.
4. Карьерные консультации. Помогут тем, кто кто только определяется с местом работы, не знает с чего начать и куда двигаться.

♟

Игры
1. Квиз для разогрева.
2. Квест с реальными задачами и разбором от экспертов.
3. Призы: радиоуправляемый робот, станции с Алисой и ещё куча подарков.

🥳

Афтепати
Музыка, фуршет, обмен инсайтами без слайдов и таймингов. Золотое время, где можно отдохнуть и пообсуждать интересующие вопросы без привязки к таймингам.

🗺

Формат
1. Оффлайн в Москве
2. Для тех, кто не доедет — будет онлайн-трансляция

Регистрация — тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10🔥5🐳1🌚1

2.07K views12:47

Заскуль питона (Data Science)

Как посчитать эффект от того, чего ещё не существует? Этим вопросом рано или поздно задаётся каждая продуктовая команда

✋ Всем привет! Сегодня поговорим о том, когда в продукте решили запустить новый проект, но непонятно к чему подступиться, как считать, что получим.

🕺 Понятно, что тут можно подойти несколькими путями. Оценить прогноз на основе похожих, сделать матчинг, провести эксперимент, где можно понять истинный эффект запуска. Но я тут хочу поговорить о том, когда мы решаем, а вообще нужно ли смотреть в сторону этого проекта и что можно сделать.

Итак, мы хотим запустить проект Х. Хотим сделать верхнеуровневую оценку эффекта.

Можно сразу пойти в данные и попытаться раскопать то, что поможет в расчетах, но я бы предложил идти следующим путем

🙅‍♂️

Когда нет аналога в компании.

🗯 Можно спросить GPT с указанием ссылок на исследования интересующего рынка (так как ссылки GPT может сам генерировать, по крайнем мере было так, когда я писал работы в универе). Например, следующий промпт:

Ты — мой аналитик по рынку компаний.
Изучи рынок [X] в России.
Задачи:
  1.  Оцени ёмкость рынка (market size): текущая, прогнозы, темпы роста.
  2.  Найди исследования и отчёты топовых компаний/агентств, связанных с рынком (например: McKinsey, BCG, PwC, Deloitte, локальные консалтинговые агентства, государственные исследования, отраслевые ассоциации).
  3.  Опиши основные тренды и драйверы рынка.
  4.  Приведи ссылки на источники и исследования.
  5.  Сделай краткий структурированный конспект (чтобы можно было повторно использовать и углубить).

Формат ответа:
  •  Market Size: цифры + источник.
  •  Топ исследования и отчёты: список (ссылки + краткое содержание).
  •  Тренды: 3–5 ключевых трендов с кратким описанием.

После чего получаем основные цифры, которые можно примерить на отрасль, в которой мы работаем (очень грубо), сказав, что новый проект = доля компании на рынке * проект. Кайфово, если получится сделать хоть какую-то юнит-экономику. Например, если рынок X оценивается в 200 млрд рублей, даже 1% даёт 2 млрд рублей в год. Классический способ прикинуть рынок - TAM/SAM/SOM: общий рынок, достижимый сегмент, доля, которую реально можно взять

👍

Когда есть аналог в компании

Но если есть что-то похожее уже, например, в Яндексе была своя экосистема, оценить продукт становится проще, поскольку данные уже лежат внутри, а оценка делается только с учетом поправки на размер бизнеса. Есть определенные бенчмарки: конверсии, Retention, LTV. Все это можно спокойно достать из внутренних БД. Можно делать масштабирование: мы знаем какой эффект продукт дал на аудитории X, корректируем.

Понятно, что есть более строгие расчеты, которые можно использовать, но для предварительной оценки и тому, нужно ли это делать в принципе норм.

📈 После этого обычно хочется видеть трекшн проекта - это то, как себя должен вести проект на основе определенных метрик (MAU / CAC / LTV / ARPU).

🔗 Интересно, что есть на собеседованиях в консалтинговые компании кейсы по Market Sizing (например, тут предлагается запустить телепорт , а тут как решать кейсы на рынке FMCG

А что вы используете для оценки потенциала нового проекта? Как бы подошли к решению такой задачи? MVP, оценка рынка, юнит экономика?

Ставьте 🐳, если пост зашел, пишите комментарии!

Please open Telegram to view this post

VIEW IN TELEGRAM

1🐳26❤7🔥3

2.1K views06:44

Заскуль питона (Data Science)

Как вы знаете, я недавно устроился в WB, проходил собеседования. В общих чертах могу накидать, что ожидают от продуктового аналитика / аналитика данных в 2025 году.

Если наберется 250 (400) (500) 🐳, делаем! Постараюсь обрисовать в следующих постах!

Please open Telegram to view this post

VIEW IN TELEGRAM

1🐳579❤15🔥12🥴1

1.94K viewsedited 09:37

Заскуль питона (Data Science)

Как вы знаете, я недавно устроился в WB, проходил собеседования. В общих чертах могу накидать, что ожидают от продуктового аналитика / аналитика данных в 2025 году. Если наберется 250 (400) (500) 🐳, делаем! Постараюсь обрисовать в следующих постах!

Раз вы такие набрали столько много реакций, выкладываю пост про продуктового аналитика / аналитика данных в 2025.

Пост вышел объемный, поэтому дополнительно выпущу пост про основные ошибки в резюме у кандидатов.

📸 Скрининг

< Здесь будет отдельный пост, который поможет его пройти >

📞 Созвон с HR

В некоторых компаниях могут спрашивать зарплатные ожидания на этом этапе + то, чем занимались вы для подбора команды. Зачастую те компании, в которые я собесился, предлагали общий трек, а затем выбор из пула команд на финалах. Этот этап не всегда обязательный, но тут могут спросить что-то из разряда:

1. Кинули кубик 10 раз, какая вероятность, что 5 раз выпал орел
2. Условная вероятность, формула Байеса
3. Про доверительные интервалы, формулу MDE, критерии и так далее
4. Что такое параметрические / непараметрические тесты?
5. Что такое p-value? 
6. Какие есть ограничения у хи-квадрата, t-теста, z-теста?
7. Что проверяет критерий Манна-Уитни?
8. Что такое A/A тест? A/B тест?

Эти вопросы могут всплыть и на технических секциях, поэтому будьте готовы: если их не задали в начале, это не значит, что их не будет дальше

🔗

Пост про MDE

🔗

Пост про p-value

🔗

Формула Байеса и условная вероятность (очень топовый ресурс, раньше на нем сидел очень часто в вузе для подготовки к важным работам).

🔗

Доверительные интервалы (с ресурса выше)

🔗

Сборник задач про вероятности

* Этот этап необязательный, могут сразу назначить следующие секции

🔥 Техническая секция

Тут может быть все, что угодно, но попробую стандартизировать.

🗯 Тренируем задачи с помощью GPT + материалов, которые я скинул.

❤️ В Яндексе была алгосекция (она не во все команды) + бизнес-секция, где будете решать код и раскручивать абстрактный кейс, 90% на A/B тесты. В свое время я плотно сидел на литкоде + тренировкам по алгоритмам от Яндекса, в некоторые компании также спрашивают алгоритмы. Уровень easy / medium на литкоде.

🌏 В Авито две секции определяют твой грейд (задачи на теорию вероятностей + матрица компетенций), был удивлен, что не было кода. Спросили про опыт в ML.

В других компаниях будут гонять по SQL (шпаргалка тут, поможет), Python (pandas, классический на базовый функционал), вопросы про A/B тесты (кто-то может спрашивать глубже, кто-то нет). Базово вопросы про ограничение критериев, оценки тестов, снижения дисперсии, дизайн эксперимента.

🤔 Могут дать и логические задачи, которые могут уже стать изъезженными и решаются в зависимости от имеющихся знаний и предположений на уровне наблюдений: Сколько курьеров в Москве? Сколько сотрудников колл-центра работают в компании и т.д.

В зависимости от грейда различные ожидания: где-то технически сильный сотрудник, где-то тот, у кого был опыт конкретной поляны, человек полностью отвечал за развитие блока бизнеса и это принесло результат.

🔗

Про дизайн эксперимента

🔗

CUPED, постстратификация, VWE, про классическое снижение дисперсии

🔗

Продуктовые кейсы

🔗

Сборник материалов с продуктовыми кейсами

😱

Финальная секция

Абсолютно рандомная секция, в различных командах разные вопросы. Кто-то может попросить написать код, а кто-то может за жизнь поспрашивать, кто-то может спросить за техническую составляющую.

🙊 По своим собесам скажу, что у меня были бизнес-кейсы + технические финалы. Тут зачастую сидит CPO / Product Lead + Analytics Lead / Analytics Head. Можно зачастую поговорить на абстрактные темы: какие ожидания (но конечно это лучше выяснять в начале), сколько человек в команде, какие проекты, какие вызовы. Это все очень интересно, так как по факту придется с этим работать. Можно уточнить какие есть минусы, что можно улучшить. Здесь диалог)

⚠️ Перед каждым собесом я практиковался следующим образом: просил GPT сформировать задания, которые подходят под то, какая команда собеседует. Обычно это я выясняю у HR, так как хочется понять, к чему готовиться. У кого-то есть уже припасенный лендинг под это, у кого-то нет)

P.S: Вся информация сформирована из моих личных собеседований и может отличаться от того, что у вас было.

А вы собесились недавно? Ставьте 🐳, если пост зашел! Пишите в комментариях, что спрашивали!

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳18❤4🔥3⚡11

435 views15:57

About

Blog

Apps

Platform