Заскуль питона (Data Science)

💫

Spark для аналитика (ч.2.)

Собралось много реакций на предыдущем посте про Spark , делаю еще один!

Repartition в Spark. Зачем это вообще нужно?

В pandas не задумываешься про куски данных: читаете DataFrame и сразу работаешь с ним целиком. В Spark всё иначе: данные делятся на партиции (шарды), которые обрабатываются разными воркерами. Repartition позволяет управлять тем, как и насколько равномерно эти куски разбросаны по кластеру.

❓

Зачем?

⚖️

Баланс нагрузки на кластер. Spark работает быстрее, если данные распределены по всем воркерам более-менее равномерно. Если партиций мало, часть узлов простаивает, остальные тянут всё на себе и теряется весь смысл распределённых вычислений.

🚤

Ускоряет джойны и агрегации. Самая частая боль в Spark - это медленные джойны или группировки. Причина часто в том, что данные по ключу раскиданы неравномерно. Если сделать .repartition("key") перед джойном Spark сможет склеить нужные куски локально, а не гонять данные по всему кластеру.

📝

Экономит память и снижает риск падений приложений. Иногда Spark после фильтрации или select делает ОЧЕНЬ перекошенные партиции: на одной куча данных, на другой почти ничего. Это может привести к OutOfMemory именно на одном воркере, при том что на других куча свободной памяти. Repartition выравнивает данные и размазывает нагрузку.

🗃️

Контроль количества файлов на выходе. Когда записываешь данные в parquet/csv, Spark по дефолту делает столько файлов, сколько партиций в DataFrame.
Если хочешь один файл — обязательно делайте .repartition(1) перед записью, иначе получишь кучу маленьких частей.

📝 Как это выглядит на практике

🔗 Джойны (делаем repartition по ключу объединения таблиц, так проще собрать ключи, разбросанные по кластеру)

df_left = df_left.repartition("user_id")
df_right = df_right.repartition("user_id")
df_joined = df_left.join(df_right, on="user_id", how="inner")

✍️ Запись (в примере ниже указано то, что на выходе мы получаем один файл).

df_result.repartition(1).write.parquet("result.parquet")

☝️ Изменяем количество партиций вручную.

df = df.repartition(50)  # вручную задаём 50 партиций

Обычно количество партиций автоматически подтягивается из конфига приложения, возможно, при настройке видели параметр spark.sql.shuffle.partitions

⚠ Самое важное в этом посте, что нужно искать размен между количеством партиций и размером задач на воркеры.

1️⃣

Слишком много партиций. Куча маленьких задач, и на маленьких данных становится только хуже, по скорости проседает.

2️⃣

Слишком мало партиций. Неэффективно, Spark теряет свою распределённость, одна нода делает всю работу.

Вообще в DA / DS / ML / DE мы всегда работаем с разменом (трейд-оффами) и все упирается в задачи, которые мы решаем)

Пишем дальше про Spark или нет?
🐳 — Пишем, давай еще, очень интересно
🤝 — Давай уже про что-то другое!

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳58❤8🤝311

3.79K views08:41

Заскуль питона (Data Science)

Всем привет!
Хочу вновь порекомендовать вам канал Start Career in DS - один из самых крупных каналов с материлами по DS и смежным темам

Что можно почитать из последнего:
- Твой будущий пет-проект поэтапно, ч. 1: откуда взять идею и данные
- Твой будущий пет-проект поэтапно, ч. 2: парсим, предобрабатываем и изучаем данные
- Сборники тестовых заданий и видео разборы реальных тестовых
- ML-System Design: справочник материалов для подготовки
- Что такое Git и зачем он нужен Data Scientist'у

Подписывайтесь, у ребят часто выходит очень годный контент 🙂

Start Career in DS

Тут публикуются материалы для прокачки скиллов в DS и подготовки к собеседованиям.

Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :)

Автор: @RAVasiliev

№ 5141779667

❤6🔥5🐳3😁1

3.8K views07:00

Заскуль питона (Data Science)

🔭 Пост про магистратуры

Всем привет! Сегодня хочу написать про магистратуры, которые рассматриваю, куда проходил вступительные. Сначала я думал, что будет достаточно стрессово, но как оказалось зря.

⚠️

На что я обращаю внимание

1. Онлайн-формат обучения, так как не в кайф подрываться на другой конец города (или вообще в другой город) за учебой.

2. Очная форма обучения + акредитованный вуз. Сейчас практически все онлайн-магистратуры предоставляют очный формат обучения, то есть все плюшки от него будут получены (если вы понимаете о чем я).

3. Айтишное образование. Первое мое образование (Менеджмент) не связано с айтишкой, по крайнем мере его нет в реестре специальностей на отсрочку, поэтому иду получать.

4. Возможное обучение чему-то новому. Управление AI-продуктами, ML. Постоянно чему-то учиться тоже кайф + если тут применить обязательные дедлайны (хочется еще не страдать от этого), обучение пройдет намного эффективнее.

5. Стоимость. Большинство магистратур предоставляют только платное обучение. Есть образовательные кредиты, но не хочется растягивать эту историю, учитывая, что брать его нужно на 15 лет. Конечно, можно все разом выплатить и не париться, но тоже один из факторов.

Куда я прошел вступительные испытания

💻

НИУ ВШЭ

1. Аналитика больших данных. Достаточно простенькое вступительное, очень сильно похоже на демовариант + курс на Stepik. Скидки нет, стоимость 490к в год. По модулям есть классные дисциплины с LLM / MLOps / ML для аналитики / DE / Продуктовые метрики. В общем, получается неплохой фуллстек аналитик.

2. Магистр по наукам о данных. Суммарный балл складывается из тестирования по математике, мотивационного письма, личных достижений и собеседования. Демовариант. Скидки нет, стоимость 490к в год. Тут больше упор на ML. По программе тоже зашло + процедура сама по себе не была такой сложной.

3. Искусственный интеллект. Более хардовая магистратура, есть скидки. Стоимость 520к в год. Упор на современные архитектуры, фундаментальные знания. В магистратуре нужно уделять больше времени, чем в предыдущих. В программе более детально описано. По демовариантам можно хорошо подготовиться + есть отдельные курсы на Stepik

🟢

МИФИ. Множество компаний коллабятся с этим вузом. От некоторых из них я прошел вступительные (простенькая математика + кейс), проблем с поступлением не вижу, стоимость ~400к + по наполнению у всех примерно одинаково. Есть плюсом военная кафедра. Вот пример одной из программ, хороший план.

▪️ Центральный университет. Посмотрел по программам, есть топовые преподаватели, например, Александр Дьяконов и Рома Васильев.
По вступительным: был контекст по математике и программированию.
Слышал много положительных отзывов + получил грант, по идее можно идти туда, но обучение очное в кампусе несколько раз в неделю. Ребята из ЦУ, если вы тут есть, напишите в комменты, как вам, очень интересно почитать.

😮

ИТМО. Подавался с портфолио на несколько программ по портфолио, сформировал релевантный опыт + достижения в виде участия в хакатонах, кейс-чемпионатах + выступлений. Понравилось, что есть бюджет + можно получить достаточное хорошее образование AI Talent Hub, УВБ и др. Будем отталкиваться от результатов собеседований и конкурса портфолио. Если будет еще и удаленный формат обучения — будет кайф!

Сейчас я склоняюсь к выбору МИФИ, но, возможно, мое решение поменяется. Поэтому буду рад услышать ваши за и против.

Ставьте 🐳, если пост понравился, делитесь вашим мнением

@zasql_python

👉

@ds_memes

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳51🔥13❤6

4.89K viewsedited 05:59

Заскуль питона (Data Science)

Мемы

Всем доброе утро! Сегодня суббота, а это значит, что нужно отдыхать, уделять время себе после рабочей неделе, предлагаю прислать любимые мемы про DS / IT / работу в комментарии.

😏 Если мемы будут классные, то я их выложу в @ds_memes, а пока начну эстафету в комментариях.

Следующий пост выложу про то, как устроен пайплайн публикации мемов.

🐳

@zasql_python

Please open Telegram to view this post

VIEW IN TELEGRAM

1😁11🐳42❤1

4.46K views08:21

Заскуль питона (Data Science)

😎 Крутые статьи на Хабре про A/B-тестирование от крупных компаний

A/B-тесты кажутся простыми: разделили аудиторию, сравнили метрики, сделали вывод. Но на практике можно легко допустить ошибку, которая приведёт к неправильным решениям. Собрал полезные статьи с Хабра, которые помогут разобраться в нюансах экспериментов и избежать классических фейлов и узнать что-то новое.

Топ постов от IT-компаний, в которых активно используется 🆎.

💙

Ozon

🟢

Шесть причин, почему ваши A/B-тесты не работают

🟢

Без А/B результат XЗ, или Как построить высоконагруженную платформу А/B-тестов

🖤

X5 Tech

🟢

А/Б тесты с метрикой отношения. Дельта-метод

🟢

Как проводить A/B-тестирование на 15 000 офлайн-магазинах

🟢

50 оттенков линейной регрессии, или почему всё, что вы знаете об A/B тестах, помещается в одно уравнение

🟢

Varioqub: за Mann-Whitney замолвите слово

🛒 Купер (ex. СберМаркет)

🟢

Линеаризация: зачем и как укрощать ratio-метрики в A/B-тестах

🟢

База: айсберг A/B-тестов

🌏 Авито

🟢

Как устроено A/B-тестирование в Авито

🟢

Как улучшить ваши A/B-тесты: лайфхаки аналитиков Авито. Часть 1

🟢

Как улучшить ваши A/B-тесты: лайфхаки аналитиков Авито. Часть 2

🟢

Сетап А/В-теста, который помог снизить MDE выручки в 2 раза

🟢

Как мы в Авито проводим A/B-тесты CRM-рассылок

🤪

Lamoda Tech

🟢

Как же мощно я провел A/B-тест, или почему не стоит сравнивать наблюдаемый аплифт с MDE

❤️

Яндекс

🟢

10 мифов об A/B-тестировании: как избежать распространённых заблуждений в статистическом анализе

🏦 Т-банк

🟢

Использование последовательного тестирования для уменьшения размера выборки

Ставьте 🐳, если подборка была полезной, сохраняйте к себе, чтобы не забыть! Следующую подборку сделаю по методам оценки эффекта без A/B тестирования

@zasql_python

👉

@ds_memes

Что-то забыл? Пишите в комментариях!

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳68❤13🔥95👍42

7.45K views06:46

Заскуль питона (Data Science)

Forwarded from Data Science Memes

Пятница, играем в русскую рулетку.

😏

@ds_memes

Please open Telegram to view this post

VIEW IN TELEGRAM

😁38🤣12😎3❤1🤯1

3.66K views12:40

Заскуль питона (Data Science)

Буквально 2 дня назад вышла статья Avito 🌍 по 🆎. Разбираем по шагам механику A/B-тестирования: математика, интуиция и код

Почитал, в целом могу сказать, что хорошее чтиво для разбора A/B тестов.

Обычно, я смотрю графически на то, как изменяется MDE (тут это написано в зависимости от длительности эксперимента), также смотрю и по количеству пользователей в эксперименте (10/10, 20/20 и тд), только равные группы пользователей.

🧑‍🎓

Теоретическое

def compare_mde(current_a, current_b, new_a, new_b):
    return np.sqrt(1/current_a + 1/current_b) / np.sqrt(1/new_a + 1/new_b)

# здесь смотрят на то, а как изменится mde, если мы перейдем от 10/10 к 50/50 разбиению
compare_mde(0.1, 0.1, 0.5, 0.5) # ~2.236

💻

Практическое

def check_mde_reduce_from_size(grouped_dataset, current_t, current_c, new_t, new_c):
    """
    Функция для сравнения MDE в текущем варианте сплитования и в новом.
    Параметры:
        - grouped_dataset: сгруппированный поюзерный датасет, на осоновании которого будут сравниваться MDE
        - current_t: доля пользователей в тесте в текущем сетапе
        - current_c: доля пользователей в контроле в текущем сетапе
        - new_t: доля пользователей в тесте в новом сетапе
        - new_c: доля пользователей в контроле в новом сетапе
    Возвращает:
        - отношение MDE_current / MDE_new
    """


    grouped_dataset['group_current'] = np.random.choice(['test', 'control', '-'],
                                                        p=[current_t, current_c, 1 - current_c - current_t],
                                                        size=len(grouped_dataset))
    grouped_dataset['group_new'] = np.random.choice(['test', 'control', '-'],
                                                    p=[new_t, new_c, 1 - new_t - new_c],
                                                    size=len(grouped_dataset))
    metric = 'promotion_revenue'


    test_curr = np.array(grouped_dataset[(grouped_dataset['group_current'] == 'test')][metric])
    control_curr = np.array(grouped_dataset[(grouped_dataset['group_current'] == 'control')][metric])

    test_new = np.array(grouped_dataset[(grouped_dataset['group_new'] == 'test')][metric])
    control_new = np.array(grouped_dataset[(grouped_dataset['group_new'] == 'control')][metric])

    MDE_current = get_relative_MDE(test_curr, control_curr, alpha=0.05, beta=0.2)
    MDE_new = get_relative_MDE(test_new, control_new, alpha=0.05, beta=0.2)
    return MDE_current / MDE_new

Из формулы MDE зачастую мы работаем с равными дисперсиями в выборкам, поэтому можно вынести из под корня константу в виде дисперсии и размера выборки, это вот тут.

Прикольно, что на практических сгенерированных примерах видно, что эти расчеты реально работают и можно использовать для реализации внутри компании, при дизайне / расчета A/B тестов.

Написано еще тут и про прокси-метрики, что их нужно выбирать в зависимости от каждого кейса, про оценку эффекта при переходе от обычной метрики к прокси-метрике, интерпретацию прокси-метрик

+ итоги правильной подготовки сетапа теста, где выбрали

а) сплит 50/50, а не 10/10
б) выбрали прокси-метрику, а не основную (которая обладает меньшей чувствительностью)
в) держать тест не 1, а 7 недель.

🔽

как результат, получили сокращение MDE в 9.2 раза!

Ну и дополнительно рассказали про контр-метрики, в очередной раз упомянули линеаризацию + доверительный интервал для оценки эффекта Ratio-метрик.

В целом, хорошая и ненапряжная статья, которую я вам советую прочитать, если хотите начать разбираться в A/B тестах + подметить для себя что-то новое)

Ставьте 🐳, если понравился пост, делитесь своими мыслями в комментариях.

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳37🔥105

5.33K views08:53

Заскуль питона (Data Science)

вот и думаем! Garbage in -> Garbage Out.

@zasql_python

👉

@ds_memes

Please open Telegram to view this post

VIEW IN TELEGRAM

23😁8🐳3

4.25K views08:27

Заскуль питона (Data Science)

Шпаргалки по визуализации в Python

✋ Всем привет! Аналитикам и другим специалистам в области анализа данных необходимо из семпла данных сделать какое-то исследование, найти закономерность в данных и презентовать это ПМ / руководству и др. Не для каждой задачи нужно строить дашборд, поскольку задача может требовать первичный анализ.

🤔 В начале не придаешь этому значения, так как таблицы для нас содержат уже достаточное количество информации + различные статистики. Но на этом этапе хочется иметь возможность визуализировать базовые или интересные штуковины, с помощью которых можно будет сгенерировать еще гипотез.

Визуализировать можно и через Matplotlib (база всех графиков в Python), Seaborn (более расширенный функционал, чем Matplotlib), Plotly (интерактивные графики).

⬇️ Ниже приведен в коде минимум, которым можно пользоваться. Это должно покрывать большое количество задач (~80%) на распределения, поведение метрики во времени. Конечно, есть и другие виды визуализации, но это базовые. Сюда еще можно отнести boxplot для визуализации.

import matplotlib.pyplot as plt
import numpy as np

# Данные
x = np.linspace(0, 10, 100)     # создаём массив от 0 до 10 из 100 точек
y = np.sin(x)                   # вычисляем sin(x)
data = np.random.randn(1000)    # 1000 случайных значений из нормального распределения

# Фигура с 2 графиками (subplots)
fig, ax = plt.subplots(1, 2, figsize=(12, 4))  # создаём фигуру с 1 строкой и 2 графиками

# Первый subplot: гистограмма
ax[0].hist(data, bins=20, color="skyblue", edgecolor="black")  # рисуем гистограмму
ax[0].set_title("Гистограмма")       # заголовок графика
ax[0].set_xlabel("Значения")         # подпись оси X
ax[0].set_ylabel("Частота")          # подпись оси Y
ax[0].grid(True)                     # включаем сетку

# Второй subplot: линейный график
ax[1].plot(x, y, label="sin(x)", color="red")  # рисуем линию sin(x)
ax[1].set_xlim(0, 12)                          # ограничение по оси X
ax[1].set_ylim(-2, 2)                          # ограничение по оси Y
ax[1].set_xticks([0,2,4,6,8,10])               # задаём кастомные тики по X
ax[1].set_yticks([-2,-1,0,1,2])                # задаём кастомные тики по Y
ax[1].set_xlabel("Ось X")                      # подпись оси X
ax[1].set_ylabel("Ось Y")                      # подпись оси Y
ax[1].set_title("Линейный график")             # заголовок графика
ax[1].legend()                                 # выводим легенду
ax[1].grid(True)                               # включаем сетку

❤️ Если вдруг, вы хотите делать более красивые графики, испытывать наслаждение при их построении, а также сделать их понятнее, вэлком ниже.

1️⃣ Matplotlib [дока]

🔗

Matplotlib CheatSheet (matplotlib.org)

🔗

Гайд на Kaggle по различным визуализациям

🔗

DataCamp Matplotlib CheatSheet

2️⃣ Seaborn [дока]

🔗

DataCamp Seaborn

🔗

Вот тут очень хорошо описано + есть по другим библиотекам

3️⃣ Plotly [дока]

🔗

Plotly Express, Colab

🔗

Plotly Cheatsheet

🙊 Сам я использую matplotlib и seaborn, потому что они быстро настраиваются, но кому-то заходит и Plotly, так как он при обычной настройке может сделать красоту. Каждому свое)

Ну и конечно же, можно использовать ChatGPT, Cursor и других ребят для отрисовки графиков, смотря какую цель преследуете

Ставьте 🐳, сохраняйте к себе, чтобы не потерять, тренируйтесь и все у вас получится!

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳55❤8🔥7

5.53K viewsedited 06:55

Заскуль питона (Data Science)

Forwarded from Data Science Memes

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

какой хороший 🤪

@ds_memes

Please open Telegram to view this post

VIEW IN TELEGRAM

😁44🔥2🥴2❤1🌚1🫡1

3.8K views10:00

Заскуль питона (Data Science)

23

У меня сегодня День Рождения и по традиции я смотрю за тем, в какой точке я находился год назад и в какой сейчас, пока чувствуется, что растем.

Очень нравится следить за тем что произошло спустя год после прошлого поста. Лучше всего мне удается за этим следить с точки зрения количества подписчиков.

По-прежнему сохраняется темп и я очень рад, что так получается из года в год.

Возможно, в следующем году мне нужно будет регаться в РКН, если к этому времени мы все дружно не перейдем в мессенджер, который назвали в честь меня.

Приведу еще интересные факты за этот год

— Поступаю в этому году в магистратуру. К слову, у меня были опасения по поводу поступления в этом году, но все прошло хорошо. Я уже подал документы на одно направление в магистратуру, возможно, расскажу подробнее, можете пока гадать в какую). В ИТМО, например, прошел по портфолио в две магистратуры, но решил не идти.
— Я перешел на новое место работы, где ответственность растет с каждым днем, задачи интересные (инженерные, продуктовые), все, что мне нравится.
— Запустил автоматизированный канал @ds_memes, надеюсь, что с ним все будет хорошо и он будет существовать еще долгое время.
— Получил красный диплом и окончил бакалавриат.
— х2 подписчиков с момента предыдущего поста про мой ДР.
— +161 пост за этот год с момента предыдущего поста, что составляет 40% от всех постов.

Что хочется от себя в этом году

— Больше уделять времени здоровью (ментальное и физическое). Это очень важно для долгосрочных проектов и позволит в будущем не сломаться.
— Попытаться узнать что-то новое в магистратуре, поступаю на программу, связанную с анализом данных (ML), должно быть все ок. Учебный план даже хороший, все прикладные инструменты ранее трогал на курсах, посмотрим, что будет (вот еще и плюс контент для канала).
— Преподавать в университете / онлайн-школе. Хочется поделиться экспертизой, минимизировать те ошибки, которые я совершал, когда только вкатывался в аналитику.
— Сделать еще парочку проектов, которые будут качаться.
— Масштабировать канал (по темам, наполнению, сферам).

Спасибо, что остаетесь со мной, обещаю вас радовать новыми и новыми постами, пойду отмечать, всех обнял)

Если вдруг хотите меня поздравить, можно забустить канал, чтобы было очень много кастомных реакций и мы поменяли обои на самые лучшие!

11❤67🐳25🔥12👍3🤯1

4.17K views21:00

Заскуль питона (Data Science)

Как посчитать эффект от того, чего ещё не существует? Этим вопросом рано или поздно задаётся каждая продуктовая команда

✋ Всем привет! Сегодня поговорим о том, когда в продукте решили запустить новый проект, но непонятно к чему подступиться, как считать, что получим.

🕺 Понятно, что тут можно подойти несколькими путями. Оценить прогноз на основе похожих, сделать матчинг, провести эксперимент, где можно понять истинный эффект запуска. Но я тут хочу поговорить о том, когда мы решаем, а вообще нужно ли смотреть в сторону этого проекта и что можно сделать.

Итак, мы хотим запустить проект Х. Хотим сделать верхнеуровневую оценку эффекта.

Можно сразу пойти в данные и попытаться раскопать то, что поможет в расчетах, но я бы предложил идти следующим путем

🙅‍♂️

Когда нет аналога в компании.

🗯 Можно спросить GPT с указанием ссылок на исследования интересующего рынка (так как ссылки GPT может сам генерировать, по крайнем мере было так, когда я писал работы в универе). Например, следующий промпт:

Ты — мой аналитик по рынку компаний.
Изучи рынок [X] в России.
Задачи:
  1.  Оцени ёмкость рынка (market size): текущая, прогнозы, темпы роста.
  2.  Найди исследования и отчёты топовых компаний/агентств, связанных с рынком (например: McKinsey, BCG, PwC, Deloitte, локальные консалтинговые агентства, государственные исследования, отраслевые ассоциации).
  3.  Опиши основные тренды и драйверы рынка.
  4.  Приведи ссылки на источники и исследования.
  5.  Сделай краткий структурированный конспект (чтобы можно было повторно использовать и углубить).

Формат ответа:
  •  Market Size: цифры + источник.
  •  Топ исследования и отчёты: список (ссылки + краткое содержание).
  •  Тренды: 3–5 ключевых трендов с кратким описанием.

После чего получаем основные цифры, которые можно примерить на отрасль, в которой мы работаем (очень грубо), сказав, что новый проект = доля компании на рынке * проект. Кайфово, если получится сделать хоть какую-то юнит-экономику. Например, если рынок X оценивается в 200 млрд рублей, даже 1% даёт 2 млрд рублей в год. Классический способ прикинуть рынок - TAM/SAM/SOM: общий рынок, достижимый сегмент, доля, которую реально можно взять

👍

Когда есть аналог в компании

Но если есть что-то похожее уже, например, в Яндексе была своя экосистема, оценить продукт становится проще, поскольку данные уже лежат внутри, а оценка делается только с учетом поправки на размер бизнеса. Есть определенные бенчмарки: конверсии, Retention, LTV. Все это можно спокойно достать из внутренних БД. Можно делать масштабирование: мы знаем какой эффект продукт дал на аудитории X, корректируем.

Понятно, что есть более строгие расчеты, которые можно использовать, но для предварительной оценки и тому, нужно ли это делать в принципе норм.

📈 После этого обычно хочется видеть трекшн проекта - это то, как себя должен вести проект на основе определенных метрик (MAU / CAC / LTV / ARPU).

🔗 Интересно, что есть на собеседованиях в консалтинговые компании кейсы по Market Sizing (например, тут предлагается запустить телепорт , а тут как решать кейсы на рынке FMCG

А что вы используете для оценки потенциала нового проекта? Как бы подошли к решению такой задачи? MVP, оценка рынка, юнит экономика?

Ставьте 🐳, если пост зашел, пишите комментарии!

Please open Telegram to view this post

VIEW IN TELEGRAM

1🐳29❤7🔥3

5.07K views06:44

Заскуль питона (Data Science)

Как вы знаете, я недавно устроился в WB, проходил собеседования. В общих чертах могу накидать, что ожидают от продуктового аналитика / аналитика данных в 2025 году.

Если наберется 250 (400) (500) 🐳, делаем! Постараюсь обрисовать в следующих постах!

Please open Telegram to view this post

VIEW IN TELEGRAM

1🐳606❤17🔥12🥴1

4.57K viewsedited 09:37

Заскуль питона (Data Science)

Как вы знаете, я недавно устроился в WB, проходил собеседования. В общих чертах могу накидать, что ожидают от продуктового аналитика / аналитика данных в 2025 году. Если наберется 250 (400) (500) 🐳, делаем! Постараюсь обрисовать в следующих постах!

Раз вы такие набрали столько много реакций, выкладываю пост про продуктового аналитика / аналитика данных в 2025.

Пост вышел объемный, поэтому дополнительно выпущу пост про основные ошибки в резюме у кандидатов.

📸 Скрининг

< Здесь будет отдельный пост, который поможет его пройти >

📞 Созвон с HR

В некоторых компаниях могут спрашивать зарплатные ожидания на этом этапе + то, чем занимались вы для подбора команды. Зачастую те компании, в которые я собесился, предлагали общий трек, а затем выбор из пула команд на финалах. Этот этап не всегда обязательный, но тут могут спросить что-то из разряда:

1. Кинули монету 10 раз, какая вероятность, что 5 раз выпал орел
2. Условная вероятность, формула Байеса
3. Про доверительные интервалы, формулу MDE, критерии и так далее
4. Что такое параметрические / непараметрические тесты?
5. Что такое p-value? 
6. Какие есть ограничения у хи-квадрата, t-теста, z-теста?
7. Что проверяет критерий Манна-Уитни?
8. Что такое A/A тест? A/B тест?

Эти вопросы могут всплыть и на технических секциях, поэтому будьте готовы: если их не задали в начале, это не значит, что их не будет дальше

🔗

Пост про MDE

🔗

Пост про p-value

🔗

Формула Байеса и условная вероятность (очень топовый ресурс, раньше на нем сидел очень часто в вузе для подготовки к важным работам).

🔗

Доверительные интервалы (с ресурса выше)

🔗

Сборник задач про вероятности

* Этот этап необязательный, могут сразу назначить следующие секции

🔥 Техническая секция

Тут может быть все, что угодно, но попробую стандартизировать.

🗯 Тренируем задачи с помощью GPT + материалов, которые я скинул.

❤️ В Яндексе была алгосекция (она не во все команды) + бизнес-секция, где будете решать код и раскручивать абстрактный кейс, 90% на A/B тесты. В свое время я плотно сидел на литкоде + тренировкам по алгоритмам от Яндекса, в некоторые компании также спрашивают алгоритмы. Уровень easy / medium на литкоде.

🌏 В Авито две секции определяют твой грейд (задачи на теорию вероятностей + матрица компетенций), был удивлен, что не было кода. Спросили про опыт в ML.

В других компаниях будут гонять по SQL (шпаргалка тут, поможет), Python (pandas, классический на базовый функционал), вопросы про A/B тесты (кто-то может спрашивать глубже, кто-то нет). Базово вопросы про ограничение критериев, оценки тестов, снижения дисперсии, дизайн эксперимента.

🤔 Могут дать и логические задачи, которые могут уже стать изъезженными и решаются в зависимости от имеющихся знаний и предположений на уровне наблюдений: Сколько курьеров в Москве? Сколько сотрудников колл-центра работают в компании и т.д.

В зависимости от грейда различные ожидания: где-то технически сильный сотрудник, где-то тот, у кого был опыт конкретной поляны, человек полностью отвечал за развитие блока бизнеса и это принесло результат.

🔗

Про дизайн эксперимента

🔗

CUPED, постстратификация, VWE, про классическое снижение дисперсии

🔗

Продуктовые кейсы

🔗

Сборник материалов с продуктовыми кейсами

😱

Финальная секция

Абсолютно рандомная секция, в различных командах разные вопросы. Кто-то может попросить написать код, а кто-то может за жизнь поспрашивать, кто-то может спросить за техническую составляющую.

🙊 По своим собесам скажу, что у меня были бизнес-кейсы + технические финалы. Тут зачастую сидит CPO / Product Lead + Analytics Lead / Analytics Head. Можно зачастую поговорить на абстрактные темы: какие ожидания (но конечно это лучше выяснять в начале), сколько человек в команде, какие проекты, какие вызовы. Это все очень интересно, так как по факту придется с этим работать. Можно уточнить какие есть минусы, что можно улучшить. Здесь диалог)

⚠️ Перед каждым собесом я практиковался следующим образом: просил GPT сформировать задания, которые подходят под то, какая команда собеседует. Обычно это я выясняю у HR, так как хочется понять, к чему готовиться. У кого-то есть уже припасенный лендинг под это, у кого-то нет)

P.S: Вся информация сформирована из моих личных собеседований и может отличаться от того, что у вас было.

А вы собесились недавно? Ставьте 🐳, если пост зашел! Пишите в комментариях, что спрашивали!

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳99🔥24❤16⚡22👍1

6.25K viewsedited 15:57

Заскуль питона (Data Science)

Как повысить шансы пройти скрининг по резюме

Многие сталкиваются с тем, что их резюме даже не доходят до этапа собеседования. И дело часто не в отсутствии навыков, а в том, как именно обрисован опыт. На скрининг тратят секунды и важно, чтобы за это время было понятно, чем вы можете быть полезны.

Сугубо мое мнение

Я собрал несколько моментов, которые повысят вероятность пройти этот этап.

🍪

Курсы и проекты: что считается за опыт

Иногда кандидаты вписывают курсы прямо в опыт работы. Это не ошибка, но это не выглядит убедительно для рекрутера. Курс - это теория, в которой есть определенные задания, которые очень часто не бьются с реальностью. Компании нужны практические кейсы. Поэтому куда лучше смотрится участие в хакатоне, кейс-чемпионате или даже небольшой проект не в бигтехе, который можно красиво упаковать в резюме.

Здесь же важно еще упомянуть про рефералки. Если у вас есть возможность попросить знакомого из компании порекомендовать вас, делайте это. Вероятность пройти скрининг через рефку заметно выше, чем при обычном отклике. Если вдруг вам это нужно, пишите в комментариях, что-нибудь придумаем, только пишите куда хотите)

🏆

Обязанности и достижения

Одна из главных ошибок в резюме - это описание работы в формате списка ТОЛЬКО обязанностей: например, я делал выгрузки, создал отчет по трекингу основных метрик, настроил алерты и т.д. Это звучит слишком сухо и не даёт понимания, что именно изменилось в бизнесе благодаря вашей работе. Важно писать и обязанности, и достижения.

Намного сильнее работает описание через результат.

🟢 Построил дашборд для команды продаж, который улучшил метрику X на p%.

Если сложно понять, на что именно повлияла ваша работа, то можно спросить у заказчиков, руководителя. Иногда коллеги могут подсветить такие эффекты, о которых вы сами не задумывались.

👩‍💻

Технический стек должен быть в опыте

Часто вижу такую картину: внизу резюме есть раздел Навыки (особенно в шаблоне hh), где написаны SQL, Python, SuperSet и ещё десяток инструментов. Но в описании работы о них ни слова. Проблема в том, что рекрутер тратит на просмотр резюме очень мало времени, и до этого раздела он может просто не дойти (как правило, 6 секунд). Поэтому лучше в каждом месте работы отдельно указать, с чем именно работали. Так увеличивается шанс попасть в поиск по ключевым словам.

🤟

Нерелевантный опыт и должности

Если вы переквалифицируетесь, то не стоит перегружать резюме нерелевантными позициями. Рекрутеру важно сразу понять, кто вы сейчас, чем занимаетесь. Если у вас был опыт работы, можно сделать конкретный упор на том, что удалось достичь и как это может помочь улучшить процесс с точки зрения аналитики.

Тоже касается должностей, видел и таких ребят, кто указывает все подряд, и жнец, и швец, и на дуде игрец. Аналитик данных / Разработчик / Архитектор в одной строчке выглядит размыто. Лучше выбрать одно направление: например, Продуктовый аналитик или Аналитик Данных.

💳

Зарплатные ожидания

Указывать зарплату в резюме - это спорный момент. Я пробовал разные форматы, и конверсия в отклики была ниже, когда сумма стояла прямо в резюмешке. Поэтому лучше обсуждать этот вопрос позже, на этапе общения с HR, когда спрашивают о зарплатных ожиданиях, в случае чего эта цифра может быть скорректирована на этапе предоставления оффера, но до него еще нужно дойти)

🏃‍♀️

Откликаемся на все варианты, которые представлены на рынке по вашему профилю

Ещё один момент, который помогал лично мне - это откликаться шире. Даже если компания не кажется идеальной, это шанс потренироваться и пройти собес в менее стрессовой обстановке. Такой подход помогает гораздо увереннее чувствовать себя, когда доходишь до той самой компании, куда ты изначально хотел попасть.

Не ограничивайтесь только hh или getmatch. У многих компаний вакансии раньше появляются на своих сайтах.

Все эти приёмы в сумме не дают 100% гарантии, но заметно повышают шансы пройти скрининг

У меня сейчас было 10+ реджектов от одной компании и это нормально, куда-то пройдете, 100%

Если понравился пост, ставьте 🐳, пишите комментарии. А какие у вас есть советы? Делитесь.

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳74🔥12❤851

4.92K views06:35

Заскуль питона (Data Science)

Forwarded from Data Science Memes

@ds_memes

😁36543

4.22K views08:53

Заскуль питона (Data Science)

Симуляция A/A тестов и зачем это нужно

A/A тест — это эксперимент, где обе группы одинаковы. Он нужен, чтобы проверить: работает ли наша система экспериментов честно и не выдумывает эффекты там, где их нет.

Самое главное, для чего мы проводим синтетический A/A тест (на большом количестве итераций) — это контроль ошибки первого рода. Ошибка первого рода (False Positive Rate) — это вероятность найти изменения там, где их нет. То есть мы заранее знаем, какой процент экспериментов ложно прокрасится (обычно, это очень маленькие вероятности в районе 0.01, 0.05, иногда 0.1, но достаточно редко).

Зачастую это нужно для проверки сплитовалке на определенном срезе пользователей / с кастомными метриками (которые будут участвовать в эксперименте).

В некоторых компаниях есть команда A/B платформы, которая занимается валидацией метрик, применением критериев к различным выборкам / метрикам.

В компании важно уметь пересчитывать ошибки I и II рода на разных срезах. Без этого мы не можем быть уверены, что группы изначально одинаковые. Если этого не будет, то утверждать о том, что изначально выборки были одинаковые (предположение для A/B теста) сказать нельзя. Метрики на предпериоде до эксперимента могут разъезжаться.

В каких случаях стоит запускать проверки?

1. Когда в компании уже есть процесс пересчёта метрик и нужно убедиться, что он работает корректно.
2. Когда появляется новая поверхность или метрика. Важно проверить, что группы не расходятся случайно.
3. Когда есть риск выбросов: несколько объектов могут сильно влиять на результат и завышать вероятность ложных срабатываний.

Я видел историю, когда был запущен эксперимент одним аналитиком, но при подведении итогов на определенном срезе покупателей (кто фактически видел эту фичу), получили ошибку первого рода 0.15 на целевой метрике (по которой мы принимаем решением), хотя ожидалось 0.05, то есть ошибку первого рода мы не контролируем => эксперимент невалиден. Затем я посмотрел, что происходило с группами на предпериоде, целевая метрика по группам разъехалась очень сильно, а это нарушает ключевое предположение A/B теста.

Как запустить синтетическую проверку?

Давайте запустим симуляцию: 10 000 A/A тестов на случайных группах и посмотрим, как ведут себя p-value

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

data = np.random.normal(loc=100, scale=10, size=10_000)
alpha = 0.05

p_values = []

for _ in range(10_000):

    idx = np.random.permutation(len(data))
    
    a_idx, b_idx = np.array_split(idx, 2)
    a, b = data[a_idx], data[b_idx]
    
    _, p = stats.ttest_ind(a, b)
    p_values.append(p)

print('Ошибка первого рода:', np.mean(np.array(p_values) < alpha)) # в идеале здесь будет значение в районе 0.05
plt.hist(p_values, bins=50, edgecolor="black")
plt.xlabel("p-value")
plt.title("Распределение p-value в A/A тесте (10000 симуляций)")
plt.show()

Что мы ожидаем увидеть в ходе синтетического A/A теста?

Равномерное распределение p-value, которое говорит нам о том, что все хорошо, нет проблем. Это значит, что система работает корректно: ложные срабатывания происходят ровно с той частотой, которую мы задали. Можно думать про это как про честную монетку (предположим, что мы подкидываем ее 100 раз, а затем проводим 10 000 симуляций): иногда выпадет значимо, но ровно с той частотой, которую мы сами задали (например, 5% при alpha=0.05).

A/A тесты — это краш-тест для платформы экспериментов. Если они честные, бизнес может доверять результатам A/B.

Понравился пост? Ставьте 🐳, пишите комментарии, что думаете по поводу A/A тестов.

Please open Telegram to view this post

VIEW IN TELEGRAM

1🐳44🔥18❤10👏2🤨1

4.32K views17:18

Заскуль питона (Data Science)

Управление ожиданиями

Умение управлять ожиданиями - это не только про нервы, но и про профессиональный рост. Например, в Avito и других компаниях это уже часть матрицы компетенций: без этого сложно вырасти в сильного специалиста.

В повседневной жизни управление ожиданиями - это про решение задач и коммуникации со стейкхолдерами. Если этого не делать, возникают недопонимания по срокам, сложности и реализации.

❓

Что это значит на практике

1. Заказчик хочет ответ завтра, а тебе нужна неделя.
2. Продукт ждёт +20% к метрике, а по факту выходит +5%.
3. Руководитель думает, что посчитать за час, но есть бизнес-логика, сложная обработка данных и нужен контекст.

🥳 Если это знакомо, то пост для вас 🥳

🍪

🍪 Ещё до старта проекта обсудите с лидом и заказчиками направления работы на квартал. Сформируйте образ результата: к чему приходим и что считается успехом. На берегу всем понятно, что ждём от работы и как будем к этому идти.

🙊 Говорите прямо, если есть проблемы в процессах. В таких условиях срок может затянуться. Если прилетела срочная задача, честно оцените, сколько времени нужно именно вам, и добавьте себе несколько дней запаса. Сделайте себе несколько кружек кофе

☕️

Если влёты регулярны, обсудите с лидом процесс постановки задач на аналитику.

Честные сроки, постепенные результаты и регулярный апдейт = доверие команды и стейкхолдеров.

🛌 Если задача сложная и не решается за вечер - договоритесь работать итерациями. Совместно декомпозируйте и показывайте промежуточные результаты. Сделали первую итерацию, получили инсайты, двигаемся дальше. Людям без технического бэкграунда сложно понимать, как именно это решается. Ваша задача это подсветить.

✈️ Если планируем уложить проект в квартал - трезво оцениваем шаги. Важно ещё на этапе планирования квартала понять, какие цели есть у бизнеса. Прикиньте, сколько времени займут этапы с учётом особенностей, добавьте дополнительные дни без стресса. Это помогает всем: лиду понимать специфику работы, заказчику актуальный статус, вам не закапываться к концу квартала. Бывает, что часть проектов не закрывается в срок. Важно заранее объяснить почему и держать заказчика в курсе, без сюрпризов, а то потом дадут на ревью плохую оценку 😁

🔻 Про результаты. У продакта и аналитика была идея топ-фичи, которая должна была принести много денюжек, но этого не случилось. Задача аналитика: показать, что, пусть времени ушло и много, команда получила ценные инсайты, которые можно использовать дальше. Работаем итеративно, получаем инсайты и кайфуем от понимания того, куда движемся вместе с бизнесом.

Аналитик отвечает не только за цифры, но и за то, чтобы команда видела ценность даже в негативном результате.

Старайтесь чаще коммуницировать с продуктом, чтобы ваши ожидания и его ожидания не расходились — это сильно упростит работу.

Ставьте 🐳, если пост был полезен!
Я уверен, у каждого был случай, когда всё пошло не так, как ожидали. Будет интересно почитать ваши истории.

@zasql_python

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳7376❤3👀2

4.84K viewsedited 15:51

Заскуль питона (Data Science)

Рефакторинг дашбордов

У каждого аналитика есть дашборд, в который когда-то было вложено много сил. Он мог нравиться, в нём были визуальные приколы, кастомные графички. Но со временем выясняется, что это превращается в заброшенное место: загрузка занимает вечность, данные некорректные, а поддержки нет.

Почему так происходит?

❓

Меняется логика в источниках. Источник, на который завязан дашборд, может стать неподдерживаемым. Автоматизация может падать, события меняются, а узнаём мы об этом только спустя дни, когда метрики уже просели. Обычно это происходит так, что продукт сам находит проблему и приходит к аналитику.

💻

Неоптимальные запросы. Скрипт, формирующий таблицу, становится медленным. Чарты грузятся по миллион лет, появляются ошибки при построении графиков, таймауты, ошибка в источнике данных и тд.

📕

Падает читаемость. Кор-дашборд должен закрывать 80% потребностей парой метрик и фильтрами. Но как только бизнес начинает добавлять всё подряд, дашборд превращается в мусорку. Читаемость и смысл теряются, а основной вопрос, на который хотел ответить бизнес отчетностью размывается.

🤗

Нет поддержки. Часто аналитики забивают на отчётность, вспоминают о ней только при баге или новой хотелке бизнеса. Хотелка бизнеса: а что, если нам посмотреть на срез тех людей, кто кушал пиццу вчера утром?

😝

Что делать?

🍪

Оптимизировать скрипты заранее. Использовать планы запросов в БД, избегать лишних джойнов. Если работаете со вьюхами, подумайте о том, чтобы перекладывать данные в материализованную таблицу. Это позволит ускорить построение.

⚠ Ставить алерты и сенсоры. Если данные не доехали, доверие к отчётности подрывается. Решение простое: алерты + сенсоры.

🔽 Пример сенсора в Airflow:

 python
from airflow import DAG
from airflow.providers.postgres.sensors.postgres import PostgresSensor
from airflow.utils.dates import days_ago

with DAG(
    dag_id="example_postgres_sensor",
    start_date=days_ago(1),
    schedule_interval="@daily",
    catchup=False,
) as dag:

    wait_for_data = PostgresSensor(
        task_id="wait_for_data",
        postgres_conn_id="zasql_python",
        sql="""
            SELECT 1
            FROM my_schema.my_table
            WHERE date = '{{ ds }}'
            LIMIT 1;
        """,
        poke_interval=60,  # проверка раз в минуту
        timeout=60 * 60,   # максимум час
        soft_fail=False,   # если True — скипнет таску, а не упадёт
    )

Плюс: в Superset (и других BI-системах) есть логи просмотров. Если графики никто не открывает, их стоит убрать, чтобы не перегружать дашборд. В Superset есть еще можно настроить правило: Если данных за сегодня по условию нет, то высылаем алерт на почту. Не реклама, честно.

🙊

Договариваться с бизнесом про цель дашборда. Аналитик не должен тратить недели на отчётность, которая решается цепочкой задач. Сначала фиксируем цель: что именно нужно отслеживать и зачем. Всё остальное — вторично. Кроме того, не нужно перегружать дашборд лишней информацией. Определяем четко смысл. Что связано с графиком может отдельно выноситься ссылкой.

Когда я только выходил на одно из своих предыдущих мест, первой задачей было сделать рефакторинг имеющегося дашборда, так как в источнике поменялась логика, а предыдущий сотрудник уволился. В итоге пришлось полностью пересобирать дашборд, так как это в моменте было нужно, но затем выяснилось, что этим дашбордом никто не пользуется (посмотрел по логам просмотрам), вот было мое удивление конечно, хотя задача была в приоритете изначально.

В этом посте я собрал то, с чем сталкивался, надеюсь я не один такой 😏

Рефакторинг дашбордов — это всегда больно. Приходится возвращаться к работе, которая уже сделана. Но если заранее оптимизировать запросы, следить за источниками и активностью, договариваться с бизнесом о целях, то дашборд не превратится в заброшку, а останется рабочим инструментом.

Ну а чтобы закрывать потребности бизнеса в специфичных срезах, обычно создается бот с выгрузкой Excel (в MatterMost, Telegram). Про это думаю написать дальше

Ставьте 🐳, если пост был полезен, и делитесь своим опытом в комментариях.

@zasql_python

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳336❤32

3.66K views05:52

Заскуль питона (Data Science)

Дорогие подписчики, хочу спросить у вас пару вещей ✨

❓ Что бы вам хотелось видеть в канале? Это могут быть софты, харды, прикладные разборы или даже что-то не совсем про аналитику — пишите, что было бы интересно читать.

😮 Чего вы ждёте от канала? Может быть, приходите за новыми знаниями, а может просто отвлечься и отдохнуть. Что для вас этот канал?

🤣 Любые мысли, идеи, пожелания — тоже сюда.

Пример болей:

— Я аналитик, но не знаю, куда двигаться дальше: развиваться в продукт, в Data Science, в менеджмент или экспертизу?
— Я упёрся в потолок: уже знаю инструменты, но дальше только таски по расчётам, и непонятно, как расти.
— Я только вкатываюсь и не понимаю, что учить в первую очередь — SQL, Python или строить метрики? Что бы вы сами посоветовали новичкам?
— Или, может быть, вам хочется прочитать про что-то конкретное: A/B тесты, карьерные треки, устройство работы аналитиков в компаниях?
— Кажется, что другие аналитики умнее, а я застрял на месте и двигаюсь слишком медленно.

Или по контенту:

— Хочется больше практики, ноутбучков, ресерчей видеть.
— Можно без лонгридов, хочу меньший объем постов.
— Давай сделаем обзор рынка труда, твое видение
— Сделай фокус на собесах, как готовился и так далее...

Список можно пополнять бесконечно, но хочется сфокусироваться на том, что вам действительно интересно! Можно отстраненные темы от аналитики, лайфстайл, например, какие-то наблюдения и так далее, все что душе угодно. Так я пойму полную картину того, на чем можно сделать упор!

⌨️ В это вы мне можете помочь, написав комментарии!

Хочу сделать контент более полезным и живым, поэтому любая обратная связь очень поможет 🙌

Забустить канал

⬆️

@zasql_python

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳287💅63🦄2❤1👾111

3.74K views06:36

About

Blog

Apps

Platform