Заскуль питона (Data Science)
6.18K subscribers
110 photos
15 videos
4 files
143 links
Канал про Python, Data Science, SQL и многое другое

По вопросам сотрудничества и рекламе: @m459n9

Чат: https://t.iss.one/my_it_frogs
Download Telegram
Заскуль питона (Data Science) pinned «К чему я вообще замутил данный опрос, пора бы нам поближе познакомиться с каждым. Если большая часть в мск, можем встретиться на оффлайн-встрече, если нет, то в зуме 🥹 Пишите в комментариях, кто за, плюсики там в комментах, реакции и тд. Можете написать…»
Всем доброе утро! Закину милоты вам в ленту. Да, на фото два админа, угадайте кто выкладывает этот пост. Если соберёмся на встрече, знайте кого искать 🥹

P.S: Пошёл работать над новым контентом по классике, думаю разобрать методы, которые используются в ecom-компаниях. Мы же аналитики, должны все знать, конечно же + скину полезные материалы, которые можно почитать на досуге, будет полезно 😇
❤‍🔥184😍3🤡2🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
Доброе утро, Страна!😶‍🌫️🫥🦄
😁3🤡2🤯1🕊1
Ну что ж, закончилась рабочая неделя, а это значит, что админ готов выйти на связь.

Вопрос остаётся открытым: чем занимаются аналитики? Ничем. Приносят деньги бизнесу? Возможно, а может и нет, все мы знаем о minimum detectable effect, как в плюс так и в минус.

Что успел поделать?

-
Поработать с API, JSON вплотную, попрогать на Python, собрать стату, отследить динамику показателей. 🐍

- Ad-hoc запросы. Классика жанра.

Реальный кейс: вывести номер телефона из DataFrame на 2+ млн строк с использованием маски. Пример : + 7 (920) 143-12-12. Загвоздка есть, страны разные. Решение? Есть в гугле, адаптируйте). + 445, +44 F

- Вытаскивать данные из OLAP-кубов в Excel, создавать сводники. Стоп-стоп, Excel, чел, уйди, умойся 😑

- Писать запросы на Oracle (SQL, think about, real talk). Тут классика, берёте стандартные функции + чуть побольше. Спойлер: в БД > 100 таблиц 😑

- В ожидании: A/B тестов, презентации проекта, возможно, ML (ждём-с).

Полезные ссылки остаются такими же, ничего не поменялось.

Успехов! 🥹
🔥8❤‍🔥2😍1
Не отходя от кассы, важное объявление. Со следующей недели мы будем публиковать посты про Product-Management.

Да, подписчики, мы развиваемся по всем фронтам, дальше - больше 🙃

На выходных будет ещё пост про полезные материалы (по аналитике, привычной обычным подписчикам паблика Заскуль Питона ГЕНИЯМ).

Накидайте реакций, чтобы было больше мотивашки стараться и выкладывать максимально качественный контент 🐳

Ставим лайки, подписываемся на канал, жмём на колокольчик, делимся с друзьями/коллегами/партнерами ☺️

На сегодня всё! Всем хороших выходных, дед ушёл спать 😘
🔥19🤡3🐳3👨‍💻2👍1
Друзья, пройдите опрос, пожалуйста, кому несложно, заранее спасибо.

https://docs.google.com/forms/d/e/1FAIpQLScPxsZgbddfRGBxgAoKRago81F0FwDC2Bt1GW8oaOVZ8XdCwQ/viewform
👌5
Админы ботают every day, every night
6🔥4🤡1🍓1
Коллеги, всем доброй ночи, рад всех видеть. Ну что ж, пришло время для продуктовых метрик, которые используются повсеместно для оценки перспективности того или иного продукта компании. Конечно же, самый первый - это ...

Retention — коэффициент удержания пользователей, который рассчитывается как отношение количества уникальных пользователей в определенном периоде на количество уникальных пользователей в начале пользования продукта. Так можно понять, где отваливаются пользователи. Пример можете глянуть туть, разбор в SQL

Churn Rate — коэффициент оттока (единица - Retention)

ее величество КОНВЕРСИЯ. Отношение количества успешных действий в общее количество пользователей (берется базово). Конверсию можно считать от чего и во что как угодно, ваше право. Можно прикрутить к A/B тестам, когда мы тестируем то, насколько стат значимо или нет было наше внедрение.

LTV - Жизненная ценность клиента (то, сколько ВСЕГО деняк нам принес милый юзер). Но вот проблема, как считать LTV клиента, если у нас нет данных за предыдущий период, пишите предположения в комментариях.

DAU / MAU (не Владимир) / WAU - дневная / месячная / недельная аудитория. Всё понятненько, да? Разбивка по датам и подсчет по периодам юзеров.

ARPU - Средний доход с юзера. Так мы можем оценить затраты на привлечение каждого пользователя. ARPPU - Средний доход с платящего пользователя. Достаточно похожие понятия, но среднее берется только с платящих, возможно, определяем какую акцию можем заложить на юзера.

Если вы знаете эти заклинания, то любая HRюшка будет вас звать на собеседование и смотреть на вас, как на второго Илона Макса.
16
Добрый вечер, дорогие подписчики! Очень важно слышать от вас фидбек по каналу. Что хотите видеть в ближайшем будущем, что стоит разобрать и т.д.

Пишите в комментариях под постом 🐍

По типу: где математика, админ, хотим математики ИЛИ где мл, не вижу до сих пор, ну вы поняли 🥴
🔥1
жиза)

#memes
🔥8😁4🌚1
A/B тесты завтра! Админ наработался. Накидайте реакций для мотивашки 🙃
👍19
от любителя шада и дифуров @ArseniySem

Запомните, есть 2 гендера)

#memes
11🐳1🍓1
Заскуль питона (Data Science) pinned «A/B тесты завтра! Админ наработался. Накидайте реакций для мотивашки 🙃»
Совместно с Enjoyer’ом HSE (ПМИ) @ArseniySem

Планируем организовать встречу в мск на следующей неделе (предположительно выходные). Пообщаемся поближе, обсудим какие-то классные кейсы, да и просто отдохнём. По поводу места будем решать на неделе 🥹

Возможно, вы увидите всех админов и сможете быкануть за периодичность выхода различных постов 😈

Всем удачи, будем ждать!
😍11
A/B тест.

Если вы видите этот пост, значит вы попали в контрольную группу, для вас поста нет.

ШУТКА

Покажите, как вы ждёте этот пост что ли 🙃
🐳20🔥7💯4🤔21😁1
Самая любимая тема, пожалуй, для всех продактов, встречаем, A/B тесты! По факту мы тестируем то, как ведет себя метрика при изменении в продукте

В нашей команде есть админ, который их не признает

Какие термины нужно обязательно знать?

Выборка - подмножество из генеральной совокупности.

Нулевая гипотеза H(0) — то от чего, мы отталкиваемся, зачастую говорят, что различий между выборками нет, связи нет (среднее не различается).

Альтернативная гипотеза (H1) — то, что мы хотим принять (различия есть, все классно), связь присутствует.

p-value — вероятность получить такие же или большие различия между выборками.

Ошибка l рода — Отклонение верной нулевой гипотезы (обычно берется 5%, об этом чуть позже).

Ошибка ll рода — Принятие неверной нулевой гипотезы.

и другие... Precison, recall, ЦПТ (для Bootstrap)

Почитать подробнее: link 🔗

Вообще, что это такое? Представьте, что у вас есть-какой то продукт, например, канал ЗАСКУЛЬ ПИТОНА, я хочу увеличить глубины просмотра, количество реакций. Скорее всего, я куплю Telegram-премиум, чтобы было больше стикеров с анимациями (из простого).

Давайте простенький пример, чтобы вообще понять, как это рассчитывается (Bootstrap)

Retention-менеджер канала пришел к создателю паблика и узнал, что продуктом удовлетворены 80% пользователей. Вместе со вторым админом создатель пошел, выбрал 100 человек, оказалось, что деятельностью канала удовлетворены 70% пользователей. Можно ли верить менеджеру?

H0 - различий нет, это случайность
H1 - различия присутствует, Retention-менеджер решил всех обмануть и рекламить казино.

Окей, сформулировали, дальше что? Искусственно создаем выборку, пример кода напишу ниже

import numpy as np
pval = np.mean([np.random.binomial(1, 0.8, size = 100).mean() <= 0.70 for _ in range (10000)]
)

1. Генерируем выборку из библиотеки numpy. Биномиальное распределение (с вероятностью 0.8 выпадет единичка, с вероятностью 0.2 - нолик, size - размер выборки). Мы предположили, что данные пришли из той же выборки.

2. mean - среднее значение, смотрим на реальное выпадение единички из выборки с размером в 100 человек.

3. далее цикл, который прогоняется 10000 раз, чтобы все получилось репрезентативненько

4. Смотрим также на среднее значение в полученном списке (возвращается True - 1, False - 0).

5. Получаем p-value. Оно подвязано к ошибке первого рода, которую мы заранее знаем до проведения эксперимента (обычно берется 0.05, 0.01). Если p-value меньше ошибки первого рода, то мы отклоняем нулевую гипотезу и принимаем альтернативную.

pval < 0.05, значит retention-менеджера можно пинать по жопе.

Вводные есть, понимание появилось. А теперь к реальной практике. Самые главные работяги, маркетологи навалились и начали пушить идею о том, что продукт будет расти, если мы поменяем кнопку или интерфейс (как сделал VK, my best friends, если вы видели, что музыку перенесли на главную страницу пользователя до того, как это стало мейнстримом, поздравляю, вы попали в тестовую группу).

Окей, какие-то отступления были, маркетологи хотят видеть цифры и понять, нужно ли оставлять или нет. Какие требования?

1. САМОЕ ВАЖНОЕ! Проводить A/B тест одновременно для A и B групп, потому что иначе результаты будут криво отображаться. А теперь вопрос на миллион, с которым я столкнулся относительно недавно. А как проводить A/B тест в ритейле? Как создать 2 альтернативные вселенные, в которых я поменяю полку с попкорном и чипсами? Как? Ответ от X5: link 🔗
2. Тест в одно и то же время при равных условиях. Если нам нужны метрики по типу продаж дополнительно закладываем время, в которое пользователь может заплатить за наш продукт. То есть, условно 14 дней теста + еще 3 дня для объективной оценки.
3.
Изолируем группы, сплитим на различные группы (если у нас B2B/B2C сегмент, то нужно подумать).

link от SkyPro 🔗

Хорошо, поняли, это база. Теперь берем и радуемся, но нам нужно знать о / об:

- ошибке первого рода.
- минимальном размере выборки.
- случайности и объективности эксперимента.
- временном диапазоне.
👍14
О проверке результатов: link 🔗
Поиграться можно тут: link 🔗
Зачем оценивать размер выборки? link 🔗

Но нельзя же верить Bootstrap'у постоянно? Существует множество методов (z-test, t-test и др.). Что этого и для чего используются можно глянуть (СПОЙЛЕР: патриотам не смотреть!)

[EN] VK link 🔗
[EN] Study A/B testing (GitHub) link 🔗
[EN] scipy Documentation (library in Python) link 🔗
[EN] statsmodels Documentation (library in Python) link 🔗
[EN] A/B testing: A step-by-step guide in Python link 🔗


Советую посмотреть про различные методы подсчета результатов A/B теста. Дам псевдо-дшку для того, чтобы было понимание, cами показатели можете видеть на картинке (используйте proportion z-test)

- COUNT - количество пользователей, которые посетили сайт
- SELL - количество пользователей, которые купили продукт
- CR - конверсия, отношение продаж к количеству пользователей.

Фух, вроде всё. Если есть дополнения, пишите в комменты, будем рады! За труды ставьте реакции, пишите комментарии, зовите друзей)
11👍4
Само задание ☺️
🐳8
Заскуль питона (Data Science) pinned «Самая любимая тема, пожалуй, для всех продактов, встречаем, A/B тесты! По факту мы тестируем то, как ведет себя метрика при изменении в продукте В нашей команде есть админ, который их не признает Какие термины нужно обязательно знать? Выборка - подмножество…»
Заскуль питона (Data Science) pinned «Совместно с Enjoyer’ом HSE (ПМИ) @ArseniySem Планируем организовать встречу в мск на следующей неделе (предположительно выходные). Пообщаемся поближе, обсудим какие-то классные кейсы, да и просто отдохнём. По поводу места будем решать на неделе 🥹 Возможно…»