Всем привет!
Хочу вновь порекомендовать вам канал Start Career in DS - один из самых крупных каналов с материлами по DS и смежным темам
Что можно почитать из последнего:
- Твой будущий пет-проект поэтапно, ч. 1: откуда взять идею и данные
- Твой будущий пет-проект поэтапно, ч. 2: парсим, предобрабатываем и изучаем данные
- Сборники тестовых заданий и видео разборы реальных тестовых
- ML-System Design: справочник материалов для подготовки
- Что такое Git и зачем он нужен Data Scientist'у
Подписывайтесь, у ребят часто выходит очень годный контент 🙂
Хочу вновь порекомендовать вам канал Start Career in DS - один из самых крупных каналов с материлами по DS и смежным темам
Что можно почитать из последнего:
- Твой будущий пет-проект поэтапно, ч. 1: откуда взять идею и данные
- Твой будущий пет-проект поэтапно, ч. 2: парсим, предобрабатываем и изучаем данные
- Сборники тестовых заданий и видео разборы реальных тестовых
- ML-System Design: справочник материалов для подготовки
- Что такое Git и зачем он нужен Data Scientist'у
Подписывайтесь, у ребят часто выходит очень годный контент 🙂
Telegram
Start Career in DS
Тут публикуются материалы для прокачки скиллов в DS и подготовки к собеседованиям.
Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :)
Автор: @RAVasiliev
№ 5141779667
Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :)
Автор: @RAVasiliev
№ 5141779667
❤6🔥5🐳3😁1
Всем привет! Сегодня хочу написать про магистратуры, которые рассматриваю, куда проходил вступительные. Сначала я думал, что будет достаточно стрессово, но как оказалось зря.
1. Онлайн-формат обучения, так как не в кайф подрываться на другой конец города (или вообще в другой город) за учебой.
2. Очная форма обучения + акредитованный вуз. Сейчас практически все онлайн-магистратуры предоставляют очный формат обучения, то есть все плюшки от него будут получены (если вы понимаете о чем я).
3. Айтишное образование. Первое мое образование (Менеджмент) не связано с айтишкой, по крайнем мере его нет в реестре специальностей на отсрочку, поэтому иду получать.
4. Возможное обучение чему-то новому. Управление AI-продуктами, ML. Постоянно чему-то учиться тоже кайф + если тут применить обязательные дедлайны (хочется еще не страдать от этого), обучение пройдет намного эффективнее.
5. Стоимость. Большинство магистратур предоставляют только платное обучение. Есть образовательные кредиты, но не хочется растягивать эту историю, учитывая, что брать его нужно на 15 лет. Конечно, можно все разом выплатить и не париться, но тоже один из факторов.
Куда я прошел вступительные испытания
1. Аналитика больших данных. Достаточно простенькое вступительное, очень сильно похоже на демовариант + курс на Stepik. Скидки нет, стоимость 490к в год. По модулям есть классные дисциплины с LLM / MLOps / ML для аналитики / DE / Продуктовые метрики. В общем, получается неплохой фуллстек аналитик.
2. Магистр по наукам о данных. Суммарный балл складывается из тестирования по математике, мотивационного письма, личных достижений и собеседования. Демовариант. Скидки нет, стоимость 490к в год. Тут больше упор на ML. По программе тоже зашло + процедура сама по себе не была такой сложной.
3. Искусственный интеллект. Более хардовая магистратура, есть скидки. Стоимость 520к в год. Упор на современные архитектуры, фундаментальные знания. В магистратуре нужно уделять больше времени, чем в предыдущих. В программе более детально описано. По демовариантам можно хорошо подготовиться + есть отдельные курсы на Stepik
По вступительным: был контекст по математике и программированию.
Слышал много положительных отзывов + получил грант, по идее можно идти туда, но обучение очное в кампусе несколько раз в неделю. Ребята из ЦУ, если вы тут есть, напишите в комменты, как вам, очень интересно почитать.
Сейчас я склоняюсь к выбору МИФИ, но, возможно, мое решение поменяется. Поэтому буду рад услышать ваши за и против.
Ставьте
@zasql_python
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳49🔥13❤6
Мемы
Всем доброе утро! Сегодня суббота, а это значит, что нужно отдыхать, уделять время себе после рабочей неделе, предлагаю прислать любимые мемы про DS / IT / работу в комментарии.
😏 Если мемы будут классные, то я их выложу в @ds_memes, а пока начну эстафету в комментариях.
Следующий пост выложу про то, как устроен пайплайн публикации мемов.
🐳 🐳 🐳
@zasql_python
Всем доброе утро! Сегодня суббота, а это значит, что нужно отдыхать, уделять время себе после рабочей неделе, предлагаю прислать любимые мемы про DS / IT / работу в комментарии.
Следующий пост выложу про то, как устроен пайплайн публикации мемов.
@zasql_python
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁11🐳4 2❤1
A/B-тесты кажутся простыми: разделили аудиторию, сравнили метрики, сделали вывод. Но на практике можно легко допустить ошибку, которая приведёт к неправильным решениям. Собрал полезные статьи с Хабра, которые помогут разобраться в нюансах экспериментов и избежать классических фейлов и узнать что-то новое.
Топ постов от IT-компаний, в которых активно используется 🆎.
Ставьте
@zasql_python
Что-то забыл? Пишите в комментариях!
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳61❤10🔥9 5👍4 2
Forwarded from Data Science Memes
Please open Telegram to view this post
VIEW IN TELEGRAM
😁37🤣11😎3❤1🤯1
Буквально 2 дня назад вышла статья Avito 🌍 по 🆎. Разбираем по шагам механику A/B-тестирования: математика, интуиция и код
Почитал, в целом могу сказать, что хорошее чтиво для разбора A/B тестов.
Обычно, я смотрю графически на то, как изменяется MDE (тут это написано в зависимости от длительности эксперимента), также смотрю и по количеству пользователей в эксперименте (10/10, 20/20 и тд), только равные группы пользователей.
🧑🎓 Теоретическое
💻 Практическое
Из формулы MDE зачастую мы работаем с равными дисперсиями в выборкам, поэтому можно вынести из под корня константу в виде дисперсии и размера выборки, это вот тут.
Прикольно, что на практических сгенерированных примерах видно, что эти расчеты реально работают и можно использовать для реализации внутри компании, при дизайне / расчета A/B тестов.
Написано еще тут и про прокси-метрики, что их нужно выбирать в зависимости от каждого кейса, про оценку эффекта при переходе от обычной метрики к прокси-метрике, интерпретацию прокси-метрик
+ итоги правильной подготовки сетапа теста, где выбрали
а) сплит 50/50, а не 10/10
б) выбрали прокси-метрику, а не основную (которая обладает меньшей чувствительностью)
в) держать тест не 1, а 7 недель.
🔽 как результат, получили сокращение MDE в 9.2 раза!
Ну и дополнительно рассказали про контр-метрики, в очередной раз упомянули линеаризацию + доверительный интервал для оценки эффекта Ratio-метрик.
В целом, хорошая и ненапряжная статья, которую я вам советую прочитать, если хотите начать разбираться в A/B тестах + подметить для себя что-то новое)
Ставьте🐳 , если понравился пост, делитесь своими мыслями в комментариях.
Почитал, в целом могу сказать, что хорошее чтиво для разбора A/B тестов.
Обычно, я смотрю графически на то, как изменяется MDE (тут это написано в зависимости от длительности эксперимента), также смотрю и по количеству пользователей в эксперименте (10/10, 20/20 и тд), только равные группы пользователей.
def compare_mde(current_a, current_b, new_a, new_b):
return np.sqrt(1/current_a + 1/current_b) / np.sqrt(1/new_a + 1/new_b)
# здесь смотрят на то, а как изменится mde, если мы перейдем от 10/10 к 50/50 разбиению
compare_mde(0.1, 0.1, 0.5, 0.5) # ~2.236
def check_mde_reduce_from_size(grouped_dataset, current_t, current_c, new_t, new_c):
"""
Функция для сравнения MDE в текущем варианте сплитования и в новом.
Параметры:
- grouped_dataset: сгруппированный поюзерный датасет, на осоновании которого будут сравниваться MDE
- current_t: доля пользователей в тесте в текущем сетапе
- current_c: доля пользователей в контроле в текущем сетапе
- new_t: доля пользователей в тесте в новом сетапе
- new_c: доля пользователей в контроле в новом сетапе
Возвращает:
- отношение MDE_current / MDE_new
"""
grouped_dataset['group_current'] = np.random.choice(['test', 'control', '-'],
p=[current_t, current_c, 1 - current_c - current_t],
size=len(grouped_dataset))
grouped_dataset['group_new'] = np.random.choice(['test', 'control', '-'],
p=[new_t, new_c, 1 - new_t - new_c],
size=len(grouped_dataset))
metric = 'promotion_revenue'
test_curr = np.array(grouped_dataset[(grouped_dataset['group_current'] == 'test')][metric])
control_curr = np.array(grouped_dataset[(grouped_dataset['group_current'] == 'control')][metric])
test_new = np.array(grouped_dataset[(grouped_dataset['group_new'] == 'test')][metric])
control_new = np.array(grouped_dataset[(grouped_dataset['group_new'] == 'control')][metric])
MDE_current = get_relative_MDE(test_curr, control_curr, alpha=0.05, beta=0.2)
MDE_new = get_relative_MDE(test_new, control_new, alpha=0.05, beta=0.2)
return MDE_current / MDE_new
Из формулы MDE зачастую мы работаем с равными дисперсиями в выборкам, поэтому можно вынести из под корня константу в виде дисперсии и размера выборки, это вот тут.
Прикольно, что на практических сгенерированных примерах видно, что эти расчеты реально работают и можно использовать для реализации внутри компании, при дизайне / расчета A/B тестов.
Написано еще тут и про прокси-метрики, что их нужно выбирать в зависимости от каждого кейса, про оценку эффекта при переходе от обычной метрики к прокси-метрике, интерпретацию прокси-метрик
+ итоги правильной подготовки сетапа теста, где выбрали
а) сплит 50/50, а не 10/10
б) выбрали прокси-метрику, а не основную (которая обладает меньшей чувствительностью)
в) держать тест не 1, а 7 недель.
Ну и дополнительно рассказали про контр-метрики, в очередной раз упомянули линеаризацию + доверительный интервал для оценки эффекта Ratio-метрик.
В целом, хорошая и ненапряжная статья, которую я вам советую прочитать, если хотите начать разбираться в A/B тестах + подметить для себя что-то новое)
Ставьте
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳33🔥10 5
Шпаргалки по визуализации в Python
✋ Всем привет! Аналитикам и другим специалистам в области анализа данных необходимо из семпла данных сделать какое-то исследование, найти закономерность в данных и презентовать это ПМ / руководству и др. Не для каждой задачи нужно строить дашборд, поскольку задача может требовать первичный анализ.
🤔 В начале не придаешь этому значения, так как таблицы для нас содержат уже достаточное количество информации + различные статистики. Но на этом этапе хочется иметь возможность визуализировать базовые или интересные штуковины, с помощью которых можно будет сгенерировать еще гипотез.
Визуализировать можно и через Matplotlib (база всех графиков в Python), Seaborn (более расширенный функционал, чем Matplotlib), Plotly (интерактивные графики).
⬇️ Ниже приведен в коде минимум, которым можно пользоваться. Это должно покрывать большое количество задач (~80%) на распределения, поведение метрики во времени. Конечно, есть и другие виды визуализации, но это базовые. Сюда еще можно отнести boxplot для визуализации.
❤️ Если вдруг, вы хотите делать более красивые графики, испытывать наслаждение при их построении, а также сделать их понятнее, вэлком ниже.
1️⃣ Matplotlib [дока]
🔗 Matplotlib CheatSheet (matplotlib.org)
🔗 Гайд на Kaggle по различным визуализациям
🔗 DataCamp Matplotlib CheatSheet
2️⃣ Seaborn [дока]
🔗 DataCamp Seaborn
🔗 Вот тут очень хорошо описано + есть по другим библиотекам
3️⃣ Plotly [дока]
🔗 Plotly Express, Colab
🔗 Plotly Cheatsheet
🙊 Сам я использую matplotlib и seaborn, потому что они быстро настраиваются, но кому-то заходит и Plotly, так как он при обычной настройке может сделать красоту. Каждому свое)
Ну и конечно же, можно использовать ChatGPT, Cursor и других ребят для отрисовки графиков, смотря какую цель преследуете
Ставьте🐳 , сохраняйте к себе, чтобы не потерять, тренируйтесь и все у вас получится!
Визуализировать можно и через Matplotlib (база всех графиков в Python), Seaborn (более расширенный функционал, чем Matplotlib), Plotly (интерактивные графики).
import matplotlib.pyplot as plt
import numpy as np
# Данные
x = np.linspace(0, 10, 100) # создаём массив от 0 до 10 из 100 точек
y = np.sin(x) # вычисляем sin(x)
data = np.random.randn(1000) # 1000 случайных значений из нормального распределения
# Фигура с 2 графиками (subplots)
fig, ax = plt.subplots(1, 2, figsize=(12, 4)) # создаём фигуру с 1 строкой и 2 графиками
# Первый subplot: гистограмма
ax[0].hist(data, bins=20, color="skyblue", edgecolor="black") # рисуем гистограмму
ax[0].set_title("Гистограмма") # заголовок графика
ax[0].set_xlabel("Значения") # подпись оси X
ax[0].set_ylabel("Частота") # подпись оси Y
ax[0].grid(True) # включаем сетку
# Второй subplot: линейный график
ax[1].plot(x, y, label="sin(x)", color="red") # рисуем линию sin(x)
ax[1].set_xlim(0, 12) # ограничение по оси X
ax[1].set_ylim(-2, 2) # ограничение по оси Y
ax[1].set_xticks([0,2,4,6,8,10]) # задаём кастомные тики по X
ax[1].set_yticks([-2,-1,0,1,2]) # задаём кастомные тики по Y
ax[1].set_xlabel("Ось X") # подпись оси X
ax[1].set_ylabel("Ось Y") # подпись оси Y
ax[1].set_title("Линейный график") # заголовок графика
ax[1].legend() # выводим легенду
ax[1].grid(True) # включаем сетку
Ставьте
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳48❤7🔥6
Forwarded from Data Science Memes
Please open Telegram to view this post
VIEW IN TELEGRAM
😁40🔥2🥴2🌚1🫡1
Симулятор работы аналитика: решаем задачи бизнеса с помощью SQL
Приглашаем на практический вебинар с Павлом Беляевым — руководитель группы дата-аналитиков в компании Яндекс eLama!
На вебинаре мы не просто разберём синтаксис SQL — мы решим один из кейсов прямиком из программы курса-симулятора «Аналитик данных», где мы будем проводить исследование клиентской активности.
⚡️ Что научимся делать на вебинаре:
Кому будет полезно?
🟠 Начинающим аналитикам, которые хотят выйти за рамки простых SELECT.
🟠 Опытным специалистам, которым нужно решать нестандартные задачи.
🟠 Всем, кто хочет писать эффективные запросы, а не просто знать синтаксис.
Если вы хотите прокачать навыки работы с SQL на примерах из реальных бизнес-задач — присоединяйтесь 26 августа в 19:00 (МСК), будет много практики и полезных инсайтов!
🕗 26 августа в 19:00 по МСК
😶 Регистрируйтесь сейчас — вебинар будет максимально практическим!
Приглашаем на практический вебинар с Павлом Беляевым — руководитель группы дата-аналитиков в компании Яндекс eLama!
На вебинаре мы не просто разберём синтаксис SQL — мы решим один из кейсов прямиком из программы курса-симулятора «Аналитик данных», где мы будем проводить исследование клиентской активности.
🟠 Считать как менялось пиковое значение по ежедневному количеству регистраций на платформе;🟠 Считать DAU за каждый день и попробовать его сгладить двумя способами: скользящим средним и медианным сглаживанием;🟠 А также узнаем лучшие практики решения данных задач.
Кому будет полезно?
Если вы хотите прокачать навыки работы с SQL на примерах из реальных бизнес-задач — присоединяйтесь 26 августа в 19:00 (МСК), будет много практики и полезных инсайтов!
🕗 26 августа в 19:00 по МСК
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥2🤝2🌚1
23
У меня сегодня День Рождения и по традиции я смотрю за тем, в какой точке я находился год назад и в какой сейчас, пока чувствуется, что растем.
Очень нравится следить за тем что произошло спустя год после прошлого поста. Лучше всего мне удается за этим следить с точки зрения количества подписчиков.
По-прежнему сохраняется темп и я очень рад, что так получается из года в год.
Возможно, в следующем году мне нужно будет регаться в РКН, если к этому времени мы все дружно не перейдем в мессенджер, который назвали в честь меня.
Приведу еще интересные факты за этот год
— Поступаю в этому году в магистратуру. К слову, у меня были опасения по поводу поступления в этом году, но все прошло хорошо. Я уже подал документы на одно направление в магистратуру, возможно, расскажу подробнее, можете пока гадать в какую). В ИТМО, например, прошел по портфолио в две магистратуры, но решил не идти.
— Я перешел на новое место работы, где ответственность растет с каждым днем, задачи интересные (инженерные, продуктовые), все, что мне нравится.
— Запустил автоматизированный канал @ds_memes, надеюсь, что с ним все будет хорошо и он будет существовать еще долгое время.
— Получил красный диплом и окончил бакалавриат.
— х2 подписчиков с момента предыдущего поста про мой ДР.
— +161 пост за этот год с момента предыдущего поста, что составляет 40% от всех постов.
Что хочется от себя в этом году
— Больше уделять времени здоровью (ментальное и физическое). Это очень важно для долгосрочных проектов и позволит в будущем не сломаться.
— Попытаться узнать что-то новое в магистратуре, поступаю на программу, связанную с анализом данных (ML), должно быть все ок. Учебный план даже хороший, все прикладные инструменты ранее трогал на курсах, посмотрим, что будет (вот еще и плюс контент для канала).
— Преподавать в университете / онлайн-школе. Хочется поделиться экспертизой, минимизировать те ошибки, которые я совершал, когда только вкатывался в аналитику.
— Сделать еще парочку проектов, которые будут качаться.
— Масштабировать канал (по темам, наполнению, сферам).
Спасибо, что остаетесь со мной, обещаю вас радовать новыми и новыми постами, пойду отмечать, всех обнял)
Если вдруг хотите меня поздравить, можно забустить канал, чтобы было очень много кастомных реакций и мы поменяли обои на самые лучшие!
У меня сегодня День Рождения и по традиции я смотрю за тем, в какой точке я находился год назад и в какой сейчас, пока чувствуется, что растем.
Очень нравится следить за тем что произошло спустя год после прошлого поста. Лучше всего мне удается за этим следить с точки зрения количества подписчиков.
По-прежнему сохраняется темп и я очень рад, что так получается из года в год.
Приведу еще интересные факты за этот год
— Поступаю в этому году в магистратуру. К слову, у меня были опасения по поводу поступления в этом году, но все прошло хорошо. Я уже подал документы на одно направление в магистратуру, возможно, расскажу подробнее, можете пока гадать в какую). В ИТМО, например, прошел по портфолио в две магистратуры, но решил не идти.
— Я перешел на новое место работы, где ответственность растет с каждым днем, задачи интересные (инженерные, продуктовые), все, что мне нравится.
— Запустил автоматизированный канал @ds_memes, надеюсь, что с ним все будет хорошо и он будет существовать еще долгое время.
— Получил красный диплом и окончил бакалавриат.
— х2 подписчиков с момента предыдущего поста про мой ДР.
— +161 пост за этот год с момента предыдущего поста, что составляет 40% от всех постов.
Что хочется от себя в этом году
— Больше уделять времени здоровью (ментальное и физическое). Это очень важно для долгосрочных проектов и позволит в будущем не сломаться.
— Попытаться узнать что-то новое в магистратуре, поступаю на программу, связанную с анализом данных (ML), должно быть все ок. Учебный план даже хороший, все прикладные инструменты ранее трогал на курсах, посмотрим, что будет (вот еще и плюс контент для канала).
— Преподавать в университете / онлайн-школе. Хочется поделиться экспертизой, минимизировать те ошибки, которые я совершал, когда только вкатывался в аналитику.
— Сделать еще парочку проектов, которые будут качаться.
— Масштабировать канал (по темам, наполнению, сферам).
Спасибо, что остаетесь со мной, обещаю вас радовать новыми и новыми постами, пойду отмечать, всех обнял)
Если вдруг хотите меня поздравить, можно забустить канал, чтобы было очень много кастомных реакций и мы поменяли обои на самые лучшие!
10❤61🐳23🔥12👍3🤯1
Data Driven: как аналитика двигает бизнес
🗺 20 сентября • Москва + онлайн
❤️ Если вы из тех, кто не только делает графики, но и влияет на метрики, то ивент для вас.
Яндекс собирает экспертов и показывает, как data-driven подход приносит рост.
Очень рад, что есть возможность посещать такие ивенты и пообщаться с большим количество интересных людей, узнать новое, обсудить интересующие вопросы. Всегда топлю за такое!
Для кого
Продуктовые аналитики / аналитики данных и DS. Про продукт, метрики, эксперименты.
Дата инженеры, системные и BI аналитики. Про пайплайны, витрины, прод и качество данных.
2 трека: продуктовый и инженерный
Спикеры: аналитики из команд Поиска, Алисы, Карт (лайнап дополняется)
Практика: реальные кейсы, обсуждение решений, Q&A
🍪 🍪 Нетворкинг
1. Дискуссии и живые разборы. Всегда зарождается в обсуждениях что-то новое и прикольное.
2. 1:1 с C-level. Всегда интересно спросить вопросы про работу и не только, уточнить про подходы / развитие. Если есть такая возможность — нужно пользоваться.
3. Эксперты Яндекс Поиска и Рекламных технологий. За нетворкинг с такими крутыми ребятами лайк.
4. Карьерные консультации. Помогут тем, кто кто только определяется с местом работы, не знает с чего начать и куда двигаться.
♟ Игры
1. Квиз для разогрева.
2. Квест с реальными задачами и разбором от экспертов.
3. Призы: радиоуправляемый робот, станции с Алисой и ещё куча подарков.
🥳 Афтепати
Музыка, фуршет, обмен инсайтами без слайдов и таймингов. Золотое время, где можно отдохнуть и пообсуждать интересующие вопросы без привязки к таймингам.
🗺 Формат
1. Оффлайн в Москве
2. Для тех, кто не доедет — будет онлайн-трансляция
Регистрация — тут
Яндекс собирает экспертов и показывает, как data-driven подход приносит рост.
Очень рад, что есть возможность посещать такие ивенты и пообщаться с большим количество интересных людей, узнать новое, обсудить интересующие вопросы. Всегда топлю за такое!
Для кого
Продуктовые аналитики / аналитики данных и DS. Про продукт, метрики, эксперименты.
Дата инженеры, системные и BI аналитики. Про пайплайны, витрины, прод и качество данных.
2 трека: продуктовый и инженерный
Спикеры: аналитики из команд Поиска, Алисы, Карт (лайнап дополняется)
Практика: реальные кейсы, обсуждение решений, Q&A
1. Дискуссии и живые разборы. Всегда зарождается в обсуждениях что-то новое и прикольное.
2. 1:1 с C-level. Всегда интересно спросить вопросы про работу и не только, уточнить про подходы / развитие. Если есть такая возможность — нужно пользоваться.
3. Эксперты Яндекс Поиска и Рекламных технологий. За нетворкинг с такими крутыми ребятами лайк.
4. Карьерные консультации. Помогут тем, кто кто только определяется с местом работы, не знает с чего начать и куда двигаться.
1. Квиз для разогрева.
2. Квест с реальными задачами и разбором от экспертов.
3. Призы: радиоуправляемый робот, станции с Алисой и ещё куча подарков.
Музыка, фуршет, обмен инсайтами без слайдов и таймингов. Золотое время, где можно отдохнуть и пообсуждать интересующие вопросы без привязки к таймингам.
1. Оффлайн в Москве
2. Для тех, кто не доедет — будет онлайн-трансляция
Регистрация — тут
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥4🐳1🌚1