Всем привет! Сегодня хочу написать про магистратуры, которые рассматриваю, куда проходил вступительные. Сначала я думал, что будет достаточно стрессово, но как оказалось зря.
1. Онлайн-формат обучения, так как не в кайф подрываться на другой конец города (или вообще в другой город) за учебой.
2. Очная форма обучения + акредитованный вуз. Сейчас практически все онлайн-магистратуры предоставляют очный формат обучения, то есть все плюшки от него будут получены (если вы понимаете о чем я).
3. Айтишное образование. Первое мое образование (Менеджмент) не связано с айтишкой, по крайнем мере его нет в реестре специальностей на отсрочку, поэтому иду получать.
4. Возможное обучение чему-то новому. Управление AI-продуктами, ML. Постоянно чему-то учиться тоже кайф + если тут применить обязательные дедлайны (хочется еще не страдать от этого), обучение пройдет намного эффективнее.
5. Стоимость. Большинство магистратур предоставляют только платное обучение. Есть образовательные кредиты, но не хочется растягивать эту историю, учитывая, что брать его нужно на 15 лет. Конечно, можно все разом выплатить и не париться, но тоже один из факторов.
Куда я прошел вступительные испытания
1. Аналитика больших данных. Достаточно простенькое вступительное, очень сильно похоже на демовариант + курс на Stepik. Скидки нет, стоимость 490к в год. По модулям есть классные дисциплины с LLM / MLOps / ML для аналитики / DE / Продуктовые метрики. В общем, получается неплохой фуллстек аналитик.
2. Магистр по наукам о данных. Суммарный балл складывается из тестирования по математике, мотивационного письма, личных достижений и собеседования. Демовариант. Скидки нет, стоимость 490к в год. Тут больше упор на ML. По программе тоже зашло + процедура сама по себе не была такой сложной.
3. Искусственный интеллект. Более хардовая магистратура, есть скидки. Стоимость 520к в год. Упор на современные архитектуры, фундаментальные знания. В магистратуре нужно уделять больше времени, чем в предыдущих. В программе более детально описано. По демовариантам можно хорошо подготовиться + есть отдельные курсы на Stepik
По вступительным: был контекст по математике и программированию.
Слышал много положительных отзывов + получил грант, по идее можно идти туда, но обучение очное в кампусе несколько раз в неделю. Ребята из ЦУ, если вы тут есть, напишите в комменты, как вам, очень интересно почитать.
Сейчас я склоняюсь к выбору МИФИ, но, возможно, мое решение поменяется. Поэтому буду рад услышать ваши за и против.
Ставьте
@zasql_python
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳49🔥13❤6
Мемы
Всем доброе утро! Сегодня суббота, а это значит, что нужно отдыхать, уделять время себе после рабочей неделе, предлагаю прислать любимые мемы про DS / IT / работу в комментарии.
😏 Если мемы будут классные, то я их выложу в @ds_memes, а пока начну эстафету в комментариях.
Следующий пост выложу про то, как устроен пайплайн публикации мемов.
🐳 🐳 🐳
@zasql_python
Всем доброе утро! Сегодня суббота, а это значит, что нужно отдыхать, уделять время себе после рабочей неделе, предлагаю прислать любимые мемы про DS / IT / работу в комментарии.
Следующий пост выложу про то, как устроен пайплайн публикации мемов.
@zasql_python
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁11🐳4 2❤1
A/B-тесты кажутся простыми: разделили аудиторию, сравнили метрики, сделали вывод. Но на практике можно легко допустить ошибку, которая приведёт к неправильным решениям. Собрал полезные статьи с Хабра, которые помогут разобраться в нюансах экспериментов и избежать классических фейлов и узнать что-то новое.
Топ постов от IT-компаний, в которых активно используется 🆎.
Ставьте
@zasql_python
Что-то забыл? Пишите в комментариях!
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳60❤9🔥9 5👍4 2
Forwarded from Data Science Memes
Please open Telegram to view this post
VIEW IN TELEGRAM
😁35🤣10😎2❤1🤯1
Буквально 2 дня назад вышла статья Avito 🌍 по 🆎. Разбираем по шагам механику A/B-тестирования: математика, интуиция и код
Почитал, в целом могу сказать, что хорошее чтиво для разбора A/B тестов.
Обычно, я смотрю графически на то, как изменяется MDE (тут это написано в зависимости от длительности эксперимента), также смотрю и по количеству пользователей в эксперименте (10/10, 20/20 и тд), только равные группы пользователей.
🧑🎓 Теоретическое
💻 Практическое
Из формулы MDE зачастую мы работаем с равными дисперсиями в выборкам, поэтому можно вынести из под корня константу в виде дисперсии и размера выборки, это вот тут.
Прикольно, что на практических сгенерированных примерах видно, что эти расчеты реально работают и можно использовать для реализации внутри компании, при дизайне / расчета A/B тестов.
Написано еще тут и про прокси-метрики, что их нужно выбирать в зависимости от каждого кейса, про оценку эффекта при переходе от обычной метрики к прокси-метрике, интерпретацию прокси-метрик
+ итоги правильной подготовки сетапа теста, где выбрали
а) сплит 50/50, а не 10/10
б) выбрали прокси-метрику, а не основную (которая обладает меньшей чувствительностью)
в) держать тест не 1, а 7 недель.
🔽 как результат, получили сокращение MDE в 9.2 раза!
Ну и дополнительно рассказали про контр-метрики, в очередной раз упомянули линеаризацию + доверительный интервал для оценки эффекта Ratio-метрик.
В целом, хорошая и ненапряжная статья, которую я вам советую прочитать, если хотите начать разбираться в A/B тестах + подметить для себя что-то новое)
Ставьте🐳 , если понравился пост, делитесь своими мыслями в комментариях.
Почитал, в целом могу сказать, что хорошее чтиво для разбора A/B тестов.
Обычно, я смотрю графически на то, как изменяется MDE (тут это написано в зависимости от длительности эксперимента), также смотрю и по количеству пользователей в эксперименте (10/10, 20/20 и тд), только равные группы пользователей.
def compare_mde(current_a, current_b, new_a, new_b):
return np.sqrt(1/current_a + 1/current_b) / np.sqrt(1/new_a + 1/new_b)
# здесь смотрят на то, а как изменится mde, если мы перейдем от 10/10 к 50/50 разбиению
compare_mde(0.1, 0.1, 0.5, 0.5) # ~2.236
def check_mde_reduce_from_size(grouped_dataset, current_t, current_c, new_t, new_c):
"""
Функция для сравнения MDE в текущем варианте сплитования и в новом.
Параметры:
- grouped_dataset: сгруппированный поюзерный датасет, на осоновании которого будут сравниваться MDE
- current_t: доля пользователей в тесте в текущем сетапе
- current_c: доля пользователей в контроле в текущем сетапе
- new_t: доля пользователей в тесте в новом сетапе
- new_c: доля пользователей в контроле в новом сетапе
Возвращает:
- отношение MDE_current / MDE_new
"""
grouped_dataset['group_current'] = np.random.choice(['test', 'control', '-'],
p=[current_t, current_c, 1 - current_c - current_t],
size=len(grouped_dataset))
grouped_dataset['group_new'] = np.random.choice(['test', 'control', '-'],
p=[new_t, new_c, 1 - new_t - new_c],
size=len(grouped_dataset))
metric = 'promotion_revenue'
test_curr = np.array(grouped_dataset[(grouped_dataset['group_current'] == 'test')][metric])
control_curr = np.array(grouped_dataset[(grouped_dataset['group_current'] == 'control')][metric])
test_new = np.array(grouped_dataset[(grouped_dataset['group_new'] == 'test')][metric])
control_new = np.array(grouped_dataset[(grouped_dataset['group_new'] == 'control')][metric])
MDE_current = get_relative_MDE(test_curr, control_curr, alpha=0.05, beta=0.2)
MDE_new = get_relative_MDE(test_new, control_new, alpha=0.05, beta=0.2)
return MDE_current / MDE_new
Из формулы MDE зачастую мы работаем с равными дисперсиями в выборкам, поэтому можно вынести из под корня константу в виде дисперсии и размера выборки, это вот тут.
Прикольно, что на практических сгенерированных примерах видно, что эти расчеты реально работают и можно использовать для реализации внутри компании, при дизайне / расчета A/B тестов.
Написано еще тут и про прокси-метрики, что их нужно выбирать в зависимости от каждого кейса, про оценку эффекта при переходе от обычной метрики к прокси-метрике, интерпретацию прокси-метрик
+ итоги правильной подготовки сетапа теста, где выбрали
а) сплит 50/50, а не 10/10
б) выбрали прокси-метрику, а не основную (которая обладает меньшей чувствительностью)
в) держать тест не 1, а 7 недель.
Ну и дополнительно рассказали про контр-метрики, в очередной раз упомянули линеаризацию + доверительный интервал для оценки эффекта Ratio-метрик.
В целом, хорошая и ненапряжная статья, которую я вам советую прочитать, если хотите начать разбираться в A/B тестах + подметить для себя что-то новое)
Ставьте
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳33🔥8 5