Блог о Data Science 💻

Нас уже 500🎉

скоро кое что выпущу, но пока я болею

🔥14

2.68K viewsedited 14:02

А/B тесты
Хотите разобраться в А/B тестах? Моя подборка, стоит смотреть поэтапно. 👮🏼

Если нужно подтянуть матстат к ним, ниже подборка и для этого 😎

1. Практическое введение в А/B тесты

link⛓

2. Проблема подглядываний

link⛓

3.1. Размер выборки

link⛓

3.2. Вокшоп от Глеба Михайлова 
(там, много ошибок и в целом чел кринжовый, но для понимания как оценить размер выборки и тд и тп кайф)

link [part 1]⛓ link [part 2]⛓ link [part 3]⛓ link [part 4]⛓ link [part 5]⛓

4. Cuped

link⛓

5. Cuped Геометрическая интерпретация

link ⛓

6. Улучшение А/B тестов

link⛓

7. Бутстрап

link⛓

8. Бутстрап 2

link⛓

9. Когда остановить A/B тест

link⛓

10. Воркшоп A/B

link⛓

11. про A/B тесты от Саши Сахнова

link⛓

12. Еще чуть чуть про A/B тесты

link⛓

13. Танцы с бубнами и A/B тесты

link⛓

Вспоминаем Матстат

1. Курс от ВШЭ, Подтягиваем основы

link⛓

2. CSC, закрепляем познания, more extended then the previous one

link⛓

3. А/B тесты с Филом, ускоренное погружение на практике

link⛓

4. Теория и практика онлайн экспериментов ВШЭ

link⛓

Cheet Sheets:
1.
VKGROUP ⛓
2.
random github cs ⛓
3.
Tradeoff I type error and II type error ⛓

❤37🔥26🎉1🐳1

7.72K viewsedited 10:32

Блог о Data Science 💻

🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸
Upd
Если вам не хватило этого, есть подборка, которой поделился @uberkinder, эксклюзивная подборка Валеры Бабушкина 👽

link⛓
🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸

🔥7❤2

3.01K viewsedited 17:19

Блог о Data Science 💻

Forwarded from ML for Value / Ваня Максимов

Как тестировать рекомендательные системы

Под одним из прошлых постов было много вопросов о тестировании рек систем: как не выкатить на прод рекомендации в обратном порядке, например)

Я на практике использовал такие тесты:

1. Полнота данных
70% ошибок максимально глупые: упала база и не залились данные. Сменился год с 21 на 22 и у вас полетела часть запросов
Решается обычным assert-ом на кол-во строк, уникальных дат/юзеров/товаров

2. Качество фичей
Есть тысяча статей про distribution shift, детекцию выбросов и т.д., но обычно проблемы куда проще. Использовать np.mean вместо np.nanmean и получить 90% NaN в фиче? Иметь средние чеки в 1млрд руб, хотя реальные чеки до 5-10к? Вот с чем стоит побороться в первую очередь!
Решается также обычным assert-ом

3. ML и бизнес метрики
Assert-ы на ml метрики на тестовой выборке. Если позволяет инфра, то каждое переобучение модели сопровождать мини-АВ

4. Бизнес-адекватность
У 70% пользователей в топе рекомендаций рестораны с рейтингом < 3.0? Популярные товары не в топе? Тоже стоит с этим побороться

Лучше классическими автотестами на real-time / батчевых запросах к модели

Обычно хватает ~1к запросов и базовой логики с теми же assert-ами

5. Смотреть глазами
Никто не любит это делать, но потратьте 3 минуты своего времени и посмотрите рекомендации модели для себя и своего соседа на адекватность перед выкаткой. Это спасет вам много времени и денег 😅

ML for Value

Lessons learned

Наткнулся на отличную статью от Андрея Лукьяненко про опыт, полученный за 10 лет в DS. Подписываюсь под каждым пунктом!

Что из неочевидного хочу добавить от себя

1. Ваш руководитель / старший товарищ - это ваш "ресурс"

Я глобально верю…

🔥3

2.67K views16:37

Блог о Data Science 💻

Рефлексия по поводу AMEX
Прошёл сорев от american express, с прогнозированием дефолта.

Плюсы сорева
× Познакомился с @yk4r2 и его классным каналом @train_test_split
× Много интересного FE, интересные решения от топов с seqformer и denoise autoencoder
(которые мы тоже собирались использовать)
× Много данных, которые сложно загрузить в 16 гигов озу, приходится оптимизировать

Минусы
× Составители сорева brainded'ы - 50% лидерборда было с метрикой 0.799
× При том что пол паблика, где челы просто брали паблик решения и чужие сабмиты, баланс lb pb 7:3 и pb был чище чем lb (то есть чел который взял паблик решения и сблендил мог победить у челов который все три месяца с нуля как не в себя работали и по фактам у них модель робастнее, ну как эмммм... Кегль вы обещали год назад, что таких соревов не будет)

Есть над чем работать, буду разбираться с seq Transformer и denoise autoencoder. 😏

Почти закончил ноут с A/B тестами, думаю к след неделе выйдет 😎

🔥7❤2

2.76K viewsedited 14:44

Блог о Data Science 💻

666 подписчиков 🙈

🔥21😢2

2.68K views16:11

Блог о Data Science 💻

Ноут по A/B задержится, прохожу тестовое кое куда 👀

❤2

2.56K viewsRed Powerful, 17:37

Блог о Data Science 💻

Forwarded from NoML Digest (Pavel Snurnitsyn)

База по А/Б. Лайт версия

В честь Дня Знаний (и для тех, кто сегодня пошёл в первый класс😀) подборка с базовыми статьями по А/Б тестам:

📌 How Not To Run an A/B Test (2010) - хорошая старая статья про проблему подглядывания.

📌 Five ways to reduce variance in A/B testing (2021) - в блоге Marton Trencseni короткие интересные заметки. В основном они не про А/Б, например, прикидка на коленке с питоном правдива ли фраза "Over 70% of all Porsche vehicles ever built are still on the road today" (спойлер: да, похоже на правду).

📌 Множественные эксперименты: теория и практика (2019) - короткая и простая статья от Яндекса о том, как работают поправки с примерами кода.

❤10🔥5

2.45K viewsRed Powerful, 16:33

Блог о Data Science 💻

Всем привет!👋🏻 Поздравляю всех учащихся с началом нового учебного года и желаю всем терпения!🎓

Хочу рассказать про небольшие изменения🔧, вот небольшой список того о чем будет в этом посте!
* Сменил место работы
* Диплом
* Про ноут по А/Б тестам и другие
* Новый формат

Сменил место работы⏰
Я работал в лаборатории прикладного моделирования РЭУ им. Плеханова над достаточно интересной сферой reinforcement learning. Возможно я не состыковался интересами или неполностью смог реализовать там, было просто ощущение что я не в своей тарелке. В целом работу в науке несколько отличается от обычной, нет четких дедлайнов и системности.

Последние несколько месяцев меня интересует тема ранжирования и в начале августа меня позвали на собес в Яндекс.Маркет🎁, в целом у меня положительные ощущения как от компании, так и от собеса.
Нет, я не прошёл в маркет.

После собеса я начал потихоньку разбираться с дырками и начал с А/B тестов и бустингов. В это время познакомился с ребятами из Карпов.Курсес, некоторые из них немного поменяли взгляд на приобретение информации. ⚙️

Часто сижу там в чате и помогаю ребятам, на что мне написали почему бы мне не устроиться к ним🪄. Прошел собес, теперь еще больше понял насколько много я не знаю :). Собес был кстати достаточно долгий, но охватил много моих дырок в знаниях.

Я кстати сделал миро доску которую разделил по разделам, по темам и сабтемам. Советую всем сделать так же, еще взял на заметку читать статейки📄, буду стараться раз в ~день-два что-то читать пока еду в метро.

Теперь посты скорее всего будут редко, не хочу что бы информация с курсов конфликтовала с моей, так что велком на Симулятор МЛ!

Про диплом 👨🏼‍🎓
Выбираю тему для диплома, хочу ранжирования или предсказывания рынка труда, но пока не знаю. Можете накидать свои идеи, а так же магистратуры. Пока рассматриваю ИТМО, хочется бви все таки и не супер душные вузы типо мфти, что бы ~~work-study-life-nobalance~~ был 🧘🏼.

Про ноут по А/Б тестам и другие 💻
Сделал ноут по А/Б тестам, сыроват, буду дополнять по возможности, но скорее всего она будет очень редко. Пока что подзабью на кегль немного в сторону магистратуры и работы, но обещаю вернуться ближе к зиме.🏅
ноут по А/Б тестам

Новый формат постов 🖼
Некоторые посты ушли, но теперь будут другие, у меня есть проект по сбору инфы с определенных сайтов по трудоустройству, раз в месяц я буду скидывать вам аналитику по вакансиям📈 (не обещаю, но постараюсь).

Так же хочу теперь делать посты в формате пересказа научных статей📰, пока смотрю в сторону А/B и ранжирования опять же. Не каждый день, но какие то интересные сделаю, уже есть одна прикольная статейка от sber ai.

karpov.courses

Симулятор Data Science

Задачи для практики по анализу данных, машинному обучению и AI. Школа karpov.courses.

❤17🔥6

3.27K viewsRed Powerful, edited 17:45

Блог о Data Science 💻

Хочу поделиться с вами вот таким видосиком, а ещё там в описании ссылоки выложили по которым можно подготовиться!)
https://youtu.be/Ec6EYbcF50k

❤10🔥2

3.26K viewsRed Powerful, edited 18:48

Блог о Data Science 💻

Решил сделать опросик про ИИ💻, стало интересно посмотреть результаты среди около DS

ВЦИОМ🤦🏻‍♂️ какую то странную аналитику сделал, чуть ли не половина россиян готовы стать MLE уже завтра🎓 и вообще ИИ всему голова))

Если хотя бы каждый 5ый пройдет, будет что-то годное, скину резы потом)

Upd: немного косякнул с вопросами

Из интересного, больше 50% не удовлетворены экологией!

https://forms.gle/fUcHmfrQYGeN3hzk8

❤3

3.49K viewsRed Powerful, edited 23:09

Блог о Data Science 💻

image_2022-09-16_13-20-38.png

16 KB

Ищите меня в интернетах
получил инвайт в матрикс ODS 😎✌🏻

🔥15

3.98K viewsRed Powerful, 10:20

Блог о Data Science 💻

А че у нас на рынке то?
https://telegra.ph/Sentyabr-Data-Science-09-26

Да пикча просто идеальная я знаю😎

#аченарынкето #сен

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥25⚡3🐳1

4.82K viewsRed Powerful, edited 19:56

Блог о Data Science 💻

Писал экзы

Завтра пост 👌

🔥11🐳3❤‍🔥1

2.48K viewsRed Powerful, 19:46

Блог о Data Science 💻

А че там на рынке то?🗒

Часть первая - про аналитиков👨‍💻

Часть вторая - про DE, ML⌨️

#аченарынкето #окт

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥15🐳2

3.18K viewsRed Powerful, edited 14:27

Блог о Data Science 💻

🔔 A bit news about my life

⏺Наконец-то релизнули мои задачи в Simulator ML

Задачки супер крутые, а те которые планируются ближе к НГ ещё лучше!

⏺Вроде остался последний модуль перед дипломом, удачи мне 🔵

⏺Собираюсь пойти в зал, очень сложно и много эмоциональной нагрузки, один раз я узнал что такое депрессия, больше желания нет повторять. Даже сделал миро доску, могу отдельный пост накатать (раньше занимался, потом из за травмы сустава перестал).

Что бы вывозить всё и вся нужно спать 8 часов, расставлять приоритеты и не брать слишком много на себя. Если где то просрете дедлайн это плохо, но хуже, если вы будете не работоспособны. (И правильно кушать, отказаться от курения и алкоголя, хотя бы уменьшить количество его потребление)

⏺Собираюсь завести трекер и вести calendary. Недавно был дофаминовый детокс, было сложно, но щас уже +- в норме.

Дофамин - гармон, который отвечает за ожидание удовольствия. Чем больше и чаще вы его поощряете тем меньше он вырабатывается и тем больше у вас зависимость.

Очень сильно влияет на эмоциональное состояние, если отказаться от вредных привычек и допустим не так часто тратить деньги на еду (сори я лудоман в сфере еды), будете на чиле спустя время, + меньше стресса.

Особенно про курение, если вы часто курите вы не просто повышаете свой дофамин, но и вредите вегето-сосудистой системе, организм адаптируется под сужение сосудов и пытается расширить их частым сердцебиением - поэтому если вам тревожно курение вообще не вариант! (Так же кофе и тд, тп)

⏺Когда нибудь я сделаю пост про пейперы, но пока руки не доходят

Точно про около рек системы будут ✌️

Please open Telegram to view this post

VIEW IN TELEGRAM

❤27🔥7🐳3🏆2❤‍🔥1

2.6K viewsRed Powerful, edited 09:11

Блог о Data Science 💻

🆔 В закрепе есть пост про А/Б тесты.

Планирую сделать такой же про рекомендательные системы

😉

А потом ещё про парсинг может быть вспомню 😉

С вас 25 реактов 🐳

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳93❤‍🔥20🔥8

2.4K viewsRed Powerful, 16:35

Блог о Data Science 💻

Капец вы быстрые 😱

Ладно, иду делать 😏

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥22⚡7🐳3

2.44K viewsRed Powerful, edited 16:42

Блог о Data Science 💻

💙 Привет друзья! Пока я составляю для вас подборочку по рекомендательным системам нашел такой интересный канал.

Он достаточно похож на тот формат к которому я бы хотел прийти.

⏺Рассказывают про статьи

⏺Буквально на пальцах объясняют сложные вещи

⏺И все это с красивыми картинками и интересной подачей!

Мне очень понравился их пост про рекомендательные системы! Обязательно к просмотру 😎

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥18

2.48K viewsRed Powerful, edited 10:15

Блог о Data Science 💻

🔤

➖

Дисклеймер
---------------------
Я не фитнес тренер и не Валера Бабушкин, все основано на личных убеждениях, неудачном опыте и или умение гуглить, читать научные статьи.

🖼 Миро-доска в конце

⏺

Зачем ходить в зал?
Ответ достаточно простой, если вы болеете депрессивными расстройствами, тревожный или паническими атаками - вам помогут только две вещи справиться со всем дерьмом меньше курить, больше заниматься спортом.

Курение сжимает ваши сосуды (и повышают дофамин) и НС в шоке пытается понять почему ваш организм умирает, спорт наоборот их расширяет, вырабатывает гармоны, которые как раз помогают справляться со стрессом.

⏺Что делать, если я пошёл в зал
Первоначально вам стоит определиться, что вы хотите в результате получить. В целом тренировки можно грубо разделить на два типа:

• Высокоинтенсивые
• Силовые

Это не значит, что нужно делать, что то одно, как мы знаем мышцы состоят из двух типов волокон: медленные и быстрые. Если вы собираетесь тренировать какую то часть тела, то посмотрите какие волокна преобладают там. Если у вас не восстановились мышцы, то тренировку с силовой можно (нужно) поменять на высокоинтенсивную.

⏺Как составить тренировку?
Есть несколько вариантов тренировок

• fullbody - тренировка всего тела, отлично подходит если вы только начали или не можете позволить себе часто ходить в зал (в целом 2-3 раза в неделю с переодичностью в 2-3 дня отличный вариант).

Есть один большой минус этой тренировки, вы будете долго тренироваться и дойдёте быстро до гипертрофии мышц, а она требует ресурсов у организма, поэтому если вы не плотно позавтракали, то после часа тренировки ресурсы будут забираться не из еды, а мышц.

Ознакомьтесь с терминами перетренированнность и время тренировки

• split - когда вы тренируете отдельные части тела в разные дни, которые должны сочетаться.

⏺Из важных вещей

• Тренировка не больше часа ( по вашим ощущениям, когда уже не можете организм даст знать )

• Следить за мышцами и правильным выполнением техники, читайте почему и как ростут те или иные мышцы.

• Кроме протеина или гейнера, креатина и bcaa не надо ничего употреблять.

• Сохраняйте профицит или дефицит калорий

• Доходить до отказа не надо, можно увеличить вес, увеличить интенсивность, увеличить подходы, но не убивайте свои мышцы просто так.

• Добавляйте переодизацию в свои тренировки, без неё вы не будете рости.

• Не знаю работает или нет, но локальное жиросжигание кажется логичным

• Начинайте всегда с больших групп мышц - спина, ноги, потом грудь, плечи, кор в таком порядке.

У меня например фуллбади, который я немного поделил на два дня.

• Первый день грудь(жим), спина(широчайшие), плечи, бицепс, болгарский присед

• Второй день грудь(махи), спина(трапецивидная), трицепс, приседания, кор и низко интенсивное кардио (велик)

Но пока в процессе, очевидно потом это поменяется на сплит в три дня наверное из-за удобства

📚 Моя миро-доска

Велком ту комменты, если есть что обсудить, как вам вообще non-ds формат?

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥25❤5🏆3👨‍💻2

3.04K viewsRed Powerful, 15:52

Блог о Data Science 💻

🔤

Ждали, а вот и они!

Список будет пополняться как минимум еще есть пару крутых книг и статей, 
которые могу порекомендовать, но чуть позже

⏺

System design [1]

⏺

System design [2]

⏺

How rec sys work

⏺

Content Based

⏺

Collaborative filtering

⏺

⏺

⏺

⏺

⏺

🔤

⏺

Practice rec sys [1]

⏺

Practice rec sys [2]

⏺

Practice MTS [1]

⏺

Practice MTS [2]

⏺

Practice MTS [3]

⏺

Practice MTS [4]

🔤

⏺

Learning to Rank for Information Retrieval and NLP by Hang Li

⏺Lerning to Rank from Implicit by Filip Andrej Radlinski (P.S. это диссер, а не статья)

⏺

Dive into Deep Learning

⏺

Миро-доска Богдана @uberkinder

#recsys

120 Эмодзи и делаю про парсинг

🙃

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥140👨‍💻13⚡10🐳8❤‍🔥3❤3

5.95K viewsRed Powerful, edited 18:42

About

Blog

Apps

Platform