Блог о Data Science 💻
4.18K subscribers
75 photos
4 videos
21 files
115 links
Работаю аналитиком в Яндексе, учусь NLP в Вышке и веду этот канал про применение Data Science в компаниях, новости индустрии, рынок труда, мероприятия и другие активности вокруг науки о данных

Чат канала: t.iss.one/notedatasciencechat

Автор: @travelwithtagir
Download Telegram
Нас уже 500🎉

скоро кое что выпущу, но пока я болею
🔥14
А/B тесты
Хотите разобраться в А/B тестах? Моя подборка, стоит смотреть поэтапно. 👮🏼
Если нужно подтянуть матстат к ним, ниже подборка и для этого 😎
1. Практическое введение в А/B тесты
link
2. Проблема подглядываний
link
3.1. Размер выборки
link
3.2. Вокшоп от Глеба Михайлова 
(там, много ошибок и в целом чел кринжовый, но для понимания как оценить размер выборки и тд и тп кайф)
link [part 1] link [part 2] link [part 3] link [part 4] link [part 5]
4. Cuped
link
5. Cuped Геометрическая интерпретация
link
6. Улучшение А/B тестов
link
7. Бутстрап
link
8. Бутстрап 2
link
9. Когда остановить A/B тест
link
10. Воркшоп A/B
link
11. про A/B тесты от Саши Сахнова
link
12. Еще чуть чуть про A/B тесты
link
13. Танцы с бубнами и A/B тесты
link

Вспоминаем Матстат
1. Курс от ВШЭ, Подтягиваем основы
link
2. CSC, закрепляем познания, more extended then the previous one
link
3. А/B тесты с Филом, ускоренное погружение на практике
link
4. Теория и практика онлайн экспериментов ВШЭ
link

Cheet Sheets:
1.
VKGROUP
2.
random github cs
3.
Tradeoff I type error and II type error
37🔥26🎉1🐳1
🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸
Upd
Если вам не хватило этого, есть подборка, которой поделился @uberkinder, эксклюзивная подборка Валеры Бабушкина 👽

link
🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸
🔥72
Как тестировать рекомендательные системы

Под одним из прошлых постов было много вопросов о тестировании рек систем: как не выкатить на прод рекомендации в обратном порядке, например)

Я на практике использовал такие тесты:

1. Полнота данных
70% ошибок максимально глупые: упала база и не залились данные. Сменился год с 21 на 22 и у вас полетела часть запросов
Решается обычным assert-ом на кол-во строк, уникальных дат/юзеров/товаров

2. Качество фичей
Есть тысяча статей про distribution shift, детекцию выбросов и т.д., но обычно проблемы куда проще. Использовать np.mean вместо np.nanmean и получить 90% NaN в фиче? Иметь средние чеки в 1млрд руб, хотя реальные чеки до 5-10к? Вот с чем стоит побороться в первую очередь!
Решается также обычным assert-ом

3. ML и бизнес метрики
Assert-ы на ml метрики на тестовой выборке. Если позволяет инфра, то каждое переобучение модели сопровождать мини-АВ

4. Бизнес-адекватность
У 70% пользователей в топе рекомендаций рестораны с рейтингом < 3.0? Популярные товары не в топе? Тоже стоит с этим побороться

Лучше классическими автотестами на real-time / батчевых запросах к модели

Обычно хватает ~1к запросов и базовой логики с теми же assert-ами

5. Смотреть глазами
Никто не любит это делать, но потратьте 3 минуты своего времени и посмотрите рекомендации модели для себя и своего соседа на адекватность перед выкаткой. Это спасет вам много времени и денег 😅
🔥3
Рефлексия по поводу AMEX
Прошёл сорев от american express, с прогнозированием дефолта.

Плюсы сорева
× Познакомился с @yk4r2 и его классным каналом @train_test_split
× Много интересного FE, интересные решения от топов с seqformer и denoise autoencoder
(которые мы тоже собирались использовать)
× Много данных, которые сложно загрузить в 16 гигов озу, приходится оптимизировать

Минусы
× Составители сорева brainded'ы - 50% лидерборда было с метрикой 0.799
× При том что пол паблика, где челы просто брали паблик решения и чужие сабмиты, баланс lb pb 7:3 и pb был чище чем lb (то есть чел который взял паблик решения и сблендил мог победить у челов который все три месяца с нуля как не в себя работали и по фактам у них модель робастнее, ну как эмммм... Кегль вы обещали год назад, что таких соревов не будет)

Есть над чем работать, буду разбираться с seq Transformer и denoise autoencoder. 😏

Почти закончил ноут с A/B тестами, думаю к след неделе выйдет 😎
🔥72
666 подписчиков 🙈
🔥21😢2
Ноут по A/B задержится, прохожу тестовое кое куда 👀
2
Forwarded from NoML Digest (Pavel Snurnitsyn)
База по А/Б. Лайт версия

В честь Дня Знаний (и для тех, кто сегодня пошёл в первый класс😀) подборка с базовыми статьями по А/Б тестам:

📌 How Not To Run an A/B Test (2010) - хорошая старая статья про проблему подглядывания.

📌 Five ways to reduce variance in A/B testing (2021) - в блоге Marton Trencseni короткие интересные заметки. В основном они не про А/Б, например, прикидка на коленке с питоном правдива ли фраза "Over 70% of all Porsche vehicles ever built are still on the road today" (спойлер: да, похоже на правду).

📌 Множественные эксперименты: теория и практика (2019) - короткая и простая статья от Яндекса о том, как работают поправки с примерами кода.
10🔥5
Всем привет!👋🏻 Поздравляю всех учащихся с началом нового учебного года и желаю всем терпения!🎓

Хочу рассказать про небольшие изменения🔧, вот небольшой список того о чем будет в этом посте!
* Сменил место работы
* Диплом
* Про ноут по А/Б тестам и другие
* Новый формат

Сменил место работы
Я работал в лаборатории прикладного моделирования РЭУ им. Плеханова над достаточно интересной сферой reinforcement learning. Возможно я не состыковался интересами или неполностью смог реализовать там, было просто ощущение что я не в своей тарелке. В целом работу в науке несколько отличается от обычной, нет четких дедлайнов и системности.

Последние несколько месяцев меня интересует тема ранжирования и в начале августа меня позвали на собес в Яндекс.Маркет🎁, в целом у меня положительные ощущения как от компании, так и от собеса.
Нет, я не прошёл в маркет.

После собеса я начал потихоньку разбираться с дырками и начал с А/B тестов и бустингов. В это время познакомился с ребятами из Карпов.Курсес, некоторые из них немного поменяли взгляд на приобретение информации. ⚙️

Часто сижу там в чате и помогаю ребятам, на что мне написали почему бы мне не устроиться к ним🪄. Прошел собес, теперь еще больше понял насколько много я не знаю :). Собес был кстати достаточно долгий, но охватил много моих дырок в знаниях.

Я кстати сделал миро доску которую разделил по разделам, по темам и сабтемам. Советую всем сделать так же, еще взял на заметку читать статейки📄, буду стараться раз в ~день-два что-то читать пока еду в метро.

Теперь посты скорее всего будут редко, не хочу что бы информация с курсов конфликтовала с моей, так что велком на Симулятор МЛ!

Про диплом 👨🏼‍🎓
Выбираю тему для диплома, хочу ранжирования или предсказывания рынка труда, но пока не знаю. Можете накидать свои идеи, а так же магистратуры. Пока рассматриваю ИТМО, хочется бви все таки и не супер душные вузы типо мфти, что бы work-study-life-nobalance был 🧘🏼.

Про ноут по А/Б тестам и другие 💻
Сделал ноут по А/Б тестам, сыроват, буду дополнять по возможности, но скорее всего она будет очень редко. Пока что подзабью на кегль немного в сторону магистратуры и работы, но обещаю вернуться ближе к зиме.🏅
ноут по А/Б тестам

Новый формат постов 🖼
Некоторые посты ушли, но теперь будут другие, у меня есть проект по сбору инфы с определенных сайтов по трудоустройству, раз в месяц я буду скидывать вам аналитику по вакансиям📈 (не обещаю, но постараюсь).

Так же хочу теперь делать посты в формате пересказа научных статей📰, пока смотрю в сторону А/B и ранжирования опять же. Не каждый день, но какие то интересные сделаю, уже есть одна прикольная статейка от sber ai.
17🔥6
Хочу поделиться с вами вот таким видосиком, а ещё там в описании ссылоки выложили по которым можно подготовиться!)
https://youtu.be/Ec6EYbcF50k
10🔥2
Решил сделать опросик про ИИ💻, стало интересно посмотреть результаты среди около DS

ВЦИОМ🤦🏻‍♂️ какую то странную аналитику сделал, чуть ли не половина россиян готовы стать MLE уже завтра🎓 и вообще ИИ всему голова))

Если хотя бы каждый 5ый пройдет, будет что-то годное, скину резы потом)

Upd: немного косякнул с вопросами

Из интересного, больше 50% не удовлетворены экологией!

https://forms.gle/fUcHmfrQYGeN3hzk8
3
image_2022-09-16_13-20-38.png
16 KB
Ищите меня в интернетах
получил инвайт в матрикс ODS 😎✌🏻
🔥15
А че у нас на рынке то?
https://telegra.ph/Sentyabr-Data-Science-09-26

Да пикча просто идеальная я знаю😎

#аченарынкето #сен
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥253🐳1
Писал экзы

Завтра пост 👌
🔥11🐳3❤‍🔥1
А че там на рынке то?🗒

Часть первая - про аналитиков👨‍💻

Часть вторая - про DE, ML⌨️

#аченарынкето #окт
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15🐳2
🔔 A bit news about my life

Наконец-то релизнули мои задачи в Simulator ML

Задачки супер крутые, а те которые планируются ближе к НГ ещё лучше!

Вроде остался последний модуль перед дипломом, удачи мне 🔵

Собираюсь пойти в зал, очень сложно и много эмоциональной нагрузки, один раз я узнал что такое депрессия, больше желания нет повторять. Даже сделал миро доску, могу отдельный пост накатать (раньше занимался, потом из за травмы сустава перестал).

Что бы вывозить всё и вся нужно спать 8 часов, расставлять приоритеты и не брать слишком много на себя. Если где то просрете дедлайн это плохо, но хуже, если вы будете не работоспособны. (И правильно кушать, отказаться от курения и алкоголя, хотя бы уменьшить количество его потребление)

Собираюсь завести трекер и вести calendary. Недавно был дофаминовый детокс, было сложно, но щас уже +- в норме.

Дофамин - гармон, который отвечает за ожидание удовольствия. Чем больше и чаще вы его поощряете тем меньше он вырабатывается и тем больше у вас зависимость.

Очень сильно влияет на эмоциональное состояние, если отказаться от вредных привычек и допустим не так часто тратить деньги на еду (сори я лудоман в сфере еды), будете на чиле спустя время, + меньше стресса.

Особенно про курение, если вы часто курите вы не просто повышаете свой дофамин, но и вредите вегето-сосудистой системе, организм адаптируется под сужение сосудов и пытается расширить их частым сердцебиением - поэтому если вам тревожно курение вообще не вариант! (Так же кофе и тд, тп)

Когда нибудь я сделаю пост про пейперы, но пока руки не доходят

Точно про около рек системы будут ✌️
Please open Telegram to view this post
VIEW IN TELEGRAM
27🔥7🐳3🏆2❤‍🔥1
🆔 В закрепе есть пост про А/Б тесты.

Планирую сделать такой же про рекомендательные системы 😉

А потом ещё про парсинг может быть вспомню 😉

С вас 25 реактов 🐳
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳93❤‍🔥20🔥8
Капец вы быстрые 😱

Ладно, иду делать 😏
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥227🐳3
💙 Привет друзья! Пока я составляю для вас подборочку по рекомендательным системам нашел такой интересный канал.

Он достаточно похож на тот формат к которому я бы хотел прийти.

Рассказывают про статьи

Буквально на пальцах объясняют сложные вещи

И все это с красивыми картинками и интересной подачей!

Мне очень понравился их пост про рекомендательные системы! Обязательно к просмотру 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥18
🔤🔤🔤🔤🔤🔤🔤

Дисклеймер
---------------------
Я не фитнес тренер и не Валера Бабушкин, все основано на личных убеждениях, неудачном опыте и или умение гуглить, читать научные статьи.

🖼 Миро-доска в конце

Зачем ходить в зал?
Ответ достаточно простой, если вы болеете депрессивными расстройствами, тревожный или паническими атаками - вам помогут только две вещи справиться со всем дерьмом меньше курить, больше заниматься спортом.

Курение сжимает ваши сосуды (и повышают дофамин) и НС в шоке пытается понять почему ваш организм умирает, спорт наоборот их расширяет, вырабатывает гармоны, которые как раз помогают справляться со стрессом.

Что делать, если я пошёл в зал
Первоначально вам стоит определиться, что вы хотите в результате получить. В целом тренировки можно грубо разделить на два типа:

• Высокоинтенсивые
• Силовые

Это не значит, что нужно делать, что то одно, как мы знаем мышцы состоят из двух типов волокон: медленные и быстрые. Если вы собираетесь тренировать какую то часть тела, то посмотрите какие волокна преобладают там. Если у вас не восстановились мышцы, то тренировку с силовой можно (нужно) поменять на высокоинтенсивную.

Как составить тренировку?
Есть несколько вариантов тренировок

• fullbody - тренировка всего тела, отлично подходит если вы только начали или не можете позволить себе часто ходить в зал (в целом 2-3 раза в неделю с переодичностью в 2-3 дня отличный вариант).

Есть один большой минус этой тренировки, вы будете долго тренироваться и дойдёте быстро до гипертрофии мышц, а она требует ресурсов у организма, поэтому если вы не плотно позавтракали, то после часа тренировки ресурсы будут забираться не из еды, а мышц.

Ознакомьтесь с терминами перетренированнность и время тренировки

• split - когда вы тренируете отдельные части тела в разные дни, которые должны сочетаться.

Из важных вещей

• Тренировка не больше часа ( по вашим ощущениям, когда уже не можете организм даст знать )

• Следить за мышцами и правильным выполнением техники, читайте почему и как ростут те или иные мышцы.

• Кроме протеина или гейнера, креатина и bcaa не надо ничего употреблять.

• Сохраняйте профицит или дефицит калорий

• Доходить до отказа не надо, можно увеличить вес, увеличить интенсивность, увеличить подходы, но не убивайте свои мышцы просто так.

• Добавляйте переодизацию в свои тренировки, без неё вы не будете рости.

• Не знаю работает или нет, но локальное жиросжигание кажется логичным

• Начинайте всегда с больших групп мышц - спина, ноги, потом грудь, плечи, кор в таком порядке.

У меня например фуллбади, который я немного поделил на два дня.

• Первый день грудь(жим), спина(широчайшие), плечи, бицепс, болгарский присед

• Второй день грудь(махи), спина(трапецивидная), трицепс, приседания, кор и низко интенсивное кардио (велик)

Но пока в процессе, очевидно потом это поменяется на сплит в три дня наверное из-за удобства

📚 Моя миро-доска

Велком ту комменты, если есть что обсудить, как вам вообще non-ds формат?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥255🏆3👨‍💻2
🔤🔤🔤 🔤🔤🔤

Ждали, а вот и они!

Список будет пополняться как минимум еще есть пару крутых книг и статей,
которые могу порекомендовать, но чуть позже

System design [1]

System design [2]

How rec sys work

Content Based

Collaborative filtering

HSE lecture

Rec Sys Google cloud

Cookbook

Trends in Rec Sys

NN rec sys

🔤🔤🔤🔤🔤🔤🔤🔤

Practice rec sys [1]

Practice rec sys [2]

Practice MTS [1]

Practice MTS [2]

Practice MTS [3]

Practice MTS [4]

🔤🔤🔤🔤🔤

Learning to Rank for Information Retrieval and NLP by Hang Li

Lerning to Rank from Implicit by Filip Andrej Radlinski (P.S. это диссер, а не статья)

Dive into Deep Learning

Миро-доска Богдана @uberkinder

#recsys

120 Эмодзи и делаю про парсинг 🙃
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥140👨‍💻1310🐳8❤‍🔥33