Блог о Data Science 💻

Нас уже 1/4 тысячи!🎉

🔥9

1.04K views09:52

Блог о Data Science 💻

image_2022-07-12_20-25-59.png

108 KB

🙈🌚
Зачем тебе этот notebook ранкед говорили они

❤3

1.11K viewsedited 17:26

Блог о Data Science 💻

мем, но мб кому то реально поможет D:

914 views18:31

Блог о Data Science 💻

Forwarded from Поступашки - ШАД, Стажировки и Магистратура

#How_to_заботать

How to заботать собеседование на jun product-аналитика?

Уже не для кого не секрет, что из-за весны 2020 (пандемия) и 24-го февраля отечественные компании остро ощущают нехватку кадров. Джунов набирают тупо с улицы, а на Teamlead позицию ставят без внятного опыта работы. Такая "коррекция кадров" привела к тому, что стажер в другом финтехе спокойно залетает на Middle😳😳 В общем лучшего времени, чтобы начать карьеру может и не быть, а наименее требовательная по background область: конечно же product-аналитика. Отличный вариант для тех, у кого не срослись отношения с "программированием", но способны сложить 2 + 2. И недурное начало пути, если интересно попробовать себя в будущем как Data Scientist или Quantitative researcher🤓🤓. Могу заверить, что если ваша мама не употребляла алкоголь во время беременности, то у вас все получится, а подборка следующих материалов вам в этом поможет😎😎
Все книжки в комментариях, там же делимся любимыми материалами.

SQL
В принципе только это и стоит спрашивать джунов, ибо, похоже, ничем более они и не занимаются..
1. Интерактивный tutorial.
Кратенько ознакомитесь с возможностями sql и поймете о чем это вообще
2. Тренажер на stepik.
Хорошее продолжение, но дальше второго модуля точно не стоит смотреть. Также можете пропустить создания, удаление таблиц и прочее-прочее, спрашивать такое не будут, а при нужде загляните в документацию.
3. SQL ex
Куча упражнений с теорией, есть даже оконки
4. Документация PostgreSQL
Скорее всего, он и будет
5. Статьи про оконные функции
Джунов особо не спрашивают, скорее тема middle+, да и те на деле ими разве что строки нумеруют.
Статья_1 и Статья_2

Математическая Статистика
1. Курсы Карпова на stepik
Все на пальцах, но другого с вас на собесе и не спросят
Часть1, Часть2, Часть3
2. StatQuest
Дополнение к Карпову
3. "Практическая статистика для специалистов Data Science" Питер и Эндрю Брюс.
Недурно раскрыты важнейшие статистические понятия на куче примеров
4. "Теория вероятностей и математическая статистика" Л. Н. Фадеева, А. В. Лебедев.
Стандартный курс математической статистики для экономистов дополнит представления, полученные выше, в терминах теории вероятностей.
5. AB-тесты
Главное, что спросят на собесе. Смотрите How to заботать AB тесты

Cтатистика на python
1. Tutorial по python
Знакомит со всеми основными возможностями языка, нужными в работе. Если видите в первый раз, то там же можно и порешать задачки.
2. Numpy, Pandas, Matplotlib
1) Cтавим Jupyter Notebook
Вообще дедовский метод: освоить это все в процессе курса по статистическому практикум, скачать какой Data set с Kaggle и дрочить его, читая документацию. Но если очень охото можете посмотреть tutorialы для дебилов
1) Если знаем english, то смотрим freecodecamp:
https://www.youtube.com/watch?v=QUT1VHiLmmI&t=162.. – Numpy
https://www.youtube.com/watch?v=3Xc3CA655Y4&t=16s.. –Matplotlib
https://www.youtube.com/watch?v=vmEHCJofslg&t=151.. – Pandas
В целом канал очень крутой, куча всего классного по проге и мл.
2) Курс Хирьянова по анализу данных в МГУ (лекции 7,8,9,10, ноутбуки с кодом прилагаются на сосайте).
3. Курс по статистическому практикуму (notebook zip в комментах)
Много всего интересного: от библиотек до регрессий. Самое важно для собеса: научиться проверять гипотезы на независимых и парных выборках.

Продуктовое понимание
Здесь спрашивают представляете ли вы вообще, чем придется заниматься и как используется все вышеперечисленное.
1. Курс Тинькофф по аналитике
Темы разобраны поверхностно, но кратенько обобщит и структурирует все изученное на продуктовых примерах (notebook zip в комментах)
2. Наш файлик с основными метриками
3. ШМЯ
Здесь смотрим не раскрытые темы, смотреть полностью будет too mach

🔥4

953 views18:31

Блог о Data Science 💻

Для любителей челленджей, если не знаете чем себя занять или просто хочется отвлечься, даже если вы просто хотите изучить питон. То можно начать с этого!

Глеб Михайлов, наверное, лучший кто может дать вам необычную подачу материала. Можно смотреть на три вещи бесконечно, как горит огонь, как течёт вода и как Глеб решает литкод!

Так же советую другие его видосы, особенно по вышмату для ДС, незамысловато, без углублений, только best practice.

https://youtu.be/Pp84Sv041xA

YouTube

LeetCode Марафон Easy (100 задач)

Записывайся на мой курс по алгоритмам: https://leopard.school/l/algorithms

Телеграмм: https://t.iss.one/mikhaylovgleb
Донат: https://www.donationalerts.com/r/glebmikh
Список задач: https://docs.google.com/spreadsheets/d/1dL-2ErGcCtjE_MgKPqJtDTX2OiA70O3n9gArd…

🔥6

1.12K viewsedited 00:17

Блог о Data Science 💻

https://telegra.ph/Navigaciya-05-19

Telegraph

Навигация

Python: ● Python: полезные модули ● Где тренировать Python ● Коллекции в Python ● list comprehension ● lambda-функции ● Удаление элементов из списка: 4 способа ● Форматирование строк в Python ● Итерация, итератор, итерируемый объект ● Itertools:…

🔥3

1.28K views10:31

Блог о Data Science 💻

Пока я пишу пост, про временные ряды, хочу вам дать посмотреть две мои работы. Желательно лайк на них поставить, конечно.👀

Первый раз, когда я с ними познакомился, даже не знал как и что работает🙄, но все равно. Тут, конечно, все очень плохо и ужасно, но посмотреть можно 😄

https://www.kaggle.com/code/kartushovdanil/tps-jan-22-eda-atboost-prophet

А вот одна из последних 😎

https://www.kaggle.com/code/kartushovdanil/baseline-amex-catboost-blending-wandb

На что я бы хотел обратить внимание, что в целом, структура не сильно поменялась. Но если вы будете смотреть на детали. То можно заметить, что код и в целом понимание работы с данными прокачивается. Что отличает эти две работы это детали и внимание к коду, к оптимизации, к целям и осознанности с какими данными ты работаешь.

🔥15

1.25K viewsedited 13:31

Блог о Data Science 💻

image_2022-07-18_18-15-49.png

130 KB

Пока по 60 лайков не будет на тех постах, ниче не выпущу 😬🥺🙉

Будем крипту прогнозировать🤸🏻‍♀️

Вот вам графики новые спойлерну, красивые (Это к гайду по временным рядам, которые я терпеть не могу, но что не сделаешь ради подписчиков)👀

❤19

1.26K viewsedited 15:16

Блог о Data Science 💻

Сегодня поспрашивал ребят, которые победили в контесте ML в ИТМО, все очень заряженные, очень крутые проекты. Сильно вдохновился от их проектов, даже немного депрессия от услышанного, не ожидал, что у некоторых настолько крутые проекты будут!)

Но очень заряжает, последнее время чувствовал себя как разряженная батарейка, как будто не в своей тарелке и тд. Меня всегда мотивировало сильное окружение, сейчас это стало проблемой. Да и хакатонов нет нормальных, жду их 🙈.

Сейчас в поиске крутых пет-проектов, дипломных работ. Хочется что-то комплексное, сложное и крутое...Какой нибудь матчинг, вся проблема в том что бы достать такие данные... Вы когда то сталкивались с такими проблемами? Есть идеи как решить?🤔

😢5

1.44K viewsedited 20:33

Блог о Data Science 💻

Какая же прекрасная книга, несмотря на то, что она на англ, там прекрасные иллюстрации по вышмату в мл.

Особенно мне понравилось раздел с GMM моделью, но я пока не вчитывался)

1.37K views14:33

Блог о Data Science 💻

mml-book (1).pdf

16.6 MB

mml-book (1).pdf

1.61K views14:33

Блог о Data Science 💻

Forwarded from Пристанище Дата Сайентиста

Наткнулся на небольшой набор задачек по программированию под CUDA.

Задачки представляет собой попытку научить начинающих программировать GPU полностью интерактивным способом.

В упражнениях используется NUMBA, которая работает с ядрами CUDA и в основном идентичен написанию низкоуровневого кода CUDA.

Думаю, что за несколько часов вы сможете перейти от основ к пониманию реальных алгоритмов, на которых сегодня основано 99% глубокого обучения.

Ссылка на github: https://github.com/srush/GPU-Puzzles

GitHub

GitHub - srush/GPU-Puzzles: Solve puzzles. Learn CUDA.

Solve puzzles. Learn CUDA. Contribute to srush/GPU-Puzzles development by creating an account on GitHub.

❤3

1.5K views13:37

Блог о Data Science 💻

Forwarded from Записки Ппилифа (Ppilif Uliankin)

Мой друг Леша Царёв принес к нам в канал новость недели:

Брюс Хансен всё-таки дописал свои учебники по Теории вероятностей и статистике для экономистов, а также по Эконометрике. По моему мнению, это лучшие книги продвинутого уровня для изучения этой части науки о данных. Во-первых, потому что они достаточно глубокие и дотошные. Во-вторых, потому что Хансен хорошо и понятно пишет. И в-третьих, электронный формат не ограничивает автора и позволяет достигнуть бОльшей гибкости в плане эмпирических примеров, данных и кода.

В общем, как я уже сказал, отличная новость под конец недели!

P.S. Добавлю от себя, что это именно тот Хансен, который доказал, что из ТГМ можно выбросить одно из условий 🙂

❤1

1.43K views18:31

Блог о Data Science 💻

Forwarded from Поступашки - ШАД, Стажировки и Магистратура

Гут шабес.
Как говорится, хороший праздник можно праздновать не один день😉😉, поэтому сегодня как всегда скромный подгон моим любимым подписчикам: сливаю курсы VK made😎😎

Лекции по ссылке: Алгоритмы, ML, Компьютерное зрение, Методы Оптимизации, Дизайн эксперимента.
Решение на гитхабе.

Единственное, меня поражает: почему никто из организаторов не выложил их в открытый доступ?? Неужели не хотят позориться?? Вот он капитализм: человек человеку (((VK group)))!! Держу в курсе, что у Яндекса, Тиньки и прочих помоек полно качественных курсов для (((сотрудников))) или же просто базы данных с теми же проведенными AB-тестами, кодом и тд. Представьте, как ускорилось бы ваше обучение на реальных примерах. В общем, если будет много шэров и лайков, ломаю БД Яндекса😍😍
Также смотрим разбор варианта прошлого года, где сказано, как бороться с этой ужасной системой.

🔥19❤1

1.71K views10:11

Блог о Data Science 💻

Forwarded from Reliable ML

Подборка полезных материалов по ML System Design

- Круглый стол про ML System Design секции Reliable ML 2022 г. Подойдет для знакомства с темой. Обсуждение о том, что такое ML System Design, как его структурировать и применять. Для знакомства с темой также хорошо подойдет вот эта статья и вот эта.

- Конспекты лекций Стенфорда – курс CS 329S: Machine Learning Systems Design. Самые лучшие материалы для основательного изучения дисциплины. Структурированный разбор материалов: от паттернов ресерча до деплоя моделей. Для каждой темы есть текстовые записи лекций, слайды, ссылки на полезные материалы.

- Небольшая, хорошо структурированная и, что важно, краткая электронная книга в открытом доступе от одного из преподавателей Стенфордского курса Chip Huyen - ML Systems Design (собрана из статей автора в блоге). Если хочется для начала получить представление о книге и вообще о месте ML System Design в мире DS/ML можно сначала посмотреть это видео от Chip Huyen. Кроме того, в 2022 г. Chip Huyen опубликовала книгу Designing Machine Learning Systems как расширенную и дополненную версию статей своего блога.

Chip Huyen - один из авторов, внесших наибольший вклад в развитие ML System Design как дисциплины, как можно увидеть по подборке материалов. Кроме того, она является одним из самых популярных въетнамских художественных писаталей в жанре creative non-fiction. Списки книг можно увидеть на ее персональном сайте.

- Книга Machine Learning Design Patterns. Отличные обзоры книги есть у: тг-канала Варим МЛ и на towards data science. Книга хорошо подойдет для начинающих дата саентистов и МЛ-инженеров, кто хочет структурировать информацию о паттернах дизайна систем машинного обучения.

- Grokking the Machine Learning Interview. Уроки по ML System Design на стандартных примерах: Search Ranking, Feed Based System, Recommendation System, Self-Driving Car, Entity Linking System, Ad Prediction System. Платно. Есть акцент на system design вопросах (про system design дальше сделаем отдельную подборку).

- Серия видео от Валеры Бабушкина по ML System Design собеседованиям. В них подробно разбираются дизайны МЛ-систем для: ранжирования рекламы в новостной ленте соцсети, ценообразования и матчинга в маркетплейсе.

- Miro-доска от Богдана Печёнкина (X5, AliExpress, KazanExpress) с примерами ML дизайна различных систем: динамическое ценообразование, матчинг, антифрод, рекомендашки, ранжирование рекламы. Доска постоянно дорабатывается и пополняется. Рекомендуем также видео, где Богдан рассказывает про дизайн ML ценообразования на маркетплейсе.

Материалы, которых все очень ждут:

- Материалы курса Дмитрия Колодезева по ML System Design (2022)
- Книга от Валерия Бабушкина и Арсения Кравченко Principles of ML Design (2023)

Как выйдут – обязательно опубликуем ссылки!

#tech #ml_system_design

🔥9😢1

2.76K views11:19

Блог о Data Science 💻

Нас уже 500🎉

скоро кое что выпущу, но пока я болею

🔥14

2.68K viewsedited 14:02

Блог о Data Science 💻

А/B тесты
Хотите разобраться в А/B тестах? Моя подборка, стоит смотреть поэтапно. 👮🏼

Если нужно подтянуть матстат к ним, ниже подборка и для этого 😎

1. Практическое введение в А/B тесты

link⛓

2. Проблема подглядываний

link⛓

3.1. Размер выборки

link⛓

3.2. Вокшоп от Глеба Михайлова 
(там, много ошибок и в целом чел кринжовый, но для понимания как оценить размер выборки и тд и тп кайф)

link [part 1]⛓ link [part 2]⛓ link [part 3]⛓ link [part 4]⛓ link [part 5]⛓

4. Cuped

link⛓

5. Cuped Геометрическая интерпретация

link ⛓

6. Улучшение А/B тестов

link⛓

7. Бутстрап

link⛓

8. Бутстрап 2

link⛓

9. Когда остановить A/B тест

link⛓

10. Воркшоп A/B

link⛓

11. про A/B тесты от Саши Сахнова

link⛓

12. Еще чуть чуть про A/B тесты

link⛓

13. Танцы с бубнами и A/B тесты

link⛓

Вспоминаем Матстат

1. Курс от ВШЭ, Подтягиваем основы

link⛓

2. CSC, закрепляем познания, more extended then the previous one

link⛓

3. А/B тесты с Филом, ускоренное погружение на практике

link⛓

4. Теория и практика онлайн экспериментов ВШЭ

link⛓

Cheet Sheets:
1.
VKGROUP ⛓
2.
random github cs ⛓
3.
Tradeoff I type error and II type error ⛓

❤37🔥26🎉1🐳1

7.75K viewsedited 10:32

Блог о Data Science 💻

🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸
Upd
Если вам не хватило этого, есть подборка, которой поделился @uberkinder, эксклюзивная подборка Валеры Бабушкина 👽

link⛓
🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸

🔥7❤2

3.02K viewsedited 17:19

Блог о Data Science 💻

Forwarded from ML for Value / Ваня Максимов

Как тестировать рекомендательные системы

Под одним из прошлых постов было много вопросов о тестировании рек систем: как не выкатить на прод рекомендации в обратном порядке, например)

Я на практике использовал такие тесты:

1. Полнота данных
70% ошибок максимально глупые: упала база и не залились данные. Сменился год с 21 на 22 и у вас полетела часть запросов
Решается обычным assert-ом на кол-во строк, уникальных дат/юзеров/товаров

2. Качество фичей
Есть тысяча статей про distribution shift, детекцию выбросов и т.д., но обычно проблемы куда проще. Использовать np.mean вместо np.nanmean и получить 90% NaN в фиче? Иметь средние чеки в 1млрд руб, хотя реальные чеки до 5-10к? Вот с чем стоит побороться в первую очередь!
Решается также обычным assert-ом

3. ML и бизнес метрики
Assert-ы на ml метрики на тестовой выборке. Если позволяет инфра, то каждое переобучение модели сопровождать мини-АВ

4. Бизнес-адекватность
У 70% пользователей в топе рекомендаций рестораны с рейтингом < 3.0? Популярные товары не в топе? Тоже стоит с этим побороться

Лучше классическими автотестами на real-time / батчевых запросах к модели

Обычно хватает ~1к запросов и базовой логики с теми же assert-ами

5. Смотреть глазами
Никто не любит это делать, но потратьте 3 минуты своего времени и посмотрите рекомендации модели для себя и своего соседа на адекватность перед выкаткой. Это спасет вам много времени и денег 😅

ML for Value

Lessons learned

Наткнулся на отличную статью от Андрея Лукьяненко про опыт, полученный за 10 лет в DS. Подписываюсь под каждым пунктом!

Что из неочевидного хочу добавить от себя

1. Ваш руководитель / старший товарищ - это ваш "ресурс"

Я глобально верю…

🔥3

2.68K views16:37

Блог о Data Science 💻

Рефлексия по поводу AMEX
Прошёл сорев от american express, с прогнозированием дефолта.

Плюсы сорева
× Познакомился с @yk4r2 и его классным каналом @train_test_split
× Много интересного FE, интересные решения от топов с seqformer и denoise autoencoder
(которые мы тоже собирались использовать)
× Много данных, которые сложно загрузить в 16 гигов озу, приходится оптимизировать

Минусы
× Составители сорева brainded'ы - 50% лидерборда было с метрикой 0.799
× При том что пол паблика, где челы просто брали паблик решения и чужие сабмиты, баланс lb pb 7:3 и pb был чище чем lb (то есть чел который взял паблик решения и сблендил мог победить у челов который все три месяца с нуля как не в себя работали и по фактам у них модель робастнее, ну как эмммм... Кегль вы обещали год назад, что таких соревов не будет)

Есть над чем работать, буду разбираться с seq Transformer и denoise autoencoder. 😏

Почти закончил ноут с A/B тестами, думаю к след неделе выйдет 😎

🔥7❤2

2.76K viewsedited 14:44

Блог о Data Science 💻

666 подписчиков 🙈

🔥21😢2

2.68K views16:11

About

Blog

Apps

Platform