Блог о Data Science 💻 – Telegram

Блог о Data Science 💻

@notedatascience

4.17K subscribers

75 photos

4 videos

21 files

115 links

Работаю аналитиком в Яндексе, учусь NLP в Вышке и веду этот канал про применение Data Science в компаниях, новости индустрии, рынок труда, мероприятия и другие активности вокруг науки о данных

Чат канала: t.iss.one/notedatasciencechat

Автор: @travelwithtagir

Download Telegram

About

Blog

Apps

Platform

Блог о Data Science 💻

4.17K subscribers

Блог о Data Science 💻

АПВОУТ ОТ МОЕГО КРАША КЕГЛЯ :З
Так неожиданно и приятно... Если вы думаете, что вы круто делаете аналитику, то посмотрите просто что он творит, это просто гений. Он вдохновил меня вообще начать что то делать на кегле и думаю, что скоро получиться догнать его😏

Ps sharlto cope

977 viewsedited 01:15

Блог о Data Science 💻

image_2022-07-05_23-31-18.png

То самое чувство, когда ты смотришь смотришь код грандамстеров, а там твой линк...

❤8🔥6

929 views20:31

Блог о Data Science 💻

Привет мои дорогие, многие ждали, да я и сам ждал и вот он долгожданный пост о том как прокачать свои пет-проекты.

Сегодня мы немного отойдем от идеи машинного обучения и посмотрим на все это дело с точки зрения рекрутмента или ревьюера.
Я предлагаю вам представить себя в роли тим-лида, который нанимает в свою команду интерна, джуна, мидла. И про это можно почитать вот в этом канале https://t.iss.one/start_ds, автором которого является @RAVasiliev
Конечно, мы не можем сделать идеальные пет проекты для каждого тех-лида, но можем набрать условный минимум, которым сможем как то апеллировать в будущем. Если интересно, можем пообщаться на эту тему в комментариях, я могу скинуть пару подкастов, которые помогут повысить ваши шансы уже на самом собесе (На мой взгляд).

И так, мы тех-лид IT или МЛ отдела, нам нужны джун/мидл разработчики. Представим что в нашем выдуманном мире остались 3 вакансии, которые мы готовы рассмотреть Вася, Петя и Федя.
У каждого из кандидата одинаковый опыт, хорошо составленные резюме. То-есть мы изолируем все факторы кроме пет-проектов, ведь речь идет о них. Тим лид заходит на гит каждого и смотрит.
Допустим наша компания - Яндекс Лавка/Еда. Следовательно нас будут интересовать рекомендательные системы, матчинг, отток клиентов и анализ данных и тп.
И так первый гит первого кандидата - три репозитория, без описания и лишь файлики Jupyter Notebook. Ну нам не сложно, откроем их в google colab. Смотрим, и понимаем, что Вася что-то делал, но проверить мы это не можем, потому что библиотеки устарели, а код его не работает на новых версиях и вообще работает он долго.
Да, такой кандидат совсем ничего не сказал о себе, мы его даже оценить никак не можем.
Ну тогда давайте посмотрим Петю, может у него что-то получше. Открываем гит, а там и описание уже есть, и активность коммитов есть. Есть какие то результаты репозиториев и даже ноутбук в гите отрендерили. Да, тут уже получше. Открываем первый проект, допустим Титаник и там даже прописаны версии и скачиваение зависимости. Вот это уже что-то. Такого кандидата можно и взять, но давайте посмотрим другие репозитории. Смотрим второй, третий репозиторий, а там вообще ничего про ритейл и то что хоть как то может быть для нас полезно.
Эх хороший кандидат был, а проекты совсем не релевантные, но на джуна можно взять, может переучиться. Но сначала следующий кондидат.
И так открываем мы репозиторий Феди и видим красивую картину. И описание в гите есть и резюме приложил, а активность ну каждый день что-то делает.
Смотрим на репозитории, а там так вообще сказка, там не только jupyternotebook, а целые проекты с бекендом в скриптах. И указано как все скачать и запустить, и результаты указаны.
А проекты то какие, релевантные, а самое главное бизнес ценность в описание написана.

🔥12

1.33K views15:15

Блог о Data Science 💻

Вот и небольшая притча о том как делать пет проекты. А сейчас я бы хотел рассказать, что вообще стоит исследовать и с чего начинать.
Безусловно первое что мы делаем - ищем проблему которую нужно решить, почему проблему? Потому что спрос рождает предложение, а предложение не рождает спрос. Если вы сделаете что-то полезное, то можно будет даже продать это или сделать свой маленький стартап и вообще последующее развитие всегда лучше прокрастинации.
Допустим проблему мы определили - нам нужно собрать или взять данные, я вам рекомендую делать непрерывные парсинг данный, это будет несколько сложнее, придется заморочиться с системой мониторинга, но это круче чем ничего не делать и CI/CD опять же подключить можно. Второй вариант это просто скачать откуда то, тоже можно, почему нет, а можно скачать откуда то, а еще и парсить.
Наш следующий шаг правильно создать окружение тут нужны следующие инструменты на мой взгял: docker, git, github/gitlab, poetry + pyenv. И прописать установку окружения и в нем уже создавать свои контейнеры, которые можно запускать. Тот же парсер.
Теперь - рисерч. Допустим мы быстренько написали парсер уже у нас достаточные данные. Нам нужно почистить данные, проверсти тесты и убедиться что мы можем что-то прогназироватью. Сделайте презентацию какую то или дашборд по данным, что бы потом внедрить в мониторинг систему, я думаю это круто и в дальнейшем вам будет что показать.
И так после ричерча мы поняли, что данные очень волатильны и вообще непонятно что происходит с дисперсией, мы хотим использовать деревья для этого они нам дают прекрасный результат, они непараметрические и шумов у нас не так много в данных. Теперь мы будем строить пайплайн.
Что для этого нужно, помимо либ, которые вы используете в обучение: Соотвественно все перевести в скрипты, где каждый файл отдельный миниалгоритм pytest, pydantic для верификации данных и скриптов. Хотим мониторить обучение моделей и данных - WandB. Хотим что бы после изменения данных, пайплайн сам запускался - DVC.
Отлично, давайте посмотрим, что у нас есть:
docker и gitlab проект, так же у нас парсер, который сейчас все сохраняет в csv, какой то скрипт, который создает датасет. У нас есть скрипт по созданию дополнительных данных и чистке. У нас есть скрипт по обучению модели. Получение различных метрик и репортов. И какой то аля сохранение дашбордов в png.
Это, конечно, замечательно. Но как то хочется что бы оно само работало, да и вообще мы устали все вручную запускать через main.py так еще и забываем иногда парсер запускать.
Для этого нам нужно изучить CI/CD, GitLab CI, CLI и разобраться как пользоваться серверами. Допустим на Yandex Cloud.
Тут уже многое зависит от вас, как вы хотите все это сделать. Но что я могу посоветовать: MLOps у ODS и курс Yandex Practicum по Облокам

И так у в итоге кое как получилось создать сервер, теперь у нас парсинг запускается каждые 2 часа, после этого обучаются модели и мы получаем какие то output по метрикам и какие то png дашборды. Как то неправильно, мы хотим что бы вообще все работало автономно.
Теперь начинается наверное самое сложное - backend/ frontend.
И так во первых - нужно создать отдельно папку frontend/backend/database все они будут запускать 3 различных контейнера (в идеале):
Нам нужно знать REST API, gunicorn - что бы связать фронт и бек. А еще как то обращаться к БД. Я бы использовал FastApi для backend и react для фронта.
Теперь у нас есть фронтенд, который должен отсылать запрос к бекенду, бекенд отсылал бы ответ и реакт бы рендерил то что хочет пользователь, например наши дашборды. Они уже не PNG, а какая то динамично изменяющаяся картиночка.

А самое главное, даже если у нас ляжет сервер, так как мы использовали gitlab ci и gitops, мы сможем развернуть наш сервер без проблем на другом.

Возможно я упустил какие то точности и не претендую на лучшего эксперта фронтенда и бекенда, devops, но это то, что я изучал последние несколько недель, пришлось посмотреть достаточно много видос, особенно про gitops. Это не панацея, но на мой взгляд, так и нужно реализовывать проекты.

Еще советую linear.app!

🔥12

1.07K viewsedited 15:15

Блог о Data Science 💻

Пост настолько большой получился, что телега разделила на два сообщения D:
Надеюсь после моего поста you lead the way to your best pet projects

❤12

791 views15:18

Блог о Data Science 💻

Замена для WB

763 views12:40

Блог о Data Science 💻

Forwarded from Машинное обучение RU

MLOps: как внедрить систему рекомендаций товаров

Одна из самых распространенных задач электронной коммерции — создание хорошо работающей модели рекомендаций и категоризации товаров. Рекомендательная система товаров используется для предоставления пользователям аналогичных предложений. Она позволяет увеличить общее время пребывания на платформе и сумму, потраченную в расчете на одного пользователя.

Кроме того, на платформах электронной коммерции, особенно тех, где большая часть контента создается пользователями (например, на сайтах объявлений), необходима модель категоризации продуктов. Она используется для “отлова” неправильно категорированных продуктов и размещения их по соответствующим категориям. Это способствует улучшению общего пользовательского опыта на платформе.

Данная статья состоит из двух основных частей. В первой поговорим о том, как построить систему рекомендаций товаров для электронной коммерции и провести категоризацию товаров (примеры кода помогут продемонстрировать эти процессы). Во второй обсудим, как реализовать этот проект в несколько шагов с помощью MLOps-платформы под названием Layer.

Читать дальше

@machinelearning_ru

❤3

804 views12:40

Блог о Data Science 💻

Forwarded from Start Career in DS

Подборка ресурсов по математике для Data Science:

Уровни:
⭐️ - закончил универ сто лет назад, ничего не помню
⭐️⭐️ - знаю и помню базу (матан, линал, тервер, матстат)
⭐️⭐️⭐️ - хорошо разбираюсь в высшей математике, хочу поднатаскать специфические для DS темы

⭐️Наглядный разбор теории в серии «X для чайников»: что такое вектор, как считать производную, матричные уравнения и т.д.
⭐️Материалы с лекций и семинаров ВМК МГУ от «Ёжика в матане»: VK, YouTube. Тут можете спокойно начинать с лекций и семинаров Никитина по математическому анализу, их читают в самом начале

⭐️⭐️ Хорошие задачки с подробным разбором решений на Матбюро: линейная алгебра, теория вероятностей, математическая статистика.
⭐️⭐️Курс Райгородского «Основы теории вероятностей». Тут наглядно и на пальцах объясняются базовые аспекты
⭐️⭐️ [Eng] Курс «Matrix Methods in Data Analysis, Signal Processing, and Machine Learning», в нём есть вся ключевая математика для DS

⭐️⭐️⭐️[Eng] Сборник задач и теории по базовой математике (линейная алгебра, оптимизация, графы) и машинному обучению:
Pen and Paper Exercises in Machine Learning
⭐️⭐️⭐️[Eng] Книга «Математика для Data Science»: https://mml-book.github.io/

753 views19:34

Блог о Data Science 💻

Хотите про временные узнать?

Линейные Нелинейные Нейросети Постараюсь сделать с кодом!)

Final Results

59 voters859 views19:37

Блог о Data Science 💻

А как насчет различных методов оптимизации для подбора гиперпараметров?
( я не про grid search и optuna, что-то более оригинальное)

Final Results

Just do it and take my money👍🏻

it sucks👎🏻

52 voters872 views11:22

Блог о Data Science 💻

Краткие план по этим двум постам

Временные ряды
1. Про временные ряды в целом и общие понятия, которые будем рассматривать.
2. Линейные модели ARIMA (autoTS)
3. Нелинейные модели CatBoost
4. PyCaret
5. Prophet
6. Трансфорсеры в TSS

Оптимизации подбора гиперпараметров
1. Свой собственный гридсерч, но умнее (based on Ambrosm)
2. Генетический алгоритм
3. Эволюционный алгоритм
4. Многорукие бандиты
5. Reinforcement learning ( если получиться )

Если есть идея, что добавить, пишите посмотрю ваши варианты
Кстати говоря все эти алгоритмы оптимизации лучше подходят для пайплайнов чем тот же гридсерч и оптуна (на мой взгляд), которые запускаются одноразово и по сути вам достаточно внести еще один параметр состояния и с его изменением будет запускать оптимизация и будет бесконечный цикл ее оптимизации)
Но они более трудоемкие

🔥10

946 viewsedited 17:48

Блог о Data Science 💻

image_2022-07-09_22-01-06.png

Для тех кто интересовался RL, сделаю минианонс
Недавно делал preprint, сейчас уже делаются заключительные работы. Пока что она работало так 1 раз обучил 1 раз применил. А щас 1 раз обучил n раз применил.
Щас работаю над тем что бы можно было бы дообучать (главная задача при которой рисерч будет являться успехом)
PS можно сделать точнее, инференс ~ в 20 раз быстрее чем GA
Но обучение RL достаточно долгое, но не слишком требовательное. (+ у меня распределяется на 12ядер i7)
При желании можно ускорить на плюсах и GPU, RAPID

Возможно выложу чуть раньше в середине августа (постараюсь как можно раньше)

🔥7

1.04K viewsedited 19:01

Блог о Data Science 💻

Forwarded from Машинное обучение RU

🎓 Глубокое погружение в ROC-AU

Я думаю, что большинство людей слышали о ROC-кривой или о AUC (площади под кривой) раньше. Особенно те, кто интересуется наукой о данных. Однако, что такое ROC-кривая и почему площадь под этой кривой является хорошей метрикой для оценки модели классификации?

Теория ROC-кривой
Полное название ROC — Receiver Operating Characteristic (рабочая характеристика приёмника). Впервые она была создана для использования радиолокационного обнаружения сигналов во время Второй мировой войны. США использовали ROC для повышения точности обнаружения японских самолетов с помощью радара. Поэтому ее называют рабочей характеристикой приемника.

AUC или area under curve — это просто площадь под кривой ROC. Прежде чем мы перейдем к тому, что такое ROC-кривая, нужно вспомнить, что такое матрица ошибок.

Читать дальше

@machinelearning_ru

❤6

1.05K views09:34

Блог о Data Science 💻

image_2022-07-12_12-52-24.png

Нас уже 1/4 тысячи!🎉

🔥9

1.04K views09:52

Блог о Data Science 💻

image_2022-07-12_20-25-59.png

🙈🌚
Зачем тебе этот notebook ранкед говорили они

❤3

1.11K viewsedited 17:26

Блог о Data Science 💻

мем, но мб кому то реально поможет D:

914 views18:31

Блог о Data Science 💻

Forwarded from Поступашки - ШАД, Стажировки и Магистратура

#How_to_заботать

How to заботать собеседование на jun product-аналитика?

Уже не для кого не секрет, что из-за весны 2020 (пандемия) и 24-го февраля отечественные компании остро ощущают нехватку кадров. Джунов набирают тупо с улицы, а на Teamlead позицию ставят без внятного опыта работы. Такая "коррекция кадров" привела к тому, что стажер в другом финтехе спокойно залетает на Middle😳😳 В общем лучшего времени, чтобы начать карьеру может и не быть, а наименее требовательная по background область: конечно же product-аналитика. Отличный вариант для тех, у кого не срослись отношения с "программированием", но способны сложить 2 + 2. И недурное начало пути, если интересно попробовать себя в будущем как Data Scientist или Quantitative researcher🤓🤓. Могу заверить, что если ваша мама не употребляла алкоголь во время беременности, то у вас все получится, а подборка следующих материалов вам в этом поможет😎😎
Все книжки в комментариях, там же делимся любимыми материалами.

SQL
В принципе только это и стоит спрашивать джунов, ибо, похоже, ничем более они и не занимаются..
1. Интерактивный tutorial.
Кратенько ознакомитесь с возможностями sql и поймете о чем это вообще
2. Тренажер на stepik.
Хорошее продолжение, но дальше второго модуля точно не стоит смотреть. Также можете пропустить создания, удаление таблиц и прочее-прочее, спрашивать такое не будут, а при нужде загляните в документацию.
3. SQL ex
Куча упражнений с теорией, есть даже оконки
4. Документация PostgreSQL
Скорее всего, он и будет
5. Статьи про оконные функции
Джунов особо не спрашивают, скорее тема middle+, да и те на деле ими разве что строки нумеруют.
Статья_1 и Статья_2

Математическая Статистика
1. Курсы Карпова на stepik
Все на пальцах, но другого с вас на собесе и не спросят
Часть1, Часть2, Часть3
2. StatQuest
Дополнение к Карпову
3. "Практическая статистика для специалистов Data Science" Питер и Эндрю Брюс.
Недурно раскрыты важнейшие статистические понятия на куче примеров
4. "Теория вероятностей и математическая статистика" Л. Н. Фадеева, А. В. Лебедев.
Стандартный курс математической статистики для экономистов дополнит представления, полученные выше, в терминах теории вероятностей.
5. AB-тесты
Главное, что спросят на собесе. Смотрите How to заботать AB тесты

Cтатистика на python
1. Tutorial по python
Знакомит со всеми основными возможностями языка, нужными в работе. Если видите в первый раз, то там же можно и порешать задачки.
2. Numpy, Pandas, Matplotlib
1) Cтавим Jupyter Notebook
Вообще дедовский метод: освоить это все в процессе курса по статистическому практикум, скачать какой Data set с Kaggle и дрочить его, читая документацию. Но если очень охото можете посмотреть tutorialы для дебилов
1) Если знаем english, то смотрим freecodecamp:
https://www.youtube.com/watch?v=QUT1VHiLmmI&t=162.. – Numpy
https://www.youtube.com/watch?v=3Xc3CA655Y4&t=16s.. –Matplotlib
https://www.youtube.com/watch?v=vmEHCJofslg&t=151.. – Pandas
В целом канал очень крутой, куча всего классного по проге и мл.
2) Курс Хирьянова по анализу данных в МГУ (лекции 7,8,9,10, ноутбуки с кодом прилагаются на сосайте).
3. Курс по статистическому практикуму (notebook zip в комментах)
Много всего интересного: от библиотек до регрессий. Самое важно для собеса: научиться проверять гипотезы на независимых и парных выборках.

Продуктовое понимание
Здесь спрашивают представляете ли вы вообще, чем придется заниматься и как используется все вышеперечисленное.
1. Курс Тинькофф по аналитике
Темы разобраны поверхностно, но кратенько обобщит и структурирует все изученное на продуктовых примерах (notebook zip в комментах)
2. Наш файлик с основными метриками
3. ШМЯ
Здесь смотрим не раскрытые темы, смотреть полностью будет too mach

🔥4

953 views18:31

Блог о Data Science 💻

Для любителей челленджей, если не знаете чем себя занять или просто хочется отвлечься, даже если вы просто хотите изучить питон. То можно начать с этого!

Глеб Михайлов, наверное, лучший кто может дать вам необычную подачу материала. Можно смотреть на три вещи бесконечно, как горит огонь, как течёт вода и как Глеб решает литкод!

Так же советую другие его видосы, особенно по вышмату для ДС, незамысловато, без углублений, только best practice.

https://youtu.be/Pp84Sv041xA

LeetCode Марафон Easy (100 задач)

Записывайся на мой курс по алгоритмам: https://leopard.school/l/algorithms

Телеграмм: https://t.iss.one/mikhaylovgleb
Донат: https://www.donationalerts.com/r/glebmikh
Список задач: https://docs.google.com/spreadsheets/d/1dL-2ErGcCtjE_MgKPqJtDTX2OiA70O3n9gArd…

🔥6

1.12K viewsedited 00:17

Блог о Data Science 💻

https://telegra.ph/Navigaciya-05-19

Навигация

Python: ● Python: полезные модули ● Где тренировать Python ● Коллекции в Python ● list comprehension ● lambda-функции ● Удаление элементов из списка: 4 способа ● Форматирование строк в Python ● Итерация, итератор, итерируемый объект ● Itertools:…

🔥3

1.28K views10:31

Блог о Data Science 💻

Пока я пишу пост, про временные ряды, хочу вам дать посмотреть две мои работы. Желательно лайк на них поставить, конечно.👀

Первый раз, когда я с ними познакомился, даже не знал как и что работает🙄, но все равно. Тут, конечно, все очень плохо и ужасно, но посмотреть можно 😄

https://www.kaggle.com/code/kartushovdanil/tps-jan-22-eda-atboost-prophet

А вот одна из последних 😎

https://www.kaggle.com/code/kartushovdanil/baseline-amex-catboost-blending-wandb

На что я бы хотел обратить внимание, что в целом, структура не сильно поменялась. Но если вы будете смотреть на детали. То можно заметить, что код и в целом понимание работы с данными прокачивается. Что отличает эти две работы это детали и внимание к коду, к оптимизации, к целям и осознанности с какими данными ты работаешь.

🔥15

1.25K viewsedited 13:31

Блог о Data Science 💻

image_2022-07-18_18-15-49.png

Пока по 60 лайков не будет на тех постах, ниче не выпущу 😬🥺🙉

Будем крипту прогнозировать🤸🏻‍♀️

Вот вам графики новые спойлерну, красивые (Это к гайду по временным рядам, которые я терпеть не могу, но что не сделаешь ради подписчиков)👀

❤19

1.26K viewsedited 15:16