Блог о Data Science 💻

Пост настолько большой получился, что телега разделила на два сообщения D:
Надеюсь после моего поста you lead the way to your best pet projects

❤12

791 views15:18

Блог о Data Science 💻

Замена для WB

763 views12:40

Блог о Data Science 💻

Forwarded from Машинное обучение RU

MLOps: как внедрить систему рекомендаций товаров

Одна из самых распространенных задач электронной коммерции — создание хорошо работающей модели рекомендаций и категоризации товаров. Рекомендательная система товаров используется для предоставления пользователям аналогичных предложений. Она позволяет увеличить общее время пребывания на платформе и сумму, потраченную в расчете на одного пользователя.

Кроме того, на платформах электронной коммерции, особенно тех, где большая часть контента создается пользователями (например, на сайтах объявлений), необходима модель категоризации продуктов. Она используется для “отлова” неправильно категорированных продуктов и размещения их по соответствующим категориям. Это способствует улучшению общего пользовательского опыта на платформе.

Данная статья состоит из двух основных частей. В первой поговорим о том, как построить систему рекомендаций товаров для электронной коммерции и провести категоризацию товаров (примеры кода помогут продемонстрировать эти процессы). Во второй обсудим, как реализовать этот проект в несколько шагов с помощью MLOps-платформы под названием Layer.

Читать дальше

@machinelearning_ru

❤3

804 views12:40

Блог о Data Science 💻

Forwarded from Start Career in DS

Подборка ресурсов по математике для Data Science:

Уровни:
⭐️ - закончил универ сто лет назад, ничего не помню
⭐️⭐️ - знаю и помню базу (матан, линал, тервер, матстат)
⭐️⭐️⭐️ - хорошо разбираюсь в высшей математике, хочу поднатаскать специфические для DS темы

⭐️Наглядный разбор теории в серии «X для чайников»: что такое вектор, как считать производную, матричные уравнения и т.д.
⭐️Материалы с лекций и семинаров ВМК МГУ от «Ёжика в матане»: VK, YouTube. Тут можете спокойно начинать с лекций и семинаров Никитина по математическому анализу, их читают в самом начале

⭐️⭐️ Хорошие задачки с подробным разбором решений на Матбюро: линейная алгебра, теория вероятностей, математическая статистика.
⭐️⭐️Курс Райгородского «Основы теории вероятностей». Тут наглядно и на пальцах объясняются базовые аспекты
⭐️⭐️ [Eng] Курс «Matrix Methods in Data Analysis, Signal Processing, and Machine Learning», в нём есть вся ключевая математика для DS

⭐️⭐️⭐️[Eng] Сборник задач и теории по базовой математике (линейная алгебра, оптимизация, графы) и машинному обучению:
Pen and Paper Exercises in Machine Learning
⭐️⭐️⭐️[Eng] Книга «Математика для Data Science»: https://mml-book.github.io/

753 views19:34

Блог о Data Science 💻

Хотите про временные узнать?

Линейные Нелинейные Нейросети Постараюсь сделать с кодом!)

Final Results

59 voters859 views19:37

Блог о Data Science 💻

А как насчет различных методов оптимизации для подбора гиперпараметров?
( я не про grid search и optuna, что-то более оригинальное)

Final Results

96%

Just do it and take my money👍🏻

it sucks👎🏻

52 voters872 views11:22

Блог о Data Science 💻

Краткие план по этим двум постам

Временные ряды
1. Про временные ряды в целом и общие понятия, которые будем рассматривать.
2. Линейные модели ARIMA (autoTS)
3. Нелинейные модели CatBoost
4. PyCaret
5. Prophet
6. Трансфорсеры в TSS

Оптимизации подбора гиперпараметров
1. Свой собственный гридсерч, но умнее (based on Ambrosm)
2. Генетический алгоритм
3. Эволюционный алгоритм
4. Многорукие бандиты
5. Reinforcement learning ( если получиться )

Если есть идея, что добавить, пишите посмотрю ваши варианты
Кстати говоря все эти алгоритмы оптимизации лучше подходят для пайплайнов чем тот же гридсерч и оптуна (на мой взгляд), которые запускаются одноразово и по сути вам достаточно внести еще один параметр состояния и с его изменением будет запускать оптимизация и будет бесконечный цикл ее оптимизации)
Но они более трудоемкие

🔥10

946 viewsedited 17:48

Блог о Data Science 💻

image_2022-07-09_22-01-06.png

29.9 KB

Для тех кто интересовался RL, сделаю минианонс
Недавно делал preprint, сейчас уже делаются заключительные работы. Пока что она работало так 1 раз обучил 1 раз применил. А щас 1 раз обучил n раз применил.
Щас работаю над тем что бы можно было бы дообучать (главная задача при которой рисерч будет являться успехом)
PS можно сделать точнее, инференс ~ в 20 раз быстрее чем GA
Но обучение RL достаточно долгое, но не слишком требовательное. (+ у меня распределяется на 12ядер i7)
При желании можно ускорить на плюсах и GPU, RAPID

Возможно выложу чуть раньше в середине августа (постараюсь как можно раньше)

🔥7

1.04K viewsedited 19:01

Блог о Data Science 💻

Forwarded from Машинное обучение RU

🎓 Глубокое погружение в ROC-AU

Я думаю, что большинство людей слышали о ROC-кривой или о AUC (площади под кривой) раньше. Особенно те, кто интересуется наукой о данных. Однако, что такое ROC-кривая и почему площадь под этой кривой является хорошей метрикой для оценки модели классификации?

Теория ROC-кривой
Полное название ROC — Receiver Operating Characteristic (рабочая характеристика приёмника). Впервые она была создана для использования радиолокационного обнаружения сигналов во время Второй мировой войны. США использовали ROC для повышения точности обнаружения японских самолетов с помощью радара. Поэтому ее называют рабочей характеристикой приемника.

AUC или area under curve — это просто площадь под кривой ROC. Прежде чем мы перейдем к тому, что такое ROC-кривая, нужно вспомнить, что такое матрица ошибок.

Читать дальше

@machinelearning_ru

❤6

1.05K views09:34

Блог о Data Science 💻

image_2022-07-12_12-52-24.png

3.8 KB

Нас уже 1/4 тысячи!🎉

🔥9

1.04K views09:52

Блог о Data Science 💻

image_2022-07-12_20-25-59.png

108 KB

🙈🌚
Зачем тебе этот notebook ранкед говорили они

❤3

1.11K viewsedited 17:26

Блог о Data Science 💻

мем, но мб кому то реально поможет D:

914 views18:31

Блог о Data Science 💻

Forwarded from Поступашки - ШАД, Стажировки и Магистратура

#How_to_заботать

How to заботать собеседование на jun product-аналитика?

Уже не для кого не секрет, что из-за весны 2020 (пандемия) и 24-го февраля отечественные компании остро ощущают нехватку кадров. Джунов набирают тупо с улицы, а на Teamlead позицию ставят без внятного опыта работы. Такая "коррекция кадров" привела к тому, что стажер в другом финтехе спокойно залетает на Middle😳😳 В общем лучшего времени, чтобы начать карьеру может и не быть, а наименее требовательная по background область: конечно же product-аналитика. Отличный вариант для тех, у кого не срослись отношения с "программированием", но способны сложить 2 + 2. И недурное начало пути, если интересно попробовать себя в будущем как Data Scientist или Quantitative researcher🤓🤓. Могу заверить, что если ваша мама не употребляла алкоголь во время беременности, то у вас все получится, а подборка следующих материалов вам в этом поможет😎😎
Все книжки в комментариях, там же делимся любимыми материалами.

SQL
В принципе только это и стоит спрашивать джунов, ибо, похоже, ничем более они и не занимаются..
1. Интерактивный tutorial.
Кратенько ознакомитесь с возможностями sql и поймете о чем это вообще
2. Тренажер на stepik.
Хорошее продолжение, но дальше второго модуля точно не стоит смотреть. Также можете пропустить создания, удаление таблиц и прочее-прочее, спрашивать такое не будут, а при нужде загляните в документацию.
3. SQL ex
Куча упражнений с теорией, есть даже оконки
4. Документация PostgreSQL
Скорее всего, он и будет
5. Статьи про оконные функции
Джунов особо не спрашивают, скорее тема middle+, да и те на деле ими разве что строки нумеруют.
Статья_1 и Статья_2

Математическая Статистика
1. Курсы Карпова на stepik
Все на пальцах, но другого с вас на собесе и не спросят
Часть1, Часть2, Часть3
2. StatQuest
Дополнение к Карпову
3. "Практическая статистика для специалистов Data Science" Питер и Эндрю Брюс.
Недурно раскрыты важнейшие статистические понятия на куче примеров
4. "Теория вероятностей и математическая статистика" Л. Н. Фадеева, А. В. Лебедев.
Стандартный курс математической статистики для экономистов дополнит представления, полученные выше, в терминах теории вероятностей.
5. AB-тесты
Главное, что спросят на собесе. Смотрите How to заботать AB тесты

Cтатистика на python
1. Tutorial по python
Знакомит со всеми основными возможностями языка, нужными в работе. Если видите в первый раз, то там же можно и порешать задачки.
2. Numpy, Pandas, Matplotlib
1) Cтавим Jupyter Notebook
Вообще дедовский метод: освоить это все в процессе курса по статистическому практикум, скачать какой Data set с Kaggle и дрочить его, читая документацию. Но если очень охото можете посмотреть tutorialы для дебилов
1) Если знаем english, то смотрим freecodecamp:
https://www.youtube.com/watch?v=QUT1VHiLmmI&t=162.. – Numpy
https://www.youtube.com/watch?v=3Xc3CA655Y4&t=16s.. –Matplotlib
https://www.youtube.com/watch?v=vmEHCJofslg&t=151.. – Pandas
В целом канал очень крутой, куча всего классного по проге и мл.
2) Курс Хирьянова по анализу данных в МГУ (лекции 7,8,9,10, ноутбуки с кодом прилагаются на сосайте).
3. Курс по статистическому практикуму (notebook zip в комментах)
Много всего интересного: от библиотек до регрессий. Самое важно для собеса: научиться проверять гипотезы на независимых и парных выборках.

Продуктовое понимание
Здесь спрашивают представляете ли вы вообще, чем придется заниматься и как используется все вышеперечисленное.
1. Курс Тинькофф по аналитике
Темы разобраны поверхностно, но кратенько обобщит и структурирует все изученное на продуктовых примерах (notebook zip в комментах)
2. Наш файлик с основными метриками
3. ШМЯ
Здесь смотрим не раскрытые темы, смотреть полностью будет too mach

🔥4

953 views18:31

Блог о Data Science 💻

Для любителей челленджей, если не знаете чем себя занять или просто хочется отвлечься, даже если вы просто хотите изучить питон. То можно начать с этого!

Глеб Михайлов, наверное, лучший кто может дать вам необычную подачу материала. Можно смотреть на три вещи бесконечно, как горит огонь, как течёт вода и как Глеб решает литкод!

Так же советую другие его видосы, особенно по вышмату для ДС, незамысловато, без углублений, только best practice.

https://youtu.be/Pp84Sv041xA

YouTube

LeetCode Марафон Easy (100 задач)

Записывайся на мой курс по алгоритмам: https://leopard.school/l/algorithms

Телеграмм: https://t.iss.one/mikhaylovgleb
Донат: https://www.donationalerts.com/r/glebmikh
Список задач: https://docs.google.com/spreadsheets/d/1dL-2ErGcCtjE_MgKPqJtDTX2OiA70O3n9gArd…

🔥6

1.12K viewsedited 00:17

Блог о Data Science 💻

https://telegra.ph/Navigaciya-05-19

Telegraph

Навигация

Python: ● Python: полезные модули ● Где тренировать Python ● Коллекции в Python ● list comprehension ● lambda-функции ● Удаление элементов из списка: 4 способа ● Форматирование строк в Python ● Итерация, итератор, итерируемый объект ● Itertools:…

🔥3

1.28K views10:31

Блог о Data Science 💻

Пока я пишу пост, про временные ряды, хочу вам дать посмотреть две мои работы. Желательно лайк на них поставить, конечно.👀

Первый раз, когда я с ними познакомился, даже не знал как и что работает🙄, но все равно. Тут, конечно, все очень плохо и ужасно, но посмотреть можно 😄

https://www.kaggle.com/code/kartushovdanil/tps-jan-22-eda-atboost-prophet

А вот одна из последних 😎

https://www.kaggle.com/code/kartushovdanil/baseline-amex-catboost-blending-wandb

На что я бы хотел обратить внимание, что в целом, структура не сильно поменялась. Но если вы будете смотреть на детали. То можно заметить, что код и в целом понимание работы с данными прокачивается. Что отличает эти две работы это детали и внимание к коду, к оптимизации, к целям и осознанности с какими данными ты работаешь.

🔥15

1.25K viewsedited 13:31

Блог о Data Science 💻

image_2022-07-18_18-15-49.png

130 KB

Пока по 60 лайков не будет на тех постах, ниче не выпущу 😬🥺🙉

Будем крипту прогнозировать🤸🏻‍♀️

Вот вам графики новые спойлерну, красивые (Это к гайду по временным рядам, которые я терпеть не могу, но что не сделаешь ради подписчиков)👀

❤19

1.26K viewsedited 15:16

Блог о Data Science 💻

Сегодня поспрашивал ребят, которые победили в контесте ML в ИТМО, все очень заряженные, очень крутые проекты. Сильно вдохновился от их проектов, даже немного депрессия от услышанного, не ожидал, что у некоторых настолько крутые проекты будут!)

Но очень заряжает, последнее время чувствовал себя как разряженная батарейка, как будто не в своей тарелке и тд. Меня всегда мотивировало сильное окружение, сейчас это стало проблемой. Да и хакатонов нет нормальных, жду их 🙈.

Сейчас в поиске крутых пет-проектов, дипломных работ. Хочется что-то комплексное, сложное и крутое...Какой нибудь матчинг, вся проблема в том что бы достать такие данные... Вы когда то сталкивались с такими проблемами? Есть идеи как решить?🤔

😢5

1.44K viewsedited 20:33

Блог о Data Science 💻

Какая же прекрасная книга, несмотря на то, что она на англ, там прекрасные иллюстрации по вышмату в мл.

Особенно мне понравилось раздел с GMM моделью, но я пока не вчитывался)

1.37K views14:33

Блог о Data Science 💻

mml-book (1).pdf

16.6 MB

mml-book (1).pdf

1.61K views14:33

Блог о Data Science 💻

Forwarded from Пристанище Дата Сайентиста

Наткнулся на небольшой набор задачек по программированию под CUDA.

Задачки представляет собой попытку научить начинающих программировать GPU полностью интерактивным способом.

В упражнениях используется NUMBA, которая работает с ядрами CUDA и в основном идентичен написанию низкоуровневого кода CUDA.

Думаю, что за несколько часов вы сможете перейти от основ к пониманию реальных алгоритмов, на которых сегодня основано 99% глубокого обучения.

Ссылка на github: https://github.com/srush/GPU-Puzzles

GitHub

GitHub - srush/GPU-Puzzles: Solve puzzles. Learn CUDA.

Solve puzzles. Learn CUDA. Contribute to srush/GPU-Puzzles development by creating an account on GitHub.

❤3

1.5K views13:37

About

Blog

Apps

Platform