Блог о Data Science 💻
4.17K subscribers
75 photos
4 videos
21 files
115 links
Работаю аналитиком в Яндексе, учусь NLP в Вышке и веду этот канал про применение Data Science в компаниях, новости индустрии, рынок труда, мероприятия и другие активности вокруг науки о данных

Чат канала: t.iss.one/notedatasciencechat

Автор: @travelwithtagir
Download Telegram
А как насчет различных методов оптимизации для подбора гиперпараметров?
( я не про grid search и optuna, что-то более оригинальное)
Final Results
96%
Just do it and take my money👍🏻
4%
it sucks👎🏻
Краткие план по этим двум постам

Временные ряды
1. Про временные ряды в целом и общие понятия, которые будем рассматривать.
2. Линейные модели ARIMA (autoTS)
3. Нелинейные модели CatBoost
4. PyCaret
5. Prophet
6. Трансфорсеры в TSS

Оптимизации подбора гиперпараметров
1. Свой собственный гридсерч, но умнее (based on Ambrosm)
2. Генетический алгоритм
3. Эволюционный алгоритм
4. Многорукие бандиты
5. Reinforcement learning ( если получиться )

Если есть идея, что добавить, пишите посмотрю ваши варианты
Кстати говоря все эти алгоритмы оптимизации лучше подходят для пайплайнов чем тот же гридсерч и оптуна (на мой взгляд), которые запускаются одноразово и по сути вам достаточно внести еще один параметр состояния и с его изменением будет запускать оптимизация и будет бесконечный цикл ее оптимизации)
Но они более трудоемкие
🔥10
image_2022-07-09_22-01-06.png
29.9 KB
Для тех кто интересовался RL, сделаю минианонс
Недавно делал preprint, сейчас уже делаются заключительные работы. Пока что она работало так 1 раз обучил 1 раз применил. А щас 1 раз обучил n раз применил.
Щас работаю над тем что бы можно было бы дообучать (главная задача при которой рисерч будет являться успехом)
PS можно сделать точнее, инференс ~ в 20 раз быстрее чем GA
Но обучение RL достаточно долгое, но не слишком требовательное. (+ у меня распределяется на 12ядер i7)
При желании можно ускорить на плюсах и GPU, RAPID

Возможно выложу чуть раньше в середине августа (постараюсь как можно раньше)
🔥7
🎓 Глубокое погружение в ROC-AU

Я думаю, что большинство людей слышали о ROC-кривой или о AUC (площади под кривой) раньше. Особенно те, кто интересуется наукой о данных. Однако, что такое ROC-кривая и почему площадь под этой кривой является хорошей метрикой для оценки модели классификации?

Теория ROC-кривой
Полное название ROC — Receiver Operating Characteristic (рабочая характеристика приёмника). Впервые она была создана для использования радиолокационного обнаружения сигналов во время Второй мировой войны. США использовали ROC для повышения точности обнаружения японских самолетов с помощью радара. Поэтому ее называют рабочей характеристикой приемника.

AUC или area under curve — это просто площадь под кривой ROC. Прежде чем мы перейдем к тому, что такое ROC-кривая, нужно вспомнить, что такое матрица ошибок.

Читать дальше

@machinelearning_ru
6
image_2022-07-12_12-52-24.png
3.8 KB
Нас уже 1/4 тысячи!🎉
🔥9
image_2022-07-12_20-25-59.png
108 KB
🙈🌚
Зачем тебе этот notebook ранкед говорили они
3
мем, но мб кому то реально поможет D:
#How_to_заботать

How to заботать собеседование на jun product-аналитика?

Уже не для кого не секрет, что из-за весны 2020 (пандемия) и 24-го февраля отечественные компании остро ощущают нехватку кадров. Джунов набирают тупо с улицы, а на Teamlead позицию ставят без внятного опыта работы. Такая "коррекция кадров" привела к тому, что стажер в другом финтехе спокойно залетает на Middle😳😳 В общем лучшего времени, чтобы начать карьеру может и не быть, а наименее требовательная по background область: конечно же product-аналитика. Отличный вариант для тех, у кого не срослись отношения с "программированием", но способны сложить 2 + 2. И недурное начало пути, если интересно попробовать себя в будущем как Data Scientist или Quantitative researcher🤓🤓. Могу заверить, что если ваша мама не употребляла алкоголь во время беременности, то у вас все получится, а подборка следующих материалов вам в этом поможет😎😎
Все книжки в комментариях, там же делимся любимыми материалами.

SQL
В принципе только это и стоит спрашивать джунов, ибо, похоже, ничем более они и не занимаются..
1. Интерактивный tutorial.
Кратенько ознакомитесь с возможностями sql и поймете о чем это вообще
2. Тренажер на stepik.
Хорошее продолжение, но дальше второго модуля точно не стоит смотреть. Также можете пропустить создания, удаление таблиц и прочее-прочее, спрашивать такое не будут, а при нужде загляните в документацию.
3. SQL ex
Куча упражнений с теорией, есть даже оконки
4. Документация PostgreSQL
Скорее всего, он и будет
5. Статьи про оконные функции
Джунов особо не спрашивают, скорее тема middle+, да и те на деле ими разве что строки нумеруют.
Статья_1 и Статья_2

Математическая Статистика
1. Курсы Карпова на stepik
Все на пальцах, но другого с вас на собесе и не спросят
Часть1, Часть2, Часть3
2. StatQuest
Дополнение к Карпову
3. "Практическая статистика для специалистов Data Science" Питер и Эндрю Брюс.
Недурно раскрыты важнейшие статистические понятия на куче примеров
4. "Теория вероятностей и математическая статистика" Л. Н. Фадеева, А. В. Лебедев.
Стандартный курс математической статистики для экономистов дополнит представления, полученные выше, в терминах теории вероятностей.
5. AB-тесты
Главное, что спросят на собесе. Смотрите How to заботать AB тесты

Cтатистика на python
1. Tutorial по python
Знакомит со всеми основными возможностями языка, нужными в работе. Если видите в первый раз, то там же можно и порешать задачки.
2. Numpy, Pandas, Matplotlib
1) Cтавим Jupyter Notebook
Вообще дедовский метод: освоить это все в процессе курса по статистическому практикум, скачать какой Data set с Kaggle и дрочить его, читая документацию. Но если очень охото можете посмотреть tutorialы для дебилов
1) Если знаем english, то смотрим freecodecamp:
https://www.youtube.com/watch?v=QUT1VHiLmmI&t=162.. – Numpy
https://www.youtube.com/watch?v=3Xc3CA655Y4&t=16s.. –Matplotlib
https://www.youtube.com/watch?v=vmEHCJofslg&t=151.. – Pandas
В целом канал очень крутой, куча всего классного по проге и мл.
2) Курс Хирьянова по анализу данных в МГУ (лекции 7,8,9,10, ноутбуки с кодом прилагаются на сосайте).
3. Курс по статистическому практикуму (notebook zip в комментах)
Много всего интересного: от библиотек до регрессий. Самое важно для собеса: научиться проверять гипотезы на независимых и парных выборках.

Продуктовое понимание
Здесь спрашивают представляете ли вы вообще, чем придется заниматься и как используется все вышеперечисленное.
1. Курс Тинькофф по аналитике
Темы разобраны поверхностно, но кратенько обобщит и структурирует все изученное на продуктовых примерах (notebook zip в комментах)
2. Наш файлик с основными метриками
3. ШМЯ
Здесь смотрим не раскрытые темы, смотреть полностью будет too mach
🔥4
Для любителей челленджей, если не знаете чем себя занять или просто хочется отвлечься, даже если вы просто хотите изучить питон. То можно начать с этого!

Глеб Михайлов, наверное, лучший кто может дать вам необычную подачу материала. Можно смотреть на три вещи бесконечно, как горит огонь, как течёт вода и как Глеб решает литкод!

Так же советую другие его видосы, особенно по вышмату для ДС, незамысловато, без углублений, только best practice.

https://youtu.be/Pp84Sv041xA
🔥6
Пока я пишу пост, про временные ряды, хочу вам дать посмотреть две мои работы. Желательно лайк на них поставить, конечно.👀

Первый раз, когда я с ними познакомился, даже не знал как и что работает🙄, но все равно. Тут, конечно, все очень плохо и ужасно, но посмотреть можно 😄

https://www.kaggle.com/code/kartushovdanil/tps-jan-22-eda-atboost-prophet

А вот одна из последних 😎

https://www.kaggle.com/code/kartushovdanil/baseline-amex-catboost-blending-wandb

На что я бы хотел обратить внимание, что в целом, структура не сильно поменялась. Но если вы будете смотреть на детали. То можно заметить, что код и в целом понимание работы с данными прокачивается. Что отличает эти две работы это детали и внимание к коду, к оптимизации, к целям и осознанности с какими данными ты работаешь.
🔥15
image_2022-07-18_18-15-49.png
130 KB
Пока по 60 лайков не будет на тех постах, ниче не выпущу 😬🥺🙉

Будем крипту прогнозировать🤸🏻‍♀️

Вот вам графики новые спойлерну, красивые (Это к гайду по временным рядам, которые я терпеть не могу, но что не сделаешь ради подписчиков)👀
19
Сегодня поспрашивал ребят, которые победили в контесте ML в ИТМО, все очень заряженные, очень крутые проекты. Сильно вдохновился от их проектов, даже немного депрессия от услышанного, не ожидал, что у некоторых настолько крутые проекты будут!)

Но очень заряжает, последнее время чувствовал себя как разряженная батарейка, как будто не в своей тарелке и тд. Меня всегда мотивировало сильное окружение, сейчас это стало проблемой. Да и хакатонов нет нормальных, жду их 🙈.

Сейчас в поиске крутых пет-проектов, дипломных работ. Хочется что-то комплексное, сложное и крутое...Какой нибудь матчинг, вся проблема в том что бы достать такие данные... Вы когда то сталкивались с такими проблемами? Есть идеи как решить?🤔
😢5
Какая же прекрасная книга, несмотря на то, что она на англ, там прекрасные иллюстрации по вышмату в мл.

Особенно мне понравилось раздел с GMM моделью, но я пока не вчитывался)
Наткнулся на небольшой набор задачек по программированию под CUDA.

Задачки представляет собой попытку научить начинающих программировать GPU полностью интерактивным способом.

В упражнениях используется NUMBA, которая работает с ядрами CUDA и в основном идентичен написанию низкоуровневого кода CUDA.

Думаю, что за несколько часов вы сможете перейти от основ к пониманию реальных алгоритмов, на которых сегодня основано 99% глубокого обучения.


Ссылка на github: https://github.com/srush/GPU-Puzzles
3
Forwarded from Записки Ппилифа (Ppilif Uliankin)
Мой друг Леша Царёв принес к нам в канал новость недели:

Брюс Хансен всё-таки дописал свои учебники по Теории вероятностей и статистике для экономистов, а также по Эконометрике. По моему мнению, это лучшие книги продвинутого уровня для изучения этой части науки о данных. Во-первых, потому что они достаточно глубокие и дотошные. Во-вторых, потому что Хансен хорошо и понятно пишет. И в-третьих, электронный формат не ограничивает автора и позволяет достигнуть бОльшей гибкости в плане эмпирических примеров, данных и кода.

В общем, как я уже сказал, отличная новость под конец недели!

P.S. Добавлю от себя, что это именно тот Хансен, который доказал, что из ТГМ можно выбросить одно из условий 🙂
1
Гут шабес.
Как говорится, хороший праздник можно праздновать не один день😉😉, поэтому сегодня как всегда скромный подгон моим любимым подписчикам: сливаю курсы VK made😎😎

Лекции по ссылке: Алгоритмы, ML, Компьютерное зрение, Методы Оптимизации, Дизайн эксперимента.
Решение на гитхабе.

Единственное, меня поражает: почему никто из организаторов не выложил их в открытый доступ?? Неужели не хотят позориться?? Вот он капитализм: человек человеку (((VK group)))!! Держу в курсе, что у Яндекса, Тиньки и прочих помоек полно качественных курсов для (((сотрудников))) или же просто базы данных с теми же проведенными AB-тестами, кодом и тд. Представьте, как ускорилось бы ваше обучение на реальных примерах. В общем, если будет много шэров и лайков, ломаю БД Яндекса😍😍
Также смотрим разбор варианта прошлого года, где сказано, как бороться с этой ужасной системой.
🔥191
Forwarded from Reliable ML
Подборка полезных материалов по ML System Design

- Круглый стол про ML System Design секции Reliable ML 2022 г. Подойдет для знакомства с темой. Обсуждение о том, что такое ML System Design, как его структурировать и применять. Для знакомства с темой также хорошо подойдет вот эта статья и вот эта.

- Конспекты лекций Стенфорда – курс CS 329S: Machine Learning Systems Design. Самые лучшие материалы для основательного изучения дисциплины. Структурированный разбор материалов: от паттернов ресерча до деплоя моделей. Для каждой темы есть текстовые записи лекций, слайды, ссылки на полезные материалы.

- Небольшая, хорошо структурированная и, что важно, краткая электронная книга в открытом доступе от одного из преподавателей Стенфордского курса Chip Huyen - ML Systems Design (собрана из статей автора в блоге). Если хочется для начала получить представление о книге и вообще о месте ML System Design в мире DS/ML можно сначала посмотреть это видео от Chip Huyen. Кроме того, в 2022 г. Chip Huyen опубликовала книгу Designing Machine Learning Systems как расширенную и дополненную версию статей своего блога.

Chip Huyen - один из авторов, внесших наибольший вклад в развитие ML System Design как дисциплины, как можно увидеть по подборке материалов. Кроме того, она является одним из самых популярных въетнамских художественных писаталей в жанре creative non-fiction. Списки книг можно увидеть на ее персональном сайте.

- Книга Machine Learning Design Patterns. Отличные обзоры книги есть у: тг-канала Варим МЛ и на towards data science. Книга хорошо подойдет для начинающих дата саентистов и МЛ-инженеров, кто хочет структурировать информацию о паттернах дизайна систем машинного обучения.

- Grokking the Machine Learning Interview. Уроки по ML System Design на стандартных примерах: Search Ranking, Feed Based System, Recommendation System, Self-Driving Car, Entity Linking System, Ad Prediction System. Платно. Есть акцент на system design вопросах (про system design дальше сделаем отдельную подборку).

- Серия видео от Валеры Бабушкина по ML System Design собеседованиям. В них подробно разбираются дизайны МЛ-систем для: ранжирования рекламы в новостной ленте соцсети, ценообразования и матчинга в маркетплейсе.

- Miro-доска от Богдана Печёнкина (X5, AliExpress, KazanExpress) с примерами ML дизайна различных систем: динамическое ценообразование, матчинг, антифрод, рекомендашки, ранжирование рекламы. Доска постоянно дорабатывается и пополняется. Рекомендуем также видео, где Богдан рассказывает про дизайн ML ценообразования на маркетплейсе.

Материалы, которых все очень ждут:

- Материалы курса Дмитрия Колодезева по ML System Design (2022)
- Книга от Валерия Бабушкина и Арсения Кравченко Principles of ML Design (2023)

Как выйдут – обязательно опубликуем ссылки!

#tech #ml_system_design
🔥9😢1
Нас уже 500🎉

скоро кое что выпущу, но пока я болею
🔥14
А/B тесты
Хотите разобраться в А/B тестах? Моя подборка, стоит смотреть поэтапно. 👮🏼
Если нужно подтянуть матстат к ним, ниже подборка и для этого 😎
1. Практическое введение в А/B тесты
link
2. Проблема подглядываний
link
3.1. Размер выборки
link
3.2. Вокшоп от Глеба Михайлова 
(там, много ошибок и в целом чел кринжовый, но для понимания как оценить размер выборки и тд и тп кайф)
link [part 1] link [part 2] link [part 3] link [part 4] link [part 5]
4. Cuped
link
5. Cuped Геометрическая интерпретация
link
6. Улучшение А/B тестов
link
7. Бутстрап
link
8. Бутстрап 2
link
9. Когда остановить A/B тест
link
10. Воркшоп A/B
link
11. про A/B тесты от Саши Сахнова
link
12. Еще чуть чуть про A/B тесты
link
13. Танцы с бубнами и A/B тесты
link

Вспоминаем Матстат
1. Курс от ВШЭ, Подтягиваем основы
link
2. CSC, закрепляем познания, more extended then the previous one
link
3. А/B тесты с Филом, ускоренное погружение на практике
link
4. Теория и практика онлайн экспериментов ВШЭ
link

Cheet Sheets:
1.
VKGROUP
2.
random github cs
3.
Tradeoff I type error and II type error
37🔥26🎉1🐳1