Aspiring Data Science

Forwarded from Artem Ryblov’s Data Science Weekly (Artem Ryblov)

Feature Engineering and Selection: A Practical Approach for Predictive Models by Max Kuhn and Kjell Johnson

The process of developing predictive models includes many stages. Most resources focus on the modelling algorithms, but neglect other critical aspects of the modelling process. This book describes techniques for finding the best representations of predictors for modelling and for finding the best subset of predictors for improving model performance. A variety of example data sets are used to illustrate the techniques, along with R programs for reproducing the results.

Table of Contents:
1. Introduction
2. Illustrative Example: Predicting Risk of Ischemic Stroke
3. A Review of the Predictive Modeling Process
4. Exploratory Visualizations
5. Encoding Categorical Predictors
6. Engineering Numeric Predictors
7. Detecting Interaction Effects
8. Handling Missing Data
9. Working with Profile Data
10. Feature Selection Overview
11. Greedy Search Methods
12. Global Search Methods

Links:
- https://www.feat.engineering/
- https://www.routledge.com/Feature-Engineering-and-Selection-A-Practical-Approach-for-Predictive-Models/Kuhn-Johnson/p/book/9781138079229
- https://www.routledge.com/Feature-Engineering-and-Selection-A-Practical-Approach-for-Predictive-Models/Kuhn-Johnson/p/book/9781138079229

Navigational hashtags: #armknowledgesharing #armbooks
General hashtags: #machinelearning #ml #featureengineering #featureselection #missingdata #categoricalvariables

@accelerated_learning

👍1

98 viewsAnatoly Alekseev, 21:06

Aspiring Data Science

#ml #definitions

На удивление часто встречается определение ML как "обучение компьютеров без явного программирования". А ведь нет ничего более далёкого от истины, так как 90% работы дата сайентиста в ML формально выражается как раз в явном программировании )

👍3

104 viewsAnatoly Alekseev, 18:17

Aspiring Data Science

#ml #medicine #asthma #breastcancer

Интересная structure-leveraged функция потерь.

https://www.youtube.com/watch?v=_5H8fwAZQjc

YouTube

Clinical machine learning for risk prediction - Mark Craven

On May 6-7, 2019, the National Human Genome Research Institute (NHGRI) sponsored its 12th Genomic Medicine meeting: Genomic Medicine XII: Genomics and Risk Prediction. More: https://www.genome.gov/event-calendar/genomic-medicine-xii-genomics-and-risk-prediction

132 viewsAnatoly Alekseev, 19:26

Aspiring Data Science

#ml

Чёт задумался: что, если в большинстве примеров датасета точность прогноза примерно на одном уровне, но в некоторые нечастые моменты (например, при стечении некоторых обстоятельств) она резко повышается или резко падает? Как это увидеть при моделировании?

93 viewsAnatoly Alekseev, 11:23

Aspiring Data Science

#astronomy #ml

ML применили, не иначе!

"Чем массивнее звезда, тем ниже пульсации, которые буквально можно переводить в воспринимаемый человеком частотный диапазон и слушать как музыку. Эту «музыку» можно улавливать на космических расстояниях. Сопоставляя видимый с Земли блеск звезды и её звучание можно сделать вывод о её истинных размерах и светимости, и построить диаграмму затухания блеска, что подскажет расстояние до изучаемого объекта.

Астрономы из Федеральной политехнической школы Лозанны взяли огромную выборку из более чем 12 тыс. переменных звёзд красных гигантов и проверили на ней свой метод. Перед собой они поставили задачу проверить точность измерения расстояний до звёзд, полученных европейским астрометрическим спутником «Гайя» (Gaia). На сегодня Gaia измерила расстояния до 2 млрд звёзд в ближайшей Вселенной, но чем дальше до звезды, тем менее точными будут измерения. Новый метод с прослушиванием «музыки» звёзд должен был уточнить данные «Гайи» и доказать возможность более точного измерения расстояний до ещё более удалённых звёзд.

Предложенный швейцарскими учёными метод доказал свою состоятельность. Им удалось определить расстояния до множества звёзд на дальности до 15 тыс. световых лет. Методика будет улучшена и опробована на всех участках неба, что поможет в будущих исследованиях экзопланет и не только."

https://3dnews.ru/1097563/muzika-zvyozd-raskroet-taynu-rasstoyaniya-do-kagdoy-iz-nih

135 viewsAnatoly Alekseev, 14:43

Aspiring Data Science

#health #ml

"Данные для обучения модели life2vec взяты из информации о рынке труда и данных Национального регистра пациентов (LPR) и Статистического управления Дании. Набор данных включает в себя информацию обо всех 6 млн датчан и содержит сведения о доходах, заработной плате, стипендии, типе работы, отрасли, социальных пособиях и т.д. Набор медицинских данных включает записи о посещениях медицинских работников или больниц, диагнозе, типе пациента и насколько внезапным или срочным было обращение за медицинской помощью. Данные для модели представлены за период с 2008 по 2020 годы, хотя по ограниченной возрастной группе данные брались за период с 2008 по 2016 годы.

Авторы исследования отмечают, что для полномасштабного использования подобной модели в социальных целях необходимо ответить на множество этических вопросов. В то же время они подчёркивают, что широко распространённые механизмы по оценке целевой аудитории для рекламы позволяют узнавать о людях не намного меньше и это уже используется. Так что не будет ничего плохого, если модель сможет предсказать какое-нибудь негативное событие в жизни конкретного человека, которое можно будет избежать тем или иным образом. Дату смерти, кстати, модель предсказывает с точностью в пределах четырёх лет."

https://3dnews.ru/1097785/iskusstvenniy-intellekt-nauchili-predskazivat-sudbu-i-vremya-smerti-lyudey

3DNews - Daily Digital Digest

Искусственный интеллект научили предсказывать судьбу и время смерти людей

Обученная на данных многолетних наблюдений за 6 млн датчан модель искусственного интеллекта смогла с высокой точностью прогнозировать важные события в жизни людей вплоть до указания даты их смерти. Точность предсказаний можно повысить ещё сильнее, если добавить…

124 viewsAnatoly Alekseev, edited 14:29

Aspiring Data Science

Forwarded from asisakov

Готовил для вас материал по PSI и VIF. И нашел интересную статью с валидацией ML моделей. Решил немного ее пересказать и добавить свое видение.

Для чего нужна валидация модели - максимально снизить модельный риск (вероятность полученияя недостоверных прогнозов, несоответствие заявленным метрикам, банальное устаревание моделей или неправильный вывод в прод).

А почему нам недостаточно простой оценки на отложенных выборках?

1. Распределение данных может кардинально измениться от того,что было на тренировке (например, статистически значимо изменилась доля целевых случаев)
2. Оценкой общих метрик работы модели невозможно оценить изменение отдельных входных признаков, их релевантность модели. Также сложно хочется видеть результаты на корнер-кейсах.
3. Есть вероятность попадания в финальный список фичей признака, не соответствующего логике бизнеса.

Что же нам важно оценивать на валидации?

1. В принципе скор модели и его стабильность. Он не должен быть ниже (выше) определенного порога, и при этом должен быть стабильным нна разных выборках (TRAIN, OUT-OF-SAMPLE, OUT-OF-TIME)
2. Стабильность признаков. Здесь как раз и применяется критерий PSI для поиска таких моментов, чтобы у нас вдруг фичи на трейне и OOT не отличались своим распределением. Иначе модель училась на одних входах, а предсказывает на других.
3. Калибровка вероятностей на выходе моделей. Буквально можно сформулировать как: mean(y') ~ mean(y). Нужно для понимания того, что модель в среднем формирует те же вероятности наступления целевых событий
4. В статье еще написано про Концентрацию. Это очень близко к пункту с калибровкой, поэтому я бы этот пункт переформулировал это как некоторый баланс по попаданию в бакеты по вероятностям.
Ещё можно добавить посегментный анализ предиктов модели, но это не обязательно для валидации, хотя очень важно для аналитики.

Там внутри есть классная табличка по тестам.

Это были количественные тесты. Существуют ещё качественные, которые связаны с разработкой именно модели. Тут условно валидатору надо попробовать опровергнуть дизайн модели и вообще ее обучение и выбор признаков, но при этом предложить лучший подход на тех же данных. Если это удаётся, то модель возвращают в разработку. Если нет, то считайте модель прошла валидацию (очевидно, что это не гарантирует наилучший результат). Помимо этого конечно же должна быть качественная документация и воспроизводимость обучения модели.

Интересно описан подход с Model Performance Predictor, однако я особо эти штуки не делал, хотя по логике это примерно как дополнительно обучить модель GARCH, чтобы оценить волатильность метрик в будущем.

В заключение есть хорошая табличка с типами тестов, применимых для валидации.

В целом, статья неплохая

#ml

126 viewsAnatoly Alekseev, 21:21

Aspiring Data Science

Forwarded from Artem Ryblov’s Data Science Weekly

Google for Developers

Machine Learning | Google for Developers

Educational resources for machine learning.

Google Machine Learning Education

Learn to build ML products with Google's Machine Learning Courses.

Foundational courses
The foundational courses cover machine learning fundamentals and core concepts. They recommend taking them in the order below.

1. Introduction to Machine Learning
A brief introduction to machine learning.
2. Machine Learning Crash Course
A hands-on course to explore the critical basics of machine learning.
3. Problem Framing
A course to help you map real-world problems to machine learning solutions.
4. Data Preparation and Feature Engineering
An introduction to preparing your data for ML workflows.
5. Testing and Debugging
Strategies for testing and debugging machine learning models and pipelines.

Advanced Courses
The advanced courses teach tools and techniques for solving a variety of machine learning problems. The courses are structured independently. Take them based on interest or problem domain.

- Decision Forests
Decision forests are an alternative to neural networks.
- Recommendation Systems
Recommendation systems generate personalized suggestions.
- Clustering
Clustering is a key unsupervised machine learning strategy to associate related items.
- Generative Adversarial Networks
GANs create new data instances that resemble your training data.
- Image Classification
Is that a picture of a cat or is it a dog?
- Fairness in Perspective API
Hands-on practice debugging fairness issues.

Guides
Their guides offer simple step-by-step walkthroughs for solving common machine learning problems using best practices.

- Rules of ML
Become a better machine learning engineer by following these machine learning best practices used at Google.
- People + AI Guidebook
This guide assists UXers, PMs, and developers in collaboratively working through AI design topics and questions.
- Text Classification
This comprehensive guide provides a walkthrough to solving text classification problems using machine learning.
- Good Data Analysis
This guide describes the tricks that an expert data analyst uses to evaluate huge data sets in machine learning problems.
- Deep Learning Tuning Playbook
This guide explains a scientific way to optimize the training of deep learning models.

Link: https://developers.google.com/machine-learning?hl=en

Navigational hashtags: #armknowledgesharing #armcourses
General hashtags: #machinelearning #ml #google #course #courses #featureengineering #recsys #clustering #gan

@data_science_weekly

108 viewsAnatoly Alekseev, 08:06

Aspiring Data Science

#trading #ml

Приятное интро для новичков

https://youtu.be/Iy0MEqHSGOA?si=XxSayGkUfxsURXZo

YouTube

«Машинное обучение в сфере финансов». Павел Богомолов

Доклад в рамках Летней ознакомительной практики в DataArt, 2020.

Докладчик:
Павел Богомолов, Senior Solution Architect & Data Science and Machine Learning, DataArt (Воронеж)

Более 25 лет в IT. Закончил Воронежский политехнический институт в 1991 году.…

👍1

124 viewsAnatoly Alekseev, edited 09:57

Aspiring Data Science

#trading #ml #metalabelling #deprado

Alexandr Proskurin "Improving trading strategy performance with ML: Meta...
https://youtube.com/watch?v=hUSJtevWw6M&feature=shared

YouTube

Alexandr Proskurin "Improving trading strategy performance with ML: Meta Labelling Approach"