Forwarded from Artem Ryblov’s Data Science Weekly (Artem Ryblov)
Feature Engineering and Selection: A Practical Approach for Predictive Models by Max Kuhn and Kjell Johnson
The process of developing predictive models includes many stages. Most resources focus on the modelling algorithms, but neglect other critical aspects of the modelling process. This book describes techniques for finding the best representations of predictors for modelling and for finding the best subset of predictors for improving model performance. A variety of example data sets are used to illustrate the techniques, along with R programs for reproducing the results.
Table of Contents:
1. Introduction
2. Illustrative Example: Predicting Risk of Ischemic Stroke
3. A Review of the Predictive Modeling Process
4. Exploratory Visualizations
5. Encoding Categorical Predictors
6. Engineering Numeric Predictors
7. Detecting Interaction Effects
8. Handling Missing Data
9. Working with Profile Data
10. Feature Selection Overview
11. Greedy Search Methods
12. Global Search Methods
Links:
- https://www.feat.engineering/
- https://www.routledge.com/Feature-Engineering-and-Selection-A-Practical-Approach-for-Predictive-Models/Kuhn-Johnson/p/book/9781138079229
- https://www.routledge.com/Feature-Engineering-and-Selection-A-Practical-Approach-for-Predictive-Models/Kuhn-Johnson/p/book/9781138079229
Navigational hashtags: #armknowledgesharing #armbooks
General hashtags: #machinelearning #ml #featureengineering #featureselection #missingdata #categoricalvariables
@accelerated_learning
The process of developing predictive models includes many stages. Most resources focus on the modelling algorithms, but neglect other critical aspects of the modelling process. This book describes techniques for finding the best representations of predictors for modelling and for finding the best subset of predictors for improving model performance. A variety of example data sets are used to illustrate the techniques, along with R programs for reproducing the results.
Table of Contents:
1. Introduction
2. Illustrative Example: Predicting Risk of Ischemic Stroke
3. A Review of the Predictive Modeling Process
4. Exploratory Visualizations
5. Encoding Categorical Predictors
6. Engineering Numeric Predictors
7. Detecting Interaction Effects
8. Handling Missing Data
9. Working with Profile Data
10. Feature Selection Overview
11. Greedy Search Methods
12. Global Search Methods
Links:
- https://www.feat.engineering/
- https://www.routledge.com/Feature-Engineering-and-Selection-A-Practical-Approach-for-Predictive-Models/Kuhn-Johnson/p/book/9781138079229
- https://www.routledge.com/Feature-Engineering-and-Selection-A-Practical-Approach-for-Predictive-Models/Kuhn-Johnson/p/book/9781138079229
Navigational hashtags: #armknowledgesharing #armbooks
General hashtags: #machinelearning #ml #featureengineering #featureselection #missingdata #categoricalvariables
@accelerated_learning
👍1
#ml #definitions
На удивление часто встречается определение ML как "обучение компьютеров без явного программирования". А ведь нет ничего более далёкого от истины, так как 90% работы дата сайентиста в ML формально выражается как раз в явном программировании )
На удивление часто встречается определение ML как "обучение компьютеров без явного программирования". А ведь нет ничего более далёкого от истины, так как 90% работы дата сайентиста в ML формально выражается как раз в явном программировании )
👍3
#ml #medicine #asthma #breastcancer
Интересная structure-leveraged функция потерь.
https://www.youtube.com/watch?v=_5H8fwAZQjc
Интересная structure-leveraged функция потерь.
https://www.youtube.com/watch?v=_5H8fwAZQjc
YouTube
Clinical machine learning for risk prediction - Mark Craven
On May 6-7, 2019, the National Human Genome Research Institute (NHGRI) sponsored its 12th Genomic Medicine meeting: Genomic Medicine XII: Genomics and Risk Prediction. More: https://www.genome.gov/event-calendar/genomic-medicine-xii-genomics-and-risk-prediction
#ml
Чёт задумался: что, если в большинстве примеров датасета точность прогноза примерно на одном уровне, но в некоторые нечастые моменты (например, при стечении некоторых обстоятельств) она резко повышается или резко падает? Как это увидеть при моделировании?
Чёт задумался: что, если в большинстве примеров датасета точность прогноза примерно на одном уровне, но в некоторые нечастые моменты (например, при стечении некоторых обстоятельств) она резко повышается или резко падает? Как это увидеть при моделировании?
#astronomy #ml
ML применили, не иначе!
"Чем массивнее звезда, тем ниже пульсации, которые буквально можно переводить в воспринимаемый человеком частотный диапазон и слушать как музыку. Эту «музыку» можно улавливать на космических расстояниях. Сопоставляя видимый с Земли блеск звезды и её звучание можно сделать вывод о её истинных размерах и светимости, и построить диаграмму затухания блеска, что подскажет расстояние до изучаемого объекта.
Астрономы из Федеральной политехнической школы Лозанны взяли огромную выборку из более чем 12 тыс. переменных звёзд красных гигантов и проверили на ней свой метод. Перед собой они поставили задачу проверить точность измерения расстояний до звёзд, полученных европейским астрометрическим спутником «Гайя» (Gaia). На сегодня Gaia измерила расстояния до 2 млрд звёзд в ближайшей Вселенной, но чем дальше до звезды, тем менее точными будут измерения. Новый метод с прослушиванием «музыки» звёзд должен был уточнить данные «Гайи» и доказать возможность более точного измерения расстояний до ещё более удалённых звёзд.
Предложенный швейцарскими учёными метод доказал свою состоятельность. Им удалось определить расстояния до множества звёзд на дальности до 15 тыс. световых лет. Методика будет улучшена и опробована на всех участках неба, что поможет в будущих исследованиях экзопланет и не только."
https://3dnews.ru/1097563/muzika-zvyozd-raskroet-taynu-rasstoyaniya-do-kagdoy-iz-nih
ML применили, не иначе!
"Чем массивнее звезда, тем ниже пульсации, которые буквально можно переводить в воспринимаемый человеком частотный диапазон и слушать как музыку. Эту «музыку» можно улавливать на космических расстояниях. Сопоставляя видимый с Земли блеск звезды и её звучание можно сделать вывод о её истинных размерах и светимости, и построить диаграмму затухания блеска, что подскажет расстояние до изучаемого объекта.
Астрономы из Федеральной политехнической школы Лозанны взяли огромную выборку из более чем 12 тыс. переменных звёзд красных гигантов и проверили на ней свой метод. Перед собой они поставили задачу проверить точность измерения расстояний до звёзд, полученных европейским астрометрическим спутником «Гайя» (Gaia). На сегодня Gaia измерила расстояния до 2 млрд звёзд в ближайшей Вселенной, но чем дальше до звезды, тем менее точными будут измерения. Новый метод с прослушиванием «музыки» звёзд должен был уточнить данные «Гайи» и доказать возможность более точного измерения расстояний до ещё более удалённых звёзд.
Предложенный швейцарскими учёными метод доказал свою состоятельность. Им удалось определить расстояния до множества звёзд на дальности до 15 тыс. световых лет. Методика будет улучшена и опробована на всех участках неба, что поможет в будущих исследованиях экзопланет и не только."
https://3dnews.ru/1097563/muzika-zvyozd-raskroet-taynu-rasstoyaniya-do-kagdoy-iz-nih
#health #ml
"Данные для обучения модели life2vec взяты из информации о рынке труда и данных Национального регистра пациентов (LPR) и Статистического управления Дании. Набор данных включает в себя информацию обо всех 6 млн датчан и содержит сведения о доходах, заработной плате, стипендии, типе работы, отрасли, социальных пособиях и т.д. Набор медицинских данных включает записи о посещениях медицинских работников или больниц, диагнозе, типе пациента и насколько внезапным или срочным было обращение за медицинской помощью. Данные для модели представлены за период с 2008 по 2020 годы, хотя по ограниченной возрастной группе данные брались за период с 2008 по 2016 годы.
Авторы исследования отмечают, что для полномасштабного использования подобной модели в социальных целях необходимо ответить на множество этических вопросов. В то же время они подчёркивают, что широко распространённые механизмы по оценке целевой аудитории для рекламы позволяют узнавать о людях не намного меньше и это уже используется. Так что не будет ничего плохого, если модель сможет предсказать какое-нибудь негативное событие в жизни конкретного человека, которое можно будет избежать тем или иным образом. Дату смерти, кстати, модель предсказывает с точностью в пределах четырёх лет."
https://3dnews.ru/1097785/iskusstvenniy-intellekt-nauchili-predskazivat-sudbu-i-vremya-smerti-lyudey
"Данные для обучения модели life2vec взяты из информации о рынке труда и данных Национального регистра пациентов (LPR) и Статистического управления Дании. Набор данных включает в себя информацию обо всех 6 млн датчан и содержит сведения о доходах, заработной плате, стипендии, типе работы, отрасли, социальных пособиях и т.д. Набор медицинских данных включает записи о посещениях медицинских работников или больниц, диагнозе, типе пациента и насколько внезапным или срочным было обращение за медицинской помощью. Данные для модели представлены за период с 2008 по 2020 годы, хотя по ограниченной возрастной группе данные брались за период с 2008 по 2016 годы.
Авторы исследования отмечают, что для полномасштабного использования подобной модели в социальных целях необходимо ответить на множество этических вопросов. В то же время они подчёркивают, что широко распространённые механизмы по оценке целевой аудитории для рекламы позволяют узнавать о людях не намного меньше и это уже используется. Так что не будет ничего плохого, если модель сможет предсказать какое-нибудь негативное событие в жизни конкретного человека, которое можно будет избежать тем или иным образом. Дату смерти, кстати, модель предсказывает с точностью в пределах четырёх лет."
https://3dnews.ru/1097785/iskusstvenniy-intellekt-nauchili-predskazivat-sudbu-i-vremya-smerti-lyudey
3DNews - Daily Digital Digest
Искусственный интеллект научили предсказывать судьбу и время смерти людей
Обученная на данных многолетних наблюдений за 6 млн датчан модель искусственного интеллекта смогла с высокой точностью прогнозировать важные события в жизни людей вплоть до указания даты их смерти. Точность предсказаний можно повысить ещё сильнее, если добавить…
Forwarded from asisakov
Готовил для вас материал по PSI и VIF. И нашел интересную статью с валидацией ML моделей. Решил немного ее пересказать и добавить свое видение.
Для чего нужна валидация модели - максимально снизить модельный риск (вероятность полученияя недостоверных прогнозов, несоответствие заявленным метрикам, банальное устаревание моделей или неправильный вывод в прод).
А почему нам недостаточно простой оценки на отложенных выборках?
1. Распределение данных может кардинально измениться от того,что было на тренировке (например, статистически значимо изменилась доля целевых случаев)
2. Оценкой общих метрик работы модели невозможно оценить изменение отдельных входных признаков, их релевантность модели. Также сложно хочется видеть результаты на корнер-кейсах.
3. Есть вероятность попадания в финальный список фичей признака, не соответствующего логике бизнеса.
Что же нам важно оценивать на валидации?
1. В принципе скор модели и его стабильность. Он не должен быть ниже (выше) определенного порога, и при этом должен быть стабильным нна разных выборках (TRAIN, OUT-OF-SAMPLE, OUT-OF-TIME)
2. Стабильность признаков. Здесь как раз и применяется критерий PSI для поиска таких моментов, чтобы у нас вдруг фичи на трейне и OOT не отличались своим распределением. Иначе модель училась на одних входах, а предсказывает на других.
3. Калибровка вероятностей на выходе моделей. Буквально можно сформулировать как: mean(y') ~ mean(y). Нужно для понимания того, что модель в среднем формирует те же вероятности наступления целевых событий
4. В статье еще написано про Концентрацию. Это очень близко к пункту с калибровкой, поэтому я бы этот пункт переформулировал это как некоторый баланс по попаданию в бакеты по вероятностям.
Ещё можно добавить посегментный анализ предиктов модели, но это не обязательно для валидации, хотя очень важно для аналитики.
Там внутри есть классная табличка по тестам.
Это были количественные тесты. Существуют ещё качественные, которые связаны с разработкой именно модели. Тут условно валидатору надо попробовать опровергнуть дизайн модели и вообще ее обучение и выбор признаков, но при этом предложить лучший подход на тех же данных. Если это удаётся, то модель возвращают в разработку. Если нет, то считайте модель прошла валидацию (очевидно, что это не гарантирует наилучший результат). Помимо этого конечно же должна быть качественная документация и воспроизводимость обучения модели.
Интересно описан подход с Model Performance Predictor, однако я особо эти штуки не делал, хотя по логике это примерно как дополнительно обучить модель GARCH, чтобы оценить волатильность метрик в будущем.
В заключение есть хорошая табличка с типами тестов, применимых для валидации.
В целом, статья неплохая
#ml
Для чего нужна валидация модели - максимально снизить модельный риск (вероятность полученияя недостоверных прогнозов, несоответствие заявленным метрикам, банальное устаревание моделей или неправильный вывод в прод).
А почему нам недостаточно простой оценки на отложенных выборках?
1. Распределение данных может кардинально измениться от того,что было на тренировке (например, статистически значимо изменилась доля целевых случаев)
2. Оценкой общих метрик работы модели невозможно оценить изменение отдельных входных признаков, их релевантность модели. Также сложно хочется видеть результаты на корнер-кейсах.
3. Есть вероятность попадания в финальный список фичей признака, не соответствующего логике бизнеса.
Что же нам важно оценивать на валидации?
1. В принципе скор модели и его стабильность. Он не должен быть ниже (выше) определенного порога, и при этом должен быть стабильным нна разных выборках (TRAIN, OUT-OF-SAMPLE, OUT-OF-TIME)
2. Стабильность признаков. Здесь как раз и применяется критерий PSI для поиска таких моментов, чтобы у нас вдруг фичи на трейне и OOT не отличались своим распределением. Иначе модель училась на одних входах, а предсказывает на других.
3. Калибровка вероятностей на выходе моделей. Буквально можно сформулировать как: mean(y') ~ mean(y). Нужно для понимания того, что модель в среднем формирует те же вероятности наступления целевых событий
4. В статье еще написано про Концентрацию. Это очень близко к пункту с калибровкой, поэтому я бы этот пункт переформулировал это как некоторый баланс по попаданию в бакеты по вероятностям.
Ещё можно добавить посегментный анализ предиктов модели, но это не обязательно для валидации, хотя очень важно для аналитики.
Там внутри есть классная табличка по тестам.
Это были количественные тесты. Существуют ещё качественные, которые связаны с разработкой именно модели. Тут условно валидатору надо попробовать опровергнуть дизайн модели и вообще ее обучение и выбор признаков, но при этом предложить лучший подход на тех же данных. Если это удаётся, то модель возвращают в разработку. Если нет, то считайте модель прошла валидацию (очевидно, что это не гарантирует наилучший результат). Помимо этого конечно же должна быть качественная документация и воспроизводимость обучения модели.
Интересно описан подход с Model Performance Predictor, однако я особо эти штуки не делал, хотя по логике это примерно как дополнительно обучить модель GARCH, чтобы оценить волатильность метрик в будущем.
В заключение есть хорошая табличка с типами тестов, применимых для валидации.
В целом, статья неплохая
#ml
Forwarded from Artem Ryblov’s Data Science Weekly
Google for Developers
Machine Learning | Google for Developers
Educational resources for machine learning.
Google Machine Learning Education
Learn to build ML products with Google's Machine Learning Courses.
Foundational courses
The foundational courses cover machine learning fundamentals and core concepts. They recommend taking them in the order below.
1. Introduction to Machine Learning
A brief introduction to machine learning.
2. Machine Learning Crash Course
A hands-on course to explore the critical basics of machine learning.
3. Problem Framing
A course to help you map real-world problems to machine learning solutions.
4. Data Preparation and Feature Engineering
An introduction to preparing your data for ML workflows.
5. Testing and Debugging
Strategies for testing and debugging machine learning models and pipelines.
Advanced Courses
The advanced courses teach tools and techniques for solving a variety of machine learning problems. The courses are structured independently. Take them based on interest or problem domain.
- Decision Forests
Decision forests are an alternative to neural networks.
- Recommendation Systems
Recommendation systems generate personalized suggestions.
- Clustering
Clustering is a key unsupervised machine learning strategy to associate related items.
- Generative Adversarial Networks
GANs create new data instances that resemble your training data.
- Image Classification
Is that a picture of a cat or is it a dog?
- Fairness in Perspective API
Hands-on practice debugging fairness issues.
Guides
Their guides offer simple step-by-step walkthroughs for solving common machine learning problems using best practices.
- Rules of ML
Become a better machine learning engineer by following these machine learning best practices used at Google.
- People + AI Guidebook
This guide assists UXers, PMs, and developers in collaboratively working through AI design topics and questions.
- Text Classification
This comprehensive guide provides a walkthrough to solving text classification problems using machine learning.
- Good Data Analysis
This guide describes the tricks that an expert data analyst uses to evaluate huge data sets in machine learning problems.
- Deep Learning Tuning Playbook
This guide explains a scientific way to optimize the training of deep learning models.
Link: https://developers.google.com/machine-learning?hl=en
Navigational hashtags: #armknowledgesharing #armcourses
General hashtags: #machinelearning #ml #google #course #courses #featureengineering #recsys #clustering #gan
@data_science_weekly
Learn to build ML products with Google's Machine Learning Courses.
Foundational courses
The foundational courses cover machine learning fundamentals and core concepts. They recommend taking them in the order below.
1. Introduction to Machine Learning
A brief introduction to machine learning.
2. Machine Learning Crash Course
A hands-on course to explore the critical basics of machine learning.
3. Problem Framing
A course to help you map real-world problems to machine learning solutions.
4. Data Preparation and Feature Engineering
An introduction to preparing your data for ML workflows.
5. Testing and Debugging
Strategies for testing and debugging machine learning models and pipelines.
Advanced Courses
The advanced courses teach tools and techniques for solving a variety of machine learning problems. The courses are structured independently. Take them based on interest or problem domain.
- Decision Forests
Decision forests are an alternative to neural networks.
- Recommendation Systems
Recommendation systems generate personalized suggestions.
- Clustering
Clustering is a key unsupervised machine learning strategy to associate related items.
- Generative Adversarial Networks
GANs create new data instances that resemble your training data.
- Image Classification
Is that a picture of a cat or is it a dog?
- Fairness in Perspective API
Hands-on practice debugging fairness issues.
Guides
Their guides offer simple step-by-step walkthroughs for solving common machine learning problems using best practices.
- Rules of ML
Become a better machine learning engineer by following these machine learning best practices used at Google.
- People + AI Guidebook
This guide assists UXers, PMs, and developers in collaboratively working through AI design topics and questions.
- Text Classification
This comprehensive guide provides a walkthrough to solving text classification problems using machine learning.
- Good Data Analysis
This guide describes the tricks that an expert data analyst uses to evaluate huge data sets in machine learning problems.
- Deep Learning Tuning Playbook
This guide explains a scientific way to optimize the training of deep learning models.
Link: https://developers.google.com/machine-learning?hl=en
Navigational hashtags: #armknowledgesharing #armcourses
General hashtags: #machinelearning #ml #google #course #courses #featureengineering #recsys #clustering #gan
@data_science_weekly
#trading #ml #metalabelling #deprado
Alexandr Proskurin "Improving trading strategy performance with ML: Meta...
https://youtube.com/watch?v=hUSJtevWw6M&feature=shared
Alexandr Proskurin "Improving trading strategy performance with ML: Meta...
https://youtube.com/watch?v=hUSJtevWw6M&feature=shared
YouTube
Alexandr Proskurin "Improving trading strategy performance with ML: Meta Labelling Approach"
The record from online Meetup with financial genius Alexandr Proskurin - Founder and CEO in Machine Factor Technologies.
Many professional traders earn their profits not only by utilizing current market state, but also by understanding when not to trade.…
Many professional traders earn their profits not only by utilizing current market state, but also by understanding when not to trade.…