Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.16K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
Forwarded from Artem Ryblov’s Data Science Weekly (Artem Ryblov)
Feature Engineering and Selection: A Practical Approach for Predictive Models by Max Kuhn and Kjell Johnson

The process of developing predictive models includes many stages. Most resources focus on the modelling algorithms, but neglect other critical aspects of the modelling process. This book describes techniques for finding the best representations of predictors for modelling and for finding the best subset of predictors for improving model performance. A variety of example data sets are used to illustrate the techniques, along with R programs for reproducing the results.

Table of Contents:
1. Introduction
2. Illustrative Example: Predicting Risk of Ischemic Stroke
3. A Review of the Predictive Modeling Process
4. Exploratory Visualizations
5. Encoding Categorical Predictors
6. Engineering Numeric Predictors
7. Detecting Interaction Effects
8. Handling Missing Data
9. Working with Profile Data
10. Feature Selection Overview
11. Greedy Search Methods
12. Global Search Methods

Links:
- https://www.feat.engineering/
- https://www.routledge.com/Feature-Engineering-and-Selection-A-Practical-Approach-for-Predictive-Models/Kuhn-Johnson/p/book/9781138079229
- https://www.routledge.com/Feature-Engineering-and-Selection-A-Practical-Approach-for-Predictive-Models/Kuhn-Johnson/p/book/9781138079229

Navigational hashtags: #armknowledgesharing #armbooks
General hashtags: #machinelearning #ml #featureengineering #featureselection #missingdata #categoricalvariables

@accelerated_learning
👍1
#ml #definitions

На удивление часто встречается определение ML как "обучение компьютеров без явного программирования". А ведь нет ничего более далёкого от истины, так как 90% работы дата сайентиста в ML формально выражается как раз в явном программировании )
👍3
#ml

Чёт задумался: что, если в большинстве примеров датасета точность прогноза примерно на одном уровне, но в некоторые нечастые моменты (например, при стечении некоторых обстоятельств) она резко повышается или резко падает? Как это увидеть при моделировании?
#astronomy #ml

ML применили, не иначе!

"Чем массивнее звезда, тем ниже пульсации, которые буквально можно переводить в воспринимаемый человеком частотный диапазон и слушать как музыку. Эту «музыку» можно улавливать на космических расстояниях. Сопоставляя видимый с Земли блеск звезды и её звучание можно сделать вывод о её истинных размерах и светимости, и построить диаграмму затухания блеска, что подскажет расстояние до изучаемого объекта.

Астрономы из Федеральной политехнической школы Лозанны взяли огромную выборку из более чем 12 тыс. переменных звёзд красных гигантов и проверили на ней свой метод. Перед собой они поставили задачу проверить точность измерения расстояний до звёзд, полученных европейским астрометрическим спутником «Гайя» (Gaia). На сегодня Gaia измерила расстояния до 2 млрд звёзд в ближайшей Вселенной, но чем дальше до звезды, тем менее точными будут измерения. Новый метод с прослушиванием «музыки» звёзд должен был уточнить данные «Гайи» и доказать возможность более точного измерения расстояний до ещё более удалённых звёзд.

Предложенный швейцарскими учёными метод доказал свою состоятельность. Им удалось определить расстояния до множества звёзд на дальности до 15 тыс. световых лет. Методика будет улучшена и опробована на всех участках неба, что поможет в будущих исследованиях экзопланет и не только."

https://3dnews.ru/1097563/muzika-zvyozd-raskroet-taynu-rasstoyaniya-do-kagdoy-iz-nih
#health #ml

"Данные для обучения модели life2vec взяты из информации о рынке труда и данных Национального регистра пациентов (LPR) и Статистического управления Дании. Набор данных включает в себя информацию обо всех 6 млн датчан и содержит сведения о доходах, заработной плате, стипендии, типе работы, отрасли, социальных пособиях и т.д. Набор медицинских данных включает записи о посещениях медицинских работников или больниц, диагнозе, типе пациента и насколько внезапным или срочным было обращение за медицинской помощью. Данные для модели представлены за период с 2008 по 2020 годы, хотя по ограниченной возрастной группе данные брались за период с 2008 по 2016 годы.

Авторы исследования отмечают, что для полномасштабного использования подобной модели в социальных целях необходимо ответить на множество этических вопросов. В то же время они подчёркивают, что широко распространённые механизмы по оценке целевой аудитории для рекламы позволяют узнавать о людях не намного меньше и это уже используется. Так что не будет ничего плохого, если модель сможет предсказать какое-нибудь негативное событие в жизни конкретного человека, которое можно будет избежать тем или иным образом. Дату смерти, кстати, модель предсказывает с точностью в пределах четырёх лет."

https://3dnews.ru/1097785/iskusstvenniy-intellekt-nauchili-predskazivat-sudbu-i-vremya-smerti-lyudey
Forwarded from asisakov
Готовил для вас материал по PSI и VIF. И нашел интересную статью с валидацией ML моделей. Решил немного ее пересказать и добавить свое видение.

Для чего нужна валидация модели - максимально снизить модельный риск (вероятность полученияя недостоверных прогнозов, несоответствие заявленным метрикам, банальное устаревание моделей или неправильный вывод в прод).

А почему нам недостаточно простой оценки на отложенных выборках?

1. Распределение данных может кардинально измениться от того,что было на тренировке (например, статистически значимо изменилась доля целевых случаев)
2. Оценкой общих метрик работы модели невозможно оценить изменение отдельных входных признаков, их релевантность модели. Также сложно хочется видеть результаты на корнер-кейсах.
3. Есть вероятность попадания в финальный список фичей признака, не соответствующего логике бизнеса.

Что же нам важно оценивать на валидации?

1. В принципе скор модели и его стабильность. Он не должен быть ниже (выше) определенного порога, и при этом должен быть стабильным нна разных выборках (TRAIN, OUT-OF-SAMPLE, OUT-OF-TIME)
2. Стабильность признаков. Здесь как раз и применяется критерий PSI для поиска таких моментов, чтобы у нас вдруг фичи на трейне и OOT не отличались своим распределением. Иначе модель училась на одних входах, а предсказывает на других.
3. Калибровка вероятностей на выходе моделей. Буквально можно сформулировать как: mean(y') ~ mean(y). Нужно для понимания того, что модель в среднем формирует те же вероятности наступления целевых событий
4. В статье еще написано про Концентрацию. Это очень близко к пункту с калибровкой, поэтому я бы этот пункт переформулировал это как некоторый баланс по попаданию в бакеты по вероятностям.
Ещё можно добавить посегментный анализ предиктов модели, но это не обязательно для валидации, хотя очень важно для аналитики.

Там внутри есть классная табличка по тестам.

Это были количественные тесты. Существуют ещё качественные, которые связаны с разработкой именно модели. Тут условно валидатору надо попробовать опровергнуть дизайн модели и вообще ее обучение и выбор признаков, но при этом предложить лучший подход на тех же данных. Если это удаётся, то модель возвращают в разработку. Если нет, то считайте модель прошла валидацию (очевидно, что это не гарантирует наилучший результат). Помимо этого конечно же должна быть качественная документация и воспроизводимость обучения модели.

Интересно описан подход с Model Performance Predictor, однако я особо эти штуки не делал, хотя по логике это примерно как дополнительно обучить модель GARCH, чтобы оценить волатильность метрик в будущем.

В заключение есть хорошая табличка с типами тестов, применимых для валидации.

В целом, статья неплохая

#ml
Google Machine Learning Education

Learn to build ML products with Google's Machine Learning Courses.

Foundational courses
The foundational courses cover machine learning fundamentals and core concepts. They recommend taking them in the order below.

1. Introduction to Machine Learning
A brief introduction to machine learning.
2. Machine Learning Crash Course
A hands-on course to explore the critical basics of machine learning.
3. Problem Framing
A course to help you map real-world problems to machine learning solutions.
4. Data Preparation and Feature Engineering
An introduction to preparing your data for ML workflows.
5. Testing and Debugging
Strategies for testing and debugging machine learning models and pipelines.

Advanced Courses
The advanced courses teach tools and techniques for solving a variety of machine learning problems. The courses are structured independently. Take them based on interest or problem domain.

- Decision Forests
Decision forests are an alternative to neural networks.
- Recommendation Systems
Recommendation systems generate personalized suggestions.
- Clustering
Clustering is a key unsupervised machine learning strategy to associate related items.
- Generative Adversarial Networks
GANs create new data instances that resemble your training data.
- Image Classification
Is that a picture of a cat or is it a dog?
- Fairness in Perspective API
Hands-on practice debugging fairness issues.

Guides
Their guides offer simple step-by-step walkthroughs for solving common machine learning problems using best practices.

- Rules of ML
Become a better machine learning engineer by following these machine learning best practices used at Google.
- People + AI Guidebook
This guide assists UXers, PMs, and developers in collaboratively working through AI design topics and questions.
- Text Classification
This comprehensive guide provides a walkthrough to solving text classification problems using machine learning.
- Good Data Analysis
This guide describes the tricks that an expert data analyst uses to evaluate huge data sets in machine learning problems.
- Deep Learning Tuning Playbook
This guide explains a scientific way to optimize the training of deep learning models.

Link: https://developers.google.com/machine-learning?hl=en

Navigational hashtags: #armknowledgesharing #armcourses
General hashtags: #machinelearning #ml #google #course #courses #featureengineering #recsys #clustering #gan

@data_science_weekly