Хумус в германии чуть более жирный, чем в канаде. Французские блинчики в среднем содержат больше белков, а в испанской арахисовой пасте меньше углеводов, чем в аналогичных продуктах США. Бельгийская салями менее жирная чем испанская.
Датасет взят тут -> https://www.kaggle.com/datasets/arturlange/openfoodfacts-products
Датасет взят тут -> https://www.kaggle.com/datasets/arturlange/openfoodfacts-products
Из неожиданного: пока искал как статистически сравнить два n-мерных массива, наткнулся на многомерную версию t-теста: https://en.wikipedia.org/wiki/Hotelling%27s_T-squared_distribution
Wikipedia
Hotelling's T-squared distribution
multivariate probability distribution related to the F-distribution; the distribution of a set of sample statistics that are generalizations of the statistics underlying the Student's t-distribution
🔥1
Борьба за чистоту языка выглядит интереснее если к ней каждый раз прилагать этимологический корпус на 2М+ терминов c графом языковых заимствований. В русском языке до трети слов это комбинации уже существующих, за их исключением, вклад других языков можно оценить используя классические модели атрибуции из маркетинга.
Графики частичной зависимости (PDP) невероятно простой и полезный инструмент в оценке влияния параметра на таргет. Во всем датасете меняем колонку с нужным параметром на одинаковое значение и усредняем предикт обученной ранее модели по всем строкам. И так делаем по всему диапазонну фичи. В зависимости от выбранной модели полученная кривая может выглядеть разным способом. Я обучил несколько моделей на данных VahanBima (одна из ведущих страховых компаний Индии), где по характеристикам пользователя предлагается оценить его ценность для компании (CLTV). В качестве одной из характеристик используется полная запрашиваемая клиентом сумма (Total Amount Claimed, в рупиях). Каждая из не линейных моделей (нейронка, случайный лес, ExtranTrees, бустинг gbm, xgboost) выделила пик LTV в районе 10К-15К по Total Amount Claimed. А вот линейная модель GLM продолжила свой рост дальше (после отметки 15К число обучающих примеров заметно меньше, поэтому GLM просто их не заметила).
Минусы подхода:
- PDP не учитывает взаимосвязь между изучаемым параметром и всеми остальными переменными, чем может запутать Вас на небольших наборах данных,
- PDP не учитывает гистограмму распределения параметра, мы одинаково строим наш график как в частотной области параметра, так и там, где встретилось всего 5 примеров (выдавая шум при усреднении),
- PDP зависим от типа и качества обученной модели.
Несмотря на это PDP, наряду с shap метриками оказывается очень ценным подходом при оценке поведения таргета от параметров модели.
Датасет взят тут -> https://www.kaggle.com/datasets/gauravduttakiit/predict-cltv-of-a-customer
- PDP не учитывает взаимосвязь между изучаемым параметром и всеми остальными переменными, чем может запутать Вас на небольших наборах данных,
- PDP не учитывает гистограмму распределения параметра, мы одинаково строим наш график как в частотной области параметра, так и там, где встретилось всего 5 примеров (выдавая шум при усреднении),
- PDP зависим от типа и качества обученной модели.
Несмотря на это PDP, наряду с shap метриками оказывается очень ценным подходом при оценке поведения таргета от параметров модели.
Датасет взят тут -> https://www.kaggle.com/datasets/gauravduttakiit/predict-cltv-of-a-customer
Kaggle
Predict CLTV of a customer
Can you help the company identify the most potential customers?
Недавно наткнулся на новость - "Курящие сотрудники из-за перекуров получают дополнительную неделю отдыха".
Решил проверить какие еще есть бонусы у курящих людей. В таблице Smoker Status Prediction предлагается предсказать вероятность курит ли человек по его медицинским показателям (уровню гемоглобина, холестерина и т.д.), весу, возрасту, росту и прочее. Но раз ищем бонусы, то надо смотреть на задачу наоборот - а что именно меняет факт курения в организме.
Решил проверить какие еще есть бонусы у курящих людей. В таблице Smoker Status Prediction предлагается предсказать вероятность курит ли человек по его медицинским показателям (уровню гемоглобина, холестерина и т.д.), весу, возрасту, росту и прочее. Но раз ищем бонусы, то надо смотреть на задачу наоборот - а что именно меняет факт курения в организме.
👍2
Например, рост, согласно датасету курящие люди в среднем выше на несколько см, но в данных отсутствует гендер, поэтому схема - научить модель предсказывать рост, в зависимости от факта курения и прочих показателей, а затем подставить в нее факт, что человек курит и не курит и посмотреть разницу не имеет особого смысла. Но именно так мы чаще всего поступаем когда занимаемся uplift моделированием или проводим PDP анализ влияния переменных на таргет. Картинка приводит нас к ложному выводу, что особенно для людей ниже 165 см курение добавляет значимые сантиметры к росту.
👍3
Без параметра гендера сложно выявить истинное влияние курения на рост, но можно сгладить этот эффект предсказывая вероятность курит или не курит этот человек в принципе. И если модель уверенно говорит что человек курит, то мы ему не можем подставить нолик в данном параметре и прогнать его снова предсказывая рост. Поэтому оставим только тех, для кого предсказана высокая неопределенность факта курения (по энтропийному критерию), тогда предсказанная разница в росте становится значительно меньше.
Датасет взят тут -> https://www.kaggle.com/datasets/gauravduttakiit/smoker-status-prediction
Датасет взят тут -> https://www.kaggle.com/datasets/gauravduttakiit/smoker-status-prediction