Data Funk

Апельсиновый сок (не считая воды) почти весь из углеводов независимо от географии.

180 viewsedited 06:45

Хумус в германии чуть более жирный, чем в канаде. Французские блинчики в среднем содержат больше белков, а в испанской арахисовой пасте меньше углеводов, чем в аналогичных продуктах США. Бельгийская салями менее жирная чем испанская.
Датасет взят тут -> https://www.kaggle.com/datasets/arturlange/openfoodfacts-products

212 views06:45

Data Funk

Из неожиданного: пока искал как статистически сравнить два n-мерных массива, наткнулся на многомерную версию t-теста: https://en.wikipedia.org/wiki/Hotelling%27s_T-squared_distribution

Wikipedia

Hotelling's T-squared distribution

multivariate probability distribution related to the F-distribution; the distribution of a set of sample statistics that are generalizations of the statistics underlying the Student's t-distribution

🔥1

247 views06:45

Data Funk

Борьба за чистоту языка выглядит интереснее если к ней каждый раз прилагать этимологический корпус на 2М+ терминов c графом языковых заимствований. В русском языке до трети слов это комбинации уже существующих, за их исключением, вклад других языков можно оценить используя классические модели атрибуции из маркетинга.

164 views17:33

Data Funk

Last click. В графе bfs делает 1 шаг назад и получаем список наиболее "свежих" терминов, которые послужили базой формирования слов русского языка. Среди них славянские (proto-slavic и old east slavic) вместе составляют всего 1/5 от всех языковых источников.

181 views17:34

Data Funk

First click. По графу двигаемся к начальным вершинам - самым ранним этимологическим терминам, положившим начало словам современного русского языка и тут вклад proto-slavic и old east slavic суммарно составляет всего 9%.

199 views17:34

Data Funk

Примеры частных субграфов.

Датасет взят тут -> https://www.kaggle.com/datasets/bilalelebi/dataset

255 views17:35

Data Funk

Графики частичной зависимости (PDP) невероятно простой и полезный инструмент в оценке влияния параметра на таргет. Во всем датасете меняем колонку с нужным параметром на одинаковое значение и усредняем предикт обученной ранее модели по всем строкам. И так делаем по всему диапазонну фичи. В зависимости от выбранной модели полученная кривая может выглядеть разным способом. Я обучил несколько моделей на данных VahanBima (одна из ведущих страховых компаний Индии), где по характеристикам пользователя предлагается оценить его ценность для компании (CLTV). В качестве одной из характеристик используется полная запрашиваемая клиентом сумма (Total Amount Claimed, в рупиях). Каждая из не линейных моделей (нейронка, случайный лес, ExtranTrees, бустинг gbm, xgboost) выделила пик LTV в районе 10К-15К по Total Amount Claimed. А вот линейная модель GLM продолжила свой рост дальше (после отметки 15К число обучающих примеров заметно меньше, поэтому GLM просто их не заметила).

205 views08:34

Data Funk

Минусы подхода:
- PDP не учитывает взаимосвязь между изучаемым параметром и всеми остальными переменными, чем может запутать Вас на небольших наборах данных,
- PDP не учитывает гистограмму распределения параметра, мы одинаково строим наш график как в частотной области параметра, так и там, где встретилось всего 5 примеров (выдавая шум при усреднении),
- PDP зависим от типа и качества обученной модели.

Несмотря на это PDP, наряду с shap метриками оказывается очень ценным подходом при оценке поведения таргета от параметров модели.

Датасет взят тут -> https://www.kaggle.com/datasets/gauravduttakiit/predict-cltv-of-a-customer

Kaggle

Predict CLTV of a customer

Can you help the company identify the most potential customers?

242 views08:34

Data Funk

Недавно наткнулся на новость - "Курящие сотрудники из-за перекуров получают дополнительную неделю отдыха".
Решил проверить какие еще есть бонусы у курящих людей. В таблице Smoker Status Prediction предлагается предсказать вероятность курит ли человек по его медицинским показателям (уровню гемоглобина, холестерина и т.д.), весу, возрасту, росту и прочее. Но раз ищем бонусы, то надо смотреть на задачу наоборот - а что именно меняет факт курения в организме.

👍2

205 views14:31

Data Funk

Например, рост, согласно датасету курящие люди в среднем выше на несколько см, но в данных отсутствует гендер, поэтому схема - научить модель предсказывать рост, в зависимости от факта курения и прочих показателей, а затем подставить в нее факт, что человек курит и не курит и посмотреть разницу не имеет особого смысла. Но именно так мы чаще всего поступаем когда занимаемся uplift моделированием или проводим PDP анализ влияния переменных на таргет. Картинка приводит нас к ложному выводу, что особенно для людей ниже 165 см курение добавляет значимые сантиметры к росту.

👍3

226 views14:31

Data Funk

Без параметра гендера сложно выявить истинное влияние курения на рост, но можно сгладить этот эффект предсказывая вероятность курит или не курит этот человек в принципе. И если модель уверенно говорит что человек курит, то мы ему не можем подставить нолик в данном параметре и прогнать его снова предсказывая рост. Поэтому оставим только тех, для кого предсказана высокая неопределенность факта курения (по энтропийному критерию), тогда предсказанная разница в росте становится значительно меньше.

Датасет взят тут -> https://www.kaggle.com/datasets/gauravduttakiit/smoker-status-prediction

281 views14:31

About

Blog

Apps

Platform