Data Funk
249 subscribers
194 photos
2 videos
1 file
72 links
Download Telegram
Тернарная диаграмма полезна для относительного отображения трех переменных (x,y,z) на двумерной плоскости (с условием x+y+z=100), например можно наглядно сравнивать пищевую ценность (количество белков, жиров, углеводов) по схожим продуктам из разных стран используя данные OpenFoodFacts.
Апельсиновый сок (не считая воды) почти весь из углеводов независимо от географии.
Хумус в германии чуть более жирный, чем в канаде. Французские блинчики в среднем содержат больше белков, а в испанской арахисовой пасте меньше углеводов, чем в аналогичных продуктах США. Бельгийская салями менее жирная чем испанская.
Датасет взят тут -> https://www.kaggle.com/datasets/arturlange/openfoodfacts-products
Из неожиданного: пока искал как статистически сравнить два n-мерных массива, наткнулся на многомерную версию t-теста: https://en.wikipedia.org/wiki/Hotelling%27s_T-squared_distribution
🔥1
Борьба за чистоту языка выглядит интереснее если к ней каждый раз прилагать этимологический корпус на 2М+ терминов c графом языковых заимствований. В русском языке до трети слов это комбинации уже существующих, за их исключением, вклад других языков можно оценить используя классические модели атрибуции из маркетинга.
Last click. В графе bfs делает 1 шаг назад и получаем список наиболее "свежих" терминов, которые послужили базой формирования слов русского языка. Среди них славянские (proto-slavic и old east slavic) вместе составляют всего 1/5 от всех языковых источников.
First click. По графу двигаемся к начальным вершинам - самым ранним этимологическим терминам, положившим начало словам современного русского языка и тут вклад proto-slavic и old east slavic суммарно составляет всего 9%.
Примеры частных субграфов.

Датасет взят тут -> https://www.kaggle.com/datasets/bilalelebi/dataset
Графики частичной зависимости (PDP) невероятно простой и полезный инструмент в оценке влияния параметра на таргет. Во всем датасете меняем колонку с нужным параметром на одинаковое значение и усредняем предикт обученной ранее модели по всем строкам. И так делаем по всему диапазонну фичи. В зависимости от выбранной модели полученная кривая может выглядеть разным способом. Я обучил несколько моделей на данных VahanBima (одна из ведущих страховых компаний Индии), где по характеристикам пользователя предлагается оценить его ценность для компании (CLTV). В качестве одной из характеристик используется полная запрашиваемая клиентом сумма (Total Amount Claimed, в рупиях). Каждая из не линейных моделей (нейронка, случайный лес, ExtranTrees, бустинг gbm, xgboost) выделила пик LTV в районе 10К-15К по Total Amount Claimed. А вот линейная модель GLM продолжила свой рост дальше (после отметки 15К число обучающих примеров заметно меньше, поэтому GLM просто их не заметила).
Минусы подхода:
- PDP не учитывает взаимосвязь между изучаемым параметром и всеми остальными переменными, чем может запутать Вас на небольших наборах данных,
- PDP не учитывает гистограмму распределения параметра, мы одинаково строим наш график как в частотной области параметра, так и там, где встретилось всего 5 примеров (выдавая шум при усреднении),
- PDP зависим от типа и качества обученной модели.

Несмотря на это PDP, наряду с shap метриками оказывается очень ценным подходом при оценке поведения таргета от параметров модели.

Датасет взят тут -> https://www.kaggle.com/datasets/gauravduttakiit/predict-cltv-of-a-customer
Недавно наткнулся на новость - "Курящие сотрудники из-за перекуров получают дополнительную неделю отдыха".
Решил проверить какие еще есть бонусы у курящих людей. В таблице Smoker Status Prediction предлагается предсказать вероятность курит ли человек по его медицинским показателям (уровню гемоглобина, холестерина и т.д.), весу, возрасту, росту и прочее. Но раз ищем бонусы, то надо смотреть на задачу наоборот - а что именно меняет факт курения в организме.
👍2
Например, рост, согласно датасету курящие люди в среднем выше на несколько см, но в данных отсутствует гендер, поэтому схема - научить модель предсказывать рост, в зависимости от факта курения и прочих показателей, а затем подставить в нее факт, что человек курит и не курит и посмотреть разницу не имеет особого смысла. Но именно так мы чаще всего поступаем когда занимаемся uplift моделированием или проводим PDP анализ влияния переменных на таргет. Картинка приводит нас к ложному выводу, что особенно для людей ниже 165 см курение добавляет значимые сантиметры к росту.
👍3