Data Funk
249 subscribers
194 photos
2 videos
1 file
72 links
Download Telegram
Апельсиновый сок (не считая воды) почти весь из углеводов независимо от географии.
Хумус в германии чуть более жирный, чем в канаде. Французские блинчики в среднем содержат больше белков, а в испанской арахисовой пасте меньше углеводов, чем в аналогичных продуктах США. Бельгийская салями менее жирная чем испанская.
Датасет взят тут -> https://www.kaggle.com/datasets/arturlange/openfoodfacts-products
Из неожиданного: пока искал как статистически сравнить два n-мерных массива, наткнулся на многомерную версию t-теста: https://en.wikipedia.org/wiki/Hotelling%27s_T-squared_distribution
🔥1
Борьба за чистоту языка выглядит интереснее если к ней каждый раз прилагать этимологический корпус на 2М+ терминов c графом языковых заимствований. В русском языке до трети слов это комбинации уже существующих, за их исключением, вклад других языков можно оценить используя классические модели атрибуции из маркетинга.
Last click. В графе bfs делает 1 шаг назад и получаем список наиболее "свежих" терминов, которые послужили базой формирования слов русского языка. Среди них славянские (proto-slavic и old east slavic) вместе составляют всего 1/5 от всех языковых источников.
First click. По графу двигаемся к начальным вершинам - самым ранним этимологическим терминам, положившим начало словам современного русского языка и тут вклад proto-slavic и old east slavic суммарно составляет всего 9%.
Примеры частных субграфов.

Датасет взят тут -> https://www.kaggle.com/datasets/bilalelebi/dataset
Графики частичной зависимости (PDP) невероятно простой и полезный инструмент в оценке влияния параметра на таргет. Во всем датасете меняем колонку с нужным параметром на одинаковое значение и усредняем предикт обученной ранее модели по всем строкам. И так делаем по всему диапазонну фичи. В зависимости от выбранной модели полученная кривая может выглядеть разным способом. Я обучил несколько моделей на данных VahanBima (одна из ведущих страховых компаний Индии), где по характеристикам пользователя предлагается оценить его ценность для компании (CLTV). В качестве одной из характеристик используется полная запрашиваемая клиентом сумма (Total Amount Claimed, в рупиях). Каждая из не линейных моделей (нейронка, случайный лес, ExtranTrees, бустинг gbm, xgboost) выделила пик LTV в районе 10К-15К по Total Amount Claimed. А вот линейная модель GLM продолжила свой рост дальше (после отметки 15К число обучающих примеров заметно меньше, поэтому GLM просто их не заметила).
Минусы подхода:
- PDP не учитывает взаимосвязь между изучаемым параметром и всеми остальными переменными, чем может запутать Вас на небольших наборах данных,
- PDP не учитывает гистограмму распределения параметра, мы одинаково строим наш график как в частотной области параметра, так и там, где встретилось всего 5 примеров (выдавая шум при усреднении),
- PDP зависим от типа и качества обученной модели.

Несмотря на это PDP, наряду с shap метриками оказывается очень ценным подходом при оценке поведения таргета от параметров модели.

Датасет взят тут -> https://www.kaggle.com/datasets/gauravduttakiit/predict-cltv-of-a-customer
Недавно наткнулся на новость - "Курящие сотрудники из-за перекуров получают дополнительную неделю отдыха".
Решил проверить какие еще есть бонусы у курящих людей. В таблице Smoker Status Prediction предлагается предсказать вероятность курит ли человек по его медицинским показателям (уровню гемоглобина, холестерина и т.д.), весу, возрасту, росту и прочее. Но раз ищем бонусы, то надо смотреть на задачу наоборот - а что именно меняет факт курения в организме.
👍2
Например, рост, согласно датасету курящие люди в среднем выше на несколько см, но в данных отсутствует гендер, поэтому схема - научить модель предсказывать рост, в зависимости от факта курения и прочих показателей, а затем подставить в нее факт, что человек курит и не курит и посмотреть разницу не имеет особого смысла. Но именно так мы чаще всего поступаем когда занимаемся uplift моделированием или проводим PDP анализ влияния переменных на таргет. Картинка приводит нас к ложному выводу, что особенно для людей ниже 165 см курение добавляет значимые сантиметры к росту.
👍3
Без параметра гендера сложно выявить истинное влияние курения на рост, но можно сгладить этот эффект предсказывая вероятность курит или не курит этот человек в принципе. И если модель уверенно говорит что человек курит, то мы ему не можем подставить нолик в данном параметре и прогнать его снова предсказывая рост. Поэтому оставим только тех, для кого предсказана высокая неопределенность факта курения (по энтропийному критерию), тогда предсказанная разница в росте становится значительно меньше.

Датасет взят тут -> https://www.kaggle.com/datasets/gauravduttakiit/smoker-status-prediction