Без параметра гендера сложно выявить истинное влияние курения на рост, но можно сгладить этот эффект предсказывая вероятность курит или не курит этот человек в принципе. И если модель уверенно говорит что человек курит, то мы ему не можем подставить нолик в данном параметре и прогнать его снова предсказывая рост. Поэтому оставим только тех, для кого предсказана высокая неопределенность факта курения (по энтропийному критерию), тогда предсказанная разница в росте становится значительно меньше.
Датасет взят тут -> https://www.kaggle.com/datasets/gauravduttakiit/smoker-status-prediction
Датасет взят тут -> https://www.kaggle.com/datasets/gauravduttakiit/smoker-status-prediction
Привет, не смог пройти мимо свежего датасета HeadHunter. У каких профессий быстрее/медленнее всего растет заработная плата с ростом стажа? К сожалению HH не показывает категории, а люди пишут названия вакансий с ошибками, переставляют слова, пишут иностранные слова кириллицей. Что бы быстро сгруппировать 200 тысяч вакансий, я использовал мультиязычный e5 трансформер для определения косинуса между парами названий вакансий (оставил cos >= 0.9), получился граф схожести профессий. Поверх графа использовал быструю Leiden кластеризацию. В качестве скорости роста зп брал наклон линейной регрессии по каждому кластеру, предсказывающей нижнюю границу вилки по нижней границе требуемого опыта, оставил только стат значимые результаты.
В топе, как и ожидалось it-шка, организаторы мероприятий, всевозможные главные эксперты и коммерческие директора. Если ты аналитик или DS, можешь рассчитывать на +31К рублей за каждый следующий год опыта. В антитоп попали операторы ПК (+3.5К рублей), кассиры, водители. Хуже всех приходится заведующим аптечными пунктами, за год стажа их зп растет в 16 раз медленнее, чем у администраторов баз данных.
Датасет взят тут -> https://www.kaggle.com/datasets/etietopabraham/jobs-raw-data
Датасет взят тут -> https://www.kaggle.com/datasets/etietopabraham/jobs-raw-data
👍4
Стартовала Нобелевская неделя, самое время заглянуть в датасет с победителями прошлых лет. Между участвующими категориями существует значимая возрастная разница победителей. Самыми возрастными в момент награждения оказались лауреаты в области экономики и литературы (в среднем ~67 и ~65 лет соответственно), самыми "юными" - по физике и медицине (~57 и ~59 лет соответственно). Возможно, что бы оценить вклад в науку и развитие общества экономическим идеям нужно настояться на 10 лет дольше (данных когда была впервые выдвинута каждая из победивших теорий у меня нет, поэтому вывод на уровне догадки). "Усами" на графике отмечены по три стандартные ошибки в обе стороны.
Датасет взят тут -> https://www.kaggle.com/datasets/joebeachcapital/nobel-prize
Датасет взят тут -> https://www.kaggle.com/datasets/joebeachcapital/nobel-prize
👍2
Привет, искал чем кластеризовать бинарные данные, и открыл для себя крутую штуку - модель смесей Бернулли (Bernoulli Mixture Model). Вся суть метода в подбрасывании монеток - каждая строка бинарной таблички это результат подбрасывания многомерной монетки (число измерений монетки = числу колонок), а так как это Mixture Model, то монеток может быть несколько (по числу задаваемых кластеров). С помощью EM модель учит веса монеток и априорную вероятность (перед тем как совершить бросок, мы должны с некоторой априорной вероятностью выбрать какую из монеток бросаем), после обучения каждой строке таблички сопоставляется номер той монетки, которая дает наибольшую апостериорную вероятность. На датасете digits модель с высокой точностью кластеризует рукописные числа если ей указать 10 кластеров.
🔥5
Я подсунул ей 100 тыс. лиц знаменитостей под разными углами из классического датасета - CelebFaces, предварительно дропнув размер картинок в два раза, привел к оттенкам серого и обрезал цвета по некоторому порогу, что бы в итоге был только черный и белый, получились такие картинки.
🔥1
После кластеризации на 10 кластеров у каждой из 10 многомерных обученных монеток появились веса, которые можно перевести обратно в картинки, в итоге получилось довольно близко к естественным изображениям лиц.
У картинок оставил три цветовых канала, но сами цвета, как и в предыдущем случае уменьшил до 2, что бы в итоге остались 0 и 1. Смесь распределений Бернулли сформировала несколько размытых кластеров, но некоторые кластера-картинки получились довольно четкие
🔥1