Data Funk

В топе, как и ожидалось it-шка, организаторы мероприятий, всевозможные главные эксперты и коммерческие директора. Если ты аналитик или DS, можешь рассчитывать на +31К рублей за каждый следующий год опыта. В антитоп попали операторы ПК (+3.5К рублей), кассиры, водители. Хуже всех приходится заведующим аптечными пунктами, за год стажа их зп растет в 16 раз медленнее, чем у администраторов баз данных.

Датасет взят тут -> https://www.kaggle.com/datasets/etietopabraham/jobs-raw-data

👍4

294 views22:21

Data Funk

Стартовала Нобелевская неделя, самое время заглянуть в датасет с победителями прошлых лет. Между участвующими категориями существует значимая возрастная разница победителей. Самыми возрастными в момент награждения оказались лауреаты в области экономики и литературы (в среднем ~67 и ~65 лет соответственно), самыми "юными" - по физике и медицине (~57 и ~59 лет соответственно). Возможно, что бы оценить вклад в науку и развитие общества экономическим идеям нужно настояться на 10 лет дольше (данных когда была впервые выдвинута каждая из победивших теорий у меня нет, поэтому вывод на уровне догадки). "Усами" на графике отмечены по три стандартные ошибки в обе стороны.

Датасет взят тут -> https://www.kaggle.com/datasets/joebeachcapital/nobel-prize

👍2

276 views11:04

Data Funk

Привет, искал чем кластеризовать бинарные данные, и открыл для себя крутую штуку - модель смесей Бернулли (Bernoulli Mixture Model). Вся суть метода в подбрасывании монеток - каждая строка бинарной таблички это результат подбрасывания многомерной монетки (число измерений монетки = числу колонок), а так как это Mixture Model, то монеток может быть несколько (по числу задаваемых кластеров). С помощью EM модель учит веса монеток и априорную вероятность (перед тем как совершить бросок, мы должны с некоторой априорной вероятностью выбрать какую из монеток бросаем), после обучения каждой строке таблички сопоставляется номер той монетки, которая дает наибольшую апостериорную вероятность. На датасете digits модель с высокой точностью кластеризует рукописные числа если ей указать 10 кластеров.

🔥5

229 views12:45

Data Funk

Я подсунул ей 100 тыс. лиц знаменитостей под разными углами из классического датасета - CelebFaces, предварительно дропнув размер картинок в два раза, привел к оттенкам серого и обрезал цвета по некоторому порогу, что бы в итоге был только черный и белый, получились такие картинки.

🔥1

183 views12:45

Data Funk

После кластеризации на 10 кластеров у каждой из 10 многомерных обученных монеток появились веса, которые можно перевести обратно в картинки, в итоге получилось довольно близко к естественным изображениям лиц.

213 views12:46

Data Funk

giphy.gif

19.1 MB

Разобрал гифку на кадры

195 views16:12

Data Funk

У картинок оставил три цветовых канала, но сами цвета, как и в предыдущем случае уменьшил до 2, что бы в итоге остались 0 и 1. Смесь распределений Бернулли сформировала несколько размытых кластеров, но некоторые кластера-картинки получились довольно четкие

🔥1

238 views16:12

About

Blog

Apps

Platform