Data Funk
247 subscribers
192 photos
2 videos
1 file
68 links
Download Telegram
Несмотря на большое количество теории в математике/статистике, практика решений аналитических/DS задачек как сито просеивает методы, оставляя несколько проверенных трюков в личном "швейцарском ноже". Одним из таких первых трюков, который легко запомнить и применять, для меня стало логарифмическое преобразование с сохранением знака. Когда фичу сильно шатает, удобно сжать ее логарифмом, если она шатается в отрицательных значениях то нужно преобразование Йео-Джонсона, но я часто делаю так:

y = sign(x) * log(abs(x) + 1)
и если нужно обратное, то:
x = sign(y) * (exp(abs(y)) - 1)
Одним из недавних таких трюков для меня стала новая версия ранговой корреляции. Что бы быстро прикинуть есть ли связь между векторами X и Y часто применяется корреляция Пирсона (хотя эта связь редко бывает линейной, но кого это смущало) и реже корреляции Спирмена, Кендалла. Если важно увидеть не столько монотонные отношения Y~X, сколько вобще наличие/отсутствие связи, вот то, что нужно:

import polars as pl

u = pl.DataFrame({'Y':[-7, 4, -3, 7, 4],'X':[-6, 0, 2, -9, 3]})
n = len(u)
u = u.sort(['Y','X'])
u = u.with_columns(pl.Series(values = range(n),name = 'rank_Y'))
u = u.sort(['X','Y'])
S = u['rank_Y'].diff().abs().sum()

NewCorr = 1 - 3 * S / (n^2 - 1)
S - сумма абсолютных разностей рангов Y вдоль оси X. NewCorr ~ 0 когда Y это шум, и ~ 1, когда ранги Y плавно меняются вдоль оси X, также открывается полезное свойство NewCorr(X,Y) != NewCorr(Y,X). Единственное, мне не понравилось, что она никогда не достигает 1, даже для идеальной прямой (если Y(X) - монотонная функция, то S = n - 1), а т.к максимальное значение S не привышает n^2 / 2 - 1, то NewCorr можно перенормировать:

NewCorr* = 1 - 3*(S - n + 1) / (n^2 - 2*n)
🔥3
В продолжении темы про новую ранговую корреляцию. Ее способность улавливать зависимости, которые часто недоступны для корреляций Пирсона, Спирмана, Кендалла и легкость расчета (пара сортировок), делает ее удобным инструментом первичного EDA. Для примера я взял несколько датасетов почти без предобработки, отправляя в NewCorr*(X,Y) все фичи как есть (категориальные, числовые, datetime) расстояние между колонками считал как D = 1 - max{NewCorr*(X,Y),NewCorr*(Y,X)} и поверх матрицы расстояний иерархическую complete кластеризацию, собирая кластеры для D < 0.5.
Датасет со статистикой по топ 10 Youtube образовательным каналам. Количество просмотров/тегов/лайков/комментариев собрались в один кластер, там же день недели публикации и название канала, похоже по статистике просмотров можно точно идентифицировать каждый канал из списка. Доля лайков связана с длительностью роликов, также видно, что данный подход располагает уникальный идентификатор видео на уровне колонки с нормальным шумом.
IMDB. Название фильма оказалось сопоставимо с шумовой колонкой, imdb_id завязан на дату выхода фильма, остальные характеристики оказались в одном кластере, хотя популярность фильма расположена от остальных дальше всех.
Погода в 100 городах. Название города оказалось связано с описанием погоды (дождь, солнечно, туман и тд), название страны с географической долготой, а температура с широтой.
Курс валют приведенных к евро. Доллар США в одном кластере с саудовским реалом. Китайский юань, индийская рупия и австралийский доллар в другой группе. Турецкая лира, аргентинский песо и российский рубль в третьей. А вот британский фунт, как и бразильский реал или швейцарский франк ни попали ни в одну их трех групп.
1
Привет! Два месяца назад в MIT представили новую архитектуру нейронных сетей — Kolmogorov-Arnold Networks (KAN), которая является альтернативой классическому multilayer perceptron (MLP). Основой KAN является теорема Колмогорова-Арнольда, утверждающая, что любую многомерную функцию можно представить как вложенную комбинацию одномерных функций. Главное отличие от MLP состоит в том, что функции активации в KAN размещены на ребрах сети, а не в ее вершинах. В вершинах остается только суммирование входящих функций. Функции на ребрах задаются взвешенной суммой одномерных сплайнов (кусочных полиномов), именно коэффициенты перед сплайнами выучивает модель.
Плюсы KAN:
- Авторы обещают, что для обучения на одних и тех же данных KAN требует значительно меньше нейронов по сравнению с MLP.
- Не нужно переобучать с нуля для повышения точности при наличии новых данных. Достаточно добавить больше точек в сетку сплайнов и дообучить модель с новыми данными.
- Заявляется, что модели KAN лучше интерпретируемы. Но мне кажется это работает только для простых датасетов. Если бизнес спросит, почему модель в проде дала такой результат, а вы в ответ покажете большую формулу из вложенных кусочных полиномов, вас вряд ли поймут.

Минусы:
- KAN на порядок дольше обучается.
- По моим наблюдениям, модель довольно неустойчива. С фиксированными гиперпараметрами один seed может дать приемлемое качество, а другой взорвать кривую обучения (напоминает RNN).
- Главное пока нет примеров sota решений KAN для каких-либо серьезных задач.
Я тоже обучил модель на игрушечном примере. По номеру строки и столбца картинки, c единственным скрытым слоем из 5 нейронов, предсказывается выход по трем цветовым каналам для аппроксимации картинки. Тут показана обученная модель с графиками функций на ребрах и ее предикт.
3
Всякий раз когда решается задачка с сильным перекосом классов в таргете, возникают разговоры — использовать ROCAUC или PRAUC. История тянется с 2006 года. Тогда на конференции в Питтсбурге представили работу, где указали, что ROC кривые дают слишком оптимистичную оценку при сильном дисбалансе классов. Ее также цитирует scikit-learn. Но недавно сотрудники института иммунологии из Калифорнии подлили масла в огонь и выпустили статью, в которой говорят что доклад от 2006 года какой-то не правильный, и вообще зря на ROCAUC наехали.
Оставим разборки в стороне. Вот что следует помнить. Обе метрики рассчитываются из матрицы ошибок, перебирая пороги отсечки. ROC кривая строится как TPR (доля истинно-положительных предсказаний == recall) vs FPR (доля ложно-положительных предсказаний), а PR кривая как precision vs recall. Т.к. recall - доля верно предсказанных элементов положительного класса, среди всех элементов этого класса, она не зависит от его размера. FPR то же самое, что 1 минус recall отрицательного класса. Это делает ROCAUC независимым от размера обоих классов, т.е. от дисбаланса и одновременно является проблемой когда не хотим считать классы равноценными при выборе лучшей модели. Расчет precision учитывает истинные ответы положительного класса и ложные отрицательного, и напрямую зависит от размеров обоих классов. Чем меньше положительных примеров в исходной выборке, тем меньше PRAUC. Вывод: улучшение ROCAUC != улучшению PRAUC. Если хотите, несмотря на дисбаланс, учитывать оба класса в равной степени, то выбирайте ROCAUC, а если важна чувствительность к размеру классов, лучше PRAUC.
🔥2👍1
Желание разложить что-угодно по группам на основе схожести - естественная черта человека, но задача кластеризации данных, почти всегда как плохое ТЗ для дизайнера - делай красиво, а не красиво не делай. Какой алгоритм кластеризации хороший, а какой плохой если сравнивать результат их работы не с чем? Джон Клейнберг из Корнеллского университета в 2002 году сформулировал три критерия хорошего алгоритма кластеризации:

- Масштабная инвариантность. Если все расстояния между точками умножить на положительное число, это не должно менять результат работы хорошего алгоритма.
- Насыщенность/разнообразие. Хороший алгоритм способен создать любую произвольную комбинацию разбиения входных данных.
- Согласованность. Если уменьшаем внутрикластерные расстояния и/или увеличиваем межкластерные, алгоритм должен возвращать то же разбиение на кластеры.
🔥3
В своей работе "Теорема о невозможности кластеризации" Клейнберг доказывает что никакой алгоритм кластеризации не может удовлетворять одновременно трем названным условиям. Масштабная инвариантность нарушается когда для определения принадлежности точки к кластеру используются относительные расстояния с заданным порогом. Насыщенность нарушается, если заранее фиксируется количество кластеров. Согласованность нарушается когда для объединения точек в кластеры используются абсолютные расстояния не превышающие некоторый порог. С другой стороны указанные критерии это субъективное представление о красивом/полезном разбиении множества на группы, с которым необязательно соглашаться. Максимально понятно, без математики, теорема описана тут.
🔥3
Еще один пост о невозможности, на этот раз невозможности справедливости в ML. Справедливость - этическая, не статистическая концепция, но если используем ML для оценки рисков (вероятность рецидива преступника, оценка кандидата при приеме на работу, кредитоспособность и т.д.), важно убедиться, что модель не предвзята к какой-либо группе людей. Александра Чулдехова из Карнеги давно исследует справедливость в машинном обучении (ее цитирует Джон Клейнберг, о котором писал выше). В своей работе Александра указывает на требования к справедливой модели, в отношении групп A и B (пол/раса/география проживания и тд):
1. Паритет точности. Метрика Precision должна совпадать для обеих групп при равном пороге отсечки.
P(Y = 1 | score > threshold, A) = P(Y = 1 | score > threshold, B )
2. Баланс FPR - ложноположительных ошибок (FPR == 1 минус recall отрицательного класса).
P(score > threshold | Y = 0, A) = P(score > threshold | Y = 0, B )
3. Баланс FNR - ложноотрицательных ошибок (FNR == 1 минус recall положительного класса).
P(score <= threshold | Y = 1, A) = P(score <= threshold | Y = 1, B )
Паритет точности это слабое условие на калибровку модели по группам. В случае предсказания совершения повторного преступления, разница ложноположительных ошибок между A и B (FPR_A - FPR_B) определяет разницу в наказании для тех, кто не совершил рецидив, а (FNR_A - FNR_B)!=0 указывает на разницу в наказании для рецидивистов. Далее показывается, что если наблюдаемая p - вероятность повторного преступления в группах A и B различна (например в группе А рецидивы случаются в 50% случаев, а в группе B, только в 30%), то никакой классификатор не может удовлетворить одновременно трем названным условиям справедливости. Доказательство сводится к формуле связывающей Precision, FPR и FNR:
FRP = p/(1-p) * (1-Precision) / Precision * (1 - FNR)

Для системы из двух таких уравнений и p_A != p_B есть три варианта решения:
1. FRP_A != FRP_B, FNR_A = FNR_B, Precision_A = Precision_B,
2. FRP_A = FRP_B, FNR_A != FNR_B, Precision_A = Precision_B,
3. FRP_A = FRP_B, FNR_A = FNR_B, Precision_A != Precision_B.
В случае равноценного выбора, Александра предлагает жертвовать точностью ради сохранения баланса FRP и FNR (3 вариант).