Small Data Science for Russian Adventurers

#задача
Простая задача по ML, которая заставляет людей зависнуть (проверено на нескольких экзаменах).

В задаче бинарной классификации используются следующие функционалы качества, далее идёт список, например, ROC AUC, BA (сбалансированная точность), F-мера (можно продолжать). Вопрос: какие них не зависят от того, какой класс считать позитивным?
Более формально, для каких f всегда f(y,a) = f(1-y, 1-a), где y - вектор целевых значений, a - вектор ответов алгоритма.

Предпосылка задачи понятна: Иван и Джон решают одну и ту же задачу с метками "дефолт"/"не дефолт" одним и тем же методом, у Ивана качество - 0.7, у Джона - 0.6, может ли это объясняться тем, как они представили (закодировали) целевые значения?

5.5K viewsedited 07:49

#задача
В комментариях спросили,
может ли быть F1-мера около 1, а ROC_AUC маленьким?
Отвечаю, может даже ROC_AUC=0!

Пусть у нас задача бинарной классификации, упорядочим объекты по убыванию оценки вероятности за класс 1, пусть их метки при этом упорядочены так:
0 1 ... 1 (один ноль и N-1 единица).
Если порог бинаризации выбрать так, что все объекты относятся к классу 1, тогда
Precision = (N - 1) / N
Recall = 1
A ROC_AUC тут = 0.

6.8K views10:27

Small Data Science for Russian Adventurers

#задача
В августе я собеседовал довольно много абитуриентов. Вот одна из задач, которую я часто спрашивал (на собесах когда-то я её тоже использовал).

Мы играем в азартную игру, состоящую из конов, в каждом коне есть победитель и ему засчитывается очко (изначально счёт 0-0). Перед игрой мы сбросились по 100 рублей и договорились, что тот, кто первый наберёт 10 очков, забирает весь банк (200 рублей). Сейчас счёт 8-6 в Вашу пользу и мы не можем продолжить игру (например, мы играли на игровом автомате и он сломался). Как бы Вы предложили наиболее честно разделить банк?

Понятно, что в постановке присутствует нечёткость в виде "наиболее честно", но формализация этого как раз и интересна, также как и ход рассуждений (счёт при желании можно изменить для простоты вычислений).

14.5K views11:39

About

Blog

Apps

Platform