Small Data Science for Russian Adventurers
11K subscribers
291 photos
3 videos
13 files
696 links
БЕЗ ЧУЖОЙ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org)
машинное (machine learning) и
глубокое обучение (deep learning)
анализ данных (data mining)
наука о данных (data science)
ИИ (artificial intelligence)
математика (math)
и др.
ЕСТЬ ЧАТ;)
Download Telegram
#задача
Простая задача по ML, которая заставляет людей зависнуть (проверено на нескольких экзаменах).

В задаче бинарной классификации используются следующие функционалы качества, далее идёт список, например, ROC AUC, BA (сбалансированная точность), F-мера (можно продолжать). Вопрос: какие них не зависят от того, какой класс считать позитивным?
Более формально, для каких f всегда f(y,a) = f(1-y, 1-a), где y - вектор целевых значений, a - вектор ответов алгоритма.

Предпосылка задачи понятна: Иван и Джон решают одну и ту же задачу с метками "дефолт"/"не дефолт" одним и тем же методом, у Ивана качество - 0.7, у Джона - 0.6, может ли это объясняться тем, как они представили (закодировали) целевые значения?
#задача
В комментариях спросили,
может ли быть F1-мера около 1, а ROC_AUC маленьким?
Отвечаю, может даже ROC_AUC=0!

Пусть у нас задача бинарной классификации, упорядочим объекты по убыванию оценки вероятности за класс 1, пусть их метки при этом упорядочены так:
0 1 ... 1 (один ноль и N-1 единица).
Если порог бинаризации выбрать так, что все объекты относятся к классу 1, тогда
Precision = (N - 1) / N
Recall = 1
A ROC_AUC тут = 0.
#задача
В августе я собеседовал довольно много абитуриентов. Вот одна из задач, которую я часто спрашивал (на собесах когда-то я её тоже использовал).

Мы играем в азартную игру, состоящую из конов, в каждом коне есть победитель и ему засчитывается очко (изначально счёт 0-0). Перед игрой мы сбросились по 100 рублей и договорились, что тот, кто первый наберёт 10 очков, забирает весь банк (200 рублей). Сейчас счёт 8-6 в Вашу пользу и мы не можем продолжить игру (например, мы играли на игровом автомате и он сломался). Как бы Вы предложили наиболее честно разделить банк?

Понятно, что в постановке присутствует нечёткость в виде "наиболее честно", но формализация этого как раз и интересна, также как и ход рассуждений (счёт при желании можно изменить для простоты вычислений).