Не обязательно. Пропуски могут сами по себе содержать полезную информацию. Например:
В медицине отсутствие результата теста может говорить о том, что тест не был назначен — это уже сигнал для модели.
Практический подход:
Удалять только если:
— пропуски случайны,
— нет смысла в дополнительной обработке,
— или качество модели не ухудшается без этого признака.
👉 Пропуски — это не всегда «мусор». Иногда они сами по себе становятся информативным признаком.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
💬 Существует ли доверительный интервал (confidence interval) для AUC
Да. AUC рассчитывается на основе конечной выборки, поэтому подвержен вариабельности.
Как оценить доверительный интервал:
🔹 Бутстрэп (Bootstrapping): многократная переоценка AUC на случайных подвыборках для построения распределения.
🔹 Другие статистические методы: используются для проверки значимости различий между моделями.
✅ В критических приложениях это помогает понять, насколько уверенно модель превосходит альтернативы.
🐸 Библиотека собеса по Data Science
Да. AUC рассчитывается на основе конечной выборки, поэтому подвержен вариабельности.
Как оценить доверительный интервал:
🔹 Бутстрэп (Bootstrapping): многократная переоценка AUC на случайных подвыборках для построения распределения.
🔹 Другие статистические методы: используются для проверки значимости различий между моделями.
✅ В критических приложениях это помогает понять, насколько уверенно модель превосходит альтернативы.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3