Библиотека собеса по Data Science | вопросы с собеседований
4.26K subscribers
461 photos
14 videos
1 file
537 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.iss.one/proglibrary/9197
Download Telegram
🔎 Если в признаке много пропущенных значений, стоит ли его всегда удалять

Не обязательно. Пропуски могут сами по себе содержать полезную информацию. Например:

В медицине отсутствие результата теста может говорить о том, что тест не был назначен — это уже сигнал для модели.

Практический подход:
Создать индикатор пропусков — бинарный флаг, показывающий, было ли значение пропущено.
Использовать методы импутации: среднее, медиана, MICE, KNN или специфичные для задачи подходы.

Удалять только если:
— пропуски случайны,
— нет смысла в дополнительной обработке,
— или качество модели не ухудшается без этого признака.

👉 Пропуски — это не всегда «мусор». Иногда они сами по себе становятся информативным признаком.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
💬 Существует ли доверительный интервал (confidence interval) для AUC

Да. AUC рассчитывается на основе конечной выборки, поэтому подвержен вариабельности.

Как оценить доверительный интервал:
🔹 Бутстрэп (Bootstrapping): многократная переоценка AUC на случайных подвыборках для построения распределения.
🔹 Другие статистические методы: используются для проверки значимости различий между моделями.

В критических приложениях это помогает понять, насколько уверенно модель превосходит альтернативы.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3