Библиотека собеса по Data Science | вопросы с собеседований
4.26K subscribers
461 photos
14 videos
1 file
536 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.iss.one/proglibrary/9197
Download Telegram
📌 Зачем нужна регуляризация в логистической регрессии

Регуляризация добавляет штраф к функции потерь, контролируя величину весов θ. Это:
🟠 предотвращает переобучение на данных с большим числом признаков,
🟠 делает модель устойчивее к шумовым или редко встречающимся признакам,
🟠 улучшает обобщающую способность.

Популярные варианты:
📌 L2 (ridge) — сглаживает веса, делая их небольшими,
📌 L1 (lasso) — зануляет часть весов, отбрасывая неважные признаки.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
🗂 Может ли регуляризация превратить неконвексную функцию потерь в выпуклую

Стандартные регуляризаторы (например, L1 или L2) не делают нейросетевую задачу выпуклой. Если в модели есть несколько слоёв и нелинейные активации, задача оптимизации остаётся неконвексной.

Однако регуляризация:
🅱️ сглаживает ландшафт функции потерь,
🅱️ уменьшает амплитуду «плохих» локальных минимумов,
🅱️ снижает риск переобучения,
🅱️ помогает найти более устойчивые решения.

👉 То есть регуляризация не исправляет геометрию задачи, но делает обучение практичнее и надёжнее.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
🔎 Если в признаке много пропущенных значений, стоит ли его всегда удалять

Не обязательно. Пропуски могут сами по себе содержать полезную информацию. Например:

В медицине отсутствие результата теста может говорить о том, что тест не был назначен — это уже сигнал для модели.

Практический подход:
Создать индикатор пропусков — бинарный флаг, показывающий, было ли значение пропущено.
Использовать методы импутации: среднее, медиана, MICE, KNN или специфичные для задачи подходы.

Удалять только если:
— пропуски случайны,
— нет смысла в дополнительной обработке,
— или качество модели не ухудшается без этого признака.

👉 Пропуски — это не всегда «мусор». Иногда они сами по себе становятся информативным признаком.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1