Библиотека собеса по Data Science | вопросы с собеседований
4.27K subscribers
461 photos
14 videos
1 file
539 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.iss.one/proglibrary/9197
Download Telegram
💬 Существует ли доверительный интервал (confidence interval) для AUC

Да. AUC рассчитывается на основе конечной выборки, поэтому подвержен вариабельности.

Как оценить доверительный интервал:
🔹 Бутстрэп (Bootstrapping): многократная переоценка AUC на случайных подвыборках для построения распределения.
🔹 Другие статистические методы: используются для проверки значимости различий между моделями.

В критических приложениях это помогает понять, насколько уверенно модель превосходит альтернативы.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
📊 Как байесовский вывод масштабируется для высокоразмерных данных

Байесовский вывод становится сложным по мере увеличения размерности — апостериорное распределение может быть чрезвычайно сложным, и точные вычисления становятся невозможными.

Основные подходы 👇

1️⃣ Вариационный вывод (Variational Inference, VI):
— Аппроксимирует апостериорное распределение более простой семьей распределений.
— Параметры оптимизируются для минимизации расхождения с истинным апостериорным распределением.
— Эффективно, но вводит ошибку аппроксимации.

2️⃣ Методы Монте-Карло по цепям Маркова (MCMC):
— Генерация выборок из апостериора (например, Hamiltonian Monte Carlo).
— Мощный метод, но медленный при высокой размерности.

3️⃣ Байесовские нейронные сети:
— Используют аппроксимации, например, Monte Carlo dropout, для оценки неопределенности.
— Вычислительно затратны, но возможны при аккуратной настройке.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Какие основные проблемы при применении стандартной k-fold кросс-валидации к временным рядам

Временные ряды часто имеют сильные зависимости во времени.

Стандартная k-fold кросс-валидация использует случайные разбиения, игнорируя порядок времени. Это может привести к «утечке будущей информации» в тренировочный набор.

Например, если данные из будущего используются для обучения, а валидация проводится на данных из прошлого, оценка модели будет нереалистичной для реального прогнозирования.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2