Библиотека собеса по Data Science | вопросы с собеседований
4.25K subscribers
474 photos
14 videos
1 file
584 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.iss.one/proglibrary/9197
Download Telegram
😎 Что такое сопряжённые априоры (conjugate priors) в байесовском выводе

Сопряжённые априоры — это такие априорные распределения, которые при комбинировании с конкретной функцией правдоподобия дают апостериорное распределение того же семейства, что и априорное.
Это делает байесовское обновление аналитически простым и позволяет получить закрытые формы постериора без численных методов.

Примеры:
🔛 Beta–Binomial: если вероятность успеха в биномиальном распределении имеет Beta-априор, то постериор тоже будет Beta.
🔛 Normal–Normal: если параметр среднего в нормальном распределении имеет нормальный априор, постериор остаётся нормальным.
🔛 Gamma–Poisson: если интенсивность (rate) Пуассона имеет Gamma-априор, то постериор также Gamma.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Какова роль скорректированного (R^2) в выявлении переобучения линейной модели

Обычный (R^2) измеряет долю объяснённой дисперсии, но он всегда увеличивается при добавлении новых признаков, даже если они не несут полезной информации.

Скорректированный (R^2) учитывает количество признаков и штрафует за включение переменных, которые мало улучшают модель.

Интерпретация для обнаружения переобучения:
🔹 Если обычный (R^2) растёт, а скорректированный остаётся примерно на том же уровне или падает, это сигнализирует о том, что новые признаки не повышают реальную обобщающую способность модели.
🔹 Значительная разница между (R^2) и скорректированным (R^2) может указывать на переобучение.

Таким образом, скорректированный (R^2) помогает балансировать сложность модели и её качество, предотвращая слепое добавление признаков.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
↪️ Существуют ли методы построения доверительного интервала для точности без предположений о распределении

Да. Один из самых распространённых распределительно-свободных методов — бутстреп. Он не требует предположений о нормальности или биномиальном распределении ошибок:

Непараметрический бутстреп:
➡️ Многократно выбираем выборки из тестового набора с возвращением.
➡️ Для каждой выборки вычисляем точность.
➡️ Затем строим доверительный интервал, например, по 2.5-му и 97.5-му процентилям.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
🔥 Когда стоит использовать pruning (обрезку дерева) вместо early stopping

Существуют два подхода: пост-обрезка (post-pruning) и предварительная обрезка (pre-pruning / early stopping).

🔤 Post-pruning:
Сначала дерево строится полностью, чтобы уловить все потенциальные взаимодействия между признаками. Затем удаляются ветви, которые не дают улучшения по валидационным метрикам. Такой подход часто даёт более оптимальное и устойчивое дерево, но требует больше вычислительных ресурсов.

🔤 Pre-pruning:
Рост дерева останавливается заранее по определённым критериям (например, минимальное количество выборок в узле или порог улучшения по impurity). Это быстрее и дешевле, но может привести к недообучению, если ограничение слишком жёсткое.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
🖤 ЧЕРНАЯ ПЯТНИЦА: СКИДКА 40%

Что общего между Black Friday и подготовкой к собесам? Оба случаются раз в год, и оба нельзя пропустить! 😎

🔥 Курсы со скидкой 40% до конца ноября:

🐍 Python
📐 Математика
🤖 AI
🔢 Алгоритмы и структуры

Пока другие покупают кофемашины и телевизоры, инвестируй в себя📈
Если при кросс-валидации модель показывает очень разные результаты на разных фолдах, а на тесте — низкую ошибку, что это может значить?
Anonymous Quiz
10%
Недостаток данных
52%
Сильная зависимость модели от случайных разбиений данных
31%
Модель сильно переобучена на один из фолдов
7%
Модель недообучена
1👍1
📊 Задача с собеседования

Имеются данные о продажах за последние 12 месяцев. Требуется оценить наличие линейной зависимости между количеством заключённых сделок и объёмом выручки, а также построить прогноз выручки при достижении 150 сделок.


Если не понимаете с какой стороны подступиться к задаче, то пора подтянуть математику.

🎓 Именно этому посвящен курс экспресс-курс «Математика для Data Science» от Proglib Academy:

— работа с векторами и матрицами;
— линейная регрессия и метод наименьших квадратов;
— вероятности, распределения, статистика;
— и многое другое.

Старт: 4 декабря
🔥 Скидка: 40% до конца ноября

👉 Подключиться к курсу