Библиотека собеса по Data Science | вопросы с собеседований

🔎 Как и почему возникает проблема каллибровки вероятностей в моделях машинного обучения

Модель может выдавать хорошие предсказания с точки зрения точности, но её оценка вероятностей быть плохо откалиброванной — то есть, предсказанные вероятности не соответствуют реальной частоте событий.

Во многих задачах (медицина, финансы, риск-менеджмент) важна не только метка класса, но и уверенность модели. Например, предсказать, что событие с вероятностью 0.9 действительно случится примерно в 90% случаев.

Почему возникает несоответствие:

➡️

Используемые функции потерь (например, cross-entropy) и оптимизаторы не гарантируют идеальную калибровку.

➡️

Модели могут быть избыточно уверены (overconfident), особенно глубокие нейросети с ReLU и batch normalization.

➡️

Недостаток данных или несбалансированность классов искажает распределение вероятностей.

Методы исправления

Постобработка:

➡️

Плацинг (Platt Scaling) — логистическая регрессия по выходам модели.

➡️

Изотоническая регрессия — монотонная калибровка.

➡️

Температурное шкалирование (Temperature Scaling) — масштабирование логитов перед softmax.

Встроенные методы:

➡️

Использование бэйесовских моделей или методы, учитывающие неопределённость (например, dropout в режиме теста).

➡️

Обучение с учётом калибровки (calibration-aware loss).

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

413 views18:01

Библиотека собеса по Data Science | вопросы с собеседований

👉

Почему в задачах с имбалансом классов часто возникает проблема маскировки (masking) при обучении, и как с ней бороться

Маскировка — ситуация, когда модель «игнорирует» редкий класс из-за его малого веса в общей выборке и концентрируется на частом классе, что приводит к плохому распознаванию редких событий.

Почему возникает:

➡️

Стандартные функции потерь (например, cross-entropy) суммируют ошибки по всем объектам без учёта дисбаланса. Большой класс «перекрывает» вклад маленького, и градиенты, связанные с редким классом, оказываются незначительными.

➡️

При классическом обучении модель «ленится» выделять сложные и редкие паттерны, так как проще минимизировать ошибку на доминирующем классе.

Как бороться:

➡️

Взвешивание классов — увеличить вес ошибки на редком классе в функции потерь.

➡️

Использование специализированных функций потерь, например, focal loss, которая уменьшает вклад легко классифицируемых объектов и фокусируется на трудных.

➡️

Семплирование: oversampling редких классов или undersampling частых, чтобы выровнять распределение.

➡️

Генерация синтетических данных (SMOTE, ADASYN) для редких классов.

➡️

Использование ансамблей, где отдельные модели могут специализироваться на редких классах.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

382 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

☝️ Последний шанс купить курсы Proglib Academy с доступом навсегда!

Это не просто летняя распродажа, это финал эпохи. Мы дарим скидку 40% на все курсы, включая полностью обновлённый курс по Python (предложение НЕ ДЕЙСТВУЕТ только на курс по AI-агентам для DS-специалистов).

Но главное: с 1 августа доступ ко всем новым курсам станет ограниченным. Успейте инвестировать в свои знания на самых выгодных условиях!

👉 Выбрать курс

❤2

264 views14:49

Библиотека собеса по Data Science | вопросы с собеседований

✅ Как взаимосвязаны информационная энтропия и функции потерь в машинном обучении

Информационная энтропия — это мера неопределённости. Чем выше энтропия, тем больше «хаоса» в распределении: например, если модель предсказывает 50/50 между двумя классами, она максимально неуверенна.

Когда мы обучаем модель, особенно классификатор, мы хотим, чтобы её предсказания были точными и уверенными там, где нужно. И вот тут возникает связь:

😶‍🌫️

Некоторые функции потерь — например, кросс-энтропия — специально построены так, чтобы наказывать модель за неуверенность, особенно если она неуверенно ошибается.

Если модель говорит:
«Я почти уверен, что это класс А»,
а на самом деле правильный ответ — класс B,
то функция потерь даст сильное наказание.

А если она ошибается, но честно признаётся:
«Я не знаю, вероятно, 50/50 между A и B»,
то наказание будет мягче.

Эта логика пришла из информационной теории, где цель — сократить неопределённость. Обучение модели можно понимать как процесс уменьшения энтропии — мы учим её делать уверенные и точные предсказания, тем самым сокращая информационный «хаос».

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1

242 views18:08

About

Blog

Apps

Platform