Интересное что-то

Forwarded from Дата канальи — про «специалистов» в данных / ML / AI

Летят V самолётов, нет V мало — K! и оба реактивные...

У опроса выше есть всего один правильный ответ, и мы к нему придем.

А пока разберем мифы

Напомню только что валидация (в тч кросс-валидация) модели — это не только способ выбрать лучшую среди класса моделей (лучшую == точнее , устойчивее, сильнее, с меньшим риском и пр), но и получить интервальные оценки ее качества.

Миф 1. LOO на практике почти не используется

LOO — в варианте не Jackknifing, а Hold Out — в котором test — последний элемент, val — предпоследний, а остальное — трейн — это частый сетап в академических статьях про рекомендашки (тк академики часто обделены вычислительными ресурсами + им нужно сравниваться с предшественниками в их сетапе -- как в байке с шириной железной дороги и ее связи с шириной римской телеги.

Примеры, которые были под рукой:

NIPS 2023
KDD 2023
RecSys 2023
CIKM 2020
IJCAI 2019

Миф 2. Двойная кросс-валидация позволит сделать вашу модель более робастой

Вопрос некогда популярной в задачах на малых выборках двойной кросс-валидации (Nested) закрылся около 2018 с итогом что игра не стоит свеч. В соревновательной практике тоже особо не применялась — проще оказалось усреднять по cидам. Спасибо Себастьяну Рашке, который честно сравнил как лучше всего получать интервальные оценки качества моделей.

Кстати, модификаций кросс-валидаций для малых выборок десятки, начиная с Balance-Incomlete CV, Monte-Carlo CV (с возвращениями) и заканчивая всякими Bayessian CV

Миф 3. Выбор K в K-fold валидации ни на что не влияет

В 2015 вышла (и обновлялась до 2018) 99-страничная инструкция как правильно выбрать V в V-fold валидации.
Жаль, что ей никто не пользуется 😂😂🤣

Миф 4. .632 это калибр 🔫

Нет, это тоже модификация кросс-валидации в статьях 90х. Вообще, применить бутстрап к кросс-валидации тянуло многих.

Тем, кому любопытно — снова пример в блоге Себастьяна Рашки.

Миф 5. K-fold vs V-fold

Burman в 1989 обозначил уже известную к тому времени процедуру как V-fold

В бессмертном ESL (а первое издание было в 2001 году) уже K-fold

Оттуда оно, вероятно, попало в sklearn в 2007-10 и понеслось, 64k звезд на гитхабе — не шутки.

Миф 6. Все вопросы с валидацией / кросс-валидацией решены еще 20-30-60 лет назад

Одни парни и в 2025 пишут, другие их рецензируют. Не знаете о чем писать диплом по ML -- возьмите любую задачу и сравните несколько протоколов валидации численно и теоретически.

Миф 7. На опрос выше нет правильного ответа.

Хотя опрос достаточно спорный (не очевидна, например, необходимость OOT в картинках, хотя можно придумать кейс), можно предположить что:

1. Больше всего DS работают там где больше всего денег — в продажах и рекламе, а это всякие response-модели NBO / NBA / RecSys + исторически в банках (снова response-модели вроде PD + регрессии в будущее -- cashflow) — это все табличные в основном задачи
2. Больше всего DS работают либо в корпорациях либо с корпоративными данными

А у корпоративных данных есть одна важная особенность: они проходят по достаточно сложному пути: CDC -> ETL/ELT -> DWH / Data Lake -> Common DM / User DM

И по всему пути накапливается задержка (gap), который DS/MLE обязан учитывать.
А если вспомнить еще и про data drift / concept drift / label shift — то очевидность последнего ответа не вызывает сомнений (хотя это частично можно решить adversarial validation и тестами)

При этом на практике я использовал и варианты со стратификацией, и с группами (в недвижке), и двойную (nested) кросс-валидацию, и все варианты OOT / OOS CV

65 views19:01