Kantor.AI

Итак, пора бы уже завершить рассказ про индустрию, науку и хайп в машинном обучении. Настало время поговорить про хайп. Недавно выступал на Матемаркетинге (конференция про аналитику в маркетинге) в секции Яндекс.Метрики, с рассказом про одну из Таксишных задач. И в кулуарах организаторы поделились тем, что при составлении программы очень внимательно смотрели на все выступления, связанные с ML, т.к. последнее время все чаще ML трактуют как «соберите табличку с признаками и отправьте в XGBoost/LightGBM/CatBoost - вот и всё, ваша модель готова». И я испытал то самое чувство радости, которое приходит, когда вы ощущаете, что кто-то вас понимает. Эта тенденция и похожие на нее меня очень беспокоят, и я убежден, что репутация профессии Data Scientist сейчас в огромной опасности.

Для начала - напомню, что машинное обучение в индустрии - это не про вызов методов fit и predict у готового классификатора, а про улучшение бизнес-процессов, сервиса или продукта и, в конечном итоге, заработок или экономию денег компании. 90% работы в постановке и приоритезации задач, планировании и выстраивании процесса работы над проектом, оценки качества и внедрения. И в какой-то степени к этому имеют отношение все участники проекта. Начинающие свой путь в Data Science говорят «ой, это менеджмент какой-то, а мне технические вещи интересны». Ну конечно, спланирует за них менеджер процедуру A/B тестирования в условиях дефицита примеров и невозможности хорошо разбить выборку (как вполне бывает в жизни). Да еще и так, чтобы и статзначимость достигалась за разумное время и результат был понятен и полезен бизнесу. И заодно метрики качества, отображаемые в экономический эффект выберет, и, например, recall@k вместо ROC-AUC предложит для классификатора замерить, чтобы полгода не настраивать модель не на то, что нужно. Дело в том, что есть много «как бы организационных» вопросов, которые требуют hard skills в data science, и бросать эти вопросы на коллег с другим бэкграундом, как мне кажется, очень странная затея.

Но желание обучать модели, выбирать архитектуру нейросетки, экспериментировать с добавлением предобученных эмбеддингов и так далее часто перебарывает здравый смысл. И тогда правильные ответы на действительно важные вопросы появляются несвоевременно или не появляются совсем. Не стоит думать, что модели обучать или, особенно, данные предобрабатывать - не важно. Очень важно! Но всему свое время и не нужно жестко ошибаться с расстановкой приоритетов.

Пример из практики, который я уже много раз приводил: в одной команде с помощью машинного обучения автоматизировали определение пригодности некоторого продукта к использованию людьми по ряду замеров и построили для этого некоторую нейросетку. Аналитики были очень довольны проделанной работой, но, увы, при валидации модели поступали так: пригодные продукты обозначали единичкой, непригодные ноликом, от нейросети получали прогноз пригодности продукта в виде вероятности (например, «пригоден на 0.9 - т.е. 90%») и качество оценивали по модулю отклонения этой вероятности от правильного ответа (0 или 1). Если бы аналитик, который это делал, хоть немного мог думать о постановке задачи, знал матчасть и умел ей пользоваться, он бы знал, что при такой оценки качества модель, выдающая честные вероятности, будет считаться хуже, чем модель, округляющая вероятность до 0 или 100%. А теперь представьте, если от качества продукта зависят жизни людей. Если это лекарство, еда, строительные материалы. А модель вместо пригодности на 51% выдает 100%-ную пригодность потому что кто-то не любит разбираться с метриками качества, а вместо этого сразу бежит обучать модель. Это просто катастрофа. Ситуацию усугубляет то, что сейчас этот пример приводится на любом приличном курсе машинного обучения и спрашивается на собеседованиях во многих хороших компаниях, но откуда-то в индустрию все равно просачиваются те, кто продолжают допускать ту же ошибку.

4.01K viewsVictor Kantor, 14:44