Blocknote

В последнее время начались несколько соревнований на баскетбольных данных. Я решил сделать небольшой обзор. Призами они не балуют, так что это скорее занятие для энтузиастов спортивной статистики.

1. Первое соревнование на главной площадке для ML-соревнований, kaggle. Нужно предсказать вероятность подбора в нападении после броска. Решение это просто csv-файл с двумя столбцами: id броска и вероятность подбора в нападении. Метрика — Logloss, которая сильнее чем RMSE штрафует за сильные промахи в прогнозе. В данных есть информация о командах и координаты всех 10 игроков на площадке в момент броска. Когда сыграны эти матчи напрямую не сказано, а сам я не разбирался можно ли ту информацию восстановить. Если нет, то конкурс более-менее бессмыслен, просто координаты игроков на площадке без контекста розыгрыша и без информации об игроках на площадке упускают слишком много информации. У меня прошлым летом была обратная идея, попробовать посчитать вероятность подбора в нападении используя по максимуму информацию о броске, розыгрыше и игроках на площадке без конкретных координат самих игроков, только координаты броска. Может я рано забросил, но первые результаты были очень плохими.
Вообще довольно странное соревнование, вкупе с не очень хорошей репутацией ShotQuality в сообществе (есть вопросы к качеству их модели оценки бросков, а также работе с данными) и слабеньким призом (годовая подписка на SQ) привели к тому, что на вечер понедельника в нём участвует 4 команды. Зато всего 20 мегабайт данных, не нужно будет скачивать терабайты картинок.

Kaggle: https://www.kaggle.com/competitions/shotquality-rebounding
Твит о соревновании: https://twitter.com/Shot_Quality/status/1671175892377403392

Ещё два соревнования проводит DeepSportRadar в рамках воркшопа ACM MMSports 2023, площадка конкурсов eval.ai, призовые 1000 долларов (в каждом) и возможность сделать статью для публикации. Данные предоставлены Sportradar и Synergy Sports.

2. Сегментация игроков (а также тренеров и судей) на площадке.
В этом году основной упор делается на решение проблемы окклюзии. Я слаб в CV, но как понимаю нужно хорошо решать проблему перекрытия, когда игрок на изображении как бы разделен на несколько частей другим игроком или игрокам, которые находятся ближе к камере. Результат считается по Occlusion Metric, описание есть в репозитории соревнования. Для самих изображений есть аннотации в COCO формате. Набор небольшой, около 300 изображений и, как я понял, его нельзя обогащать.
Страница соревнования: https://eval.ai/web/challenges/challenge-page/2070/overview
Github: https://github.com/DeepSportradar/instance-segmentation-challenge
Датасет: https://www.kaggle.com/datasets/deepsportradar/basketball-instants-dataset
Paper https://arxiv.org/abs/2209.13899 и код https://github.com/YJingyu/Instanc_Segmentation_Pro решения прошлогоднего победителя

3. Реидентификация игроков.
Здесь предоставлены несколько последовательных кадров игровых моментов и нужно идентифицировать игрока с первого кадра на остальных (как я понял). Метрикой является mAP(https://ml.i-neti.ru/map-mean-average-precision/). Тут я к сожалению понимаю ещё меньше, чем в сегментации, так что описание ограничится набором ссылок.
Страница соревнования: https://eval.ai/web/challenges/challenge-page/2076/overview
Github: https://github.com/DeepSportradar/player-reidentification-challenge/tree/master
Paper https://arxiv.org/abs/2303.11855 и код https://github.com/DeepSportradar/2022-winners-player-reidentification-challenge прошлогоднего победителя (mAP 0.9844).

#basketball #kaggle #mlcompetition #cv

Kaggle

ShotQuality: NCAA Player Location Data & Rebounds

Predict NCAA offensive rebound probability from player locations at shot release points using ShotQuality data.

8.88K viewsNikita Vasyukhin, 07:28