Blocknote
8.4K subscribers
1.17K photos
136 videos
23 files
1.69K links
"Если ты в меньшинстве - или даже в единственном числе - это не значит, что ты безумен". Для связи: @nikitarfs
Download Telegram
В последнее время начались несколько соревнований на баскетбольных данных. Я решил сделать небольшой обзор. Призами они не балуют, так что это скорее занятие для энтузиастов спортивной статистики.

1. Первое соревнование на главной площадке для ML-соревнований, kaggle. Нужно предсказать вероятность подбора в нападении после броска. Решение это просто csv-файл с двумя столбцами: id броска и вероятность подбора в нападении. Метрика — Logloss, которая сильнее чем RMSE штрафует за сильные промахи в прогнозе. В данных есть информация о командах и координаты всех 10 игроков на площадке в момент броска. Когда сыграны эти матчи напрямую не сказано, а сам я не разбирался можно ли ту информацию восстановить. Если нет, то конкурс более-менее бессмыслен, просто координаты игроков на площадке без контекста розыгрыша и без информации об игроках на площадке упускают слишком много информации. У меня прошлым летом была обратная идея, попробовать посчитать вероятность подбора в нападении используя по максимуму информацию о броске, розыгрыше и игроках на площадке без конкретных координат самих игроков, только координаты броска. Может я рано забросил, но первые результаты были очень плохими.
Вообще довольно странное соревнование, вкупе с не очень хорошей репутацией ShotQuality в сообществе (есть вопросы к качеству их модели оценки бросков, а также работе с данными) и слабеньким призом (годовая подписка на SQ) привели к тому, что на вечер понедельника в нём участвует 4 команды. Зато всего 20 мегабайт данных, не нужно будет скачивать терабайты картинок.

Kaggle: https://www.kaggle.com/competitions/shotquality-rebounding
Твит о соревновании: https://twitter.com/Shot_Quality/status/1671175892377403392

Ещё два соревнования проводит DeepSportRadar в рамках воркшопа ACM MMSports 2023, площадка конкурсов eval.ai, призовые 1000 долларов (в каждом) и возможность сделать статью для публикации. Данные предоставлены Sportradar и Synergy Sports.

2. Сегментация игроков (а также тренеров и судей) на площадке.
В этом году основной упор делается на решение проблемы окклюзии. Я слаб в CV, но как понимаю нужно хорошо решать проблему перекрытия, когда игрок на изображении как бы разделен на несколько частей другим игроком или игрокам, которые находятся ближе к камере. Результат считается по Occlusion Metric, описание есть в репозитории соревнования. Для самих изображений есть аннотации в COCO формате. Набор небольшой, около 300 изображений и, как я понял, его нельзя обогащать.
Страница соревнования: https://eval.ai/web/challenges/challenge-page/2070/overview
Github: https://github.com/DeepSportradar/instance-segmentation-challenge
Датасет: https://www.kaggle.com/datasets/deepsportradar/basketball-instants-dataset
Paper https://arxiv.org/abs/2209.13899 и код https://github.com/YJingyu/Instanc_Segmentation_Pro решения прошлогоднего победителя

3. Реидентификация игроков.
Здесь предоставлены несколько последовательных кадров игровых моментов и нужно идентифицировать игрока с первого кадра на остальных (как я понял). Метрикой является mAP(https://ml.i-neti.ru/map-mean-average-precision/). Тут я к сожалению понимаю ещё меньше, чем в сегментации, так что описание ограничится набором ссылок.
Страница соревнования: https://eval.ai/web/challenges/challenge-page/2076/overview
Github: https://github.com/DeepSportradar/player-reidentification-challenge/tree/master
Paper https://arxiv.org/abs/2303.11855 и код https://github.com/DeepSportradar/2022-winners-player-reidentification-challenge прошлогоднего победителя (mAP 0.9844).

#basketball #kaggle #mlcompetition #cv
Ситуация с возможным изменением правила офсайда (как будто бы в пользу атаки) может привести немного не к тем последствиям, которые ожидают реформаторы из ФИФА. Повсеместное введение ВАРа несколько лет назад сподвигнуло все больше команд играть агрессивнее и поднимать линию обороны — изменился баланс risk-reward, т.к. раньше ты получал меньше выгод от высокой линии из-за более высокой вероятности, что боковой не увидит офсайд при передаче за спину.

Сейчас же, меняя правило, явно ожидают, что это приведет к повышению результативности: проблема в том, что это может наоборот сподвигнуть большинство команд обороняться ниже, чем сейчас — станет еще сложнее ловить условного Мбаппе, если у него будет легальное преимущество почти в корпус перед защитником. Оборона с высокой линией просто не будет нести такой выгоды, как сейчас — баланс сместится в сторону более осторожного стиля. Таким образом, это может привести не к повышению результативности, а равно наоборот. Как говорил классик: "Я бы не стал ничего менять в правилах. Изменения в них могут привести к непредсказуемым результатам — всегда всплывёт то, о чём вы вообще не думали, внося поправки".
Как-то попадались на глаза отчеты франкфуртского Айнтрахта и говорил с людьми из их аналитического отдела: в качестве одной из метрик тогда они использовали обычное чистое время (ball in play), и если, например, в матчах будущих соперников мяч в игре в среднем был мало, то давали рекомендацию ускорять ввод с аутов, штрафных etc. И тогда, и сейчас это кажется спорной идеей — если в матчах команды низкое чистое время, то это не означает, что они умышленно затягивают и обязательно уязвимы к более быстрым рестартам (но в целом подобная рекомендация может иметь место чисто по видеоанализу — с технической картинки хорошо видно, когда определенная часть состава стабильно теряет концентрацию на лишние несколько секунд, отворачиваясь от мяча, поправляя гетры или просто с запозданиям реагируя на ввод).

Например, в последнем сезоне АПЛ (на картинке) топ-2 команды по затяжке времени перед вводом мяча из аута были Брентфорд и Саутгемптон. По совместительству эти же две команды (особенно первые с отрывом) чаще остальных использовали ауты в чужой трети как полноценные стандарты, совершая длинный бросок. Понятно, что подготовка к такому ауту занимает больше времени — обычно на него приходит минимум один ЦЗ команды атаки, а бросающий еще тратит время на вытирание мяча, — это негативно влияет на чистое время, но совершенно не значит, что команда умышленно его убивает и будет уязвима к более быстрым рестартам.

Когда сейчас, при наличие эвент-фидов, можно разбивать затяжки на типы (перед угловыми, аутами, ударами по воротам и тд), это может дать куда больше инсайтов. Например, можно сопоставлять сколько моментов (как-то нормировать на число вводов) команда допускает после более быстрых возобновлений (каких-то бенчмарков нет — это все можно устанавливать самостоятельно) со стороны соперника, а сколько наоборот — создает после своих быстрых вводов. И здесь картина уже будет более точная, чем если смотреть на общий ball in play.
Мысль Пепа правильная, но конкретно для топ-команд, которые работают на рынке элитных игроков с зарплатой чистыми 3+ в год — в целом по уровню Мареза готовых игроков Сити может рассмотреть не больше десятка, и никто из них полностью не имеет такой же набор качеств. Но если речь про игроков в зарплатном диапазоне 100к — 1 млн, то разнообразные similarity scores могут иметь смысл, т.к. в этих группах игроков сотни и много примеров сильно похожих.
Ни к чему хорошему изменения, описанные в статье, не приведут. Если требования по желтым за несогласия с решениями и любые апелляции в сторону арбитра реально будут выполняться, то на первых порах увидим большое количество дополнительных желтых, что в свою очередь будет приводить к глупым удалениям.

В чрезмерном добавленном времени тоже не вижу ничего хорошего — не столько из-за дополнительной нагрузки (хотя расписание и так перегружено, и люди, отвечающие за здоровье игроков, уже бьют тревогу), сколько даже из-за возрастающей неопределенности, т.к. регулирование затяжек внутри возросшего добавленного времени все равно будет зависеть от человеческого фактора. Непонятно, зачем идти на такие меры, чтобы поднять среднее "мяч в игре" с 55 минут до условно 60, если можно просто ввести чистое время — два тайма по 30 минут с ограничениями по времени на ввод мяча после сигнала арбитра, а если за условно 10 секунд (можно регулировать в зависимости от типа рестарта — например, на удар от ворот давать больше времени) после свистка не ввел мяч, то владение переходит к сопернику.
На мой взгляд, пока лучший футбольный подкаст в этом году. Много инсайтов и про разнообразные упражнения, и про эволюцию игровых принципов Ливерпуля. Больше всего мне понравился момент, где Линдерс говорит о связи потери Фирмино с тем, что Трент на постоянной основе стал смещаться в середину в развитии атак.


https://podcasts.apple.com/us/podcast/training-ground-guru-podcast/id1458881321?i=1000624693321
Media is too big
VIEW IN TELEGRAM
Прекрасное нововведение в MNF с этого сезона — возможность смотреть на эпизод глазами игрока в каждый момент времени (очень важно при оценке их решений — порой забывается, что сверху все смотрится совсем иначе по сравнению с тем, как игрок оценивает внутри эпизода). Пока это позволяет более аргументировано вести споры — проходила передача или нет, видел ли игрок опцию для передачи или открывания и тд. В целом интересно, будет ли в будущем провайдер лиги отдавать сырые данные — например, скорость реакции игрока на изменение в эпизоде или частоту, с которой игрок сканирует пространство вокруг себя — это было бы действительно революционно.
Когда-то была инфа, что Пеп интересовался Адама Траоре — атлетичным быстрым вингером, который шел в обводку при каждом подходящем (и не подходящем) случае; очень сырой материал, который можно было довести до ума. В Сити в лице Доку он получает игрока с такими же качествами, но который лучше комбинирует и уже сейчас лучше принимает решения и оказывает сильно больше позитивного влияния на владения команды за счет передач после ведений и дриблинга. То что у Доку и Черки нон-шот выше, чем у Месси не говорит о том, что на текущий момент это сопоставимые игроки в плане влияния на команду — они в целом сыграли значительно меньше, чем Лео + Месси все минуты в прошлом сезоне провел со старта, Доку почти 30% получил с замены, у Черки чуть больше 12%, и эффект запасного прилично завысил их результаты, — но однозначно заставляет обратить на них внимание.

Наверняка со временем в Сити число его попыток дриблинга несколько уменьшится — в данном случае больше не означает лучше, и ему объяснят, что обыгрывать стоит только в подготовленных ситуациях и иногда лучше сыграть на сохранение, продолжив раскачивать схему соперника.

Что вызывает опасения (относительно заплаченных денег) — это его история травм, из-за которых за последние два сезона он суммарно в чемпионате не сыграл и 2000 минут — причем выглядит она так, что на нем буквально нет живого места.
Интересно, насколько это эффективный инструмент и способный в реальности заменять ручной видеоанализ. Приведенные в оригинале эпизоды (https://theathletic.com/4845473/2023/09/11/barcelona-ai-kognia-xavi/) пока не особо убеждают, но в теории обученная нейросеть с учителем была бы прорывом, если бы смогли идентифицировать, группировать, нарезать и делать выводы по ключевым эпизодам — это реально сократило бы время анализа в десятки раз. Большой прорыв был бы и в селекции — если сеть может обрабатывать тысячи матчей в неделю, сильно снижая финальный объем для человеческого взгляда.
Есть дискуссия на тему, что Пеп имел в виду, говоря о первом касании Нунеша (https://www.90min.com/posts/pep-guardiola-makes-brutal-admission-matheus-nunes) — тут необходимо смотреть на текст целиком. Ключевые цитаты: "I think he has to improve in the first contact and decisions with one touch. I think it's not precise enough. Try with the ball like Kevin [De Bruyne]. His energy, The quality is so difficult to find. He will learn to be more precise in simple things. In time he will learn to be more precise in the simple things, the first touch and first pass. With the way we're training and dynamic that we have, he will get it."

По мне, речь не о том, что Нунеш недостаточно хорош технически, и Пеп ожидает, что 25-ти летний игрок внезапно доведет качество первого касания до уровня основного состава. Он достаточно хорош технически — иначе Сити не рассматривал бы его в полузащиту, где у них наивысшие требования к техническим характеристикам. Думаю, что имеются в виду решения с мячом и необходимость адаптироваться к игровым принципам — в какую сторону делать первое касание в разных ситуациях; количество касаний перед тем, как избавиться от мяча (через тренировки в Сити он должен заиграть в более быстром темпе, чем в Вулвз); не ускорять игру, как он привык до этого, если структурно команда не готова к этому, и сделать несколько промежуточных передач, пока партнеры не расставятся (пресловутое правило 15 передач).

Адаптироваться ему нужно как можно скорее — учитывая дисквалификацию Родри, вполне возможно, что в ближайшей игре чемпионата Нунешу придется сыграть в более требовательной к этим принципам позиции опорника у Сити. Это не его натуральная позиция, но если Филлипс неубедительно сыграет посреди недели на кубок, то придется искать варианты.
Не новость, что Атлетико стал заметно лучше в начале и развитии атак в этом календарном году, но теперь Симеоне создал совсем уж учебный пример для книг — как верхней пятеркой за счет латераллей в широких позициях переиграть узкую схему (4+3). Реал оборонялся четверкой защитников и тройкой полузащитников во второй линии — тройки недостаточно, чтобы своевременно перемещаться при разворотах игры соперников и покрывать всю ширину поля. Соответственно а) хав из тройки (условный Вальверде) не успевал во время перебегать во фланг и фулбек не выдвигался, и тогда Лино оказывался свободным в широкой точке, мог вытаскивать мяч на ведении и имел много времени, чтобы подготовить передачу в штрафную; б) на латералля во фланг высоко выдвигался крайний защитник Реала, но тогда у него за спиной образовывалась зона, которую атакует один из центральных хавов или Гризманн (в зависимости от стороны), и условный Лино легко его пропасовывал; в) даже если в зону за крайним защитником не ныряет никто из партнеров, Лино остается 1 в 1 с защитником — в целом комфортная для него ситуация.

Матч, по сути, был выигран по этому алгоритму. Лино успешно осваивается в роли замены Карраско (в прошлом сезоне лучшего дриблера команды, лидера по входам в штрафную и нон-шоту, набранному за счету ведения) — не такой быстрый и сильный 1 в 1 (но безусловно способный стабильно обыгрывать и создавать после дриблинга), но хорошо пасующий с двух ног, по виду меньше передерживающий мяч, своевременно от него избавляется и редко заигрывается. Практически все свои эпизоды с Реалом сыграл правильно — не только атаки, которые закончились голами. Когда пересматриваешь все его действия, сильно бросается в глаза, как хорошо он читает ситуации, когда надо идти на дальнюю штангу (если мяч на противоположном фланге в последней трети) и достаточно агрессивно ее закрывает. Пока его достаточно часто игнорировали в этих моментах, но он продолжал туда идти (что выглядит правильным) — думаю, немало голов в будущем увидем от него в таких ситуациях, если продолжит в той же манере.
Бонусом — его диаграмма в лиге за прошлый сезон (вингеры 1500+).
Forwarded from Fit Predict
Наша статья "Ratings of European and South American Football Leagues based on Glicko-2 with Modifications" была принята конференцией International Conference on Machine Learning and Data Mining for Sports Analytics.

Другая работа "Evaluating of Football Player 1v1 Abilities based on the Glicko-2 with Modifications" была принята на воркшоп The international sports analytics conference and exhibition.

Сами статьи будут опубликованы немного позднее. Код по первой статье уже лежит на гитхабе. Добавил ноутбук QuickStart.ipynb с простыми примерами для тех, кто совсем новичок в рейтинговых системах.


https://github.com/andreyshelopugin/GlickoSoccer
Наткнулся на исторический факт, которому пока не нашел объяснение — в сезоне-2004/05 в АПЛ значительно упал процент реализации пенальти. И это нельзя назвать случайностью — годами до этого он держался на уровне минимум 0.9, а с тех пор не потрогал даже 0.85. Так же интересно наложить график реализации в АПЛ на Бундеслигу, где такого тренда не было — на всем тридцатилетнем отрезке реализация примерно одинаковое число раз сходила вверх и вниз относительно среднего значения. Объяснить это изменением в скилле бьющих, по мне, малореально. Может быть появились первые централизованные базы с видео, что улучшило подготовку вратарей? Подходит плохо — почему такой же динамики не было в Бундеслиге? Вероятнее всего дело в каких-то изменениях в правилах внутри конкретно АПЛ, но сложно сказать каких именно.

UPD. вышло как обычно: если мусор на входе, то и мусор на выходе — стоило перепроверить данные в других источниках. Если посмотреть на официальные данные (https://www.premierleague.com/news/846226), то ни о какой аномалии речи нет. Еще мне несколько раз прислали другой источник (https://www.myfootballfacts.com/premier-league/all-time-premier-league/premier-league-penalty-statistics/) — там данные совпадают с официальным сайтом АПЛ только с сезона-2009/10, а до этого есть расхождения (в 90-е годы даже значительнее). Непонятно, в чем проблема нормально собрать такую простую дату.
Пайшао ярко играл свои отрезки в лиге в чемпионском сезона Фейеноорда (но при этом не был железно основным, как в этом сезоне) — сочетал хороший пас, создание моментов, комбинационные решения, дриблинг, много и хорошо завершал. Но каждый сезон полно вингеров в голландском чемпионате, кто выделяется во всех этих компонентах — тактические особенности лиги позволяют им выделяться, но потом единицы переносят эти результаты на более высокий уровень (хотя годами было много переходов наверх). И как будто бы уже моветон за большие деньги подписывать вингеров из Голландии.

Весь Фейеноорд смотрелся здорово и длинными отрезками переигрывал Атлетико (тот же Стенгс сыграл прилично сильно, но это уже давно известная фигура), но для Пайшао это был отличный тест на высоком уровне — вероятно, сильнейший противник в его карьере. В целом цельный перформанс, но с яркими эпизодами — отличное первое касание на непростых мячах, пара хороших ударов, несколько острых передач. На фоне очень сильного соперника показал свои лучшие качества, причем сыграв разнообразно —Фейеноорд, как и до этого АЗ у Слота, играет с вингерами в широких точках, но один из лучших моментов Пайшао создал как раз из середины.