Разбежка по xG в 50%. Почему лгут сайты с продвинутой статистикой
Поставщики статистики, такие как Opta или InStat, безошибочно фиксируют тип действия на поле, например, не путают отбор с обводкой. Но когда дело доходит до более подробного анализа, начинаются проблемы. Особенно страдает модель xG.
Что такое xG
Для демонстрации расхождений обычным пользователям нужно было отметить место, откуда был забит гол — стандартная работа аналитика. Методики Wyscout и InStat засекречены, но скорее всего, один специалист ставит точку на макете поля во время просмотра видео.
Нужно было оценить три гола: гол поляков Сенегалу на ЧМ-2018, гол Триппьера со штрафного в полуфинале и гол команды «Сент-Чарльз» из студенческой лиги.
Крыховяк забивает Сенегалу.
Триппьер забивает Хорватии.
Гол «Сент-Чарльза».
После обработки данных остались 119 точек для гола Польши, 35 — для гола Англии и 26 — для «Сент-Чарльза». Хотя настоящая точка неизвестна, исследователи предположили, что толпа была достаточно мудра и среднее значение измерений наиболее близко к истине.
Разбежка оказалась внушительной. Для гола Польши она в среднем составляла 1,39 метра, для гола Англии — 1,66 метра, а для гола «Сент-Чарльза» — 3,35 метра (!!!).
Мы перевели погрешности в модель ожидаемых голов. Для первого гола xG составил диапазон от 0,050 до 0,281, для второго 00 от 0,058 до 0,094, для третьего — от 0,030 до 0,588 (то есть от 3 до почти 60 процентов).
Поскольку для модели xG наиболее важный показатель являлось — логарифмическое расстояние до ворот, даже небольшая разница в измерениях приводила к колоссальной вариации в опасности удара. Особенно отчетливо это заметно, если удар наносился с близкого расстояния. Например, для голов Польши и Англии средняя погрешность в определении позиции удара приблизительно одинаковая, но в xG разница оказалась громадной. Полутораметровая погрешность на границе вратарской гораздо весомее, чем полутораметровая погрешность в 30 метрах от ворот.
В случае с «Сент-Чарльзом» вариация xG колоссальная. Низкое качество видео и плохой угол обзора усложнили задачу. Треть пользователей решила, что был автогол. Эта проблема неактуальна для топ-лига с HD-картинкой, но для минора надо держать в голове человеческий фактор.
На дистанции такие неточности более-менее сглаживаются, но на коротком отрезке ошибки чувствительны. Предположим, игрок забил 3 подобных гола в одной игре, сумма xG его ударов от 0,138 до 0,963, что неминуемо приведет к ложным выводам.
Были изучены данные по ЧМ-2018 четырех поставщиков футбольной статистики. Их цифры сравнили с данными, которые выдали обычные пользователи. И если для гола Польши в трех из четырех случаев данные более-менее сошлись, то вот с голом Англии наблюдалась большая разбежка.
Рандомно рассмотрели другие голы. В целом данные разных поставщиков сходились, но были некоторые голы, где не было компромисса даже по поводу автора мяча. В 30% от просмотренных 45 голов разбежка между 4 поставщиками данных была более 5 метров. Если такая вариативность наблюдается на чемпионате мира, то что говорить о лигах второго порядка.
Наконец, сравнили, как две статистические фирмы оценили 1313 ударов по воротам на ЧМ-2018. Компания B глобально оценивала дистанцию до ворот, как более далекую, чем компания A. И показатели xG от поставщика B были ниже, чем у поставщика A.
20+ сервисов успешного футбольного беттора (редакция 2019)
К статистике, пока не исключен человеческий фактор, нужно относится критично. Особенно к xG, чья концепция спорна сама по себе. Как говорил аналитик футбольного клуба «Торонто»: «Это дерьмовая метрика, но как основа она хороша».
Переведено с сайта americansocceranalysis.com
Нашли ошибку? Сообщите нам
Комментарии (0)