Разбежка по xG в 50%. Почему лгут сайты с продвинутой статистикой

25.12.2021 • 10:02
Разбежка по xG в 50%. Почему лгут сайты с продвинутой статистикой

Поставщики статистики, такие как Opta или InStat, безошибочно фиксируют тип действия на поле, например, не путают отбор с обводкой. Но когда дело доходит до более подробного анализа, начинаются проблемы. Особенно страдает модель xG.

Что такое xG

Для демонстрации расхождений обычным пользователям нужно было отметить место, откуда был забит гол — стандартная работа аналитика. Методики Wyscout и InStat засекречены, но скорее всего, один специалист ставит точку на макете поля во время просмотра видео.

Нужно было оценить три гола: гол поляков Сенегалу на ЧМ-2018, гол Триппьера со штрафного в полуфинале и гол команды «Сент-Чарльз» из студенческой лиги.

Крыховяк забивает Сенегалу.

Триппьер забивает Хорватии.

Гол «Сент-Чарльза».

После обработки данных остались 119 точек для гола Польши, 35 — для гола Англии и 26 — для «Сент-Чарльза». Хотя настоящая точка неизвестна, исследователи предположили, что толпа была достаточно мудра и среднее значение измерений наиболее близко к истине.

удары гугл опрос

Разбежка оказалась внушительной. Для гола Польши она в среднем составляла 1,39 метра, для гола Англии — 1,66 метра, а для гола «Сент-Чарльза» — 3,35 метра (!!!).

гугл опрос удары по воротам

Мы перевели погрешности в модель ожидаемых голов. Для первого гола xG составил диапазон от 0,050 до 0,281, для второго 00 от 0,058 до 0,094, для третьего — от 0,030 до 0,588 (то есть от 3 до почти 60 процентов).

Поскольку для модели xG наиболее важный показатель являлось — логарифмическое расстояние до ворот, даже небольшая разница в измерениях приводила к колоссальной вариации в опасности удара. Особенно отчетливо это заметно, если удар наносился с близкого расстояния. Например, для голов Польши и Англии средняя погрешность в определении позиции удара приблизительно одинаковая, но в xG разница оказалась громадной. Полутораметровая погрешность на границе вратарской гораздо весомее, чем полутораметровая погрешность в 30 метрах от ворот.

В случае с «Сент-Чарльзом» вариация xG колоссальная. Низкое качество видео и плохой угол обзора усложнили задачу. Треть пользователей решила, что был автогол. Эта проблема неактуальна для топ-лига с HD-картинкой, но для минора надо держать в голове человеческий фактор.

На дистанции такие неточности более-менее сглаживаются, но на коротком отрезке ошибки чувствительны. Предположим, игрок забил 3 подобных гола в одной игре, сумма xG его ударов от 0,138 до 0,963, что неминуемо приведет к ложным выводам.

Были изучены данные по ЧМ-2018 четырех поставщиков футбольной статистики. Их цифры сравнили с данными, которые выдали обычные пользователи. И если для гола Польши в трех из четырех случаев данные более-менее сошлись, то вот с голом Англии наблюдалась большая разбежка.

4 поставщика статистики

Рандомно рассмотрели другие голы. В целом данные разных поставщиков сходились, но были некоторые голы, где не было компромисса даже по поводу автора мяча.  В 30% от просмотренных 45 голов разбежка между 4 поставщиками данных была более 5 метров. Если такая вариативность наблюдается на чемпионате мира, то что говорить о лигах второго порядка.

поставщики статистики гугл

Наконец, сравнили, как две статистические фирмы оценили 1313 ударов по воротам на ЧМ-2018. Компания B глобально оценивала дистанцию до ворот, как более далекую, чем компания A. И показатели xG от поставщика B были ниже, чем у поставщика A.

20+ сервисов успешного футбольного беттора (редакция 2019)

К статистике, пока не исключен человеческий фактор, нужно относится критично. Особенно к xG, чья концепция спорна сама по себе. Как говорил аналитик футбольного клуба «Торонто»: «Это дерьмовая метрика, но как основа она хороша».

Переведено с сайта americansocceranalysis.com

Нашли ошибку? Сообщите нам

Ваша почта для ответа (необязательно):

Комментарии (0)