Cтавки на гольф. Плюсы и минусы модели Data Golf

Петр Кондаков

Гольф — один из самых сложных для прогнозирования видов спорт. Специалисты, разработавшие модель Data Golf, посвятили годы оттачиванию модели прогнозирования результатов в гольфе. Как использовать статистику для прогнозов на гольф? Расскажут эксперты БК Pinnacle.

На первый взгляд, прогнозировать результаты в таком виде спорта, как гольф, сложно: как правило, на игровых полях (то есть на полях для гольфа), которые могут существенно отличаться друг от друга в зависимости от турнира, соревнуются от 132 до 156 игроков. Если вы хотите эффективно прогнозировать результаты турниров по гольфу, с чего же следует начать?

По нашему мнению, ответ стоит искать в области статистического моделирования. Статистическая модель — это описание процесса, выполняемого с целью генерирования набора данных (например о результатах гольфиста).

В этой статье речь пойдет о простой модели прогнозирования результатов в гольфе и анализе значимости выводов, сделанных в процессе ее применения.

С чего стоит начать?

В гольфе важен не результат игрока, а эффективность его выступлений на том или ином поле. Считается, что показатель в 72 удара на турнире, где среднее количество ударов на поле составляет 74, на 4 пункта лучше показателя в 72 удара на поле, где среднее количество ударов — 70. Применить такую корректировку проблематично, особенно если два игрока не равны по силам (но этот момент мы пока проигнорируем).

Следующий шаг после корректировки результатов с учетом фактора поля предполагает описание процесса генерирования данных о результатах (то есть построение модели).

Начнем с предположения, которое значительно упростит нашу задачу. Итак, предположим, что результаты разных игроков в гольф на конкретном поле не зависят друг от друга, то есть на основании данных о результативности одного игрока нельзя судить о результативности другого.

Такой подход позволит разбить задачу по прогнозированию результатов на несколько более простых задач. Эти задачи заключаются в прогнозировании результата каждого гольфиста.

Далее определим уровень мастерства игрока, благодаря которому он может в каждый конкретный момент времени показывать средний гипотетический результат в рамках бесконечно повторяемого раунда игры в гольф. Например, уровень квалификации Тайгера Вудса на турнире Genesis Open — это средний результат, продемонстрированный им на полях Riviera Country Club в рамках бесконечно большой выборки раундов. Значение этой величины узнать невозможно, но ее можно использовать как инструмент.

Со временем в результатах игроков в гольф происходят довольно большие вариации. Их формирование зависит от двух факторов: изменения уровня мастерства гольфиста и остаточного фактора, включающего все остальные аспекты, которые влияют на результаты. Последний можно отнести к случайным или, в зависимости от ваших философских убеждений, вариациям, вызванным влиянием ненаблюдаемых переменных.

В отдельно взятый день результат игрока может зависеть от суммарного влияния его мастерства и ненаблюдаемых переменных. Например, результат Тайгера Вудса в 65 ударов в третьем раунде Genesis Open был на шесть ударов лучше среднего показателя для этого конкретного поля. В нашей модели этот результат можно представить как сумму влияния мастерства Вудса (пусть его показатель результативности на два пункта выше среднего значения по полю) и положительного непредсказуемого исхода четырех ударов.

На завершающем этапе построения модели введем последнее упрощающее предположение. С течением времени уровень квалификации игроков в гольф стабилизируется и становится фиксированным. Если игрок обладает четко определенным мастерством, то все вариации его результатов можно считать случайными.

Основа построения модели прогнозирования гольфа

Только что полностью (хотя и произвольно) мы задали параметры для статистической модели, описывающей процесс генерирования данных о результатах турниров по гольфу. Итак, три утверждения, которые составляют основу этой модели.

Каждый игрок в гольф обладает определенным уровнем мастерства.
Результат каждого игрока, показанный им на конкретно взятом поле в определенный день — суммарный результат влияния его мастерства и случайных вариаций.
Результаты игроков, показанные ими на том или ином конкретном поле, не зависят друг от друга.

Все итоги турнира (победа, прохождение квалификации) — это детерминированные функции величины результата каждого игрока на том или ином конкретном поле. Модель позволяет получить описание любого результата в выбранном по нашему желанию турнире по гольфу.

Эта базовая модель предоставляет надежную основу для размышлений о результатах игры в гольф.

Важность размера выборки

Логически обоснованный первый шаг к использованию этой модели — это попытка оценить мастерство игроков. Предположим, что у нас есть выборка данных о результатах прошлых выступлений одного конкретного гольфиста. Если эта выборка достаточно большая, то средний показатель результативности, определенный на ее основании, можно соотнести с уровнем мастерства этого игрока. Но выборку какого размера можно считать достаточной?

Эмпирически удалось выявить, что величина среднеквадратического отклонения результатов этого игрока — примерно 2,75 удара. Если исходить из предположения, что распределение подчиняется нормальному закону, то для 68% результатов оно будет находиться в пределах величины 2,75 от среднего значения, а для 95% – в пределах 5,5. Используя базовую статистическую теорию, можно в некоторой степени быть уверенным в том, что для выборки данных о 100 раундах среднее значение будет находиться в пределах 0,275 удара от показателя уровня мастерства.

Стоит обратить внимание на тот факт, что разница в средних показателях результативности за сезон игроков, занимающих в мировом рейтинге 50-е и 100-е места, составляет менее половины удара. Это подводит нас к основному практическому выводу, связанному с применением модели: чтобы сделать достойные внимания выводы об уровне мастерства, нужно опираться на выборки данных о прошлых выступлениях больших размеров.

В соответствии с этой моделью различия в результатах гольфистов, продемонстрированных ими в отдельно взятую неделю, месяц или даже год, в основном обусловлены случайностями. Чтобы иметь возможность с уверенностью считать, что разница в уровнях мастерства двух гольфистов в пределах 0,5 удара, нужно проанализировать данные не менее 100 раундов.

Прийти к такому выводу можно только благодаря предположениям, включенным в алгоритм нашей модели. Но данные, полученные в результате применения этой модели, могут оказаться ошибочными. Вполне возможно, что с течением времени уровень мастерства игрока остается нестабильным. Что на разных полях для гольфа игроки также не будут демонстрировать одни и те же результаты. Поэтому те факторы, которые мы довольно пренебрежительно назвали «ненаблюдаемыми переменными», на самом деле могут оказаться вполне наблюдаемыми.

Определенный уровень мастерства или склонность к игре на конкретном поле?

Если считать, что игроки в гольф обладают определенным уровнем мастерства, то различия в показателях их результативности на разных полях — следствие влияния случайных вариаций, но в модели, учитывающей склонность гольфистов к игре на конкретном поле, это расхождение в результатах по крайней мере частично отражает различия в мастерстве.

Это не просто разница. То, насколько вы верите, что различия в показателях результативности игроков на разных полях обусловлены реально существующими различиями в их мастерстве, в отличие от случайных колебаний, оказывает огромное воздействие на то, как вы будете оценивать уровень мастерства этих игроков. В конечном счете это влияет на ваши прогнозы.

Чем больше роль случайных вариаций, тем больше должна быть выборка, на основании которой вы сможете дать точную оценку мастерства. Если уровень мастерства четко определен, тогда все вариации в результатах гольфиста случайны, следовательно, для усреднения дисперсии потребуется очень большая выборка данных о результативности.

Но поскольку большая часть наблюдаемых вариаций обусловлена склонностью гольфистов к игре на том или ином поле, возможно, что для получения обоснованных оценок подобной склонности нужны будут данные о всего нескольких раундах игры на соответствующем поле.

Какая модель больше всего приближена к реальности? Если не обращаться к формальному анализу данных, то достоверным будет утверждение о том, что генерирование данных о результатах игры проходит в рамках процесса, который ближе к модели определенного уровня мастерства, чем к модели, в основе которой идея о том, что уровни мастерства игроков подвержены частым колебаниям.

Вернемся к примеру, связанному со склонностью гольфистов к игре на конкретном поле. Обратите внимание на то, что в масштабах игры на одном и том же поле количество вариаций в результатах гольфиста ненамного меньше числа вариаций, фиксируемых в результатах этого игрока в раундах, сыгранных в целом на всех полях.

Это свидетельство того, что при определении результатов выступлений игроков по-прежнему следует учитывать ряд различных факторов, не говоря уже о том, что их показатели могут варьироваться в зависимости от поля. И это подразумевает следующий вывод: для понимания степени варьирования результатов гольфистов на разных полях требуются более обширные выборки данных.

Тренд выживания в гольфе

В целом, с точки зрения статистики, очень трудно объяснить наличие огромного количества вариаций в результатах игроков в влиянием наблюдаемых факторов (это факторы, о существовании которых было известно до начала турнира).

С другой стороны, не противоречит ли модель, основанная на предположении об определенном уровне мастерства игроков, некоторым вызывающим недоумение закономерностям, наблюдаемым в существующих массивах данных?

Например, недавно Тони Финау в четвертый раз подряд не смог пройти отборочный тур Phoenix Open PGA Tour. Убедительное ли это доказательство того, что именно на полях TPC Scottsdale уровень мастерства Финау опускается до низшей отметки? Возможно, но если модель, построенная на принципе определенного уровня мастерства, верна, то закономерности, подобные этой, все равно обнаружились бы.

Здесь та же логикой, что и в случае с трендом выживания, распространенным в среде капперов. Даже если вероятность того, что игрок уровня Финау четыре раза подряд не сможет пройти отборочный тур, составляет 1 к 500, то с учетом всех возможных комбинаций полей для гольфа и игроков (которых насчитывается тысячи) можно ожидать, что в течение нескольких сезонов PGA Tour лишь одно событие из 500 будет происходить довольно часто.

Концентрация внимания на одном или двух примерах и игнорирование при этом остальных примеров не позволит вам получить полное представление о разнице в результатах гольфистов на разных полях.

Построение простой модели прогнозирования гольфа

Модель, о которой мы говорим, упрощает понимание различных способов анализа результатов игры. Хотя обе модели (модель, основанная на принципе определенного уровня мастерства, и модель, в основу которой заложена идея о склонности гольфистов к игре на конкретном поле) основаны на совершенно разных системах знаний, их можно проанализировать, используя одну и ту же методику, что позволит выявить их недостатки и преимущества.

Чем меньше измерений, на основании которых можно определить границы вариации уровней мастерства игроков, тем больше данных потребуется для оценки. Например, для оценки уровня мастерства игрока в гольф, демонстрируемого им на каждом поле турнира PGA Tour, нам в большинстве случаев будут доступны данные только для 5–10 раундов.

И наоборот, для оценки определенного уровня мастерства каждого гольфиста можно использовать все существующие данные. Ни одна из представленных систем не может считаться лучше другой. Эффективность модели, основанной на принципе определенного уровня мастерства, будет тем выше, чем большую роль играют случайные вариации в процессе определения результатов.

Наш подход к пониманию результатов более тесно связан с моделью определенного уровня мастерства. Хотя эта модель очевидно «ошибочна», тот факт, что с ее помощью можно прогнозировать закономерности в результатах игры в гольф, впечатляет.

Основной практический вывод, который можно вынести, согласившись с предположением, что модель, построенная на принципе определенного уровня мастерства, позволяет дать достаточно близкую к реальности оценку игры гольфиста, в том, что в таком случае очень легко оказаться «одураченным случайностью».

Конкурс на матч Греция - Казахстан. Призовой фонд 60000 тенге!