Самый масштабный набор данных в мире

We use cookies. Read the Privacy and Cookie Policy

Самый масштабный набор данных в мире

Решить вторую задачу – то есть разделить навыки и удачу – намного сложнее. Бейсбол выстроен таким образом, что в краткосрочной перспективе удача играет большую роль – даже лучшие команды проигрывают до трети матчей, и даже лучшие подающие не могут добраться до базы каждые три раза из пяти. Иногда удача не позволяет распознать подлинный уровень навыков игрока даже за целый год. Во время любого сезона бьющий, объективный результат которого 0,275, с вероятностью 10 % может добиться результата 0,300 и, соответственно, с той же вероятностью иметь результат 0,250. И это зависит только от одной лишь удачи{197}.

Хорошо продуманная система прогнозирования может оценить, какие статистические показатели сильнее зависят от удачи. Например, среднее количество попаданий битой по мячу более подвержено влиянию ошибок, чем количество хоумранов. Это особенно важно для питчеров[39], статистика которых невероятно непоследовательна. Если вы хотите предсказать, насколько успешной будет игра питчера, то вам стоит смотреть на количество страйкаутов[40] и уолков[41], а не на данные о его выигрышах и проигрышах в предыдущем сезоне, поскольку первый набор статистических данных выглядит более последовательным от года к году.

Как и при разработке любого прогноза, цель в данном случае состоит в выявлении основополагающей причины – выбивание в аут не позволяет отбивающим игрокам команды соперника добраться до базы, что, в свою очередь, не дает им получить дополнительные очки, а значит – и выиграть матч. Однако чем глубже вы копаете, тем больше шума окажется в системе: результаты питчера определяются не только качеством его ударов, но и факторами, которые он не в состоянии контролировать. Так, отличный питчер команды Seattle Mariners Феликс Эрнандес имел по итогам 2009 г. показатель выигрышей и поражений на уровне 19:5, а в 2010 г. этот показатель был 13:12 – и не потому, что Эрнандес плохо делал свою работу, а потому, что у Mariners’ в 2010 г. был на редкость неудачный состав подающих.

Подобные случаи происходят довольно часто, и если вы уделите изучению данных достаточно времени, то сможете найти их и сами. Пожалуй, именно бейсбол предлагает самый объемный массив данных в мире – практически все, происходившее на игровых полях основной лиги в течение последних 140 лет, скрупулезно и точно записывалось, а в крупных лигах играют сотни спортсменов. При этом, хотя бейсбол и считается командной игрой, матч строится в соответствии с четкой процедурой: питчеры по очереди сменяют друг друга, подающие «выходят к бите» один за другим. Поэтому игроки в значительной степени сами несут ответственность за свою личную статистику[42]. В игре возникает сравнительно немного проблем, связанных с чем-то комплексным и нелинейным. В ней просто выявить причинно-следственные связи.

Это значительно упрощает жизнь человеку, занимающемуся прогнозами в мире бейсбола. Гипотезы обычно можно проверить эмпирическим путем, что позволяет подтвердить или опровергнуть их с высокой степенью статистической достоверности. Что же касается прогнозирования в таких областях, как экономика или политика, где данные появляются значительно реже, – президентские выборы происходят один раз в четыре года, и нет возможности получать сотни новых данных ежегодно – вы не можете похвастаться столь же высокой степенью точности, и ваши прогнозы могут оказаться неверными значительно чаще.

Данный текст является ознакомительным фрагментом.