Выбрать главу

Добро пожаловать на темную сторону Больших данных.

Компоненты бомбы: что такое модель?

Стоял жаркий августовский день 1946 года. У Лу Бодро, играющего менеджера команды Cleveland Indians, было отвратительное настроение. В первой из двух игр, намеченных на этот день, Тед Уильямс практически в одиночку уничтожил команду Бодро. Уильямс, возможно лучший хиттер того времени, выбил три хоум-рана и еще довел восемь игроков до домашней базы. В итоге «Индейцы» проиграли со счетом 10:11.

Бодро нужно было что-то предпринять. Поэтому, как только Уильямс вышел на поле во второй игре, игроки «Индейцев» начали быстро перемещаться. Бодро, шорт-стоп, перебежал на место, где обычно стоял второй бейсмен, а второй бейсмен отошел на правый аутфилд, третий бейсмен сдвинулся влево, к месту шорт-стопа. Было очевидно, что Бодро (возможно, эта идея была продиктована отчаянием) полностью изменил расположение своей защиты, чтобы превратить хиты Теда Уильямса в ауты.

Другими словами, Бодро мыслил как специалист по анализу данных. Он проанализировал предварительные данные, по большей части на основе наблюдений: обычно Тед Уильямс делал подачу в правый аутфилд. Затем он предпринял меры – и они сработали. Игроки стали ловить больше мощных лайнеров Уильямса (хотя они по-прежнему ничего не могли сделать с хоум-ранами, пролетающими над их головами).

Если вы сегодня придете на бейсбольную игру высшей лиги, вы увидите, что защита относится практически к каждому игроку противника как к Теду Уильямсу. Если Бодро просто пронаблюдал за тем, куда Уильямс обычно направлял удар, то сейчас менеджеры точно знают, куда каждый игрок направлял удар в течение последней недели, за последний месяц, за всю карьеру, играя против левшей, в ситуации, когда у него было два страйка, и так далее и тому подобное. Используя эту собранную информацию, они могут проанализировать текущую ситуацию и рассчитать расстановку игроков, дающую наибольшую вероятность успеха. Иногда это включает в себя довольно-таки существенные перемещения игроков по полю.

Перенос защиты – лишь часть гораздо более серьезного вопроса: какие шаги могут предпринять бейсбольные команды для максимизации вероятности победы? В поисках ответа на этот вопрос специалисты по бейсбольной статистике изучили каждую переменную, которую смогли количественно измерить, и присвоили ей определенную ценность. Насколько дабл ценнее сингла? Когда, если вообще когда-либо, имеет смысл использовать сэкрифайс-бант для перемещения раннера с первой на вторую базу?

Ответы на все эти вопросы смешаны и объединены в математические модели этого спорта. В мире бейсбола существуют параллельные вселенные, и каждая из них представляет собой сложное вероятностное полотно. Они включат в себя каждое измеримое отношение между каждым спортивным компонентом, от уоков и хоум-ранов и до самих игроков. Цель модели – просчитать разные сценарии на каждой развилке и найти оптимальные комбинации. Если Yankees поставят питчера-правшу против сильного отбивающего Майка Траута из Angels, в сравнении с их текущим питчером – кто с большой вероятностью его выбьет? И как это повлияет на общую вероятность победы?

Бейсбол – идеальная база для предиктивного математического моделирования. Как писал Майкл Льюис в своем бестселлере Moneyball (2003)[1], этот спорт привлекал самых увлеченных аналитиков данных на протяжении всей его истории. В прошлом фанаты изучали статистику по оборотным сторонам бейсбольных карточек, анализируя закономерности хоум-ранов Карла Ястржемски или сравнивая общее количество страйк-аутов Роджера Клеменса и Дуайта Гудена. Но начиная с 1980-х годов за дело взялись серьезные специалисты по статистике – они начали разбираться, что же, собственно, означают все эти цифры вместе с огромным количеством новых данных: как именно они конвертируются в победы и как руководство команды может достичь максимального успеха при минимальных вложениях.

Сегодня термин moneyball («денежный мяч») служит условным обозначением любого статистического подхода в областях, где в течение долгого времени господствовала исключительно интуиция. Но пример бейсбола – это пример здорового анализа, который я привела для контраста с более токсичными примерами анализа, которые я считаю действием ОМП и которые появляются во все большем количестве областей нашей жизни. Бейсбольные модели справедливы, в частности, из-за своей прозрачности. Любой человек располагает доступом к статистике и может более или менее понять, как она интерпретируется. Да, конечно, модель одной команды может придавать больше ценности хоум-раннерам, в то время как другие могут их слегка недооценивать из-за того, что сильные отбивающие имеют тенденцию к большому количеству страйк-аутов. Но в любом случае информация о числе хоум-ранов и страйк-аутов доступна для всех интересующихся.

вернуться

1

Moneyball. Как математика изменила самую популярную спортивную лигу в мире / пер. Натальи Воронцовой. М.: Манн, Иванов и Фербер, 2013.