Выбрать главу

За 60 минут основного времени в среднем были забиты 5,2 шайбы. Рисунок 1.3 показывает гистограмму количества голов в 720 сыгранных играх сезона. Сплошная линия – соответствующее распределение Пуассона.

Более высокое среднее число голов смещает пик в гистограмме вправо, но симуляция снова соответствует данным. Данные и модель практически не отличаются, и небольшое расхождение в матчах с четырьмя забитыми шайбами может объясняться колебаниями от одного сезона к другому[5]. В хоккее голы забиваются чаще, но ровно так же случайно, как и в футболе.

Те, кого лягнула лошадь

Если вы станете мыслить категориями моделирования случайных процессов и распределения Пуассона, то вы будете видеть их повсюду. Если вы изучаете статистику в университете, лучшая (и единственная) шутка лектора заключается в том, что прибытие автобуса также попадает под распределение Пуассона. Автобусная компания отправляет транспорт по расписанию, но на его путь влияет множество различных факторов: старик слишком долго заходит в автобус или велосипедист занял полосу для движения автобусов. Еще один классический пример – количество ламп накаливания, которое вам приходится менять в доме ежегодно. Каждый раз, когда вы включаете свет, есть маленький шанс того, что элемент перегорит. Суммируйте все подобные случаи, и вы получите распределение Пуассона.

Это распределение было названо в честь Симеона Дени Пуассона – француза, который первым описал это явление в начале XIX века. Однако его работа делала акцент на математические уравнения, лежащие в основе распределения, не рассматривая его использование для моделирования на практике. В том смысле, в котором использую его я, распределение применял поляк Ладислав Борткевич, который работал в Германии в 1898 году[6]. Он исследовал два набора данных. Первым был набор жутких статистических данных за 24 года о самоубийствах детей в возрасте до десяти лет. Второй (лишь немногим менее шокирующий) касался солдат, которые умерли после того, как их случайно лягнула или иным образом ударила лошадь. Борткевич в течение двадцати лет изучал по четырнадцать полков ежегодно, отмечая количество солдат, убитых таким образом. Очевидно, он не понял, что всего несколько лет назад была создана Футбольная лига Англии. Этот факт мог предоставить ему все нужные данные без необходимости вникать в статистику смерти Германии.

В обоих наборах данных Борткевич нашел значительное соответствие с распределением Пуассона. Смерти от ударов лошади были редкими. Из 280 полков, которые он изучал, в 144 не было ни одного смертельного случая. Но в двух невезучих полках были зафиксированы по четыре смерти за один год. Используя распределение Пуассона, Борткевич смог показать, что в этих полках не обращались с лошадьми хуже, чем в других, – в тот год им просто не повезло. Возможно (а возможно, и нет), футбол важнее вопросов жизни и смерти, но все три подчиняются одним и тем же правилам.

Сравнение с распределением Пуассона – одна из первых вещей, которые я делаю, когда получаю новые данные. Иногда коллега приходит в мой кабинет с недавно собранными экспериментальными результатами. «Странно, – говорит он. – Большая часть рыбы никогда не плавает вблизи хищника, но есть одна рыбина, которая проплыла мимо него четыре раза! Она должна быть очень смелой или что-то в этом роде». Спустя три минуты я черчу распределение Пуассона и накладываю его на данные моего коллеги. «Нет, твоя рыбина не была особенно смелой. Это была всего лишь статистическая необходимость». Быть преследуемым хищником раз за разом равносильно разгромному поражению со счетом 5:0. Плохо, когда это случается, но это может произойти с каждым.

Распределение Пуассона является нашим первым примером математической аналогии. Оно работает во многих контекстах. Оно работает для футбольных матчей, для лампочки и для смертей от удара лошади. Всякий раз, когда есть основания предположить, что события могут произойти неожиданно, в любое время и независимо от того, сколько событий уже произошло, следует ожидать распределения Пуассона.

Если отойти от футбола, современное использование распределения Пуассона в большинстве своем продолжает традицию, начало которой положил Борткевич. У статистиков, похоже, есть извращенное очарование смертью, травмами и несчастными случаями. Или, может быть, мы просто платим им за решение тех проблем, которые могут случиться с нами. Таким образом, нам не придется о них думать. Каковы бы ни были причины их интереса к неудачам, статистики обнаружили распределение Пуассона в автомобильных авариях, столкновениях с грузовиками, травмах головы, отказах двигателей в самолетах, банкротствах, самоубийствах, убийствах, несчастных случаях на работе и количестве опасных строительных объектов[7]. Они даже обнаружили его в количестве войн с 1480 по 1940 год. И когда они заканчивают смертями и травмами, то ищут распределение Пуассона в опечатках, производственных дефектах, сбоях в сети, вирусных атаках на компьютеры и разводах. Будь то смерть или разрушение, невезение или ошибки – везде можно обнаружить одну и ту же закономерность.

вернуться

5

Статистика для данных НХЛ составляет х2 = 19,6, что не является статистически значимым для 13 степеней свободы данных.

вернуться

6

Всестороннюю историю работы Борткевича можно найти на сайте statprob.com/encyclopedia/LadislausVonBortkiewicz.html. Его книга о законах малых чисел доступна в оригинале на сайте archive.org/details/dasgesetzderklei00bortrich.

вернуться

7

Некоторые из этих примеров перечислены более подробно в Letkowski, J. 2012. Applications of the Poisson probability distribution.