Выбрать главу

Чтобы проиллюстрировать это, ниже мы рассмотрим другую гистограмму, которая показывает распределение семейных доходов в США в 2016 году. Этот набор данных также имеет один пик, 20 000–24 999 долларов, но он асимметричен, смещен вправо. (Все доходы свыше 200 000 долларов сгруппированы в один столбик. Если этого не сделать, график будет иметь длинный хвост, уходящий далеко вправо.) В отличие от температуры тела, медианный доход в размере 59 039 долларов сильно отличается от среднего дохода в размере 83 143 доллара. Всякий раз, когда данные искажаются в одном направлении, как здесь, норма отодвигается от медианы в сторону смещения, так как ее сдвигают крайние значения.

Распределение семейных доходов в США (2016)

Бюро переписей США «HINC-06. Распределение дохода до 250 000 долларов США и более для домохозяйств», www.census.gov/data/tables/time-series/demo/income-poverty/cps-hinc/hinc-06.2016.html.

Минимальный и максимальный диапазон в данном случае менее информативны. Дисперсию лучше передает межквартильный диапазон, который определяет 25-й процентиль к 75-му процентилю данных, охватывающий средние 50 % доходов, от 27 300 до 102 350 долларов США.

Наиболее распространенными статистическими показателями дисперсии являются дисперсия случайной величины и стандартный разброс (последнее обычно обозначается греческой буквой σ – сигмой). Обе эти меры показывают, как далеко числа в наборе данных отклоняются от нормы. Следующий пример показывает, как рассчитать их для набора данных.

Дисперсия случайной величины и стандартный разброс

Поскольку стандартный разброс – это всего лишь квадратный корень дисперсии случайной величины, если вы знаете последнюю, то вам легко будет рассчитать его. Более высокие величины каждого из них означают, что точки данных часто сильно отклоняются от нормы, как показано на мишенях ниже.

Дисперсия случайной величины

Наборы данных о температуре тела, изображенные ранее, отклоняются от стандарта на 0,73 °F. Чуть более двух третей их значений находятся в пределах одного отклонения от нормы (97,52–98,8 °F), 95 % – в двух отклонения от нормы (96,79–99,71 °F). Как видите, эта закономерность является обычной для множества наборов измерительных данных (например, рост, артериальное давление, стандартизированные тесты).

Гистограммы такого типа имеют похожую форму колокола с кластером значений в центре ближе к норме и все меньшим и меньшим числом результатов по мере удаления от нормы. Когда набор данных имеет такую форму, предполагается, что он поступает из нормального распределения.

Нормальное распределение – это особый тип распределения вероятностей, математической функции, которая описывает, как распределены вероятности всех возможных исходов случайного явления.

Например, если вы измерите температуру случайного человека, любой конкретный результат будет иметь определенную вероятность, при этом наиболее вероятным результатом является норма – 98,2 °F, а величины, сильно отклоняющиеся от этой нормы, все менее вероятны. Учитывая, что распределение вероятностей описывает все возможные результаты, все вероятности в распределении сводятся к 100 % (или к единице).

Чтобы лучше это понять, давайте рассмотрим еще один пример. Как мы уже упоминали, рост людей также примерно соответствует нормальному распределению. На графике ниже представлено распределение роста мужчин и женщин на основании данных Центров США по контролю и профилактике заболеваний. Оба распределения имеют типичную форму колокола, несмотря на то что стандарты роста для мужчин и женщин отличаются.

Нормальное распределение

Центр по контролю за заболеваниями «Антропометрические справочные данные для детей и взрослых: Соединенные Штаты, 2011–2014 годы». Vital and Health Statistics серия 3, № 39 (август 2016 года).

В подобных нормальных распределениях (как мы уже видели на примере температуры тела) около 68 % всех значений должны попадать в одно отклонение от нормы, около 95 % – в два и почти все (99,7 %) в три. Таким образом, нормальное распределение можно однозначно описать только его нормой и стандартным разбросом. Знание этих фактов особенно полезно, так как очень много явлений можно описать нормальным распределением.