Однако в некоторых случаях причинно-следственная связь не столь очевидна. 28 декабря 1994 года в газете The New York Times была опубликована статья о возможном воздействии на здоровье умеренного потребления вина. Приводилась таблица с указанием среднего уровня употребления вина и уровня смертности от сердечно-сосудистых заболеваний в 21 стране. Эти данные представлены на диаграмме ниже.
Связь смертности от сердечно-сосудистых заболеваний с уровнем употребления вина в 21 стран.
(источник: The New York Times, 28 декабря 1994 г.)
Можно заметить, что в странах, где пьют больше вина, уровень смертности от сердечно-сосудистых заболеваний ниже. Но, как мы уже говорили, это не означает, что между этими двумя переменными обязательно существует причинно-следственная связь. Из этой диаграммы не следует, что если мы будем пить больше вина (разумеется, в разумных пределах), то риск инфаркта снизится. Страны, в которых употребляют больше всего вина, одновременно с этим являются его крупнейшими производителями. Это означает соответствующий климат, режим питания, обычаи — какой-то из этих факторов и может быть причиной низкого уровня болезней сердца. Впрочем, причиной действительно может быть умеренное потребление вина, но данные, которыми мы располагаем, этого не доказывают.
* * *
ПРОСТЫЕ ДИАГРАММЫ ДЛЯ РЕШЕНИЯ СЛОЖНЫХ ЮРИДИЧЕСКИХ ВОПРОСОВ
На президентских выборах в США в 2000 году, когда основными кандидатами были демократ Альберт Гор и республиканец Джордж Буш, их результаты оказались практически равными, что вызвало бурное обсуждение. В штате Флорида, где проживало около 6 миллионов избирателей, Буш одержал победу с преимуществом в 537 голосов. Кандидат, одержавший победу в этом штате, набирал необходимое для победы число голосов и становился президентом. Были поданы протесты, и окончательный вердикт должен был вынести суд. Не вдаваясь в юридические тонкости, приведем диаграмму, на которой отображены голоса, полученные Гором, в сравнении с голосами в пользу другого кандидата, Патрика Бьюкенена, в каждом из 67 округов штата Флорида.
Сравнение голосов в пользу Патрика Джозефа Бьюкенена и в пользу Альберта Гора в каждом из 67 округов штата Флорида.
(источник: Д. Мур. Learning from Data. «Statistics: A Guide to the Unknown», 4-е издание)
Первое, что бросается в глаза, — число голосов в Палм-Бич не подчиняется общей закономерности. Вместо закономерных 1500 голосов в его пользу было отдано 3 411 голосов. При взгляде на диаграмму становится понятно, что округ Палм-Бич должен обладать какой-то особенностью. Однако не было никакой причины, по которой Бьюкенен мог бы получить в этом округе значительно больше голосов, чем в остальных. Он сам и его сторонники заявляли, что 1000 голосов будет для них оптимистичным прогнозом. Вскоре стало ясно, что единственной особенностью была форма бюллетеня для голосования, использовавшегося в этом округе. Чтобы проголосовать за выбранного кандидата, нужно было проколоть отверстие в бюллетене. Из-за неудачного дизайна бюллетеней многие избиратели (очевидно, более 2000, достаточно взглянуть на график) проголосовали в пользу Бьюкенена, хотя в действительности хотели отдать свой голос Гору.
* * *
Для конкретного множества данных среднее значение и среднеквадратическое отклонение — это конкретные значения, не допускающие разночтений. Однако в случае с графическим представлением данных это не так. Вид гистограммы для конкретного множества данных будет зависеть от выбранного масштаба (вы уже увидели это на примере печи № 3 в нашем примере с пекарней), а также от ширины интервалов и граничных значений интервалов. К примеру, при неизменной ширине интервалов при границах 190,192,194, … гистограмма будет выглядеть иначе, чем для граничных значений 191, 193, 193, …
Например, изменение значений экономического показателя за последние шесть месяцев можно представить графиком, изображенным слева, на котором показан впечатляющий рост, или графиком, изображенным справа, из которого следует, что значение показателя практически не изменилось. Различие между этими графиками заключается в выборе масштаба вертикальной оси.
Одни и те же изменения в разных масштабах.
Изменение масштаба горизонтальной оси также может преподнести немало сюрпризов. На следующем рисунке представлен график изменения объемов продаж за последние четыре года, построенный в мае 2010 года, когда были доступны данные лишь по апрель 2010 года. Это указано в подписи к графику, но создается впечатление, что объем продаж резко упал. В действительности же, учитывая, что на период до апреля включительно приходится треть годового объема продаж, прогнозное значение продаж на 2010 год превышает 150.