Если вы работаете со средними, остерегайтесь еще бимодального распределения. Вспомните, мода — это то значение, которое встречается чаще всего. Во многих наборах данных — биологических, физических, социальных — у распределения может быть два или больше пиков. А это значит, что два или больше показателей встречаются чаще других.
Например, подобный график может отображать сумму, потраченную на обеды в неделю (ось X), и количество людей, потративших такую сумму (ось Y)[20]. Представьте, что вы изучали две группы людей: детей (левый горб) — они покупают школьные обеды — и руководителей компаний (правый горб) — они ходят в дорогие рестораны. Среднее арифметическое и медиана в данном случае — это числа где-то между этими двумя горбами, и они ничего не скажут нам о том, что происходит на самом деле, — ведь во многих случаях среднее арифметическое и медиана отражают ту сумму, которую никто не тратит. Подобный график говорит лишь о том, что в вашем примере имеет место неоднородность — вы сравниваете яблоки с апельсинами. В таком случае лучше сразу сказать, что вы имеете дело с бимодальным распределением, и сообщить о двух модах. А еще лучше разделить группу на две подгруппы и собрать статистические данные для каждой.
Будьте осторожны, когда будете делать выводы об отдельных людях и о группах, основываясь на средних данных. Тут можно легко наткнуться на определенные подводные камни, которые даже получили собственные названия: «экологическая ошибка» и «ошибка исключения». Экологическая ошибка возникает, если мы делаем выводы об отдельном элементе, основываясь на совокупных данных (таких как средняя величина группы), а ошибка исключения — если делать все ровно наоборот.
Представьте себе, например, два маленьких городка, в каждом из которых живет всего по сотне человек. Девяносто девять жителей города А зарабатывают по 80 тысяч долларов в год, а на земле одной женщины было найдено месторождение нефти, и теперь она одна получает 5 миллионов долларов в год. В городе Б живут 50 человек, которые зарабатывают по 100 тысяч долларов в год, а также 50 человек, которые получают по 140 тысяч долларов. Средний арифметический доход в городе А составляет 129 тысяч долларов, а в городе Б — 120 тысяч долларов. И хотя средняя величина доходов города А больше, в 99 случаях из 100 доход любого жителя города Б, которого вы выберете наугад, будет выше дохода любого случайно выбранного жителя города А. Экологическую ошибку совершают те, кто считает, что если выбрать наугад человека из группы с более высоким средним доходом, то следует ожидать, что и у него доход будет выше. Самое замечательное в этом примере то, что в городе А выше среднее арифметическое, а мода выше в городе B (так бывает не всегда).
Вот еще один пример: считается, что состоятельные люди скорее проголосуют за республиканца, но, как показывает практика, более состоятельные штаты обычно голосуют за демократов. Дело в том, что общая картина благосостояния жителей процветающих штатов может быть немного перекошена из-за суперсостоятельных индивидуумов. Во время президентских выборов 2004 года за кандидата от Республиканской партии Джорджа Буша проголосовали 15 самых бедных штатов, а за кандидата от Демократической партии Джона Керри — девять из 11 самых состоятельных[21]. Если же изучить вопрос более детально, мы увидим, что за Буша отдали голоса 62 % тех, чей годовой доход составляет более 200 тысяч долларов, а за Керри — 36 % голосующих, зарабатывающих в год 15 тысяч долларов или меньше.
Чтобы понять, что такое ошибка исключения, давайте представим себе: вы прочли, что машины марки Volvo считаются самыми надежными, и решили купить такой автомобиль. По дороге в офис этой компании вы проходите мимо механика Volvo и парковки, заполненной машинами этой марки, которые ждут, пока их отремонтируют. Если вы измените свое решение о покупке машины этой марки, основываясь на том, что только что увидели, значит, вы по небольшому числу исключительных данных формируете выводы о целой группе. Никто ведь не говорил, что Volvo вообще не нуждается в ремонте, — скорее речь шла о следующем: вероятность того, что им может понадобиться техническая поддержка, гораздо меньше (отсюда и набившее оскомину предупреждение, которым заканчивается любой рекламный ролик, что «каждая машина индивидуальна»). Обратите внимание, что на вас оказывают огромное влияние и другим образом: единственное место, где должны стоять машины Volvo, требующие ремонта, — автосервис Volvo. Ваш «базовый показатель» сдвинулся, и вы не можете уже считать этот пример случайным.
20
21