Если числа используются правильно, они помогают нам познавать мир и изменять его. Но что означает «правильно используются»? Здесь в дело вступает статистика – методы стандартизации, сбора и анализа численных данных.
В этой книге я надеюсь убедить вас в том, что случайная выборка лучше, чем опрос пользователей твиттера; что корреляция – это не причинно-следственная связь; что погрешности необходимо учитывать и что утверждение Трампа о смертности от коронавируса в США было абсолютно неверным.
– Почему так нельзя? – спросил президента Суон.
– Нужно смотреть по… Вот, глядите. – Трамп протянул журналисту другую страницу. На ней была диаграмма с ярко раскрашенными столбцами. – Вот Соединенные Штаты. Нужно смотреть по случаям заболевания. Вот эти случаи.
Трамп продолжал говорить, но Суон попытался спросить еще раз:
– А почему не в пропорции к численности населения?
Утверждение Трампа не было чистой выдумкой, как полтора миллиона присутствовавших на его инаугурации. Он смотрел на коэффициент летальности (Case Fatality Rate, CFR), то есть на процентную долю умерших от болезни среди всех тех, кто получил положительные результаты тестирования. Это хорошо известный эпидемиологический параметр, позволяющий приблизительно оценить смертность от того или иного заболевания. К концу июля 2020 года, когда состоялось это интервью, значение CFR для Европы составляло 7,0 процента, а для всего мира – 3,9 процента. А для Соединенных Штатов? 3,5 процента – действительно «ниже», как и утверждал Трамп.
И все же что-то в его рассуждениях было не так. К счастью, Суону хватило проницательности сразу же это заметить. Низкое значение CFR не означало, что в США все в порядке. Даже если эта доля мала, количество умерших будет большим, если большим будет количество инфицированных. Поэтому Суон хотел увидеть, как соотносится число умерших с численностью всего населения. В конце июля смертность в Европе находилась на уровне 264 случая на миллион жителей, а в среднем по миру – 84. В США смертность составляла 453 случая на миллион человек. Она превышала европейскую более чем в полтора раза, а общемировую – более чем в пять раз. Если вкратце, то ситуация была прямо противоположной тому, что подразумевает слово «ниже».
Эта книга разоблачает злоупотребления именно такого рода. Если лучшая ложь содержит крупицу истины, то и числовой обман точно так же труднее всего раскрыть, если он связан с реальными цифрами. Такая фальшь бывает достаточно тонкой, чтобы остаться незамеченной, и достаточно убедительной, чтобы ее можно было распространять.
В своей книге я предложу вам средства, позволяющие распознать такой обман. Для этого вам не понадобится ученая степень по статистике – хватит и толики любопытства и здравого смысла. Не помешает и готовность признать свои недостатки.
– А некоторые говорят, что слишком много тестировать вредно. Вы ведь знаете об этом? – сказал Трамп Суону несколько раньше в том же интервью.
– Кто так говорит?
– Да почитайте книги, почитайте учебники.
– Учебники?
Через несколько минут Трамп сформулировал ту мысль, которую хотел высказать:
– Дело в том, что мы тестируем гораздо лучше, чем любая другая страна. Поэтому у нас больше случаев заболевания.
Здесь Трамп сделал с темой тестирования на коронавирус то же, что и с темой смертности: он начал подбирать доводы, которые подтверждали его точку зрения. Числа связаны не только со статистикой, но и с психологией. И этим грешит не один Трамп. Все мы так делаем.
Возможно, вы с надеждой ловите каждую новость о количестве вакцинированных, мечтая, чтобы все это наконец закончилось; может быть, вас раздражает исследование эффективности масок, потому что вам кажется, что это ограничение вашей свободы; или же вас печалит статистика смертности от коронавируса в вашей стране, потому что вы привыкли гордиться своим отечеством.
Все мы встречаем и такие факты, которые радостно принимаем на веру, и такие, которые мы предпочли бы немедленно отвергнуть.
Даже если уловки Трампа в этом интервью вас не обманули, вполне вероятно, что в каком-нибудь другом случае вы на них попадетесь. В марте 2020 года в Нидерландах получила широкое распространение статистическая таблица, в которой смертность от коронавируса в Италии, сильно пострадавшей в то время, сравнивалась с аналогичными данными по Нидерландам. Вывод ужасал: мы идем тем же путем, что и Италия!
Однако при анализе данных оказалось, что они отобраны и подогнаны именно к такому выводу. Каждый из двух наборов чисел начинался с некой произвольной даты, выбранной так, что при экстраполяции итальянских данных и их сравнении с положением в Нидерландах картина действительно получалась тревожной. Но стоило взять данные с другими, более логичными начальными датами, как траектория развития пандемии в Нидерландах оказывалась совершенно отличной от итальянской и менее пугающей. Именно такой тенденциозный подбор данных и использовал Трамп в своем интервью.