Выбрать главу
Доверительный интервал со значением 95 % для 100 бросков симметричной монеты

Такие доверительные интервалы часто используются для вычисления разумных значений параметра, такого как вероятность выбросить решку. Но, как вы только что видели, истинная норма параметра (в данном случае 50 %) иногда выходит за рамки доверительного интервала. Нужно понимать, что доверительный интервал – это не диапазон всех возможных величин и истинная величина необязательно будет входить в него.

Нас очень беспокоит, когда статистические данные публикуются в СМИ без упоминания погрешностей или доверительных интервалов. Не забывайте искать их, когда читаете отчеты, и включайте их в собственную работу. Без оценки погрешности вы не поймете, насколько можно верить этому числу – будет ли истинная величина действительно близка к нему или, может быть, очень от него далека? Это вам подскажет доверительный интервал!

Все относительно

В предыдущем разделе мы написали, что средний рост женщины составляет 5 футов 4 дюйма. Если вам нужно угадать рост случайного незнакомца, но вы не знаете наверняка, что это женщина, не стоит называть 5 футов 4 дюйма, потому что средний мужской рост ближе к 5 футам 9 дюймам (175 см) и лучше брать число ближе к середине. Но если у вас есть дополнительная информация о том, что этот человек – женщина, то 5 футов 4 дюйма – это самая удачная догадка. Дополнительные данные влияют на вероятность.

Это пример модели, которая называется условной вероятностьювероятностью наступления одного события при условии, что другое событие уже произошло. Условная вероятность помогает лучше оценивать вероятности, используя дополнительную информацию.

Условные вероятности широко распространены в повседневной жизни. Например, тарифы страхования жилья привязаны к различным условиям вероятности страховых требований (например, на побережье Флориды надбавки выше, так как и угроза разрушения от урагана там выше, чем в Пенсильвании).

Точно так же генетическое тестирование скажет вам, подвержены ли вы повышенному риску определенных заболеваний: женщины с аномалиями генов BRCA1 или BRCA2 имеют до 80 % больше риска развития рака груди в возрасте девяноста лет.

Условная вероятность обозначается символом |. Например, вероятность (Р), что у вас будет рак груди к девяноста годам при условии, что вы женщина с мутацией гена BRCA, будет обозначаться как Р (рак груди в 90 лет | женщина с мутацией BRCA).

Некоторых сбивает с толку условная вероятность. Они путают вероятность того, что событие А произойдет при условии, что произошло событие В – Р(А|В), – с вероятностью того, что событие В произойдет при условии, что произошло событие А – Р(В|А). Это называется обратной ошибкой. Вы только что видели, что Р (рак груди в 90 лет | женщина с мутацией BRCA) составляет около 80 %, но вероятность Р (женщина с мутацией BRCA | рак груди в 90 лет) составляет всего 5–10 %, поскольку рак груди развивается у многих других людей без этой мутации.

Разберем более длинный пример, чтобы посмотреть на эту ошибку в действии. Допустим, полиция останавливает произвольного водителя, чтобы проверить на алкоголь, и заставляет его подышать в трубочку. Кроме того, предположим, что тест выдает ошибку примерно в 5 % случаев, показывая, что трезвый человек пьян. Какова вероятность, что этого человека несправедливо обвинят за вождение в нетрезвом виде?

Скорее всего, вы первым делом назовете 5 %. Однако вам дана вероятность, что тест объявляет человека пьяным, даже если на самом деле он трезв, то есть Р (тест = пьян | человек = трезв) = 5 %. Но что, если вас спросят, какова вероятность того, что человек трезв, если тест говорит, что он пьян, или Р (человек = трезв | тест = пьян)? Это совсем другая вероятность!

Вы не учли зависимость результата от базового процента пьяных за рулем. Представьте сценарий, где все ведут себя правильно и никто никогда не садится за руль пьяным. В таком случае вероятность, что человек трезв, будет 100 %, независимо от того, что покажет алкотестер. Когда при расчете вероятности не учитывается базовый процент (например, базовый процент числа пьяных водителей), такая ошибка называется ошибкой базового процента.

Представим себе более реалистичный базовый процент, когда пьян 1 водитель из 1000. Значит, есть маленький шанс (0,1 %), что человек, которого случайно остановила полиция, пьян. А так как мы знаем, что один из 20 тестов выдает ошибку (ошибка возникает в 5 % случаев), полиция, скорее всего, сделает очень много ошибок, прежде чем действительно поймает пьяного за рулем.