Выбрать главу

Остальные результаты, которые не получилось воспроизвести, изначально и не должны были быть положительными. Многие из этих первоначальных исследований, вероятно, недооценили частоту ошибки типа I и повысили шансы получить ложноположительный результат. Это связано с тем, что при планировании исследования с 5 % шансом ложноположительного результата этот шанс применяется только к одной статистической проверке, но крайне редко такая проверка проводится всего один раз.

Проведение дополнительных проверок для поиска статистически значимых результатов имеет много названий, включая прочесывание, выуживание данных или p-взлом (попытка взломать данные в поисках достаточно малых p-значений). Часто это делается из лучших побуждений, потому что наблюдение за данными эксперимента воодушевляет и побуждает исследователя формировать новые гипотезы. Соблазн проверить дополнительные гипотезы велик, так как необходимые для их анализа данные уже собраны. Однако проблема возникает, когда исследователь преувеличивает результаты этих дополнительных испытаний.

Комикс XKCD[67], приведенный ниже, показывает, чем может обернуться выуживание данных: не найдя никакой статистически значимой связи между карамельками и прыщами, ученые продолжили прочесывать двадцать одну подгруппу, пока не нашли одну с существенно низким p-значением, из-за чего появился заголовок: «Прыщи появляются от зеленых карамелек!»

Каждый раз, когда проводилась очередная статистическая проверка, шанс сделать ошибочный вывод продолжал расти выше 5 %. Чтобы было понятнее, предположим, что у вас есть кубик с 20 гранями. Шансы сделать ошибку при первой проверке будут такими же, как шансы выбросить единицу. Каждый дополнительно проведенный тест будет еще одним броском кубика, каждый с новым шансом 1 к 20 выбросить единицу. После 21 броска (в соответствии с 21 цветной карамелькой в комиксе) будет шанс примерно 2/3, что единица выпала как минимум однажды, то есть был как минимум один ошибочный результат.

Если выуживание данных такого типа проводится достаточно часто, становится понятно, почему так много исследований, подлежащих воспроизведению, изначально бывают ложноположительными. Другими словами, в этом наборе из ста исследований базовый процент ложноположительного результата, скорее всего, был намного больше 5 %, поэтому значительную часть кризиса воспроизводимости можно объяснить ошибкой базового процента.

К сожалению, исследования с большей вероятностью опубликуют, если в них будут статистически значимые результаты, что приводит к искажению публикации. Исследования, которые не смогли показать статистически значимые результаты, все еще имеют научную значимость, но как сами ученые, так и издания предвзято относятся к ним по ряду причин. Например, в журнале ограничено количество страниц, и, выбирая между двумя исследованиями, редактор всегда отдаст предпочтение значимым результатам. Успешные исследования чаще привлекают внимание СМИ и научного сообщества. Вероятнее, что они также сильнее повлияют на карьеру исследователей.

Все эти факторы являются сильным стимулом к получению значительных результатов экспериментов. В комиксе, несмотря на то что первоначальная гипотеза не показала значимого результата, эксперимент был «спасен» и в конечном итоге опубликован, потому что нашлась второстепенная гипотеза, показавшая значимый результат.

Публикация ложноположительных результатов вроде этого напрямую способствует кризису воспроизводимости и задерживает научный прогресс, направляя будущие исследования к этим ложным гипотезам.

Так же как и замалчивание отрицательных результатов. Это приводит к тому, что разные люди проверяют одну и ту же ложную гипотезу снова и снова, потому что никто не знает, что ее уже проверили другие.

Есть и иные причины, по которым исследование не удается воспроизвести, включая различные ошибки, которые мы обсуждали в предыдущих разделах (например, систематическая ошибка отбора, систематическая ошибка выжившего и т. д.), закрадывающиеся в результаты. Другая причина заключается в том, что по случайности оригинальное исследование могло продемонстрировать впечатляющий эффект, тогда как на самом деле он был куда скромнее (регрессия к норме). Если это так, то воспроизведенное исследование, скорее всего, будет иметь недостаточно большую выборку (недостаточно мощности), чтобы выявить небольшой эффект, и это приведет к неудачному воспроизведению исследования.

вернуться

67

XKCD – это веб-комикс художника и программиста Рэндела Манро о романтике, сарказме, математике и языке, публикующийся с 29 мая 2005 года трижды в неделю.