Выбрать главу

Если во время проведения исследования измеряется несколько точек клинической эффективности, но автор расценивает улучшение в любой из них как положительный результат, то такие результаты недействительны. Наши тесты, необходимые, чтобы решить, является ли результат статистически значимым, предполагают, что исследователь измеряет только один параметр, одну точку клинической эффективности. Измеряя десяток параметров (точек клинической эффективности), ученый создает ситуацию, когда у него появляются десятки шансов получить положительный результат вместо одного, но при этом не декларирует это открыто. Получается, что в таком случае исследование является нечестным по своей структуре, и во время его проведения можно будет с большей вероятностью получить положительные результаты, чем они будут проявляться в действительности.

Представьте, что мы играем в кости и договариваемся, пусть даже в одностороннем порядке, о простой вещи: если я выбрасываю две шестерки, вы даете мне 10 фунтов. Я бросаю кубик, и выпадает две тройки, но я все равно требую выплатить мне 10 фунтов, заявляя, что именно об этом мы договорились изначально и что вы должны были мне дать 10 фунтов за выброс двух троек. Вы платите, и все довольны. По такому сценарию ведется сегодня игра в сфере клинических научных исследований. Такая практика, когда люди производят так сказать замену одних изначально установленных точек клинической эффективности на другие, является обычной и общепринятой. А нам, пациентам, приходится мириться с ней.

До проведения клинического исследования нужно написать его план. Это документ, в котором описывается то, что вы собираетесь сделать: сколько участников вы собираетесь набрать, где и как вы будете это сделать, какой препарат будет назначен каждой группе и какие точки клинической эффективности вы будете измерять. В исследовании нужно будет измерять все параметры как возможные точки клинической эффективности: вероятно, будет даже несколько различных шкал оценок для измерения боли, или депрессии, или чего-либо другого, что заинтересует вас (качество жизни или мобильность, которую вы измеряете при помощи какой-нибудь анкеты, смерть по разным причинам,смерть по каждой из ряда представленных причин и прочие параметры).

Все это делается до начала исследования для того, чтобы избежать одной простой проблемы: если вы измеряете много параметров, некоторые из них будут более привлекательными и статистически значимыми просто благодаря возникновению естественных случайных вариаций в данных исследования. Помните, что вы имеете дело с живыми людьми, проживающими в материальном мире, и их болевой порог, глубина депрессии, степень мобильности, качество жизни и т. д. будут разными от человека к человеку по рядупричин, и многие из них не будут иметь ничего общего с вмешательством, последствия от которого вы проверяете в ходе вашего исследования.

Если вы честный исследователь, вы будете использовать статистические тесты специально для выявления истинных полезных свойств лекарства, которое вы проверяете. Вы будете пытаться отличить эти реальные изменения от обычных случайных изменений в фоновых данных, которые вы увидите в результатах ваших пациентов при проведении различных тестов. Больше чем что бы то ни было вы захотите избежать получения ложноположительных результатов.

Традиционная пропорция статистической значимости совпадений 1 к 20. Грубо говоря, объясняя эту формулу простыми словами, если вы проведете одно и то же исследование много раз, используя те же методы, с теми же участниками из той же группы населения, то вы получите такие же положительные результаты, которые наблюдались в одном из 20 исследований, просто по случайности, даже если лекарство не оказывало совсем никакого полезного эффекта. Если вы будете зачерпывать двумя стаканчиками из однойбадьи с красными и белыми шариками, то и дело, чисто случайно, в одном стаканчике будет оказываться необычно мало красных шариков, а в другом — необычно много красных шариков. То же самое происходит и при измерении параметров здоровья пациентов: будут встречаться некоторые случайные вариации, и иногда все будет выглядеть так, как будто одно лекарство лучше другого, с точки зрения улучшения параметров организма, но на самом деле такое улучшение будет случайным. Статистические тесты разработаны для того, чтобы не дать этим самым случайным колебаниям параметров организма сбить нас с толку.

Поэтому сейчас давайте представим, что вы проводите исследование, при котором измеряете 10 разных независимых точек клинической эффективности. Если мы установим пропорцию статистической значимости как 1 к 20, тогда даже если ваше лекарство вообще не будет оказывать никакого полезного эффекта, в одном исследовании у вас все равно будет вероятность в пределах 40 % найти положительное действие лекарства по крайней мере на одну из точек клинической эффективности просто из-за случайных колебаний в ваших данных. Если вы предварительно не укажете, какие из параметров являются конечными точками эффективности, установленными изначально для исследования,то вы схитрите, а получив положительный результат по любой из 10 выбранных точек, вы объявите о позитивном результате вашего исследования.

Можете ли вы сразу открыто заявить о том, что делаете: «Эй, мы измерили 10 точек эффективности, и по одной из них наблюдается улучшение показателей, поэтому наше лекарство классное»? Да, наверное, так можно сделать, и в определенных обстоятельствах это сработает, потому что многие чтецы научных статей с удовольствием проглотят такую наживку и переключат внимание с одних точек клинической эффективности на другие. Однако большинство заметит вашу уловку. Им захочется увидеть отчет с результатами по изначально намеченным точкам клинической эффективности. Они-то знают, что, если измерять 10 параметров сразу, один из них уж точно будет выглядеть привлекательным просто по счастливой случайности.

Проблема состоит в том, что, даже если люди и знают, что вы должны устанавливать конечную точку клинической эффективности перед началом исследования, эти точки часто оказываются разными в плане исследования и в научной статье: они меняются после того, как проводящие исследование люди просмотрели результаты. Даже вы, случайный читатель, нашедший эту книгу на скамейке в метро, а не профессор статистики или врач, и то поймете, что это настоящее безумие. Если конечная точка клинической эффективности, упоминаемая в законченной статье, отличается от конечной точки клинической эффективности, намеченной до начала исследований, тогда создается совершенноабсурдная ситуация: весь смысл конечной точки клинической эффективности в том, что она назначается до того, как начинаются исследования. Однако люди меняют конечные точки клинической эффективности, и это не просто случайная проблема. На самом деле, это почти что обычное дело, нормальная практика среди исследователей.