Выбрать главу

Ситуация немного усложняется, если мы хотим проверить: кто же болеет гриппом чаще? Мальчики или девочки? Второклассники или третьеклассники? То есть теперь нам нужно ещё и сравнить результаты между группами испытуемых. Для того, чтобы тому, кто потом будет читать наш отчёт, было понятно, по какому признаку мы разделяли учеников, мы должны как-то охарактеризовать всю выборку школьников. Нужно будет указать информацию о том, сколько девочек, сколько мальчиков, сколько учеников какого класса вошло в итоговый статистический анализ. Тут важно помнить, что изначально мы принимаем, что никаких различий между группами не существует. Такое утверждение иначе называется нулевой гипотезой, Н0. В зависимости от цели исследования мы можем пытаться или доказать нулевую гипотезу, или опровергнуть её. Если окажется, что разница в заболеваемости гриппом между мальчиками и девочками всё же существует, мы напишем в отчёте, что нулевая гипотеза была отвергнута. Если же разницы в результатах не будет наблюдаться, мы напишем, что нулевая гипотеза была принята.

Но и это ещё не всё. Согласитесь, будет странно делать выводы о различиях в распространённости гриппа А в разных группах, если в одну группу входит только один человек, а в другую – двадцать. То есть наши группы должны быть каким-то образом сопоставимы. В них необязательно должно быть одинаковое количество человек. Допустимая разница в группах рассчитывается отдельно. Но если в одну группу войдёт 25 человек, а в другую – 26, мы всё равно сможем обработать такую информацию.

Сколько же человек должно вообще нужно исследовать для того, чтобы наши выводы стали корректными и могли применяться повсеместно? По данным сайта Statdata на 1 января 2017 года в России проживает около 8.5 млн детей в возрасте от 5 до 9 лет. Можно ли будет распространить наши результаты на все эти 8.5 млн детей? Нет, ведь наша выборка неидеальна. Мы выбрали только учеников из одной школы. Ситуация улучшится, если мы выберем для анализа данные об учениках из школы № 2? Совсем немного, ведь мы всё ещё находимся в одном городе. Мы хотим получить результаты, которые можно будет распространить на всю страну целиком, значит, нам надо подключить и другие города к нашему анализу.

То, что мы сейчас с вами проговорили, – это мысленная часть эксперимента, всего лишь подготовка к нему. Несмотря на то, что наше исследование казалось совсем простым, в итоге оказалось, что и в этом случае надо аккуратно подходить к делу. Анализ объёма выборки, который необходим для получения результатов исследования, – это крайне важный этап планирования эксперимента. Без проведения вычислений на этапе планирования исследователь может получить слишком маленький объём данных на выходе. В результате наше исследование будет ненадёжным. Если же исследователь, напротив, проводит исследование на очень большой выборке, то он рискует получить слишком много данных. Избыточность данных для статистического анализа не беда, но вот потраченное время и ресурсы могут быть очень ценными. Если речь идёт о клинических испытаниях, то здесь к вопросу о высчитывании необходимой выборки подходят со всем тщанием (конечно, если речь идёт о добросовестных исследователях).

Кроме того, планирование эксперимента позволяет исследователю определить, какова вероятность того, что выбранные им статистические методы будут обнаруживать различия? Насколько велика вероятность ошибки? К сожалению, полностью избавиться от ошибок не удаётся. Как известно, всегда существует вероятность того, что что-то пошло не так. В нашем случае с исследованием распространённости гриппа А добавляется ещё один элемент ошибки. Действительно ли мы можем распространить наши результаты на всех учеников начальных классов в стране? Экономически провести интересующие нас анализы у 8.5 млн детей совершенно невыгодно. То есть мы изначально принимаем, что какая-то вероятность ошибки наших суждений всё же будет существовать. С этим, к сожалению, надо смириться. Но вот второй вопрос более важен: какова величина той ошибки, с которой мы готовы смириться? Пусть мы получили данные о том, что третьеклассники болеют чаще, чем второклассники. Готовы ли мы смириться с тем, что мы ошибаемся в некоторых случаях?