Очевидно, что наши выводы будут справедливы тогда и только тогда, когда выборка будет репрезентативной. Если она не является репрезентативной, то очевидно, что по ней нельзя будет сделать какие-либо выводы о генеральной совокупности. В некоторых источниках повышенное внимание уделяется математическим аспектам (так как использование непонятных математических терминов — эффектный, хотя и дешевый прием), а способ формирования выборки не указывается. Правильное формирование выборки — достаточно дорогостоящий процесс, но этот аспект крайне важен, так как именно он гарантирует корректность выводов.
Оценка параметров генеральной совокупности с помощью репрезентативной выборки.
Далее мы рассмотрим два примера оценки параметров генеральной совокупности, в частности ее размера, с помощью выборок.
Рыбы
Подсчитать, сколько всего рыб в озере, непросто, особенно если озеро большое, а вода в нем мутная. Тем не менее биологи знают, как решить эту задачу. Разумеется, для этого нужно использовать методы статистики. Очень часто используется так называемый метод двойного охвата, который заключается в следующем.
1. Нужно выловить некоторое количество рыб, пометить их и выпустить обратно в озеро. Разумеется, ловить рыбу нужно так, чтобы не поранить ее. Для этого рыбу можно оглушить электрическим током. Метка не должна влиять ни на подвижность рыбы, ни на ее выживаемость. Также необходимо, чтобы метка сохраняла длительную устойчивость к воздействиям среды.
2. Должно пройти некоторое время (порядка нескольких дней), чтобы помеченные рыбы распространились по всему озеру. Затем нужно заново выловить определенное количество рыб (именно в этом заключается суть метода двойного охвата), необязательно такое же, как в первый раз.
3. Нужно произвести расчеты: если в озере N рыб, а мы пометили М из них, то соотношение помеченных рыб к общему их числу равно M/N. Объем повторно взятой выборки, которую можно считать репрезентативной выборкой рыбы в озере, равен С. Из С выловленных рыб R помеченных. Разумно предположить, что доля помеченных рыб во второй выборке равна доле помеченных рыб в озере, иными словами,
Таким образом, примерное число рыб в озере N равно
Рассмотрим пример с конкретными числами.
Сначала вылавливается и помечается М рыб (их можно считать случайной выборкой из N рыб, обитающих в озере). В нашем случае М = 13.
Мы выжидаем некоторое время, чтобы помеченные рыбы равномерно распределились по всему озеру, и вылавливаем С рыб, из которых R имеют метку. В нашем случае С = 15, R = 3.
Произведем вычисления. Число рыб в озере примерно равно:
N = M·C/R = 15·15/3 = 75
Но что означает «примерно равно»? Если вы подсчитаете число рыб на рисунке в нашем примере, то увидите, что их всего 67. Следовательно, погрешность в расчетах составляет 12 %. Эта ошибка больше или меньше, чем следовало ожидать? Какова возможная величина ошибки при использовании этого метода?
Статистика отвечает на эти вопросы, используя разумные предположения и математические инструменты. Однако чтобы получить достаточно точный результат, мы можем прибегнуть к помощи небольшой компьютерной программы, моделирующей вылов рыбы из озера. Мы можем повторить вышеописанные действия произвольное число раз и на основе примерной оценки числа рыб, полученной при каждом моделировании, оценить величину ошибки и частоту, с которой они возникают.
Если мы будем использовать те же числа, что и в нашем примере, то увидим, что в 85 % случаев число помеченных рыб во второй выборке будет варьироваться от 2 до 5. Используя выведенную нами формулу, получим, что число рыб в озере лежит в интервале от 45 до 112. В 15 % случаев число рыб будет лежать вне этого интервала.
Распределение числа помеченных рыб в повторной выборке (моделирование было выполнено 10 000 раз).
Оценка числа рыб бывает чаще избыточной, чем недостаточной. Среднее оценочное значение 82 также больше фактического числа рыб в озере. В этом случае говорят, что оценка является смещенной и не отражает истинного значения оцениваемой величины.