Оценка существенно улучшится, если внести в формулу небольшие изменения. Проблема в том, что объяснить, почему следует внести именно эти поправки, достаточно сложно.
Выполнив расчеты с помощью этой формулы, получим, что если в повторной выборке встретилось 2 помеченных рыбы, то оценка общего числа равна 85, если число помеченных рыб равно 5, то оценка общего числа равна 42. Следовательно, в 85 % случаев оценка численности рыб будет лежать в интервале от 42 до 85. Кроме того, в 27 % случаев число помеченных рыб будет равно 3, что соответствует числу в 64 рыбы, и это очень близко к истинному значению. Эта оценка является несмещенной: если мы повторим вышеописанные действия множество раз, то средняя оценка будет совпадать с истинным значением.
Также можно ввести поправочные коэффициенты, если вы считаете, что вероятность вылова разных рыб отличается, метка влияет на выживаемость рыб или метка может стираться. Эта тема очень подробно изучена и описана в книгах по экологии. Также это прекрасный пример того, как статистика может решать задачи, которые кажутся крайне сложными или вовсе невозможными.
Такси
Подсчитать число такси в городе намного проще, чем количество рыб в озере. Можно начать с поиска этой информации в Интернете. Так, например, на сайте администрации крупного города может быть указано, что общее число выданных лицензий равно 10481. Каждая лицензия соответствует одному автомобилю. Задача решена.
Однако если эта информация недоступна в Интернете, можно воспользоваться методами статистики. Номер лицензии написан на каждом автомобиле такси. Максимально возможным номером является число выданных лицензий. Когда мы покупаем новый автомобиль, нам выдается новый номер (следующий за последним выданным), а номер старого автомобиля уничтожается.
Однако с номером лицензии такси дело обстоит иначе (возможно, с некоторыми исключениями): число лицензий фиксировано, и если кто-то хочет приобрести ее, то может купить только у одного из ее нынешних обладателей. Номер лицензии при этом не изменится. Это значительно упрощает подсчеты. Не пользуясь ни телефоном, ни Интернетом, постояв в центре города всего 10 минут, можно очень точно определить число такси в городе. Посмотрим, как это делается.
Допустим, мы выбрали из генеральной совокупности следующие значения: 8, 14, 22, 27 и 35. Попробуем оценить число элементов генеральной совокупности на основе этой выборки. Оно будет однозначно больше 25, так как выборка содержит число 35, и крайне маловероятно, что оно будет равно 1000, так как все пять случайно выбранных элементов генеральной совокупности достаточно невелики. Точная оценка будет примерно равной 40 или 50.
Первое правило для оценки числа элементов генеральной совокупности может быть таким: общее число элементов в два раза больше среднего значения минус 1. Например, если генеральная совокупность состоит из 10 элементов 1, 2, 3, 4, 5, 6, 7, 8, 9 и 10, то среднее значение будет равно 5,5, а общее число элементов — 2·5,5–1. Если x¯ — среднее значение генеральной совокупности из N последовательных чисел, начинающихся с 1, то всегда выполняется следующее соотношение:
N = 2x¯— 1
Если мы применим эту формулу к вышеприведенным данным о выборке, получим, что ее среднее значение равно 21,2, а примерное число элементов генеральной совокупности составит 2·21,2–1 41. Эта оценка очень близка к той, что мы предположили изначально.
Однако эта формула имеет один очень важный недостаток. Предположим, даны числа 3, 4, 6 и 15. Их среднее значение равно 7, а оценка общего числа элементов равна 13. Это очевидно неверно, так как выборка содержит число 15, следовательно, генеральная совокупность содержит минимум 15 элементов. Забавно, что результаты, полученные с помощью сложных методов, нередко противоречат элементарному здравому смыслу. Нужен иной способ. В действительности, чтобы определить общее число элементов совокупности в нашем примере, достаточно знать, сколько значений больше 35.
Достаточно разумный вариант — руководствуясь соображениями симметрии, предположить, что после последнего элемента находится столько же элементов, сколько перед первым. В нашем примере мы сложим 7 и 35 и получим примерное число элементов генеральной совокупности — 42. Этот метод неудобен тем, что мы не учитываем элементы, расположенные между элементами выборки. Между тем всегда следует использовать всю доступную информацию. Для этого мы добавим к последнему значению в выборке среднее расстояние между элементами выборки (первое расстояние будет равно числу элементов совокупности перед первым элементом выборки).