Можно ли полагаться на выборочные данные? А.О. ставит под сомнение выводы, полученные при обработке антропометрических данных: «Если картина изменений, относящихся к 1853–1892 гг., может быть близкой к действительности, то применительно к 1701–1850 и 1896–1915 гг. она во многом является гипотетической (в первом случае выборка составляет около 2%, во втором — не более 0,2%» (А.О., с. 120).
На самом деле средний рост в выборке зависит не от процента выборочных данных в генеральной совокупности, а от абсолютного числа данных и степени изменчивости роста у новобранцев, попавших в нашу выборку. Если бы все мужчины призывного возраста имели одинаковый рост, то для получения истинного среднего роста всех мужчин достаточно иметь сведения об одном рекруте, независимо от их численности. В современной России социологи предсказывают итоги выборов, основываясь на опросе 1600–2000 человек — менее 0,002% от числа избирателей. В зависимости от числа данных выборка дает большую или меньшую погрешность, называемую в статистике стандартной ошибкой средней. Ее величина приведена во всех таблицах с важными данными. Например, в табл. V. 1{193}, на которую ссыпается А.О., средний рост мужчин в возрасте 23 лет и старше, вычисленный по сведениям о 307 рекрутах, равнялся 164,8 см, а стандартная ошибка средней при доверительной вероятности 95% (или 0,95) — 0,69 см. Это означает: действительный средний рост всего мужского населения, т.е. в генеральной совокупности, находился в доверительном интервале от 164,11 см (164,8–0,69) до 165,49 см (164,8 + 0,69) при вероятности в 95%. Вероятность 95% означает: из 100 выборок по 307 человек в 95 случаях средний рост мужчин будет обязательно находиться в указанном интервале 164,11–165,49 см.
Таким образом, все выборки дают погрешность, но их величину мы всегда точно знаем. Доверительный интервал может рассчитываться с разной доверительной вероятностью: чем выше вероятность, тем больше доверительный интервал, и наоборот{194}. Если мы имеем две выборки, относящиеся к одному пятилетию, то средние, вычисленные по данным первой и второй выборок, будут различаться, но различие, как правило, будет находиться в рамках доверительного интервала. Например, когда я сравнил средний рост по сведениям индивидуальных данных (первая выборка) со средним ростом по суммарным данным (вторая выборка) за одни и те же пятилетия — 1851–1855 гг., 1856–1860 гг. и т.д., то между ними, естественно, обнаружились расхождения, но не «принципиальные», как полагает А.О., а в рамках доверительных интервалов. Наличие расхождения между средними двух выборок свидетельствует не о том, что средние по индивидуальным данным не репрезентативны, как думает А.О., а о том, что они дают погрешность, поскольку вычислены по выборочным данным. Все это объяснено в тексте{195}. Иной оценки точности статистических данных наука предложить не может. Между прочим, все события в жизни человека имеют вероятностную природу, и мы всегда действуем, не будучи на 100% уверенными в успехе дела. Жизнь остановится, если будем бояться ошибок и ждать момента, когда вероятность счастливого окончания задуманного дела достигнет 100%. Согласно известной поговорке, «ни в чем нельзя быть уверенным, кроме смерти и налогов».
Итак, если не полагаться на выборочные данные, то сообщество историков должно самораспуститься.
Противоречия в источниках, расчетах или головах? А.О. обнаружил якобы расхождение: при построении табл. V.1 и VI. 1 использованы сведения о 247 тыс. лиц, в то время как база данных включает 306 тыс. (А.О., с. 120).
Противоречия нет. 306 тыс. — это число индивидуальных сведений о мужчинах и женщинах всех возрастов по всему периоду, 1701–1920 гг., т.е. за 220 лет, а 247 тыс. (правильно 171,7 тыс.{196}) — это лишь число мужчин за 135 лет, 1701–1705, 1791–1920 гг., или за 105 лет, 1701–1805 гг. (правильно 94,6 тыс.{197}). Кроме того, в обоих случаях речь идет о мужчинах старше 23 лет, которых было меньше, чем лиц всех возрастов.