Исходные данные представляют собой списочный состав населения изученного региона: перечень фамилий в каждом населённом пункте, где каждая фамилия соответствует одному человеку — её носителю. Очевидно, что одни и те же фамилии в этом списке могут повторяться многократно (родственники, однофамильцы). Программа «ONOMA» и создана для того, чтобы перейти от списка членов популяции к частотам фамилий в популяции, а затем провести необходимые расчёты.
Исходные данные могут дать информацию только о том, сколько раз та или иная фамилия встречена в данном населённом пункте. Этого достаточно для изучения структуры генофонда, а сама информация остаётся при этом анонимной — имеются данные не о людях, а лишь о частотах их фамилий.
Для статистического анализа использовалась вся база данных целиком, а для картографического — только данные о 75 фамилиях. Эта информация получена из двух источников.
1) Данные А. П. Бужиловой по частотам 75 русских фамилий в 55 популяциях уровня сельсоветов, представляющих 23 области Европейской части России. Средний объем выборки по масштабам, принятым в анализе фамилий, невелик — немногим более 300 человек.
2) Информация нашей базы данных «ONOMA» по тем же 75 фамилиям в 51 популяции уровня районов, представляющих 7 областей. Из 50 районов, используемых в статистическом анализе (см. табл. 7.2.1.) Репьёвский район Воронежской области не успел пока войти в картографический анализ, зато обширный Каргопольский район Архангельской области представлен как три популяции, что и дает в сумме 51 картографированную популяцию. Средняя выборка на район значительна — около 20 000 человек.
Сравнение этих двух источников показывает, что второй (наша база данных) основан на обширных выборках, но представляет только 7 областей, а у первого (данные А. П. Бужиловой) выборки невелики, зато география популяций очень хорошая. Поэтому для картографирования данные этих двух источников были объединены. По пяти районам (Холмогорский район Архангельской, Кашинский район Тверской, Кологривский и Вохомский районы Костромской, Велижский район Смоленской областей) имелись данные в обоих источниках. Для этих районов данные А. П. Бужиловой не использовались, и в этих точках картографировались только данные нашей базы данных. Таким образом, общее число опорных точек картографирования составило 101 популяцию: 50 популяций Бужиловой плюс 51 популяция нашей базы данных.
Кроме различия в уровне иерархии популяций (сельсоветы или же районы) между двумя источниками имеется и ещё одно — важнейшее — различие. Данные А. П. Бужиловой ограничены 75 фамилиями, которые оказались по её данным наиболее распространенными. В нашей же базе данных представлено не 75, а 14 000 «условно коренных» распространенных фамилий. Но поскольку для картографирования оба источника объединяются, то мы можем построить подробные «простые» карты лишь тех же 75 фамилий.
ПРЕОБРАЗОВАНИЕ ИСХОДНЫХ ДАННЫХ. В отличие от всех иных признаков, где преобразования от экспериментальных данных до частот признаков многократно описаны и общеизвестны, преобразования с данными о фамилиях не стандартизованы. Поэтому схематично приведем их.
1. «Маскулинизация» фамилий. В исходных данных присутствуют фамилии и мужчин, и женщин. Поэтому, чтобы одну и ту же фамилию не учитывать как две разные, все фамилии преобразуются к орфографии мужского рода. Например, список «Иванов, Смирнова, Иванова, Сидорова» превращается в «Иванов, Смирнов, Иванов, Сидоров». Надёжный алгоритм такого преобразования разработать не так просто (см. «Крик души» в конце параграфа).
2. Исключение неинформативных популяций. Как правило, в каждом районе есть несколько посёлков, где большинство жителей — недавние мигранты или их потомки. Такие поселения являются чуждыми включениями и не отражают изучаемую популяцию. К тому же они, как правило, недолговечны — их состав текуч, и сами они так же быстро исчезают с карты, как и появляются. Информация об уровне миграций в населённых пунктах собирается в ходе экспедиционного обследования. Разработана специальная методика: каждому населённому пункту местными экспертами проставляется степень его «мигрантности» по пятибалльной шкале. Оценки обычно выставляют два эксперта, правила оценок стандартизованы, что, как мы надеемся, сводит к минимуму субъективный момент в определении уровня миграций. Программа выводит список населённых пунктов вместе с оценкой «мигрантности» и позволяет выбрать, какие из них необходимо исключить из анализа (пункты с высоким уровнем миграции).