Метод установления смысловых связей слов на основе статистических показателей совместной встречаемости их в тексте, разработанный А.Я. Шайкевичем [27], оказался эффективным способом построения автоматических тезаурусов [10]. По этой методике семантическая связь слов (в тезаурусе такие слова объединяются в один класс) выводится на основе наблюдения их совместной встречаемости в текстах без обращения к значению этих слов. Для анализируемых слов вычисляется абсолютная частота их в тексте и относительная в заданном интервале, при этом фиксируются все слова, встретившиеся с анализируемыми. По формуле x = np вычисляется ожидаемая встречаемость этих же встретившихся слов в том же интервале (n – число случаев появления в тексте слов, которые встретились с заданными; p – вероятность встречаемости анализируемых слов в выбранном интервале). Сравнение наблюдаемой и ожидаемой встречаемости слов выявляет существенные между ними расхождения, настолько значительные, что считать их случайными некорректно, и поэтому может быть сделан вывод о наличии между данными словами определенной семантической связи. Чем больше величина указанных расхождений, тем теснее связь между словами. Содержательная интерпретация связей показала, что в большинстве случаев это смысловые связи.
Кэмбриджская группа, работающая над автоматизацией информационного поиска, применив подобную методику для выявления связей слов, предложила вычислять коэффициент интенсивности (Aab) связи между словами a и b как отношение частоты (f) совместной встречаемости слов в заданном интервале (f(ab)) и частоты контекстов, в которых присутствует хотя бы одно из этих слов:
Aab = f(ab) / (fa + fb – fab).
Изменение длины интервалов показало, что выявление формально определяемой связи зависит от величины интервала, в котором исследуется совместная встречаемость слов. Во всех интервалах обнаруживаются связи однокорневых слов с различными словоизменительными и словообразовательными показателями. Полученные с помощью описанного статистического анализа классы слов в большинстве случаев соответствуют логико-интуитивному представлению исследователя о семантической связи слов в пределах этих классов. Следовательно, количественные методы вполне правомерно применимы при выявлении формальным путем различных типов отношений на лексическом и грамматическом уровнях языка.
До сих пор речь шла об исследованиях с помощью статистических методов системных отношений или в пределах определенных уровней языка или межуровневых связей, то есть о тех случаях анализа, когда исследователь не выходит за рамки одного языка. Описание же любого объекта как целостной системы обязательно предусматривает определение не только ее внутренних, но и внешних связей. Остановимся на целесообразности применения статистических методов и в последнем случае, а именно при типологическом анализе языков. В задачи типологического описания языков входит:
1) изучение фактов отдельных языков;
2) изучение взаимоотношений между этими фактами в различных языках;
3) определение количественных отношений данных фактов [22].
Значимость статистического анализа в типологии стала очевидной после осмысления политипологичности языков, что обусловило необходимость изучения степени проявления того или иного типологического признака в языке [14]. Установлено, например, что в случаях, когда структурные отличия у языков незначительны, наиболее информативные результаты дают количественные показатели. Первой работой, в которой были применены статистические методы в типологических исследованиях, была работа Яна Чекановского [29]. В ней для установления степени сходства славянских языков был предложен метод таблиц 2×2 из 4 клеток: одна отведена для признаков, общих у пары сравниваемых языков, вторая – для признаков, свойственных первому языку, но отсутствующих во втором, третья – для признаков, присутствующих во втором, но не свойственных первому, четвертая отводится для признаков, отсутствующих в обоих языках. Этот метод успешно применяется в типологическом сравнении фонемных систем славянских и германских языков при установлении коэффициента родства для каждой пары исследуемых языков и при вычислении степени близости каждой системы фонем языка ко всем системам фонем сопоставляемых языков [19].
В типологических исследованиях интересной является и проблема сопоставления соотношений между различными уровнями языковых систем. Исходным положением при этом является тезис о взаимозависимости различных явлений в языке. Формируется эта взаимозависимость таким образом: если в языке есть A, то предусматривается, что будет и B (например, если есть согласование, то языку свойствен свободный порядок слов в предложении и наоборот). Совокупность таких взаимозависимых явлений называется типом [22]. Обнаруживать эти типы снова-таки помогает статистика. В исследовании Н.В. Омельяновича [17] указывается, что типологически различные языки отличаются не только способом выражения пассивного значения, но и частотой его употребления. Так, свойственные английскому, русскому и бирманским языкам пассивные конструкции с наибольшей частотой употребляются в английском языке. Связано это с тем, что фиксированный порядок слов английского языка позволяет осуществить перераспределение коммуникативной роли слов в предложении лишь путем употребления пассивных конструкций, тогда как в языках со свободным порядком слов это перераспределение может быть достигнуто простой перестановкой слов (мы прочитали книгу – книгу прочитали мы). На основе приведенного объяснения расхождений в частотных характеристиках использования пассивных конструкций выводится гипотетическая универсалия: в языках с фиксированным порядком слов при развитом глагольном формообразовании широко распространены пассивные конструкции.