Читать онлайн "Методы статистического анализа исторических текстов (часть 2)" - Фоменко Анатолий Тимофеевич - RuLit

На рис.Доп-2.10 обнаруженные зоны однородности изображены на другой шкале. Здесь Библия представлена как объединение фрагментов, названных в Главе 3 главами-поколениями. Это разбиение Библии отличается от канонического разбиения Библии на обычные главы. Грубо говоря, глава-поколение - это фрагмент текста, описывающий события, происшедшие в течение одного поколения (или при жизни одного какого-то главного персонажа). Иногда одна глава-поколение может состоять из нескольких стандартных глав Библии (обычно эти последние - "более мелкие", чем главы-поколения). Поэтому при переходе к новой шкале,несколько стандартных глав могут склеиться в одну главу-поколение. На рис.Доп-2.10 изображен этот пересчет: какие стандартные главы вошли в состав одной главы-поколения. На рис.Доп-2.10 приведено также сравнение результатов, полученных методом разладки, с разбиением Библии (на группы глав-поколений), полученные другими методами. Налицо поразительное согласование.

ДОПОЛНЕНИЕ 3.

В.П.Фоменко, Т.Г.Фоменко

АВТОРСКИЙ ИНВАРИАНТ РУССКИХ ЛИТЕРАТУРНЫХ ТЕКСТОВ.

ПРИЛОЖЕНИЕ: КТО БЫЛ АВТОРОМ "ТИХОГО ДОНА"?

Комментарий А.Т.Фоменко (Москва, Московский государстьвенный университет, механико-математический факультет).

Вниманию читателя предлагается исследование, выполненное моими родителями Валентиной Поликарповной Фоменко и Тимофеем Григорьевичем Фоменко в 1974-1981 годах. В полном объеме их работа публикуется здесь впервые. В краткой форме она вошла в 1983 году в сборник "Методы количественного анализа текстов нарративных источников", Москва, 1983, Академия Наук СССР, Ин-т Истории СССР, с.86-109.

Главным результатом настоящей работы является обнаружение "авторского инварианта" для русских литературных текстов. Он позволяет различать некоторых авторов и оказывается полезным при решении проблем, связанных с плагиатом. Этот результат был получен на основе некоторой общей идеи - статистического анализа функций объема для нарративных текстов. Функции объема были введены в работе [р19], где были также предложены некоторые новые эмпирико-сатистические модели анализа информации в нарративных текстах. Развитие этих идей можно найти также в работе [р20].

Настоящая работа находится, на первый взгляд, несколько в стороне от исследований по основам древней хронологии. Однако, этот материал показывает - как могут ЭМПИРИКО-СТАТИСТИЧЕСКИЕ МЕТОДЫ использоваться при решении не только хронологических, но и других смежных проблем, например, - при установлении авторства письменного документа. А поскольку центральным стержнем нашего анализа письменной истории являются эмпирико-статистические методы, мы и решили познакомить читателя с этим исследованием. Тем более, что проблема установления авторства в современной и в древней литературе является чрезвычайно актуальной и любые новые методы в этой области могут оказаться полезными.

1. ВВЕДЕНИЕ. ВКРАТЦЕ ОБ ИСТОРИИ ПРОБЛЕМЫ.

В литературе, истории, лингвистике часто возникает вопрос об атрибуции литературных произведений - действительно ли они написаны одним автором. Действительно ли диалоги Платона написаны одним человеком? Правда ли, что пьесы Шекспира творения одного гения? Или же они написаны разными людьми? Кто в действительности скрывается под именем "Шекспир"? Специальный интерес приобретает эта проблема, когда возникает подозрение в плагиате.

Особое звучание задачи такого сорта приобретают при исследовании ДРЕВНИХ текстов, данные об авторах которых утрачены или сомнительны.

Укажем лишь на некоторые подходы к решению таких задач.

Например, в работе В.Фукса [р1] изучался вопрос об авторстве некоторых древних текстов на основе статистического анализа различных ГРАММАТИЧЕСКИХ структур их языка.

Много исследований посвящено обнаружению количественных закономерностей, позволяющих различать между собой РАЗНЫЕ ЛИТЕРАТУРНЫЕ ЖАНРЫ - поэзию, драматургию, публицистику и пр. [р2].

Попытка использования точных математических приемов для решения проблемы плагиата изложена, например, в книге [р10].

Проблеме обнаружения авторских инвариантов посвящена значительная научная литература. Так например, структура языка различных авторов изучалась с помощью отдельных распорядительных слов, в частности, предлога "в", частицы "не" [р3], или при помощи длины предложений и слов [р4]. Однако, как показали эксперименты, использование лингвистических спектров ОТДЕЛЬНЫХ распорядительных слов не позволяет обнаружить устойчивые инварианты. На это указал еще в 1916 году академик А.А.Марков [р5], отметивший что при больших объемах выборок результаты такого типа должны "колебаться около среднего числа, подчиняясь общим законам языка", что естественно затрудняет различение авторов.

Полезный подход продемонстрирован в ряде работ В.Фукса, где каждому автору сопоставляются такие его характеристики, как среднене количество слогов и среднее количество слов в предложении. Этот прием позволяет изобразить текст (автора) точкой на плоскости в случае использования двух параметров, или же точкой в многомерном пространстве (если число параметров возрастает).

Интересные исследования ведутся и в отечественной филологии (см., например, [р6]-[р9]).

Следует отметить общую характерную особенность этих и многих других (не упомянутых нами здесь) исследований. Обычно изучаются индивидуальные количественные параметры текстов и путем их сравнения ученые старались выявить "значимые различия", опираясь на которые можно было бы отличить друг от друга разных авторов. Однако главным вопросом здесь является - какие различия следует считать значимыми, а какие - нет. Тут открывается простор для субъективизма. И здесь коренятся главные трудности применения статистических методов к задачам такого сорта.

2. ЧТО ТАКОЕ АВТОРСКИЙ ИНВАРИАНТ?

Под АВТОРСКИМ ИНВАРИАНТОМ мы понимаем количественную характеристику литературных текстов (некий параметр), который

а) однозначно характеризует своим поведением произведения одного автора или небольшого числа "близких авторов", и

б) принимает существенно разные значения для произведений разных групп авторов.