Выбрать главу

Когда исследователи «Тихого Дона» стали приходить к выводу, что Шолохов не является его автором, они стали анализировать и другие его произведения, резонно полагая, что они смогут обнаружить проблемы и там. Небезосновательные сомнения в авторстве Шолохова других произведений, им опубликованных, придавали больше уверенности и в справедливости выводов относительно «Тихого Дона».

Зеев Бар-Селла, анализируя две части повести «Путь-дороженька», опубликованной Шолоховым, стал приходить к выводу, что повесть написана разными авторами. В беседе с одним из авторов настоящей работы Зеев Бар-Селла, зная о проводящихся этими авторами математико-статистических исследованиях по определению авторства, предложил применить этот метод для определения разницы в авторских стилях двух частей этой повести.

Настоящая статья представляет результаты такого небольшого исследования.

Методика исследования

 

Рассматривается новый стилометрический атрибутор, независимый от контекста – кусочная условная сложность сжатия (CCC) литературных текстов (ССС-атрибутор). CCC-атрибутор (непараметрический критерий однородности), навеянный невычислимой условной сложностью Колмогорова [3] и впервые определенный в работе М.Малютова [4] в 2005 году, асимптотически минимален для истинного автора, если изучаемые тексты являются достаточно большими, сжатие – достаточно хорошим и выборочное смещение отсутствует. Он может быть успешно использован там, где другие методы стилометрии могут не различить похожих авторов. Этот критерий состоятелен при аппроксимации большого текста как стационарной эргодической последовательности.

Надлежащие параметры нашего критерия определены авторами Malyutov, M.B., Wickramasinghe, C.I., and Li, S. [5] в 2007 году. Ими приводятся методологические результаты предварительного испытания метода для успешной атрибуции поэм Елизаветинского периода и многих десятков «федералистских статей».

Нами метод был успешно опробован на примере анализа переводов сонетов Шекспира разными авторами [6]. Другое подтверждение добротности метода связано с анализом двух художественных произведений одного из авторов данной работы. Метод не дискриминировал эти два произведения несмотря на то, что они были написаны в разное время, в разном стиле и, казалось бы, совершенно разнились языком [6].

Более подробное описание методики можно найти в работе [7]. Обзор методов математической статистики для обоснования CCC-атрибутора дан в книге B.Ryabko, J.Astola and M.B.Malyutov [8].

 

Предыстория

 

Краеугольный камень наших построений – великая идея Колмогорова о связи сложности и случайности. Накануне тяжелой фатальной болезни он, параллельно с далекими от математики Соломоновым и Чейтиным, дополнил ее вместе с Л.Левиным наброском «Абстрактной Теории» (ЧейКоЛеСо) Колмогоровской сложности (КС). ЧейКоЛеСо вдохновила Д.Хмелева [9] предложить ядро ССС-метода вне статистической модели. Для стационарной эргодической последовательности xN и фиксированного универсального сжатия (УС), длина сжатой последовательности xN – это аппроксимация условной КС. Однако длина сжатого участка генома (четырехбуквенной последовательности) превосходит длину участка в несколько раз и приближением условной КС не является. Кроме статистических моделей, нам не известны нетривиальные содержательные области, где для невычислимой КС можно построить сближающиеся вычислимые мажоранту и миноранту хотя бы теоретически. Поэтому замена КС на величину, полученную с помощью УС в работе [10], требует обоснования. Для последовательностей, приближаемых статистической моделью, вместо аналогий с КС нужно применять статистическую теорию УС, далекую от очевидности. Историю родственных работе [8] подходов (до [4], где появилась наша работающая версия ССС), можно найти в работе [10]. Все авторы следуют Хмелеву, некоторые добавляют преобразования из соображений, не имеющих отношения к статистике и только ухудшающих различающую способность метода, как в [10]. Замена ими КС на величину, полученную с помощью УС, не обоснованна. Поэтому их приложения сомнительны. Их классификатор плохо различает одноязычные литературные тексты [5] и зависит от энтропий текстов, что не было упомянуто в работе [10]. Их парадоксальное утверждение, что Л.Толстой – отдельная ветвь на дереве русских писателей, скорее всего, вызвано плохой подготовкой текстов: они не убрали для анализа значительные вкрапления французского с другой энтропией.