В статье «Лингвистические спектры», вышедшей в 1915 году, Морозов характеризует свой метод как «средство для отличения плагиата от истинных произведений того или другого известного автора». Идею метода Морозов заимствует у немецких исследователей XIX века В. Диттербергера и К. Риттера, которые изучали спорные тексты (среди них тексты, приписываемые Платону, Гёте и др.) методами статистического анализа употребительности отдельных речевых форм, слов, выражений, фразеологических оборотов и синонимов. Причем в качестве счетных единиц выбирались наиболее подвижные и легко заменяющиеся синонимами элементы языка.
В основе предложенного Н. А. Морозовым метода лежало глубокое убеждение автора в том, что языковые элементы распределяются в общей структуре текста в определенной пропорции, которая характеризует индивидуальный речевой стиль писателя. Но если немецкие исследователи использовали сравнительно редко встречающиеся в тексте лингвистические формы (предполагая, что уникальность языковых форм определяет индивидуальность стиля писателя), Морозов, наоборот, предложил «отбросив все редкие слова, ограничиться наиболее частыми и общими для всех родов литературы». За этим кажущимся незначительным различием в позициях немецких исследователей и Н. А. Морозова скрывалось принципиальное расхождение: не исключительность языкового элемента определяет стиль писателя, но своеобразие в употреблении общих языковых форм, а это может быть объективно установлено только математически. Далее Морозов обратил внимание на тот факт, что не только необходимо учитывать слова, имеющие большую частоту употребления, но и то, что группы этих слов неоднородны, т. е. они должны принадлежать различным частям речи. Особое внимание он уделял незнаменательным словам, служебным, или как назвал их автор, распорядительным частицам речи (союзы, предлоги, некоторые местоимения, наречия и пр.). Отвечая утвердительно на вопрос: нельзя ли по частоте употребления таких частиц узнавать авторов, как по чертам их портретов? — Морозов предлагает: «Для этого прежде всего надо перевести их частоты на графики, обозначая каждую распорядительную частицу на горизонтальной линии, а число ее повторений на вертикальной, и сравнить эти графики между собой у различных авторов».
Рис. 1. Образцы «главного предложного спектра» (по Н. А. Морозову)
Таким образом, результат анализа текста, по Морозову, можно представить в виде графика распределения частоты встречаемости различных языковых элементов, сгруппированных в тот или иной грамматический класс (например, график распределения частоты встречаемости предлогов). Эти графики Морозов и называл лингвистическими спектрами.
На рис. 1 приведены примеры лингвистических спектров ряда произведений современных Морозову русских писателей. При обработке текстов Морозов отсчитывал (исключая эпиграфы или вводные цитаты из иностранных авторов) первую тысячу слов. Наиболее часто повторяющимися оказались у всех исследованных авторов предлоги «в», «на» и «с», поэтому их графики Морозов и назвал «главным предложным спектром».
Повышение надежности метода и достоверности результатов достигается, во-первых, за счет увеличения объема текста, то есть числа языковых единиц, входящих в один спектр, и, во-вторых, за счет увеличения числа самих спектров. В конечном итоге и первое и второе требование выполняется при увеличении объема исследуемого текста.
Метод Морозова остался бы действующим рабочим инструментом литературоведов и по сей день, если бы не одно обстоятельство: все показатели этого метода зависят от объема анализируемого текста, а сам автор не определил границу объема, за которой надежность метода не подлежит сомнению. Дело в том, что показатели частоты употребления отдельных языковых элементов, полученные на текстах, скажем, в сто словоформ[1], могут различаться даже у одного автора, а весь метод строится на близости значений этих показателей. И только в достаточно больших текстах — порядка нескольких тысяч словоформ — показатели частоты стабилизируются и становятся пригодными для сравнения текстов разных авторов.
Ответ на вопрос о минимально необходимом объеме текста, достаточном для установления авторства, дал польский исследователь Е. Ворончак в работе, посвященной математико-статистическому анализу устойчивости различных показателей, используемых в настоящее время в исследованиях языка и стиля произведения. Он приходит к выводу, что границей объема текста (ниже которой результаты недостоверны, а выше — достоверны) является пять тысяч словоформ. Но проблема надежности методов, основанных на использовании частотных показателей, все же остается, так как в литературоведческой практике основной массив анонимной литературы состоит из текстов, гораздо меньших по объему (среди анонимных текстов наиболее часто встречаются письма, полемические статьи, черновые фрагменты произведений, т. е. тексты, не всегда превышающие и тысячу словоформ). Непригодность частотных расчетов для атрибуции коротких текстов заставляет изменить направление поиска надежных показателей. Одно из новых направлений в решении проблемы авторства
психолингвистика плюс математика.
Итак, необходимо найти такие показатели языкового своеобразия произведения, которые бы, во-первых, отражали индивидуальный стиль автора и, во-вторых, могли бы быть использованы при анализе текстов объемом меньше тысячи словоформ. Как мы уже выяснили, первое требование выполняется при использовании частотных показателей употребительности различных частей речи, но эти показатели не удовлетворяют второму требованию. Необходимо как-то понизить их случайный разброс в текстах небольшого объема. Pi здесь приходят на помощь достижения такой научной дисциплины, как психолингвистика. Эта сравнительно новая пограничная дисциплина занимается изучением процессов порождения и восприятия речи человеком.
Давно было замечено (однако исследовано сравнительно недавно), что человек в своих приблизительных, интуитивных суждениях о каких-либо физических параметрах окружающего мира дает оценки, весьма близкие к действительности. Так, например, зрительно воспринимая какой-либо предмет на разной удаленности от глаз, человек всегда правильно определит его размер, хотя проекция на сетчатку и будет меняться. Известно, что за этим лежит (в числе других причин) знание и опыт взаимодействия с этим предметом. Следовательно, воспринимая окружающий мир, человек всегда привлекает свой прошлый опыт и, основываясь на нем, строит свое поведение в настоящем. Те же явления мы наблюдаем и в сфере речевой деятельности. Советский лингвист Р. М. Фрумкина провела эксперимент, в котором сравнивались объективные и субъективные частоты употребления отдельных слов (первые брались из частотных словарей, вторые — рассчитывались на основании опроса группы лиц). Результат сравнения частот показал, что субъективное представление о том, как часто употребляются те или иные слова, практически совпадает с действительной частотой, полученной на основе обработки больших текстов. Правда, при этом необходимо опираться на субъективную оценку не одного человека, а на среднюю оценку достаточно большой (в статистическом отношении) группы лиц.
Но если субъективные и объективные частотные показатели близки на уровне отдельных слов, то можно допустить, что это явление проявит себя и на более сложной организации текста, например, на уровне восприятия грамматических форм, предложений, распределения частей речи (таких, как существительные, предлоги и пр.). Если это предположение окажется верным, то откроется возможность построения принципиально нового метода для анализа анонимных текстов. Научная проверка выдвигаемых предположений (гипотез) осуществляется экспериментально. Такой эксперимент был поставлен и как его результат — разработан количественный[2] метод атрибуции.