При построении компьютерной модели мы рассчитывали на то, что, исследуя темы подробней, чем это доступно обычному человеческому восприятию, мы сможем прийти к более глубокому пониманию тем, постоянно присутствующих в списках бестселлеров. И мы оказались правы. Поскольку в распоряжении писателя – все темы на свете, легко предположить, что бестселлеры – это книги про «секс, наркотики и рок-н-ролл». Но выяснилось, что это не так. Далеко не так.
Секс, наркотики и рок-н-ролл
Секс 0,001 %
Наркотики 0,003 %
Рок-н-ролл 0,001 %
Эти крохотные доли процента отражают присутствие каждой темы (в среднем) в современных романах из нашего корпуса текстов. Вероятно, эти показатели потрясли вас до глубины души. Сейчас мы объясним, почему они настолько низки, и, возможно, потрясем вас еще раз. Если взять набор из 500 тем и проследить их по всему корпусу из 5000 текстов, среди которых есть 500 бестселлеров, то в среднем описания секса в них будут занимать всего около одной тысячной доли процента. Если затем измерить тот же показатель (чуть позже мы объясним, как это делается) только среди бестселлеров, окажется, что доля секса в них еще ниже – 0,0009 %.
Удивительно. Кто бы подумал, что секс – не двигатель продаж? Когда мы об этом рассказываем, нам до сих пор не верят. Истина заключается в следующем: секс (точнее, эротическая литература) продается, причем в немалых количествах, но лишь на определенном, нишевом рынке. Книги этого жанра редко вырываются на основной рынок, который создает бестселлеры. Мы знаем, что вы сейчас подумали: «А как же “Пятьдесят оттенков серого”?» Этот роман (или эти романы, если говорить о всей трилогии) – чрезвычайно редкий пример эротического произведения, попавшего в бестселлеры. В следующей главе мы объясним причины этого успеха – и окажется, что они не имеют отношения к собственно сексу.
Вопреки видимости (учитывая навязчивое присутствие темы секса на ТВ, в кино и СМИ) читающая публика США в последние тридцать лет явно предпочитает другие темы. Сочетание тем, характерное для современного бестселлера, дает основания предположить, что современный читатель ждет от книги чего-то большего, нежели потакание самым низким инстинктам.
Но откуда мы это знаем?
В 1957 году лингвист Джон Руперт Фёрс сказал: лучший способ понять слово – это познакомиться с его соседями. Проще говоря, значение слова раскрывается через контекст, в котором оно употреблено. Слова «секс», «наркотики» и «рок-н-ролл», фигурирующие в названии этого раздела, можно было бы понять соответственно как сокращение слова «секстет», «обезболивающие средства» и «акробатические танцы» – но вы знаете, что в данном контексте имелось в виду не это, именно потому, что каждое из слов придает определенный оттенок смысла своим соседям. Возьмем другой пример – слово «три». Оно может означать числительное, а может – повелительное наклонение глагола[48]. Чтобы различать эти два случая, компьютер нуждается в специальном обучении – по принципу, сформулированному Фёрсом семьдесят лет назад. Компьютер должен рассматривать каждое слово в контексте окружающих его слов в ближайших предложениях. Алгоритмический метод для формализации такого рассмотрения слов в контексте в больших объемах называется моделированием тем[49].
Математический аппарат, задействованный в моделировании тем, весьма сложен, но его общие принципы достаточно просты. Каждый роман представляет собой комбинацию тем, а эти темы выражаются словами (в первую очередь – существительными). Например, в книге о финансах, скорее всего, встретятся слова «банки», «проценты», «деньги», «фидуциарный». В другой книге, посвященной домашнему консервированию, мы увидим слова «банки», «крышка», «огурцы» и «укроп». Слово «банки» попадается в обеих книгах, но, рассмотрев другие существительные, стоящие рядом с каждым вхождением этого слова, компьютерная модель регистрирует повторяющиеся закономерности и может понять – подобно читателю-человеку, – что в разных местах слово «банки» имеет разные значения[50]. Очевидно, что слово «банки» само по себе еще не тема, но, когда оно постоянно попадается рядом с другими словами, которые (как нам уже известно) связаны с финансами, мы понимаем, что компьютер обнаружил в книге тему денег. Аналогично, если «банки» окружены «огурцами» и «пряностями», мы знаем: компьютер обнаружил тему домашних заготовок. При написании этой книги мы проводили моделирование тем, и одна из тем, обнаруженных компьютером, выглядела так, как показано на рис. 1.
49
Мы использовали латентное размещение Дирихле – алгоритм моделирования тем, предложенный Дэвидом Блеем, сотрудником Колумбийского университета. Слово «латентный» в названии метода Блея отражает то, что некоторые темы могут присутствовать в тексте в неявном виде. (
50
В 8-й главе своей книги «Macroanalysis: Digital Methods and Literary History» (UIUC Press, 2013) Мэтт более подробно описывает алгоритм моделирования тем. В 13-й главе своей книги «Text Analysis with R for Students of Literature» (Springer, 2014) Мэтт объясняет читателям, как проводить моделирование тем на алгоритмическом языке R (и как создавать словесные облака, которые вы увидите на этих страницах). Мэтт также опубликовал несколько объяснений для неспециалистов у себя в блоге (www.matthewjockers.org), в том числе: «The LDA Buffet is Now Open; or, Latent Dirichlet Allocation for English Majors» (29.09.2011) и «“Secret” Recipe for Topic Modeling Themes» (12.04.2013). (