4. «Черный ящик»
Эта книга – не про алгоритмы. Мы расскажем об основных параметрах, которые научились вычислять, и опишем в общих чертах наш метод, но перед вами не пособие по машинному обучению, автоматическому поиску документов или обработке естественного языка. По этим темам существует множество хороших учебников, а мы пишем о книгах, в основном о бестселлерах[43]. Мы хотим, чтобы вы задумались о себе как читателе или писателе, о задачах литературы, об авторах, которых вы любите или ненавидите, и даже об отношениях человека и машины. Мы расскажем вам о множестве результатов и интерпретаций того, как компьютеру удалось или не удалось определить бестселлеры и чему это нас научило, но мы будем говорить про «Щегла»[44] и «Исчезнувшую», а не про латентные размещения Дирихле или, к примеру, распознавание именованных сущностей. Эти (загадочные для непосвященных) методы были важны для проделанной нами работы, и без них мы не справились бы, но это лишь инструменты: живописец рисует кистью, но он не рисует саму кисть.
2. Крестные родители, или Почему важно находить время друг для друга
Входя в книжный магазин, первое, что видишь, – столы с новыми книгами. Теперь вы знаете: чаще всего это значит, что за многие из них, если не за все, кто-то хорошо заплатил, чтобы они первыми попались вам на глаза. Это произведения самых разных жанров – романы, автобиографии, кулинарные книги, триллеры, однако остальная часть магазина организована по категориям. Если вы любите читать беллетристику, то знаете, что в магазине обычно есть отдел прозы, где размещаются по алфавиту классические и современные авторы, а также отделы жанров с соответствующими табличками – например «Любовный роман» или «Научная фантастика». Мы так привыкли к подобному размещению книг в магазине, что, кажется, нашли бы нужную с закрытыми глазами.
Расположение книг как в магазинах сети Barnes & Noble, так и в любом онлайн-магазине продиктовано убеждением, что самая главная характеристика книги – это ответ на вопрос: «О чем она?» На этом построено все книжное дело. Каждой книге, опубликованной традиционным образом, присваивается один или несколько кодов тематики по классификации BISAC[45]. Они устанавливаются Группой исследования книжного дела (BISG) – ассоциацией, ответственной за создание и поддержание стандартов в отрасли. Этих кодов тысячи; для одной беллетристики их существует 152, и они определяют, в какую категорию попадет книга, как она будет выставлена на полке и как будет продаваться. Коды очень подробно описывают содержание книги – например «исторический любовный роман с участием викингов».
Для других характеристик, тоже важных читателю, – например книги со счастливым концом, книги, выжимающие слезу, книги, действие которых разворачивается в Токио, книги с участием пожарных, принцесс или монахинь, – такой всеобъемлющей системы классификации не существует. Нет кода, который бы указывал, является ли стиль книги минималистским (как у Хемингуэя), или более сложным (как у Дэвида Фостера Уоллеса). По расположению томика в определенном отделе магазина вы не узнаете, какого пола главный герой, стар он или молод, происходят ли описываемые события в Лондоне или в Гонконге.
В принципе, можно сказать, что самая важная информация о книге – это ответ на вопрос: «О чем она?» Если вы советуете подруге, что почитать, или если вы сами писатель и упомянули свою книгу в разговоре, вас тут же спросят: «О чем она?» Очень редко (если вы пишете исключительно биографии) у вас могут поинтересоваться, о ком она, или где происходит действие, или в какую эпоху. В первую очередь людей интересует тема. Поэтому возникает вопрос: существует ли беспроигрышная тема?
Наш компьютер считает, что такие темы есть, и авторы книг-блокбастеров с ними согласны. В своем труде «Как писать книги»[46] – одном из популярнейших среди вышедших за последние годы пособий по писательскому ремеслу – жанровый автор Стивен Кинг советует начинающим романистам взять хорошо знакомую им тему, а потом добавить «собственные знания о жизни, дружбе, отношениях, сексе и работе. Особенно о работе. Люди обожают читать о работе – бог знает почему». Это любопытное наблюдение насчет работы многое говорит о нашей культуре – и в данном случае наш компьютер более-менее согласен с ним. По поводу отношений Кинг тоже оказался прав. Впрочем, в том, что касается секса, он, как ни удивительно, ошибается (мы скоро вернемся к этой теме), и еще он играет дурную шутку с начинающими писателями, сообщая им, что «сантехники в космосе» – неплохой сюжет, который привлечет читателя. Не верьте.
43
Многие методы, упомянутые в данной книге, описаны в учебнике авторства Мэтта «Text Analysis with R for Students of Literature». Этот учебник представляет собой вводное пособие в анализ текста и извлечение данных и предназначен для читателей, не имеющих подготовки в области компьютерных наук. Другая книга Мэтта, «Macroanalysis: Digital Methods and Literary History», содержит подробное описание методов, использованных нами в данной работе, в том числе моделирования темы (обсуждается во 2-й главе) и стилеметрии (в 4-й главе). Для тех, кому нужно еще более подробное описание методов, лежащих в основе наших исследований, мы рекомендуем труд Christopher Manning, Prabhakar Raghavan и Hinrich Schutze «Introduction to Information Retrieval» издательства Cambridge University Press, а также Gareth James, Daniela Witten, Trevor Hastie и Robert Tibshirani «An Introduction to Statistical Learning» издательства Springer. Обе эти книги требуют некоторого знакомства с предметом, но вместе они дают полный и очень хорошо написанный обзор дисциплин анализа текста и машинного обучения. (