Выбрать главу

В конце концов мы отфильтровали свой список параметров, оставив от 20 тысяч примерно 2800, которые помогают отличить популярные у читателей книги от предназначенных для – будем честны – узкой читательской ниши. Сначала мы научили компьютеры читать книги и извлекать из них нужные данные, а затем проанализировали эти данные, используя другой набор компьютерных программ – для обнаружения и исследования скрытых закономерностей. В этой фазе анализа мы использовали процесс, весьма метко называемый машинным обучением. При анализе текстов бывает нужно сортировать или классифицировать их по сходству и различию. Например, мы хотим отличать спам от обычных сообщений в электронной почте. Поскольку у спамерских посланий много общего – искаженное написание слов, частое упоминание виагры и т. д., – можно написать программу, которая будет определять, с какой вероятностью данное сообщение окажется спамом. Сортировка романов на бестселлеры и небестселлеры очень похожа на действия, выполняемые спам-фильтром в электронной почте. Допустим, у нас есть новая книга, которую мы видим в первый раз, и мы хотим понять, может ли она стать бестселлером. Если у нас уже есть куча бестселлеров («не спам») и куча книг, которые бестселлерами не стали («спам»), мы можем ввести их все в компьютер и научить его отличать книги одной категории от другой по определенным параметрам. Именно так мы и поступили. Более того, мы проделали это тремя разными способами, усреднили результаты и обнаружили, что в 80 % случаев наша система правильно определяла, какой текст из нашего корпуса – бестселлер, а какой – нет[39].

Этот средний показатель 80 % означает, что, если взять наугад из недавно опубликованных книг 50 бестселлеров и 50 так и не ставших ими, наш компьютер правильно классифицирует 40 бестселлеров и 40 небестселлеров. Конечно, это значит также, что компьютер сочтет 10 бестселлеров провальными, а 10 небестселлерам напророчит блестящий успех. В проведенной нами серии тестов компьютер, в частности, был абсолютно уверен, что «Гордость и предубеждение и зомби»[40] не будет иметь успеха, – и ошибся. Конечно, «Гордость и предубеждение и зомби» вышла тогда, когда любая отсылка к Джейн Остин гарантировала книге внимание читателей, а в кинотеатрах пачками шли фильмы про зомби. Но в данном случае контекст оказал непропорционально большое влияние на уровень продаж.

Конечно, были еще и небестселлеры, которые наш компьютер превознес до небес, но это отдельная история.

Договор

Обсуждая новые романы, мы, авторы этой книги, часто говорим об отношениях читателя и автора так, будто существует некий неписаный договор – детали его туманны, но тем не менее он описывает эстетические, эмоциональные, интеллектуальные и даже этические причины, стоящие за выбором читателя. Обучая свою модель распознавать тему, сюжет, стиль и характеристики персонажей, мы много думали о том, чего ждет читатель от книги.

Этот неписаный договор содержит много статей. Если вы автор триллера, например, вы обязаны включить в него один-два трупа и сцену, в которой у читателя учащается пульс. Если вы пишете любовный роман, то он должен заканчиваться (но не начинаться) долгожданным воссоединением влюбленных. И независимо от жанра (если вы не новый литературный вундеркинд – им прощается двойная длина книги), у вас есть примерно 350 страниц, чтобы увести читателя куда-то далеко, а потом привести обратно. Таковы ваши основные обязательства, и вы наверняка видели, как брызжут желчью или роняют слезу читатели в отзывах на сайте goodreads.com, когда автор не оправдывает ожиданий.

Помня об этом, дорогой читатель, мы заключим с вами собственный договор, условия которого весьма прозрачны. Вот его статьи.

1. Номер первый

Одна из особенностей нашей культуры и книжного мира состоит в том, что мы обожаем ранжированные списки. Дело не ограничивается списком бестселлеров. В этом году в газетах и на сайтах крупных книжных сетей мелькали статьи с разнообразными заголовками вроде «Самые красивые места действия ваших любимых романов», «Десять самых влиятельных книг всех времен», «Выбери бойфренда среди литературных персонажей». Посетители сайта goodreads.com общими силами составили списки по самым разным темам: лучшие книги, действие которых происходит в космосе; лучшие японские издания; герои, оказавшие наибольшее влияние; книги, которые заставят вас всплакнуть. Этих списков тысячи. Книголюбам приятно составлять их, спорить о них и, конечно, сравнивать, с кем лучше пойти на свидание – с мистером Дарси или Кристианом Греем.

вернуться

39

Первую попытку выявления бестселлеров мы предприняли в первом нашем эксперименте, в Стэнфорде, еще в 2008 г. Наш корпус текстов состоял из 20 000 романов, но параметров для анализа у нас было гораздо меньше, всего 505. Такой большой корпус текстов был полезен для определенных видов анализа, но при этом он был составлен с уклоном в пользу более ранних периодов – в нем содержалось слишком много книг XIX века, а среди более современной литературы преобладали научная фантастика, фэнтези и любовные романы. Несмотря на эти недостатки, мы получили хорошие результаты: точность определения бестселлера колебалась в пределах 70–80 %.

При написании этой книги мы построили совершенно новый корпус текстов: более разнообразный и более современный. В нем содержалось почти 5000 произведений, в том числе электронные книги, не ставшие бестселлерами, романы, опубликованные традиционным путем, а также бестселлеры из списка NYT числом чуть больше 500. (Примеч. авторов.)

вернуться

40

Pride and Prejudice and Zombies, Seth Grahame-Smith.