Выбрать главу
ЧТО БОЛЬШЕ ПОХОЖЕ НА ГРЕЙПФРУТ?

Исследователи любителей пива, электронной почты и музыки занимались темой сходства – сообществом в целом и отдельных пользователей, коллектива и отдельных сотрудников, законов жанра и конкретных песен.

Оказалось, сходство бывает не только глобальным. Оно может наблюдаться и между отдельными частями или составляющими (например, между главами книги).

Даже если вы ничего не слышали о «Девушке с татуировкой дракона», наверняка вы знакомы с тем, кто читал эту книгу. Этот психологический триллер стал первой книгой шведского писателя Стига Ларссона из серии «Миллениум». Так мир узнал о главной героине Лисбет Саландер – талантливом хакере с глубокими внутренними травмами. Первоначально роман был опубликован в Швеции, где стал очень популярен, а затем его перевели на все языки мира. Всего было продано более ста миллионов экземпляров книг этой серии. Она вошла в список ста лучших литературных произведений XXI века.

Очевидно, что для такой популярности текста необходим ряд факторов. У книги должны быть интересная тема и симпатичные персонажи, сюжет должен увлекать. Но что делает сюжет захватывающим? Эмоциональные взлеты и падения, о которых мы говорили в главе 5, дают определенное представление об этом, но данного фактора недостаточно.

В рецензиях и отзывах на книги, подобные «Девушке с татуировкой дракона», часто используют однотипные фразы: «быстрое развитие сюжета», «захватывающее, незатянутое повествование», «динамичное развитие сюжета, удерживающее в напряжении». Действительно, люди часто отмечают динамичность как одну из причин, по которой книга понравилась. Значит ли это, что события в книге должны развиваться быстро? И всегда ли это хорошо?

Для ответа на этот вопрос надо прежде рассмотреть сходства и отличия слов. Что больше всего похоже на грейпфрут: киви, апельсин или тигр? Кажется, ответить просто. Для человека старше трех лет, по крайней мере, ответ очевиден. (Это апельсин.)

Но вот понять сходство у тысяч слов и сделать это быстро можно только с помощью компьютера. Однако оказалось, что программе не всегда просто дать правильный ответ на приведенный выше вопрос. Машины способны работать с предоставленными данными, они умеют использовать любую доступную информацию, выявлять закономерности и даже принимать решения с минимальным вмешательством человека или без него. Примером могут служить рекомендации на Amazon или Netflix, где анализ информации проводят не люди и не эльфы. Это делают алгоритмы. Они учитывают, что смотрели или покупали вы и все остальные пользователи. На основании этого программа указывает на те товары, которые могут понравиться вам.

Если недавно вы купили классическую рубашку или кофеварку, Amazon может предложить похожие вещи или мелкую бытовую технику из того, что купили или просматривали другие люди. Или, допустим, недавно вы посмотрели «Идентификацию Борна», тогда Netflix предложит вам фильмы о Джеймсе Бонде или другие боевики. Для большей точности прогнозов алгоритм должен учитывать многие факторы, в том числе взаимосвязь. Людям, купившим предмет А, обычно нравится предмет Б, следовательно, для купивших А лучшим предложением станет Б.

Автозаполнение и предиктивный набор текста в телефоне работают аналогичным образом. Введите букву «Д», и телефон предложит слово «делать». Принимая это предложение, вы получите следом ряд таких слов, как «будем», «надо», «еще» и «ноги». Алгоритм находит подходящие слова или словосочетания, которые ранее использовали вы или другие пользователи.

Однако программе будет сложно определить, на что больше похож грейпфрут – на киви или на апельсин, – ведь в этом случае для нее не прослеживается никакой взаимосвязи. Люди покупают грейпфруты не на Amazon, а в супермаркете, но и это знание не помогло бы программе. Одни люди покупают грейпфруты, другие – киви или апельсины, но эта схема покупок не дает должного понимания связи между отдельными товарами. Помимо грейпфрутов, люди могут купить хлеб, рыбу и многое другое. Создание алгоритма невозможно, поскольку взаимосвязь проследить нельзя. Грейпфрут покупают с творогом, хотя у них нет ничего общего.

Как мы видим, информация о покупках не помогла бы при определении сходства продуктов, однако данные о словах, напротив, могут быть весьма полезны. Ежедневно миллиарды людей пишут триллионы слов в интернете. Это и новостные статьи, и обзоры покупок, и посты в соцсетях. Отдельно взятая статья, рецензия или отзыв могут быть не так полезны, однако вместе они дают всестороннюю информацию о взаимосвязи различных идей и концепций.