В 1997 году Безос обслужил первый миллион покупателей. Спустя полгода — два миллиона. А в 2001 году компания впервые получила квартальную прибыль: это был один из первых бизнесов, доказавших, что в онлайне можно делать серьезные деньги.
И хотя Amazon не мог в полной мере передать атмосферу местного книжного магазинчика, система персонализации работала весьма неплохо. Топ-менеджеры держат язык за зубами и не признаются, какую долю выручки она обеспечивает, но часто называют этот механизм ключевым элементом успеха компании.
На Amazon идет нескончаемая погоня за пользовательскими данными: когда вы читаете книги на ридере Kindle, информация о фразах, которые вы выделяете, страницах, которые вы переворачиваете, и о том, читаете ли вы внимательно или пролистываете, отправляется на серверы Amazon и используется, чтобы определить, какие книги могут вам еще понравиться. Если вы зайдете на сайт после дня на пляже с Kindle, Amazon может слегка изменить страницу, чтобы ее содержание соответствовало тому, что вы только что прочли. Если вы полдня читали новый роман Джеймса Паттерсона и лишь мельком заглянули в руководство по диете, то вы, возможно, увидите на первой странице сайта больше триллеров и куда меньше книг о здоровье[64].
Пользователи Amazon так привыкли к персонализация, что сайт теперь использует обратный трюк, чтобы заработать еще больше денег. Издатели платят за размещение книг в традиционных магазинах, но не могут купить мнения продавцов. Однако, как и предсказывал Ланир, подкупить алгоритм нетрудно: заплатите Amazon достаточную сумму, и ваша книга будет продвигаться под видом «объективной» рекомендации собственного софта сайта[65]. Большинство клиентов не способны отличить одно от другого.
Amazon доказал, что релевантность может обеспечить доминирующие позиции в отрасли. Но затем на сцену вышли два аспиранта из Стэнфорда, которые применили принципы машинного обучения ко всему миру онлайн-информации.
Клик — это сигнал
Когда новая компания Джеффа Безоса только начинала работу, основатели Google Ларри Пейдж и Сергей Брин занимались своими докторскими диссертациями в Стэнфорде. Они знали об успехе Amazon: в 1997 году «пузырь доткомов» раздувался вовсю, и Amazon — по крайней мере на бумаге — стоил миллиарды. Пейдж и Брин были математическими гениями; первый, в частности, был одержим темой искусственного интеллекта. Но их интересовала другая проблема. Что если использовать компьютерные алгоритмы не для более эффективной продажи товара, а для сортировки сайтов?
Пейдж изобрел новаторский подход к такой сортировке и с присущей компьютерным гикам склонностью к игре слов назвал его PageRank[66]. Большинство компаний, занимавшихся интернет-поиском в то время, сортировали страницы по ключевым словам и едва ли могли оценить, насколько первые соответствуют вторым. В статье, опубликованной в 1997 году, Брин и Пейдж сухо отмечали, что три из четырех крупнейших поисковых машин не могут найти сами себя. «Мы хотим, чтобы наша концепция "релевантности" распространялась только на лучшие документы, — писали они, — поскольку пользователю могут быть доступны десятки тысяч лишь слегка релевантных документов»[67].
Пейдж понял, что в пронизанной ссылками структуре Сети кроется гораздо больше данных, чем могут использовать большинство поисковых машин. Тот факт, что одна страница содержит ссылку на другую, можно считать «голосом» в пользу второй. Пейдж наблюдал за тем, как стэнфордские профессора считают, сколько раз их статьи были процитированы, и составляют таким образом примерный рейтинг своей значимости. Он прикинул, что сайты, на которые часто ссылаются — например, главная страница Yahoo, — могут, подобно академическим статьям, считаться более значимыми, а те, за которые они «голосуют», тоже значат больше. Весь этот процесс, как утверждал Пейдж, «опирается на уникальную демократическую структуру Сети».
В те дни Google обитал на сайте google.stanford.edu, и Брин с Пейджем были убеждены, что сервис должен оставаться некоммерческим и свободным от рекламы. «Мы считаем, что поисковые машины, финансируемые за счет рекламы, будут неизбежно склоняться в сторону нужд рекламодателей, а не нужд потребителей, — писали они. — Чем лучше поисковая система, тем меньше сообщений понадобится потребителю, чтобы найти искомое… мы уверены, что вопрос о рекламе создает достаточно неоднозначные стимулы, и поэтому крайне важно иметь конкурентоспособную поисковую систему, которая прозрачна для пользователей и остается в академической сфере»[68].
Но когда они запустили бета-версию сайта на просторы Интернета, трафик зашкалил. Google действительно работал — внезапно он стал лучшей поисковой машиной Интернета. Вскоре искушение сделать на этом бизнес оказалось слишком сильным, и основатели Google, которым было по двадцать с небольшим, не смогли перед ним устоять.
По легенде, именно алгоритм PageRank вознес Google на вершину мирового господства. Я подозреваю, что компании нравится эта версия: это ясная, простая история, привязывающая успех поискового гиганта к одному гениальному прорыву, совершенному одним из основателей. Но с самого начала PageRank был лишь малой частью проекта Google. На самом деле Брин и Пейдж поняли вот что: ключ к релевантности, к сортировке массы данных в Интернете — это… еще больше данных.
Брину и Пейджу был важен не только сам факт, что страница ссылается на другую. Позиция ссылки, ее размеры, возраст страницы — все эти факторы имели значение. С годами Google стал называть эти путеводные нити, скрытые в данных, «сигналами».
С самого начала Пейдж и Брин понимали, что важнейшие сигналы будут поступать от самих пользователей поисковика. Скажем, если кто-то ищет «Ларри Пейдж» и кликает на вторую ссылку в результатах, это тоже «голос»: он подсказывает, что вторая ссылка более релевантна, чем первая. Они назвали это «клюс-сигналами» (click signal). «Очень интересными будут исследования, — писали Пейдж и Брин, — в основу которых лягут огромные объемы данных об использовании современных веб-систем… весьма трудно получить эту информацию, прежде всего потому, что она предположительно имеет коммерческую ценность»[69]. Вскоре в их руках оказалось одно из крупнейших в мире хранилищ таких данных.
По части информации Google был ненасытен. Брин и Пейдж намеревались сохранять все: каждую страницу, на которую когда-либо заходила поисковая машина, каждый клик каждого пользователя. Вскоре их серверы уже хранили копию большей части Интернета, обновляемую практически в режиме реального времени. Они были уверены, что, просеивая данные, найдут еще больше зацепок, еще больше сигналов, позволяющих уточнять результаты. Отдел качества поиска Google завоевал репутацию местного спецназа: минимум посетителей, абсолютная секретность — таковы были правила его работы[70].
«Идеальная поисковая машина, — любил говорить Пейдж, — будет в точности понимать, что вы имеете в виду, и выдавать в точности то, что вы хотите»[71]. Google должен был выдавать не тысячи ссылок в ответ на запрос, а одну, именно ту, которая нужна. Но идеальные ответы для разных пользователей — разные. Когда я ввожу в строку поиска «пантеры», вероятно, я имею в виду крупных диких кошек, а если это слово вводит футбольный фанат, то он, видимо, подразумевает футбольную команду из Южной Каролины. Чтобы добиться идеальной точности, нужно знать, чем конкретно интересуется каждый из нас. Нужно знать, что я ничего не понимаю в футболе; нужно знать, кто я такой.
64
Martin Kaste. Is Your E-Book Reading Up On You? NPR.org, Dec. 15, 2010, http://www.npr.org/2010/12/15/132058735/is-your-e-book-reading-up-on-you.
65
Aaron Shepard. Aiming at Amazon: The NEW Business of Self Publishing, Or How to Publish Your Books with Print on Demand and Online Book Marketing (Shepard Publications, 2006), 127.
67
Sergey Brin and Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Section 1.3.1.
68
Brin and Page. Anatomy of a Large-Scale Hypertextual Web Search Engine. Section 8 Appendix A.
70
Saul Hansell. Google Keeps Tweaking its Search Engine. New York Times, June 3, 2007, http://www.nytimes.com/2007/06/03/business/yourmoney/03google.html?_r=l.