Читать онлайн "За стеной фильтров. Что Интернет скрывает от вас?" - Паризер Эли - RuLit

В 1997 году Безос обслужил первый миллион покупателей. Спустя полгода — два миллиона. А в 2001 году компания впервые получила квартальную прибыль: это был один из первых бизнесов, доказавших, что в онлайне можно делать серьезные деньги.

И хотя Amazon не мог в полной мере передать атмосферу местного книжного магазинчика, система персонализации работала весьма неплохо. Топ-менеджеры держат язык за зубами и не признаются, какую долю выручки она обеспечивает, но часто называют этот механизм ключевым элементом успеха компании.

На Amazon идет нескончаемая погоня за пользовательскими данными: когда вы читаете книги на ридере Kindle, информация о фразах, которые вы выделяете, страницах, которые вы переворачиваете, и о том, читаете ли вы внимательно или пролистываете, отправляется на серверы Amazon и используется, чтобы определить, какие книги могут вам еще понравиться. Если вы зайдете на сайт после дня на пляже с Kindle, Amazon может слегка изменить страницу, чтобы ее содержание соответствовало тому, что вы только что прочли. Если вы полдня читали новый роман Джеймса Паттерсона и лишь мельком заглянули в руководство по диете, то вы, возможно, увидите на первой странице сайта больше триллеров и куда меньше книг о здоровье[64].

Пользователи Amazon так привыкли к персонализация, что сайт теперь использует обратный трюк, чтобы заработать еще больше денег. Издатели платят за размещение книг в традиционных магазинах, но не могут купить мнения продавцов. Однако, как и предсказывал Ланир, подкупить алгоритм нетрудно: заплатите Amazon достаточную сумму, и ваша книга будет продвигаться под видом «объективной» рекомендации собственного софта сайта[65]. Большинство клиентов не способны отличить одно от другого.

Amazon доказал, что релевантность может обеспечить доминирующие позиции в отрасли. Но затем на сцену вышли два аспиранта из Стэнфорда, которые применили принципы машинного обучения ко всему миру онлайн-информации.

Клик — это сигнал

Когда новая компания Джеффа Безоса только начинала работу, основатели Google Ларри Пейдж и Сергей Брин занимались своими докторскими диссертациями в Стэнфорде. Они знали об успехе Amazon: в 1997 году «пузырь доткомов» раздувался вовсю, и Amazon — по крайней мере на бумаге — стоил миллиарды. Пейдж и Брин были математическими гениями; первый, в частности, был одержим темой искусственного интеллекта. Но их интересовала другая проблема. Что если использовать компьютерные алгоритмы не для более эффективной продажи товара, а для сортировки сайтов?

Пейдж изобрел новаторский подход к такой сортировке и с присущей компьютерным гикам склонностью к игре слов назвал его PageRank[66]. Большинство компаний, занимавшихся интернет-поиском в то время, сортировали страницы по ключевым словам и едва ли могли оценить, насколько первые соответствуют вторым. В статье, опубликованной в 1997 году, Брин и Пейдж сухо отмечали, что три из четырех крупнейших поисковых машин не могут найти сами себя. «Мы хотим, чтобы наша концепция "релевантности" распространялась только на лучшие документы, — писали они, — поскольку пользователю могут быть доступны десятки тысяч лишь слегка релевантных документов»[67].

Пейдж понял, что в пронизанной ссылками структуре Сети кроется гораздо больше данных, чем могут использовать большинство поисковых машин. Тот факт, что одна страница содержит ссылку на другую, можно считать «голосом» в пользу второй. Пейдж наблюдал за тем, как стэнфордские профессора считают, сколько раз их статьи были процитированы, и составляют таким образом примерный рейтинг своей значимости. Он прикинул, что сайты, на которые часто ссылаются — например, главная страница Yahoo, — могут, подобно академическим статьям, считаться более значимыми, а те, за которые они «голосуют», тоже значат больше. Весь этот процесс, как утверждал Пейдж, «опирается на уникальную демократическую структуру Сети».

В те дни Google обитал на сайте google.stanford.edu, и Брин с Пейджем были убеждены, что сервис должен оставаться некоммерческим и свободным от рекламы. «Мы считаем, что поисковые машины, финансируемые за счет рекламы, будут неизбежно склоняться в сторону нужд рекламодателей, а не нужд потребителей, — писали они. — Чем лучше поисковая система, тем меньше сообщений понадобится потребителю, чтобы найти искомое… мы уверены, что вопрос о рекламе создает достаточно неоднозначные стимулы, и поэтому крайне важно иметь конкурентоспособную поисковую систему, которая прозрачна для пользователей и остается в академической сфере»[68].

Но когда они запустили бета-версию сайта на просторы Интернета, трафик зашкалил. Google действительно работал — внезапно он стал лучшей поисковой машиной Интернета. Вскоре искушение сделать на этом бизнес оказалось слишком сильным, и основатели Google, которым было по двадцать с небольшим, не смогли перед ним устоять.

По легенде, именно алгоритм PageRank вознес Google на вершину мирового господства. Я подозреваю, что компании нравится эта версия: это ясная, простая история, привязывающая успех поискового гиганта к одному гениальному прорыву, совершенному одним из основателей. Но с самого начала PageRank был лишь малой частью проекта Google. На самом деле Брин и Пейдж поняли вот что: ключ к релевантности, к сортировке массы данных в Интернете — это… еще больше данных.

Брину и Пейджу был важен не только сам факт, что страница ссылается на другую. Позиция ссылки, ее размеры, возраст страницы — все эти факторы имели значение. С годами Google стал называть эти путеводные нити, скрытые в данных, «сигналами».

С самого начала Пейдж и Брин понимали, что важнейшие сигналы будут поступать от самих пользователей поисковика. Скажем, если кто-то ищет «Ларри Пейдж» и кликает на вторую ссылку в результатах, это тоже «голос»: он подсказывает, что вторая ссылка более релевантна, чем первая. Они назвали это «клюс-сигналами» (click signal). «Очень интересными будут исследования, — писали Пейдж и Брин, — в основу которых лягут огромные объемы данных об использовании современных веб-систем… весьма трудно получить эту информацию, прежде всего потому, что она предположительно имеет коммерческую ценность»[69]. Вскоре в их руках оказалось одно из крупнейших в мире хранилищ таких данных.

По части информации Google был ненасытен. Брин и Пейдж намеревались сохранять все: каждую страницу, на которую когда-либо заходила поисковая машина, каждый клик каждого пользователя. Вскоре их серверы уже хранили копию большей части Интернета, обновляемую практически в режиме реального времени. Они были уверены, что, просеивая данные, найдут еще больше зацепок, еще больше сигналов, позволяющих уточнять результаты. Отдел качества поиска Google завоевал репутацию местного спецназа: минимум посетителей, абсолютная секретность — таковы были правила его работы[70].

«Идеальная поисковая машина, — любил говорить Пейдж, — будет в точности понимать, что вы имеете в виду, и выдавать в точности то, что вы хотите»[71]. Google должен был выдавать не тысячи ссылок в ответ на запрос, а одну, именно ту, которая нужна. Но идеальные ответы для разных пользователей — разные. Когда я ввожу в строку поиска «пантеры», вероятно, я имею в виду крупных диких кошек, а если это слово вводит футбольный фанат, то он, видимо, подразумевает футбольную команду из Южной Каролины. Чтобы добиться идеальной точности, нужно знать, чем конкретно интересуется каждый из нас. Нужно знать, что я ничего не понимаю в футболе; нужно знать, кто я такой.

вернуться

Martin Kaste. Is Your E-Book Reading Up On You? NPR.org, Dec. 15, 2010, http://www.npr.org/2010/12/15/132058735/is-your-e-book-reading-up-on-you.

вернуться

Aaron Shepard. Aiming at Amazon: The NEW Business of Self Publishing, Or How to Publish Your Books with Print on Demand and Online Book Marketing (Shepard Publications, 2006), 127.

вернуться

Фамилия Пейдж (Page) в переводе с английского означает «страница». Прим. пер.

вернуться

Sergey Brin and Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Section 1.3.1.

вернуться

Brin and Page. Anatomy of a Large-Scale Hypertextual Web Search Engine. Section 8 Appendix A.

вернуться

Brin and Page. Anatomy of a Large-Scale Hypertextual Web Search Engine. Section 1.3.2.

вернуться

Saul Hansell. Google Keeps Tweaking its Search Engine. New York Times, June 3, 2007, http://www.nytimes.com/2007/06/03/business/yourmoney/03google.html?_r=l.

вернуться

David A. Vise and Mark Malseed. The Google Story. New York: BantamDell, 2005, 289.