Главной проблемой было получить достаточно данных и выяснить, что соответствует интересам каждого конкретного пользователя. Понять, чего хочет кто-то, — непростая задача, и, чтобы выполнить ее хорошо, нужно знать, как ведет себя человек в течение длительного времени.
Но как? В 2004 году компания выдвинула инновационную стратегию и начала предоставлять другие услуги — те, которые вынуждали пользователей регистрироваться и входить в Сеть. Одной из первых стала Gmail — чрезвычайно популярная электронная почта. Журналисты много писали о рекламе, выводимой в Gmail рядом с письмами, но маловероятно, что она была единственным мотивом запуска сервиса. Заставляя людей входить в Сеть под своим логином, Google заполучил в свое распоряжение колоссальные массивы данных: сотни миллионов писем, которые пользователи отправляют и получают каждый день. Компания теперь может сопоставлять сообщения и поведение каждого пользователя на сайте со ссылками, на которые он кликает в поисковой машине. Пакет онлайновых инструментов для работы с текстом и электронными таблицами Google Apps имел двойное назначение: с одной стороны, он подрывал позиции Microsoft, кровного врага Google, а с другой — стал еще одним крючком, заставляющим пользователей входить в Сеть и посылать всё новые клик-сигналы. Все эти данные позволили Google ускорить создание модели личности каждого пользователя — какими темами он интересуется, по каким ссылкам ходит.
К ноябрю 2008 года Google получил несколько патентов на алгоритмы персонализации — программный код, позволяющий выделить группы, к которым принадлежит индивид, и скорректировать поисковые результаты с учетом предпочтений. Категории Google оказались довольно узкими: для иллюстрации в патенте приводился пример «всех лиц, интересующихся коллекционированием зубов древних акул», и «всех лиц, не интересующихся коллекционированием зубов древних акул»[72]. При вводе слов «резцы большой белой акулы» люди из первой группы получили бы одни результаты, а из второй — другие.
Сегодня Google отслеживает любой сигнал от нас, который может заполучить. Важность этих данных трудно переоценить: если Google видит, что я вхожу в Сеть сперва из Нью-Йорка, потом из Сан-Франциско, потом снова из Нью-Йорка, то он понимает, что я регулярно летаю с одного побережья на другое, и может соответственно скорректировать выдаваемые результаты. Определив, какой браузер я использую, он может сделать некоторые выводы о моем возрасте и даже, возможно, о моих политических предпочтениях.
Время, проходящее от момента, когда вы вводите запрос, до момента, когда вы выбираете один из результатов, также проливает некоторый свет на вашу личность. И, конечно, сами поисковые запросы дают огромные объемы информации о вас.
Даже если вы не зашли в Сеть под своим логином, Google все равно выдает вам персонализированные результаты поиска. Ему доступна информация о районе — даже о квартале, — откуда вы зашли в Сеть, и это многое говорит о том, кто вы и чем интересуетесь. Слово «Sox» в поисковой строке, введенное на Уолл-стрит, вероятно, представляет собой сокращение от названия закона Сарбейнса — Оксли[73], тогда как, если запрос поступил из Стейтен-Айленда[74], речь, видимо, идет о названии бейсбольной команды.
«Люди все время предполагают, будто с поиском мы уже разобрались, — говорил Пейдж в 2009 году. — Это очень далеко от истины. Возможно, мы прошли лишь пять процентов пути. Мы хотим создать идеальную поисковую машину, которая сможет понимать все… некоторые называют это искусственным интеллектом»[75].
В 2006 году на мероприятии Google Press Day гендиректор Google Эрик Шмидт изложил 5-летний план компании. Однажды, по его словам, Google сможет отвечать на вопросы вроде «В какой колледж мне стоит пойти?». «Пройдут годы, прежде чем мы сможем давать хотя бы частичные ответы на эти вопросы. Но в конечном итоге… Google сможет отвечать и на более гипотетические вопросы»[76].
Facebook повсюду
Алгоритмы Google не имеют себе равных, однако главная их задача — уговорить пользователей раскрыть свои вкусы и интересы. В феврале 2004 года в университетском общежитии Гарварда Марк Цукерберг придумал более простой подход. План, воплощенный в его творении Facebook, был таков: вместо того чтобы просеивать клик-сигналы в попытке понять, что же интересует людей, нужно просто спросить их.
С первого курса колледжа Цукерберг интересовался тем, что называл «социальным графом», — формальным описанием контактов и системы взаимоотношений каждого человека. Закачайте в компьютер эти данные, и он сможет делать довольно-таки интересные и полезные вещи: рассказывать вам, как дела у ваших друзей, где они побывали и чем интересуются. Это касалось и новостей: в самом первом своем воплощении, как внутренний гарвардский сайт, Facebook автоматически проставлял на персональных страницах его членов ссылки на статьи газеты Crimson[77], где те упоминались.
Facebook был вовсе не первой социальной сетью: когда Цукерберг собирал в ночи свой сайт, небрежно сделанный музыкальный портал MySpace уже имел головокружительный успех. А до MySpace внимание технически подкованной аудитории на краткий миг смогла привлечь сеть Friendster. Но Цукерберг задумал совсем иной сайт — не службу знакомств для робких и застенчивых, какой был Friendster, и не приглашающую знакомых и не знакомых между собой людей пообщаться, как MySpace. Facebook стремился опираться на уже существующие в реальном мире социальные связи. В сравнении со своими предшественниками он выглядел весьма скромно: главный акцент был на информации, а не на кричащей графике или атмосфере. «Мы коммунальная служба», — говорил Цукерберг потом[78]. Facebook больше походил не на ночной клуб, а на телефонную компанию; это была нейтральная платформа для общения и сотрудничества.
Но даже в своем первом воплощении сайт рос как на дрожжах. После того как Facebook начал работать в нескольких избранных университетах «Лиги плюща», почтовый ящик Цукерберга переполнили запросы студентов из других вузов, умолявших открыть доступ и им. К маю 2005 года сайт активно работал в восьми с лишним сотнях университетов. Но в высшую лигу Facebook вывела лента новостей, введенная на сайте в сентябре 2006 года.
На Friendster и MySpace нужно было заходить на страницы друзей, чтобы узнать их новости. Алгоритм ленты новостей на Facebook вытягивал все эти обновления из огромной базы социальной сети и размещал их на первой странице, показываемой сразу после ввода логина и пароля. Facebook мгновенно превратился из сети связанных страниц в персонализированную газету о ваших друзьях, авторами которой были они сами. Трудно вообразить более чистый механизм поставки релевантного контента.
И это была просто золотая жила. В 2006 году пользователи Facebook публиковали уже миллиарды обновлений: философские цитаты, пикантные новости о тех, с кем они встречались, замечания о том, что ели на завтрак. Цукерберг и его команда постоянно подстрекали пользователей к этому: чем больше данных те вручали компании, тем приятнее был их опыт и тем чаще они возвращались на сайт. Уже на раннем этапе добавилась возможность загружать фото, и Facebook стал крупнейшей фотоколлекцией в мире. Компания поощряла пользователей публиковать ссылки с других сайтов, и на Facebook появились миллионы ссылок. В 2007 году Цукерберг хвастался: «Мы производим больше новостей в день для 19 миллионов наших пользователей, чем любое другое СМИ за всю свою историю»[79].
Поначалу лента новостей показывала почти все, чем занимались ваши друзья на сайте. Но по мере роста числа сообщений и друзей лента стала нечитаемой и неуправляемой. Даже если у вас была всего сотня друзей, все равно читать приходилось слишком много.
Facebook выдвинул решение: EdgeRank, алгоритм, который управляет главной страницей. Он выстраивает с точки зрения релевантности все случаи взаимодействия на сайте. Его формула сложна, но главная идея довольно проста и основывается на трех критериях[80]. Первый — это близость. Чем более тесные дружеские отношения у вас завязались — это определяется длительностью времени, которое вы потратили на взаимодействие с пользователем и просмотр профиля, — тем выше вероятность, что Facebook будет показывать вам обновления этого человека. Второй критерий — относительный вес данного типа контента. Скажем, обновлениям статуса отношений придается очень большой вес, поскольку всем интересно знать, с кем встречаются их друзья. (Многие эксперты полагают, что относительные веса тоже персонализированы, ведь разным людям важны разные виды контента.) Третий критерий — время: более свежие сообщения считаются важнее устаревших.
72
Полный текст патента: http://patft.uspto.gov/netacgi/nph-Parser7Sectl=PT02&Sect2=HIT0FF&u=%2Fnetahtml%2FPT0%2Fsearch-adv.htm&r=l&p=l&f=G&l=50&d=PTXT&Sl=7,451,130.PN.&OS=pn/7,451,130&RS=PN/7,451,13,
73
Закон 2002 года, существенно ужесточающий требования к финансовой отчетности компаний.
76
BBC News. Hyper-personal Search 'Possible,' June 20, 2007, http://news.bbc.co.uk/2/hi/technology/6221256.stm.
78
David Kirkpatrick. Facebook Effect. New York Times, June 8, 2010, www.nytimes.com/2010/06/08/books/excerpt-facebook-effect.html?pagewanted=l.
79
Ellen McGirt. Hacker. Dropout. CEO. Fast Company, May 1, 2007, http://www.fastcompany.com/magazine/115/open_features-hacker-dropout-ceo.html.
80
Jason Kincaid. EdgeRank: The Secret Sauce That Makes Facebook's News Feed Tick. TechCrunch Blog, Apr. 22, 2010, http://techcrunch.com/2010/04/22/facebook-edgerank.