Выбрать главу

PageRank был первым методом, который Google использовал для генерации результатов поиска, и стал основой его раннего успеха, от которого зависело все остальное. Фундаментальная идея заключалась в том, что Всемирную паутину можно читать с помощью методов, основанных на практике академического цитирования. Цитирование - это способ оценить важность статьи по тому, сколько людей ссылаются на нее в последующих работах; в этом смысле это "обратная ссылка", поскольку ссылки, в данном случае в виде цитирования, появляются после публикации статьи. Чтобы читать Всемирную паутину таким образом, основатели Google Ларри Пейдж и Сергей Брин разработали модель, в которой ссылки с одного сайта на другой рассматриваются как обратные ссылки, аналогичные академическим цитатам, а затем по количеству обратных ссылок оценивается важность сайта по отношению к определенной теме. Кроме того, они создали рекурсию, с помощью которой, выяснив, какие сайты важны по определенной теме (путем чтения количества ссылок на сайт), они могли бы придать этим сайтам больший вес. Это означает, что их модель порождает сложности, так как множество ссылок с неважных сайтов может быть уравновешено сайтом, имеющим всего несколько ссылок, если эти несколько ссылок приходят с важных сайтов (Page et al. 1999).

Чтобы полностью осознать значение такого использования Всемирной паутины, нужно помнить, что то, что Google считывал (и считывает) с помощью PageRank, - это коллективно созданное хранилище информации, в которое каждый, кто имеет доступ к Интернету, может добавлять информацию по своему выбору, включая ссылки, которые создатели сайтов считают нужными. WWW создается в соответствии с набором формальных стандартов, которые определяют, как нужно формировать информацию и загружать ее на сетевой компьютер, чтобы она была видна другим сайтам (об этом подробнее будет рассказано в главе 5). Как только сайт становится видимым, другие сайты могут ссылаться на него, так же как и любой человек может ссылаться на свои сайты. Стандарты были выпущены для свободного доступа и поддерживаются некоммерческим консорциумом. Большая часть созданного контента была свободно размещена обычными пользователями, имеющими доступ в Интернет и вычислительные ресурсы, хотя со временем все большую роль стали играть корпоративные и правительственные сайты, управляемые оплачиваемыми сотрудниками. WWW - это коллективное творение, состоящее из ряда групп, которые связываются друг с другом по своему усмотрению, чтобы обеспечить связь и доступность необходимой информации. Несмотря на то, что после того, как WWW стала популярной, она была сильно коммерциализирована, она предшествовала появлению Google и остается пространством, в котором группы людей со схожими интересами могут генерировать информационные ресурсы и обмениваться ими (Berners-Lee 2000; Gillies and Cailliau 2000).

PageRank был средством чтения этих связанных групп и их социальных отношений. После того как PageRank прочитал, например, сайты, посвященные серфингу, у него появились данные о наиболее важных сайтах, основанные теми, кто любит серфинг, и создал сайты на эту тему, включая то, что эти люди считали наиболее важными сайтами и темами. Это была ключевая работа, проделанная в первоначальной поисковой системе Google, которая может быть использована, когда кто-то делает поисковый запрос, связанный с серфингом. В этом смысле любой поисковый запрос стоит на последнем месте в практике ответов на него, после того как была проделана работа по чтению соответствующих тем, представленных в WWW.

Однако в своем первоначальном виде алгоритм PageRank просуществовал недолго. По мере того как Google завоевывал репутацию хорошей поисковой системы и трафик на него начал расти, появилась возможность поднять сайт в рейтинге поиска, добавив на него фальшивые ссылки. Крупные фермы сайтов, которые только и делали, что пытались обмануть рейтинг Google с помощью поддельных ссылок, появились в первых раундах зарождающейся и теперь уже бесконечной борьбы между попытками Google выдать результаты поиска, которые он считает наилучшими, и попытками отдельных сайтов обеспечить себе как можно более высокие позиции в результатах. Как сказал один из экспертов по поиску информации: "Сейчас определенно идет своего рода война между поисковыми системами и маркетологами, маркетологи давят на поисковые системы, чтобы те были более хитрыми, более достоверными в том, как они ранжируют" (цитируется по Mager 2012: 777). В результате Google приходится тратить значительные средства на постоянный мониторинг и модернизацию своих поисковых механизмов, что в свою очередь приводит к изменениям в рекламе. Это приводит ко второму набору практик, необходимых для понимания поиска Google, который включает в себя развитие первоначального алгоритма с помощью других алгоритмов (Hillis et al. 2012).