Читать онлайн "Google. Прорыв в духе времени" - Малсид Марк - RuLit

Тем временем Джерри Янг и Дэвид Фило, докторанты Стэнфорда, готовившиеся к защите диссертации, взяли на вооружение несколько иной подход к поиску: они привлекли редакторов, которые составили каталог веб-сайтов в алфавитном порядке. Своей компании Янг и Фило дали название Yahoo!. Их подход действительно упростил процесс поиска нужной информации, однако и он был несовершенен, а количество сайтов росло не по дням, а по часам. Брин и Мотвани перепробовали множество других каталогов и поисковых систем, но всякий раз получали сотни или даже тысячи результатов в совершенно произвольной последовательности. Чтобы найти нужную информацию, им приходилось вручную отсеивать лишние ссылки, что отнимало уйму времени. Брин и Мотвани утвердились во мнении, что должен быть более совершенный способ поиска информации в Интернете.

Пейдж, работавший над проектом «Цифровые библиотеки», как-то случайно наткнулся в Сети на AltaVista, новую поисковую систему. Она выдавала результаты быстрее других поисковиков, и, кроме того, в ней была функция-новинка: помимо списка адресов веб-сайтов, на страницах с результатами поиска появлялись выделенные цветом слова – так называемые «ссылки». Это значительно ускоряло работу в Сети: пользователь, кликнув по выделенному в тексте слову или фразе, моментально попадал на другую веб-страницу, содержавшую больше информации на интересующую его тему. Пейдж задумался: а что же можно почерпнуть из анализа ссылок?

Гектор Гарсия-Молина, один из научных консультантов Пейджа, согласился, что анализ данных о ссылках может дать интересную информацию. AltaVista не производила с ними никаких операций – просто помещала их на страницах с результатами. Пейдж с помощью тщательного анализа хотел выяснить, как еще их можно использовать. Но для того чтобы иметь возможность проверять спои предположения, ему нужно было обзавестись большой базой данных.

Выполнив необходимые расчеты, Пейдж заявил своему научному консультанту, что собирается загрузить на свой компьютер всю Всемирную сеть.

Эта идея казалась не столь дерзкой, сколь абсурдной. Но Пейдж, ничтоже сумняшеся, объявил, что загрузит весь Интернет довольно быстро и без особых проблем. Гарсия-Молина и его коллеги лишь снисходительно улыбнулись. Ларри, однако, был полон решимости осуществить задуманное. Он не был одинок в оценке значимости ссылок: Тим Бернерс-Ли, британский специалист по компьютерным технологиям, который в 1989 году разработал Всемирную сеть, еще в начале 1980 годов утверждал, что, щелкая по выделенным словам, компьютерные пользователи смогут переходить с одной веб-страницы на другую, а ссылки будут ключевым элементом Сети.

Осенью 1996 года, объединив усилия, Пейдж и Брин приступили к загрузке и анализу веб-страниц со ссылками. На сбор информации ушло гораздо больше времени, чем предполагалось (Пейдж даже подсчитал, что каждая отправка программы-«паука» в Интернет стоила кафедре компьютерных технологий 20 тыс. долл.), но Ларри очень хотел довести начатое до конца. Его стремление определить, насколько важны перекрестные ссылки, привлекло к проекту внимание не только Брина, но и Мотвани – ведь проект Пейджа открывал новые возможности для исследования Сети. Брина же привлекала не только перспектива работать со своим другом, но и чисто научный интерес к проблеме извлечения информации из больших массивов случайных данных. Всемирная сеть была для Брина идеальным объектом применения его математических способностей и навыков программирования.

У Пейджа возникла идея: подсчитав количество ссылок на отдельно взятый веб-сайт, можно было приблизительно определить степень его популярности. Да, популярность и содержание – это не одно и то же. Но и в его семье, и в семье Брина ценили опубликованные в научных журналах статьи, которые были снабжены ссылками на другие работы. Ссылки на веб-страницах напоминали Пейджу ссылки в статьях. Ученые ссылались на ранее опубликованные научные работы, изученные ими, и количество ссылок в научной среде служило мерилом влияния и авторитета автора. «Ссылки очень важны, – говорил Пейдж. – Имена лауреатов Нобелевской премии фигурируют в ссылках десяти тысяч научных работ». Большое количество ссылок в научной литературе «говорит о значимости вашей работы, раз ее сочли необходимым упомянуть».

То же можно сказать и о веб-сайтах, заключил Пейдж. Вскоре его осенила мысль: ссылки обладают разной степенью значимости! Одни являются более важными, другие – менее. Больше веса, вероятно, имеют ссылки, размещенные на важных веб-сайтах. А как определить, какие сайты относятся к числу «важных», а какие – нет? Очень просто: сайты, на которые ведет большее количество ссылок, более значимы, и наоборот. Иными словами, веб-сайт, ссылка на который появляется на главной странице популярного поискового ресурса Yahoo! автоматически становится более значимым. Своей программе определения степени значимости ссылок Ларри дал название PageRank: page – это часть слова webpage (веб-страница) и одновременно его фамилия, a rank означает «ранжировать».

Профессор Стэнфорда Терри Виноград, другой научный консультант Пейджа, отмечает, что путь к нахождению способа ранжирования веб-страниц базировался на анализе ссылок. «Ведь сначала Ларри намеревался просто бессистемно бродить по Сети. Выработать алгоритм <систему математических уравнений> его побудило желание облегчить жизнь интернет-пользователям. Он заходил на страницы, щелкал по ссылкам и отмечал, на какие сайты попадает чаще всего. Так и появилась PageRank».

Ларри и Сергей были уверены, что результаты практического применения PageRank послужат основой для их докторской диссертации. К началу 1997 года Пейдж разработал примитивную поисковую систему под названием BackRub, обрабатывавшую ссылки на веб-страницы. Ее логотипом стало черно-белое изображение ладони левой руки Ларри, сделанное с помощью сканера. Брин и Мотвани тоже внесли свою лепту в развитие проекта. Мотвани даже предположил, что плоды их трудов скоро выйдут за рамки университетских исследований. В итоге они получили программу ранжирования веб-страниц, попутно разрешив одну из главных проблем поиска информации в Сети. «Изначально они не ставили себе целью создать поисковую систему. Они просто работали над решением интересных задач, выдвигая интересные идеи, – говорит Мотвани. – Ларри что-то предлагал, Сергей что-то предлагал, я… И через какое-то время мы поняли, что можем создать поисковую систему». Виноград соглашается с ним: «Они не стремились открыть свое дело, а просто хотели усовершенствовать процесс поиска информации».

Брин, Пейдж и Мотвани разработали прототип поисковой системы, предназначенный для внутреннего пользования. Этот механизм, созданный на базе традиционной технологии и новой программы PageRank, представлял собой программу для поиска информации в Интернете, которая выдавала результаты поиска в порядке убывания степени их релевантности. Если остальные поисковые системы просто сравнивали слова в строке запроса со словами на веб-страницах, PageRank еще и выстраивала полученные результаты в логичной последовательности. Наконец-то пользователи компьютеров получили возможность быстро находить в Сети нужную информацию.

Осенью 1997 года Брин и Пейдж решили дать своему детищу другое название. Пейдж все никак не мог подобрать легко запоминающееся и не использованное в других названиях слово, а потому обратился за помощью к Шону Андерсону. «Я подходил к чистой доске и начинал «мозговой штурм», а он все говорил: «Нет, это не то»», – вспоминает Андерсон. Так продолжалось несколько дней. «Мы уже почти отчаялись что-либо придумать, но продолжали ломать головы. И тут я говорю: «А как насчет Googleplex? Тебе ведь нужно название для системы, которая осуществляет поиск информации, заносит в индекс веб-страницы и позволяет пользователям систематизировать огромные массивы данных? Так вот, Googleplex – это большое число». Этот вариант ему понравился: «Неплохо, но лучите укоротить. Скажем, Google». Я набрал на компьютере слово «google» – как выяснилось позже, не совсем правильно – и показал ему. Ларри кивнул головой в знак согласия, а вечером того же дня зарегистрировал новое название и написал его на нашей доске – Google com. Теперь поисковый ресурс владел огромным каталогом сайтов – как Yahoo! или Amazon. Следующим утром я увидел на доске комментарий Тамары: «Вы неправильно написали это слово. Оно пишется как googol». Но «неправильное» название было уже зарегистрировано».