Выбрать главу

Самый простой способ ранжирования страницы связан с использованием частотных словарей, ключевых слов и грамматической структуры текста.

Частота слова подсчитывается примерно так. Берем тысячу произвольных текстов и считаем сколько раз в этих текстах использовано данное слово. Число встреч делим на тысячу и получается частота слова. Лингвисты показали, что во всех языках действует закон примерного постоянства частот. Если мы возьмем другую тысячу текстов, то в ней слова получат примерно такие же частоты. Можно выбрать тысячу текстов с неким ограничением, скажем, на медицинскую тематику. Отраслевые частотные словари будут, естественно, отличаться от универсального частотного словаря, но для них также действует закон постоянства частот. Слова с самыми большими частотами становятся ключевыми словами. По их присутствию в тексте можно как-то измерять релевантность, в частности, фиксировать релевантность текста по отношению к профессиональной отрасли, к той же медицине или геологии.

Скажем, в предыдущем разделе рассматривался пример с ответом на поисковый запрос по слову «ипотека». Скорее всего, задающего такой запрос человека интересуют предложения банков по ипотечным кредитам, либо аналитика по банковским предложениям. С другой стороны, могут быть страницы со словом ипотека, но описывающие, скажем, способ отделки квартиры.

В текст таких страниц слово ипотека попадает случайно. Здесь как раз частотный словарь позволяет отсечь такие случайные страницы.

Помимо словарного анализа можно исследовать структуру всего текста. Если текст разбит заголовками, то по ним также можно как-то сузить позиционирование текста.

В любом случае сам текст, просто как набор некоторых текстовых символов, и что важно безотносительно смысла текста, давал возможность разработки специального инструмента, так называемой метрики. Метрика, как термин пришел из школьной геометрии. Там нас научили измерять расстояние между двумя точками, либо от точки до прямой.

В современной науке термин «метрика» используется повсеместно. Метрикой называют алгоритм, с помощью которого можно измерять близость объектов, причем, объекты могут быть любыми. Например, в социологии можно измерять близость различных социальных групп. В случае поисковых технологий с помощью метрики можно измерять условное «расстояние» от одного слова до другого, от одного текста до другого. Методологически метрика хороша как раз для измерения релевантности. Чем меньше условное «расстояние», тем выше релевантность.

Сравнительно скоро стало ясно, что метрика, основанная лишь на чисто текстовом анализе, не дает достойных результатов. Любая метрика имеет некоторую точность, а страниц становилось так много, что многие страницы получали одинаковое «расстояние» от запроса. Именно в этот момент Гугл совершил свою знаменитую революцию и мгновенно превзошел все существовавшие на тот момент англоязычные поисковики.

Революция Гугла

Гугл предложил предельно простое решение: использовать перекрестные гиперссылки между страницами для уточнения метрики.

Такой метод очень прост технически. Не нужно изобретать сложные метрики. Кроме того, этот способ ранжирования по-человечески очень понятен, подобен тому, как сам человек ранжирует поступающую к нему информацию.

Мы всегда стараемся не погружаться в реальный, самостоятельный анализ, а воспользоваться чьей-то рекомендацией. Нам необходимо услышать от другого человека, что хорошо, что плохо. Более того, мы ранжируем и самих рекомендателей, одним мы верим больше, чем другим.

Соответственно этому, Гугл предложил каждой странице присвоить перекрестный индекс, который зависит от двух факторов. Во-первых, от числа страниц, на которых есть ссылка на данную страницу. Во-вторых, от индекса страницы, на которой есть ссылка. Чем больше индекс ссылающейся страницы, тем больший вклад она дает в измерение индекса, также, как в человеческой деятельности.

Первая партия страниц получила индекс «руками», через оценку экспертов. Вероятно, число таких страниц измерялось тысячами. Индекс для остальных страниц получался уже измерением.

Снова напомним, точная формула поискового алгоритма неизвестна. Даже для этой простой математической зависимости по перекрестным индексам. Известен, лишь качественный вид формулы. Чем больше ссылается страниц, тем выше вычисляемый индекс. Чем больше индекс у ссылающейся страницы, тем больше получается индекс у измеряемой страницы.

Вместе с тем, индекс для каждой страницы известен. Поисковые компании раскрывают значение индекса.