Выбрать главу

В 2005 году был запущен новый алгоритм, участвующий в разборе и анализе таких ситуаций. Его цель — создание словаря исправлений. Запросы пользователей собираются и анализируются, обрабатывается статистика. Если оказывается, что по какому-то слову есть много вариантов исправлений, то из кластера выбирается похожее слово из числа наиболее распространенных в Интернете. Таким образом, появляется база пар "плохих" и "хороших" слов — слов с ошибками и исправленных, и каждое слово в запросе пользователя теперь проверяется по такому "народному" словарю. Набранная статистика позволяет отбирать наиболее употребляемые варианты написания слов, за счет чего и происходит поддержка орфографического словаря.

Транслитерация

Слова могут быть написаны с ошибкой, которую вы можете не заметить. Например, если в слове встречаются символы русского и английского алфавита, близкие по начертанию. Например, в слове "передача" первая буква "а" была взята из английского алфавита. Яндекс "с удовольствием" принял запрос, заменил некорректную букву на русскую "а" и в результатах поиска представил документы, содержащие корректное написание слова "передача". Самое интересное все же в том, что в этом же списке результатов могут присутствовать и документы, в которых ключевое слово написано именно так, как в вашем запросе. Аналогичным образом конвертируются слова, содержащие хотя бы одну русскую букву.

Конвертируются следующие буквы (полужирным выделены английские): e — е — ё, a — а, В — В (только прописные), c — с, g — д (только строчные), k — к, n — п (только строчные), o — о, p — р, u — и (только строчные), x — х, y — у.

Иначе обстоит дело, если слово набрано на транслите. Яндекс правильно преобразует его в слово на русском языке, например, слово "peredacha" будет представлено как "передача". При этом поиск в документах ведется по исходному слову, а русский вариант предлагается в качестве возможного в преобразовании с транслита. Если предположение Яндекса верно, щелкнув на слове передача, вы откроете страницу с результатами поиска по этому ключевому слову.

Не конвертируются слова, в которых есть хотя бы одна цифра. Например, в слове "переgача1" буква "g" не будет заменена на букву "д". Не конвертируются и слова, состоящие из одной буквы, например, предлог "c". И цифра "0" буквой "О" не заменяется. Она подпадает под предыдущее условие, что слова с цифрой не подлежат транслитерации. Обратите внимание на то, что транслитерация идет только в одном направлении — с латинского (английского) на русский. Но не обратно. И напомню, что надо делать, чтобы избежать конвертирования слова, если вам требуется поиск с точным его написанием. Для этого достаточно в поле запроса записать ключевое слово с предшествующим ему восклицательным знаком, например, так:!переgача.

Все, о чем было сказано ранее, в Яндексе называется прологом. Тем, что еще не является собственно результатом. И лишь после пролога выводится та часть, которая нам нужна более всего — результаты поиска.

Результаты поиска

Сколько бы ни было найдено документов, информация по каждому из них формируется на основе единых правил и включает одни и те же информационные блоки. Это — заголовок документа, его описание, фрагмент и статус. В свою очередь каждый из этих блоков может состоять из нескольких элементов.

Заголовок документа

Каждый результат имеет свой порядковый номер. Он служит только для удобства ориентирования на странице и иной функциональности не несет.

А вот следующая информация в заголовке результата уже имеет ценность. Это — название документа, в котором были найдены слова, входящие в запрос. Для веб-страниц название берется из тега <title>, поэтому полностью зависит от того, что в него включил разработчик. Если тег <title> не заполнен, вместо названия страницы вписывается ее адрес (URL). Для документов в других форматах название берется из их свойств, а если в свойствах файла название отсутствует, вместо него берется имя файла.

Если заголовок осмысленный, то даже по нему можно оценить соответствие найденной страницы запросу. Но могут быть и иные заголовки, не несущие какой-либо информации, например, page5. Вряд ли по этому названию удастся оценить найденное. Если в заголовок входят ключевые слова, они будут выделены в нем полужирным шрифтом.