Выбрать главу

Можно также дать близкую формулировку: ответ Яндекса становится осмысленным. В ответ вложен смысл.

Следует отметить, что автор данной книги осознанно взял в качестве пример запрос на слово «ипотека». Можно привести запросы, где проявления интеллектуальности еще более эффектные, правда, и более спорные. Вместе с тем, все еще есть запросы, где первая десятка вызывает явные вопросы. Начинаешь думать, как эти страницы могли сюда пролезть. Ответ простой: пока технология Яндекса действует с неравномерной эффективностью. Похоже, важные слова, с высокой частотой использования, подвергаются более тщательному анализу.

Вывод:

на 2019 год поисковый ответ становится человекоподобным и осмысленным, подобно тому, если бы ответ был подготовлен человеком.

Поиск в секрете

В предыдущем разделе демонстрация отклика Яндекса на ипотечный запрос могла вызвать сомнение у читателя. Зачем демонстрировать какой-то отклик, анализировать его свойства, самостоятельно искать некую формулу. Просто покажите официальную страницу Яндекса, на которой описан алгоритм, дана формула отклика.

Оказывается, узнать эту формулу невозможно: ни у Яндекса, ни у Гугла, ни у любого иного, менее статусного поисковика. Все компании хранят свои поисковые технологии примерно также, как Россия и США хранят ядерные секреты – максимально защищенно. Никакой свободой, никаким открытым кодом здесь и близко не пахнет.

Основная информация у нас, у пользователей возникает методом обратного инжиниринга. Обратным инжинирингом или реверс-инжинирингом называют набор приемов для анализа работы неизвестного устройства, если хотите, черного ящика. Экспериментатор подает на вход ящика сигналы и смотрит на реакцию ящика. Для вскрытия секретов поисковых технологий разработчики веб-страниц делают экспериментальную страницу и анализируют позицию страницы в поисковой выдаче. После серии подобных экспериментов можно получить усеченную копию алгоритма поисковой системы. Какой-то информацией специалисты по реверсу делятся с коллегами, какую-то, как и поисковики, скрывают.

Что есть у первоисточника

Какую-то обрывочную информацию все же можно получить из нечастых заявлений Яндекса и нескольких интервью топовых работников Яндекса. Среди этих материалов можно выделить пару важных ссылок.

В августе 2017 года Яндекс представил новую версию поискового алгоритма «Королев», https://yandex.ru/korolev/ . В презентации прямым текстом подчеркнуто:

1. Яндекс сравнивает технологию «Королев» с полетом первого спутника в космос. Тем самым, Яндекс подчеркивает символичный отрыв от прежних технологий.

2. Впервые Яндекс начинает искать не по словам, а по смыслу во всем тексте.

3. Яндекс неоднократно говорит о работе искусственного интеллекта.

4. Яндекс подчеркивает переход от простого поиска к ранжированию.

Яндекс не использует термин «пострекламная эра», но аналогия со спутником де-факто подчеркивает коренной перелом.

В ноябре 2018 года Яндекс объявил, что в алгоритм Королев внесено более 1000 изменений. Интересно, что Яндекс прервал многолетнюю традицию и перестал давать имена алгоритмам по названиям городов. Говорят, Яндекс перестал «играть в города». Теперь алгоритм имеет название «Андромеда». Яндекс как бы подчеркивает: полет в космос состоялся. Отныне названия будут иметь космическое происхождение https://yandex.ru/blog/yatechnologies/yandeks-predstavil-obnovlennyy-poisk-andromeda

Краткий экскурс в историю поисковиков

Секретность поисковых компаний возникла не на пустом месте и имеет объективную причину. Поисковые системы возникли практически одновременно с появлением Интернета, разница лишь в несколько лет. Первоначально поисковики просто искали слова в тексте. Точно также, как можно искать слова в тексте данной книги. Затем возникла проблема словоформ, особо важная для языков со склонениями, как в русском языке. Простой поиск в тексте ищет абсолютно точное совпадение. Если в этом абзаце искать «слоформа», то точный поиск не найдет совпадений, а так называемый морфологический поиск найдет. Для русского языка Яндекс первым решил проблему, что обеспечило ему победу над другими русскоязычными поисковиками.

Затем возникла и продолжает постоянно существовать проблема релевантности. Веб-страниц становится безумно много. Надо как-то отбирать самые существенные, самые полезные или как принято говорить самые релевантные страницы.