Еще один известный многим пример цифрового интеллекта связан со спамом. Сейчас на многих почтовых серверах стоит анализаторы текста писем, которые лишь на основе текста писем определяют принадлежность письма к спаму. Особым зверством отличается gmail.com, иногда и нормальные письма попадают в папку со спамом.
Обучение по веб-страницам
Поисковые алгоритмы анализируют веб-страницы идейно также, как и система защиты в банке или анти-спамовая блокировка. Различие состоит в масштабе и инструментарии. Поисковики должны работать с сотнями миллионов страниц. Соответственно, поисковые алгоритмы должны иметь на выходе не простую бинарную комбинацию, вернет/не-вернет кредит, а чрезвычайно сложную классификацию с миллионами градаций.
Именно эти алгоритмы и являются секретом поисковых компаний. Если машинному обучению (Machine Learning) сейчас учат во многих ВУЗах, а задачки, типа банковской защиты решаются на первых курсах, то поисковые алгоритмы доступны лишь самым высоким профессионалам.
Несмотря на секретность, часть информации о поисковых технологиях все же попадает в открытое пространство. Так известен способ, с помощью которого Яндекс обучил свой алгоритм делать миллионы градаций. Ведь по логике машинного обучения сначала кто-то должен обучить компьютер этому миллиону оценок. Теоретически это мог быть один человек, который знает миллионы градаций. Понятно, что такой человек отсутствует. Это мог бы быть миллион человек, но кажется невозможным найти громадное число людей, и, более того, как-то организовать их работу. Как ни удивительно, именно таким образом поступил Яндекс. Компания привлекла грандиозное число людей для обучения своего алгоритма. Вот данные из презентации алгоритма Королев, https://yandex.ru/korolev/ .
– В компании постоянно работают свыше тысячи человек – экспертов, которые занимаются только подготовкой и проверкой правильных оценок. Профессия по штатному расписанию называется асессор. По функциональному содержанию – это учитель цифрового интеллекта. Нянька для цифрового интеллекта
– Помимо штатных работников Яндекс нанял через проект Яндекс.Толока свыше миллиона внештатных асессоров, https://toloka.yandex.ru/ .
– В нейронную сеть Яндекса было передано 2 миллиарда оценок для обучения нейронной сети.
Призываю читателя еще раз ощутить – миллион участников проекта, два миллиарда оценок. Даже по своему звучанию это напоминает промышленные масштабы, миллионы тонн угля, нефти, миллиарды кубометров газа. Теперь и в поисковых технологиях те же числа.
Именно промышленный масштаб поисковых технологий обеспечил победу поисковиков в войне с оптимизаторами.
Главный результат от цифрового интеллекта связан с появлением осмысленности в поисковой выдаче.
Грандиозный, промышленного масштаба поисковый фильтр выдает результат, подобный результату, который мог бы получить человек. Если выражаться точнее, то человек уже не может получить такой результат без компьютера – невозможно прочитать, осмыслить и структурировать миллиарды страниц.
В заключение, приведем диаграмму четырех основных компонент поисковой технологии, четыре компоненты ранжирования.
Вывод:
технология семантического ранжирования имеет уже промышленный характер.
Последствия для бизнеса трудно даже представить
Посмотрите, как уже сейчас, на январь 2019 года Яндекс дает ответ на простые, но популярные вопросы «чемпионат России» и «глубина Байкала». Особо надо обратить внимание на новые форматы. По сути, Яндекс выводит витрины для выбора. Обратите внимание на индивидуальный побор витрин. Вид витрины в обоих случаях различается. Сам выбор формата уже является следствием интеллектуальной обработки запроса. Более того, алгоритм предугадывает наши последующие вопросы плюс придумывает подсказки, что нам могло бы еще понадобиться. Все подсказки как раз и составляют витрину.
Представим недалекое будущее
Теперь задумайтесь, как через энное число лет будет выглядеть ответ Яндекса на запрос «косметическое мыло». Что, если Яндекс также сразу сформирует витрину для выбора как на верхних картинках. На витрине будет несколько страниц с вариативным подбором мыла. Допустите также самое жуткое для производителей мыла: нас, пользователей, вполне удовлетворит эта витрина. Точно также, как сейчас мы верим подборке Яндекса по глубине Байкала, мы будем верить отбору продуктов на мыльную витрину.