— Как вы в целом оцениваете нынешнюю ситуацию с НПП? Есть ли у проекта шансы на успех и что необходимо, чтобы НПП не постигла судьба некоторых других государственных инициатив в области ИТ?
- ТП НПП относится к разряду реально работающих платформ. За прошедшие полгода мы без привлечения государственных инвестиций открыли четыре региональных центра компетенции по поддержке разработок на свободном ПО (в Новосибирске, Кирове, Санкт-Петербурге и Самаре). В сентябре открыт первый отраслевой центр компетенции по развитию медицинских информационных систем (в Иркутске). Готовится стратегический план исследований и разработок. Так что ТП НПП живёт и, я надеюсь, будет дальше развиваться. Что же касается условий успеха, то здесь главное — участие в проекте компаний-единомышленников, последовательность действий и чёткое целеполагание. Многие предыдущие проекты гибли из-за постоянных изменений главной задачи, смены правил игры во время матча. Надеюсь, участие в ТП НПП всех категорий организаций — от академической науки и государственных учреждений до оборонных предприятий и малого бизнеса — позволит нам решить все задачи, указанные в нашем Меморандуме о создании НПП.
Андрей Плахов («Яндекс») о поисковой технологии «Спектр»
Юрий Ильин
Опубликовано 07 октября 2011 года
- Расскажите, пожалуйста, как появилась технология «Спектр» и для чего предназначена? На кого в первую очередь она ориентирована?
- Как появилась? Мы в какой-то момент заметили, что люди чем дальше, тем больше задают запросов, сформулированных не до конца и неконкретно. Например, запрос «Ягуар» или «МГУ». Когда человек назвал какую-то организацию, или явление, или объект, но непонятно, что за объект и что именно он ищет про него. Про МГУ можно искать просто информацию, условия поступления, можно искать список факультетов, и так далее.
- Тем более «МГУ» сейчас себя норовит называть каждый заштатный институт.
- Да, и это отдельная проблема. Под «Ягуаром» может подразумеваться автомобиль, животное, напиток – всё, что угодно. Люди привыкли, что поисковые системы всё точнее угадывают, что имелось в виду, поэтому таких запросов со временем становится больше, и нам нужно учиться обрабатывать их лучше.
Проблема была в том, что традиционные методы оценки не очень хорошо работают с такими запросами. Качество поиска оценивается рядом метрик, цифр. Есть много разных методик, но большинство из них не учитывают проблемы таких неоднозначных запросов – если все десять результатов примерно про одно и то же, это считается хорошим результатом. Нужно было придумать способ измерять насущность этой проблемы и сделать такое ранжирование, которое бы с ней справлялось. Чтобы в выдаче были результаты и про то и про это, чтобы люди, ищущие разные вещи, находили для себя то, что нужно, и получали полный обзор по этому запросу. Так и появился «Спектр».
- Насколько я понимаю, полный обзор – это 100 страниц результатов. Как человеку ориентироваться?
- Всё равно нужно каким-то образом вместить наиболее актуальную информацию в первый десяток результатов. Без некоторой потери смысла не обойтись. Мы работаем над тем, чтобы смысл терялся как можно меньше.
- Как давно задействована технология?
- Она запущена в конце прошлого года.
- И как вы оцениваете её результаты на данный момент?
- Мы измеряем количество людей, которые не удовлетворены результатами поиска. Как мы это понимаем? Бывает, что человек задал свой запрос, увидел какие-то результаты, посмотрел на них, почитал и никуда не кликнул, а вместо этого закрыл браузер или задал другой запрос с целью всё-таки что-то найти. Если такое происходит, то обычно это плохо. Число таких запросов с введением нового ранжирования уменьшилось.
- А какие-то средства противодействия манипуляциям результатами поиска задействованы?
- Да, они, конечно, нужны. Более того, они обязательны. «Яндексу» есть на ком тренироваться, как отслеживать накрутки и так далее. На практике накрутками занимаются, чтобы подвинуть в выдаче не какой-то специфический результат, а свой собственный магазин, свой сайт. Если научиться такие стандартные накрутки отлавливать и с ними бороться, а мы это делаем постоянно, то те же методы могут быть использованы для более экзотических случаев.