Сейчас рынок корпоративного поиска поделен между тремя основными игроками: Google, HP и Microsoft, которые в сумме занимают долю около 80%. «Наши первые тесты говорят, что мы показываем преимущество по точности и полноте результатов поиска», — уверяет Антон Тюрин , директор департамента продуктов Compreno. В менее официальных комментариях сотрудники говорят, что «рвут конкурентов».
Татьяна тут же на примере показывает работу поиска. Специально для нас она проиндексировала 15 тыс. новостных заметок на русском языке. На первой странице Intelligent Search автоматически выскакивают фасеты — наиболее важные и часто встречающиеся категории: упомянутые персоны, географические объекты и даты. На запрос «отделение» система уточняет, какое из множества значений «отделения» имелось в виду, и легко различает в выдаче: «отделение» в смысле организации (отделения банков) или «отделение» — как выделение части из целого. Любая система неидеальна — я быстро нахожу, что Intelligent Search воспринимает «и. о.» и «исполняющий обязанности» как разные понятия. Татьяна тут же заходит в сервис рекламаций и отправляет лингвистам заявку на дополнение словаря. Поиск от ABBYY легко уточняется и масштабируется на новые предметные области, так как смысл многих понятий в словаре общей лексики и, например, медицинском весьма разнится. Дерево понятий поражает дотошностью. Так, класс Beautiful person включает в себя в русском варианте «богиню», «королеву», «кралю», «красаву», «няшку», «пупсика» и еще множество слов, не сразу приходящих на ум при описании кого-либо прекрасного.
Intelligent Tagger позволяет автоматически вычленять факты и связи между объектами. По запросу «Сноуден» система рисует легкочитаемую инфографику, отображающую ключевые факты: родился, учился, работал; разбивку событий по годам, ключевых лиц, с которыми он был связан, причем их система вычленяет из новостной базы не только по именам, но и по социальным ролям, например girlfriend.
Количество возможных применений Compreno ограничено лишь фантазией заказчика. Например, можно настроить анализ корпоративной переписки на поиск любых эвфемизмов для «откат» и «вознаграждение» или негативных отзывов о руководителе, причем система поймает не только прямые упоминания «Иван Иваныч» или «генеральный», но и «дражайший», «сам» и «наш козел».
Интеллектуальный поиск может работать не только с корпоративными документами. Запустив робота на индексацию интернета, можно отыскать все упоминания о каких-либо событиях, фактах или персонах в определенных контекстах и взаимосвязях. Например, можно использовать систему для поиска взаимосвязей между сотрудниками вашего отдела снабжения и руководителями поставщиков, и вполне возможно, что кто-то из них родственники или учился в одном классе. Сейчас министерство внутренней безопасности США публикует длинный перечень ключевых слов, по которым осуществляется мониторинг интернета: от «Аль-Каиды» и «теракта» до «исламистов» и «свинины». Использование поисковых решений на основе Compreno позволит более изощренно и эффективно подходить к контролю интернета, чем уже заинтересовались компетентные службы.
Как признался нам генеральный директор ABBYY Сергей Андреев , компания мечтала бы сосредоточиться на лицензировании технологий сторонним разработчикам. Но как стало очевидно на примере нынешней «дойной коровы» ABBYY — решений в области распознавания текстов и потокового ввода данных, только непосредственная работа с конечным потребителем дает понимание его нужд и возможность совершенствовать под них технологию.
Цены на Intelligent Search и Intelligent Tagger не называются, поскольку формируются в зависимости от объема задач в каждом конкретном случае и числа используемых процессоров. Но, по словам Антона Тюрина, средняя цена установки корпоративного поиска на рынке — 62,5 тыс. долларов, и решения ABBYY будут вполне конкурентоспособны по цене. Ключевой рынок, на который нацелена ABBYY, — Соединенные Штаты.
Плоды понимания
Однако поисковые решения — лишь первый шаг. Compreno — базовая технология, которая может быть использована в десятках различных приложений, предназначенных для работы с текстом. Уже на этапе финальной доработки находится eDiscovery — поиск информации в документах в рамках юридических разбирательств, аудита и расследований в США, Великобритании и других государствах. В них требуется обработка огромных массивов корпоративной информации для дальнейшего поиска и выявления фактов и доказательств.
В числе следующих решений — анализ тональности высказываний (отношения автора к предмету обсуждения) в текстах, обрабатываемых, например, в процессе мониторинга СМИ и социальных сетей. Охрана «информационного периметра» организации с выявлением фактов передачи несанкционированной информации и система прогнозирования и оповещения о наступлении событий. Настоящим переворотом может стать планируемый выход программы семантического перевода — ориентированного на передачу смысла с учетом контекста.