Кстати, забавным результатом истории с корпорацией NEC стало начало выпуска ею… MP3-плейеров. Не иначе, как руководство посчитало шум вокруг истории с подпольными производствами отличным пиар-фоном для завоевания нового рынка. Ну или решили — не пропадать же пиратским производственным мощностям…
ОКНО ДИАЛОГА: Нечасто задаваемые вопросы
Авторы: Сергей Леонов, Владимир Гуриев
Как обычно бывает, один человек что-то услышал, второй что-то увидел, а третий ничего не услышал и не увидел, но признаваться ему в этом было неловко. Отследить источник слуха уже невозможно, но в начале сентября редакторы «КТ» увлеченно обсуждали новый продукт ABBYY, который выйдет в сентябре и уберет с рынка компанию «ZZZ» (название жертвы менялось в зависимости от дня недели, облачности и общего настроя сплетников). Устав гадать, мы отправились в FAQ-Cafе, чтобы спросить у председателя совета директоров компании ABBYY Давида Яна, что же они все-таки выпускают, когда и зачем.
В самом начале разговора выяснилось, что слухи в целом верны, но не академик, а футболист, не в лотерею, а в преферанс, не выиграл, а проиграл, и не «Волгу», а сто рублей. Нашими предположениями Давид Ян был слегка озадачен.
— Насколько я знаю, в этом сентябре мы ничего подобного не планируем. Вероятно, речь идет вот о чем. Мы уже десять лет работаем над продуктом NLC (Natural Language Compiler) и в сентябре следующего года планируем завершить важный этап исследований. А коммерческого продукта ждать еще долго.
Поиск словосочетания «ABBYY NLC» на Google и «Яндекс» дает несколько ссылок, из которых сколько-нибудь внятную информацию содержат только две: интервью Давида Яна, данное им «КТ» в 1999 году (в нем Давид, очень кратко описав, о чем, собственно, идет речь, предполагает, что до полноценного коммерческого продукта еще года два с половиной), и интервью, взятое нашими коллегами из «Домашнего компьютера» двумя годами позже, в котором таких предсказаний уже нет.
— Это самый дорогой продукт ABBYY по стоимости разработки. К моменту выхода первой коммерческой версии на него будет потрачено около тысячи человеко-лет.
NLC — это внутреннее название технологии, а не наименование коммерческого продукта. Официальный анонс ABBYY, по словам Яна, сделает только через несколько месяцев — либо зимой, либо весной будущего года. Тогда же, возможно, станет известно, какой из продуктов ABBYY первым будет реализован на NLC. Угадывать название продукта сейчас бесполезно. Это может быть как совершенно новый программный комплекс от ABBYY, так и привычная программа, но с новой начинкой. Кроме того, ABBYY планирует выпустить SDK и лицензировать движок для других производителей.
— Если говорить с точки зрения конечного пользователя, то NLC позволяет решать множество задач, связанных с обработкой естественного языка. Практически все задачи, связанные с обработкой больших текстовых массивов, будут решаться с применением нашей технологии. Сюда входят и смысловой поиск, и аннотирование документов, и поиск по цельным предложениям, анализ и принятие решений и так далее. Сейчас все это решается очень неуклюже, так как в данный момент не существует коммерческих систем, имеющих внутри систему знаний о мире. В рамках NLC мы создаем семантическую иерархию, некий семантический юниверсум, некую модель знаний о мире — знаний как семантических, так и прагматических.
Прагматические знания — это знания, которые не могут быть почерпнуты непосредственно из текста.
— Ну вот, смотрите, — говорит Ян. — Возьмем предложения «Человек сидел на стуле. Он читал газету». С точки зрения грамматики, стул мог читать газету. С точки зрения семантики, стул не мог читать газету, это делал человек. Здесь все просто. Возьмем для примера другое предложение — «Apple, as usual, went for style over functionality». Понять, что Apple в данном случае вовсе не яблоко, а компьютерная компания, можно только обладая прагматическими сведениями. Можно придумать и менее очевидные примеры, когда отсутствие прагматических сведений не позволяет провести грамотный анализ. К прагматическим сведениям относятся, допустим, исторические данные, хотя, честно говоря, граница между семантическим и прагматическим анализом довольно зыбкая.
— В рамках NLC, — продолжает Давид, — мы накапливаем знания о мире. Система знает, что стул — это мебель, мебель находится в доме, знает, для чего предназначен стул. Мы построили модель языково-независимых данных об устройстве мира и модель доступа к этим данным, благодаря чему можем решать, как я уже говорил, широкий пласт задач.