Читать онлайн "Журнал «Компьютерра» № 34 от 18 сентября 2006 года" - «Компьютерра» Журнал - RuLit

— Если говорить с точки зрения конечного пользователя, то NLC позволяет решать множество задач, связанных с обработкой естественного языка. Практически все задачи, связанные с обработкой больших текстовых массивов, будут решаться с применением нашей технологии. Сюда входят и смысловой поиск, и аннотирование документов, и поиск по цельным предложениям, анализ и принятие решений и так далее. Сейчас все это решается очень неуклюже, так как в данный момент не существует коммерческих систем, имеющих внутри систему знаний о мире. В рамках NLC мы создаем семантическую иерархию, некий семантический юниверсум, некую модель знаний о мире — знаний как семантических, так и прагматических.

Прагматические знания — это знания, которые не могут быть почерпнуты непосредственно из текста.

— Ну вот, смотрите, — говорит Ян. — Возьмем предложения «Человек сидел на стуле. Он читал газету». С точки зрения грамматики, стул мог читать газету. С точки зрения семантики, стул не мог читать газету, это делал человек. Здесь все просто. Возьмем для примера другое предложение — «Apple, as usual, went for style over functionality». Понять, что Apple в данном случае вовсе не яблоко, а компьютерная компания, можно только обладая прагматическими сведениями. Можно придумать и менее очевидные примеры, когда отсутствие прагматических сведений не позволяет провести грамотный анализ. К прагматическим сведениям относятся, допустим, исторические данные, хотя, честно говоря, граница между семантическим и прагматическим анализом довольно зыбкая.

— В рамках NLC, — продолжает Давид, — мы накапливаем знания о мире. Система знает, что стул — это мебель, мебель находится в доме, знает, для чего предназначен стул. Мы построили модель языково-независимых данных об устройстве мира и модель доступа к этим данным, благодаря чему можем решать, как я уже говорил, широкий пласт задач.

Естественно, первое, что приходит в голову с таким подходом, — это перевод.

— Нетрудно понять, что человек-переводчик в процессе перевода сначала понимает смысл исходного предложения, а затем синтезирует этот смысл на другом языке. Только так можно получить адекватный перевод. Если же Google будет применять какие угодно эвристики, переводить по частям, используя пословный или пофразовый перевод, то неизбежно будет теряться смысл.

Конечно, кое-что можно понять уже на уровне синтаксического анализа. Например, синтаксический анализ зачастую позволяет разобраться с омонимией, когда одно и то же слово может означать разные вещи. Возьмем, допустим, слово «copy» — оно может быть как существительным («копия»), так и глаголом («копировать»). Но синтаксический анализ предложения I will copy this book показывает, что в данном случае «copy» — это глагол. Проблема в том, что синтаксис даже в таких, относительно простых случаях работает не всегда. Омонимию «за,мок»-"замо,к" синтаксически разрешить невозможно. «Я буду жить в этом замке» или «я повесил этот замок». Здесь уже нужен семантический анализ.

Кошка в чулане

Выглядит все очень здорово, но, кажется, похожую функциональность обещали и экспертные системы, дайте-ка вспомнить, двадцать, тридцать, сорок лет назад?

— Если говорить о других подходах, то можно вспомнить не только экспертные системы, но и нейрокомпьютеры, которые, вообще говоря, к системам ИИ можно отнести с большой натяжкой, формально они к ним не относятся, это в большей степени статистические модели. Что касается экспертных систем, то в этой области масса различных реализаций. Если говорить о «черном ящике», то наша технология может имитировать поведение экспертной системы, если конечному пользователю так проще. Он сможет задавать вопросы и получать ответы. Но ключевым отличием NLC является то, что у нас целостный подход, мы строим целостное представление о мире. Экспертные системы никогда не ставили себе целью построение всеобъемлющей модели, да и не могли поставить такую цель.

Что это означает? Мы применяем так называемый IPA-подход — Integrity, Purposefulness and Adaptability, целостное, целенаправленное адаптивное восприятие. Этот принцип лежит в основе FineReader, NLC и ряда других систем ИИ, которыми мы занимаемся. Отдельные его принципы существовали и до нас, но наиболее цельно сформулировал этот подход наш главный идеолог по этому направлению Александр Львович Шамис, так что мы считаем, что принцип IPA изобретен нами. И этот принцип работает — сегодня FineReader умеет, например, распознавать рукописные шрифты без настройки на почерк.

В двух словах о том, что это такое. Во-первых, принцип целостности постулирует, что мы храним знания о мире целостным образом. Любые знания являются частью целого. Если говорить о распознавании текстов, то любая буква может быть представлена как система элементов, связанных друг с другом определенным образом. Если говорить о структуре языка, то здесь мы видим систему понятий, которые логически связаны друг с другом.