Выбрать главу

В принципе, запаковать иерархические данные в реляционную базу нетрудно. Для этого рядом с основной таблицей строится триггером таблица транзитивного замыкания, содержащая все пары предок-потомок, где из предка существует путь в потомки. Несколько ресурсоемко и по быстродействию не то, но работает.

Как же осуществляется интеллектуальный поиск в такой базе данных? Предположим, что нас интересует информация о девушке, играющей по утрам на арфе. Такой запрос можно составить и на естественном языке, и тот же анализ компонент выделит в нем компоненту со значением времени (по утрам) и орудийную компоненту (на арфе). При поиске фрагменты текста, где, например, «девушка по утрам слушала игру на арфе», будут игнорироваться, так как там к игре на арфе относится не орудийная компонента, а компонента сенсорного восприятия. Вот такая избирательность и логичность.

Понятно, что для интеллектуального поиска конструирование модели запроса представляет собой серьезную задачу. Но при указанном подходе вполне реально получать ответы на любые запросы по смыслу документа.

Вот и весь краткий сказ о поиске. Разумеется, из-за недостатка места и времени многое опущено. Но ясно, что существующие сегодня поисковые сервисы позволяют найти все. А завтра, будем надеяться, появятся и те, что из всего найденного выдадут действительно необходимое.

Крупнейшие поисковые сервисы — Google, Yahoo! и MSN — к попыткам научить поисковые движки понимать запросы пользователей и документы видимого интереса не испытывают (вполне возможно, что причины их равнодушия к этим разработкам схожи с соображениями Александра Садовского, изложенными в предыдущей врезке). Интернет-пользователи привыкли к особенностям поисковых машин, знают их сильные и слабые стороны и по большей части удовлетворены имеющимися возможностями. Если в ближайшие несколько лет в поисковых технологиях и появятся революционные качественные изменения, то инициатором их появления станут, скорее всего, не известные лидеры рынка, а компании, которые обыватель с поиском вообще не связывает. В частности, очень активно сейчас развиваются корпоративные поисковые сервисы, которым зачастую ставится задача не только найти похожий по смыслу документ, но и проанализировать его, найти документы с ним связанные, и т. д. И здесь привычным поиском по ключевым словам не обойдешься.

Над технологией, способной обойти привычные ограничения, уже несколько лет работает исследовательский центр IBM. В августе этого года корпорация даже пообещала выложить в Сеть для свободной загрузки исходные коды своей платформы UIMA (Unstructured Information Management Architecture, www.alphaworks.ibm.com/tech/uima).

Информационные агентства поспешили заявить о том, что на смену поиску по ключевым словам приходит поиск по понятиям (key facts вместо key words), однако UIMA поиск по ключевым словам вовсе не отменяет (скорее, дополняет);

является не готовым приложением, а основой для построения специализированных программ анализа данных;

сейчас — после четырех лет разработки — все еще находится в начальной стадии развития, хотя пилотные проекты на базе UIMA существуют.

Подробнее об UIMA, которая оказалась в центре внимания прессы только пару недель назад, можно прочитать в прошлогоднем номере IBM Systems Journal (www.research.ibm.com/journal/sj43-3.html). Там же описаны несколько возможных приложений UIMA (например, www.research.ibm.com/journal/sj/433/mack.html и www.research.ibm.com/journal/sj/433/uramoto.html).

В общем случае UIMA дает инструменты для анализа и структурирования информации (в ходе чего можно обнаружить неочевидные связи между данными). Однако для поиска в Интернете эта технология пока неприменима и в обозримом будущем может стать популярным, но специализированным решением для предприятий.

У IBM в этом свой интерес — если действительно удастся сделать UIMA стандартом, то вложения в эту технологию окупятся стократ. А там, глядишь, потенциал, заложенный в UIMA, будет раскрыт сторонними разработчиками, да так, что поисковый сервис, скажем, 2015 года на скромный пользовательский запрос о бесплатных mp3 вместо нужных ссылок будет выдавать составленный машиной оригинальный двадцатистраничный реферат о проблемах пиратства в Сети. — В.Г.

xMax Громкие заявления о тихих сигналах

С июля этого года по сетевым, а затем и бумажным масс-медиа начало распространятся сообщение о разработке флоридской компанией xG Technologу уникального метода цифровой связи. За неделю-другую новость дошла до русскоязычных ресурсов, включая нашу Computerra.ru. Как это часто бывает, новостные сообщения интернет-сайтов клонируют друг друга, по сути (а иногда и буквально) пересказывая самый первый текст одного из крупных новостных агентств. В случае с xMax это, видимо, было сообщение Сlickpress.com от 23 июня, которое, в свою очередь, пересказало пресс-релиз самой xG Technologу. Мы, конечно, не будем повторять эти сочинения, но процитируем главные заявления, чтобы стало понятно, о чем речь.