Выбрать главу

Известно, что любое СМИ, пекущееся о своем рейтинге, осуществляет мониторинг сообщений открытых (и не только) источников информации в интересах выявления ситуаций, относящихся к важным «тематическим зонам». Пропуск важных для потребителя информационной продукции событий (а любое разумно построенное СМИ строит собственную модель потребителя) способен понизить рейтинг СМИ. Классическим подходом к решению этой задачи является подход, основанный на анализе поступающих сообщений с использованием перечня ключевых слов. Но ситуация меняется, а перечень ключевых слов всегда является неполным. Это вызвано хотя бы тем, что в оборот постоянно вводятся новые слова — например, в компьютерной области за месяц появляется в среднем порядка 300 новых терминов и устойчивых аббревиатур. Однако самой распространенной причиной пропуска информации из-за неполноты словаря является отсутствие возможности предусмотреть все возможные события, способные существенно повлиять на ситуацию.

Допустим, что некое СМИ отслеживает события, влияющие на финансовую ситуацию в США. Вполне вероятно, что, используя технологию отбора по ключевым словам, такое СМИ упустило бы из вида первые оперативные сообщения о террористической атаке на здания Всемирного Торгового Центра. Действительно, совершенно не очевидно, что слова «захват» и «авиалайнер» должны присутствовать в перечне ключевых слов автоматизированной системы отбора сообщений, релевантных финансовой тематике. Упоминания же о возможности наступления финансовых последствий для США (в которых наиболее вероятно появление «финансовой» терминологии) в связи с этими событиями появились значительно позже — в аналитических сообщениях. Используя же технологию пополнения словаря на основе анализа частотно-ранговых распределений слов и устойчивых словосочетаний, такое СМИ могло бы быстро отреагировать на изменение информационной обстановки (прежде, чем аналитик позаботится о внесении ключевого слова в словарь и снабдит его соответствующей интерпретантой).

Результат работы системы, использующей анализ потока сообщений для выявления повестки дня СМИ, может быть продемонстрирован на примере фрагмента карты семантических отношений для событий 11.09.2002.

Представленная на приводимом ниже рисунке карта семантических отношений получена с применением подхода, реализованного специалистами из Лаборатории по исследованию проблем организации, коммуникации и познания (LOCKS) при университете штата Аризона (Arizona State University, США). Подход получил наименование Centering Resonance Analysis (CRA), основан на применении статистического аппарата для анализа интенсивности откликов прессы. Он позволяет выделить термины, релевантные основной тематике сообщений, и семантические связи между ними на основе анализа частотно-рангового распределения как отдельных слов, так и их устойчивых сочетаний.

Степень актуальности той или иной темы определяется частотой упоминания терминов, описывающих ее, при этом может быть задано ядро семантической сети, вокруг которого в некотором диапазоне частот размещаются термины, связанные с ним и релевантные тематике сообщений.

Как видим, метод CRA позволяет выделить основные слова, служащие для обозначения основных объектов внимания прессы, отследить семантические связи между ними и степень устойчивости этих связей. А значит, локализовать ту предметную область, в которой происходят значимые или целенаправленно акцентируемые события, перенастроить словари, используемые для осуществления фильтрации сообщений.

Использование аналогичных методов на этапе формирования словаря позволяет придать словарям ключевых слов динамические свойства, обеспечить их релевантность текущей ситуации. Кроме того, могут быть активизированы именно те группы эталонов, которые могут попасть в рабочее подмножество в ходе дальнейшего развития ситуации. То есть, может быть сокращена размерность задачи перебора массива эталонных моделей и предварительно определен уровень детализации эталонных описаний, который, скорее всего, будет превышен в ходе дальнейшего освещения в источниках развития ситуации.

Заметим, что свое применение методы управления поисковыми и «ключевыми» словарями на основе анализа статистических распределений могут найти не только в секторе СМИ, служб мониторинга социально-политической, криминальной и военной обстановки, но и при проведении масштабных научных исследований, а также в бизнесе и финансово-экономической сфере. Одним из очевидных приложений является анализ эффективности рекламных кампаний и иные задачи, сопряженные с анализом больших массивов текстовой информации. Некоторые элементы такой технологии могут быть использованы при выработке направлений инновационной политики при проведении анкетирования сотрудников предприятия (как это делается на японских предприятиях, когда работникам предлагается в свободной форме высказывать предложения и пожелания по совершенствованию системы управления и технологического процесса).

Фиксация границ распознаваемых состояний