Информационный образ виртуального специалиста проявляется через естественный язык, который понимают пользователи Интернет, а также искусственные языки среды Интернет, в частности язык разметки гипертекстов html, который они обязаны понимать, когда попадают на тот или иной интернет-ресурс. Язык среды используется для создания текстов.
Среда, в которой функционирует виртуальный специалист, структурируется наличием:
— ключевых слов для текстов, циркулирующих в этой среде;
— связей между ними;
— эмоциональной окраской, как всех текстов, так и отдельных предложений и даже слов;
— наличием определенной комбинации тегов языка разметки гипертекстов. С помощью тегов указывается значимость того или иного слова для данного текста. Подобного рода значимые слова выделяются в тексте с помощью т. н. <meta> тега и тегов разметки текста типа создания заголовков разного уровня, подчеркивания, включения жирного шрифта, гиперссылок. Виртуальному специалисту достаточно «взглянуть» на содержимое названных тегов, и он уже «понимает», о чем идет речь.
Итак, задача виртуального специалиста при общении с человеком или с сайтом заключается в переводе полученных текстов на свой внутренний язык, причем перевод этот должен начинаться с оценки эмоциональной окраски и удаления избыточности. То, что останется, и будет языковой средой.
Индивидуальная манера поведения виртуального специалиста формируется на основе множества его бесед с пользователями ресурсов сети Интернет. Беседы строятся на предпочтениях. В беседах, как правило, присутствуют любимые слова и выражения и отсутствуют нелюбимые. Беседы с теми, к кому хорошо относятся, проходят совсем не так, как с тем, кого опасаются, — другой сценарий беседы. Если в основе первого сценария лежит выбор такого сообщения, которое заинтересует и позволит увеличить продолжительность беседы, то во втором случае сообщения выбираются так, чтобы время беседы сокращалось, а сама беседа ограничилась получением только нового знания о возможных опасностях.
Правила познания. В данном случае рассматриваются способности виртуального специалиста правильно решать те или иные задачи независимо от способности к т. н. познанию. Если задача того или иного уровня решается информационной системой (виртуальным специалистом), значит, система (виртуальный специалист) соответствует этому уровню познания.
Предлагается выделить следующие семь уровней познания:
На первом уровне система способна давать ответы на вопросы только на основе содержания имеющегося у нее текста. Если, например, системе известен текст: «Началась война!», то система должна уметь отвечать правильно на вопрос типа: «Что началось?» Существуют различные алгоритмы решения данной задачи. Например:
— на базе фрейма, содержащего все места, которые посещает субъект, с перечнем его возможных действий;
— поиск в хранящихся текстах предложений, содержащих в себе вопрос или большую часть вопроса, и объединение их в текст ответа с учетом синтаксиса языка. В данном случае системе совсем необязательно уметь анализировать текст и понимать, что такое «война», и знать, что она началась, — это должен знать тот, кто задал вопрос. Главное, чтобы субъект, задающий вопрос, был удовлетворен ответом. На данном уровне важнейшей задачей является задача определения расстояния не только между различными текстами (в этой части достаточно существующих решений), но и между неизвестным вопросом и известным ответом, который и должен быть поставлен в соответствие этому вопросу.
Для определения индивидуального стиля поведения (разговора) виртуальному специалисту вполне подойдут адаптированные к текстам естественного языка алгоритмы самообучения на базе гибели и рождения элементов[32]. В магистерской диссертации Р.С. Токарева (МФТИ, 2009 г.) было показано, что для решения данной задачи вполне достаточно всего четырех видов элементов с такими базовыми операциями, как удалить слово, добавить слово, заменить слово, переставить слова.
На втором уровне у системы имеются правила пополнения текстов и правила исключения отдельных фрагментов текста. Здесь возможны два пути модификации исходных текстов:
— их действительная модификация (включение/исключение);
— расширение (сужение) для информационной системы возможностей по доступу к текстам, принадлежащим другим информационным системам.
Наличие подобных правил может стать основой механизма самообучения, т. к. при определенных условиях эти правила задают направление развития информационной системы. Все ответы готовятся на базе различных текстов. Неоднократная отрицательная оценка ответа различными собеседниками является достаточным основанием для удаления текста, понижения его статуса. Положительная оценка приводит к повышению статуса текста, что, в итоге, способствует его выбору в случае наличия конкуренции среди текстов, претендующих на роль генератора ответа.