Читать онлайн "Диалог с компьютером" - Журавлев Александр - RuLit

Четыре уровня сортировки минимально необходимы, иначе качественный ореол не будет охвачен полностью. Но останавливаться на четвертом уровне не обязательно. Добавляя к автоматическому классификатору все новые и новые шкалы-уровни, мы обучаем компьютер все более тонким оттенкам качественно-ореольной семантики. Понятно, что с увеличением числа уровней сортировки будет увеличиваться число групп «на выходе» классификатора и группы будут все более дробными. А слова, в них попавшие, будут все теснее объединяться по качественно-ореольным характеристикам.

Четырехуровневый компьютерный классификатор исправно работает и формирует группы слов на удивление «осмысленно». Ничто не мешает подключить к нему новые шкалы и сортировать новые порции слов. Но вот беда: лингвисты уже 30 лет гадают, куда «приплыл» Ч. Осгуд — в Индию или в Америку, да все прикидывают, нужны ли нам такие измерения. А словаря качественных ореолов русских слов все нет. Классификатор есть, и работает хорошо, а классифицировать нечего. До сих пор всего несколько исследователей ведут измерения русских слов — это в основном А. Клименко, В. Петренко, А. Павлюк. Измерено несколько сотен слов, но главным образом по трем-четырем основным шкалам. А ведь нужно измерить десятки тысяч слов, да и шкал набрать побольше. Работа эта ведется, но столь малыми силами, что результатов придется ждать еще долго.

Многоуровневый классификатор будет иметь огромное число выходов. Так, при десяти уровнях количество классификационных групп приближается к 20 тысячам. Но это лишь теоретически возможные группы. На практике большое число выходов окажутся пустыми, то есть на этих выходах не будет не только групп, но и ни одного слова. А на других выходах классификатора соберутся группы, включающие множество слов. Кстати сказать, интересен и сам этот результат. Ведь если на каком-то выходе образовалась большая группа слов, значит, такая комбинация признаков очень важна для нас, а если выход пустой — это свидетельство несовместимости признаков или ненужности такой их комбинации.

Возникает еще вот какой вопрос: как быть со словами внутри групп, как разобраться в них компьютеру? Не окажутся ли они для него все на одно лицо? Ведь на первый взгляд кажется, что в группах слова перемешаны без какой-либо системы, как бы свалены в какую-то ячейку пространства «навалом». Это впечатление обманчиво. Во-первых, для более дробного деления групп компьютер всегда может подключать новые шкалы-уровни. Во-вторых, если некая группа слов не будет поддаваться такому способу дробления, а компьютеру все же нужно как-то упорядочить слова внутри ее, он всегда может обратиться к исходным данным — к средним оценкам слов по любому из нужных в данный момент признаков.

Например, если в четырехуровневом классификаторе слова корабль, автомобиль, самолет объединились в группу, оказавшись «хорошими, сильными, быстрыми, мужественными», то легко можно сравнить их между собой по какому-либо признаку, ранжируя их средние оценки. Скажем, по признаку «быстрое» они располагаются в зависимости от средних оценок так: самолет (1,8), автомобиль (2,2), корабль (2,4). Отсюда компьютер сделает вывод, что «нечто самое быстрое» среди этих слов — самолет, а «самое медленное» — корабль. По признаку «большое» расположение будет другим: корабль, самолет, автомобиль. Такое сравнение можно провести и по любому другому признаку, включенному в классификатор.

Качественный классификатор справляется и со словами, имеющими двойную оценку, и даже с «размытыми» по всей шкале — такие слова просто попадут одновременно на несколько выходов классификатора.

Например, слово регби по шкале «хорошее — плохое» имеет двойную оценку (и «хорошее» и «плохое»). Для классификатора не нужно вычислять среднюю оценку (все равно она будет фиктивной), вместо этого слову приписывается индекс (например, Д), который будет означать, что слово необходимо направить и на «хороший», и на «плохой» выходы. Попав на «хороший» выход, регби окажется в одной группе со словами игра, футбол, забава, спорт и т. п. На «плохом» выходе у того же слова окажутся другие соседи: грубость, драка, свалка, потасовка и т. п.

Слово женщина тоже имеет двойную оценку. Пройдя классификатор, «хорошая женщина» попадет в одну группу со словами мать, невеста, ласка, забота, любовь, нежность и т. п. Ну а «плохая женщина» будет окружена словами зависть, глупость, карга, выдра и т. п.