Не исключено, что другие, более совершенные системы смогут провести более тонкий синтактико-семантический анализ и отбросить некоторые неподходящие эквиваленты. Не это важно.
Важно здесь то, что выполнить качественный перевод без использования фоновых знаний невозможно, а системы второго уровня фоновую информацию использовать не могут.
Системы третьего, высшего уровня можно сравнить с переводчиком-профессионалом, знающим тематику переводимого текста.
Системы третьего уровня используют модели синтаксического и семантического анализа и синтеза, а также (что их и отличает) концептуальные модели окружающего мира. К сожалению, как уже говорилось, они существуют лишь на стадии эксперимента.
Таким образом, рынок коммерческих программных продуктов для автоматического перевода предлагает пока что лишь системы второго уровня. Давайте рассмотрим более подробно, как они работают и как их может применить в своей работе переводчик.
Очевидно, что основой любой системы машинного перевода является автоматический словарь, и коммерческие системы второго уровня не являются исключением.
Как правило, все эти системы снабжены большими словарями, а в некоторых из них имеется очень важная, на мой взгляд, функция пополнения словарей новой лексикой.
Автоматический словарь системы машинного перевода - это программный модуль, который выполняет следующие функции:
а) распознает во входном тексте символьные цепочки слов и словосочетаний, например, символьная строка предложения LEAD*ABSORBS*RADIATION.(* - пробел) будет разделена на цепочки словоформ LEAD, ABSORBS и RADIATION;
6) преобразует текстовые словоформы в словарный вид, например, словоформу ABSORBS в вид ABSORB;
в) по графемному составу слова регистрирует грамматическую информацию о слове, например, флексию S в слове ABSORBS, которая может быть признаком третьего лица глагола или множественного числа существительного, или суффикс -TION в слове RADIATION, который может служить формальным признаком отглагольного существительного;
г) регистрирует информацию, имеющуюся в словарном файле для данного слова, - переводные эквиваленты, грамматические и семантические признаки исходного
слова и его переводного эквивалента, например, для слова RADIATION эти данные могут выглядеть таким образом: RADIATION; (N); (process; characteristics) = РАДИАЦИЯ, (N); (процесс, характеристика); ИЗЛУЧЕНИЕ, (N); (процесс, характеристика);
д) формирует синтаксическое и семантическое представление входного текста (как правило, предложения), например, для предложения LEAD ABSORBS RADIATION такое синтактико-семантическое представление может иметь вид:
(lead)=V(TRANS/OBJ=Nanim,inanim)/N (MATER/ ABSTR); (absorbs) =V(TRANS,SUBJ=Ninanim, mater; OBJ=Ninanim, mater);
(radiation)=N(PROC/PARAM).
Здесь нужно сделать оговорку. Я думаю, достаточно очевидно, что приведенная в примерах информация по синтаксическим и семантическим моделям носит иллюстративный характер и ни в коей мере не претендует на полноту или универсальность. То же можно сказать и о тех примерах, которыми будет иллюстрироваться работа других модулей системы автоматического перевода.
В каждой конкретной системе данные и процедуры их обработки имеют свою специфику. Зачастую такая информация даже носит конфиденциальный характер.
Моя же задача состоит лишь в том, чтобы показать на примерах основные функции программного модуля автоматического словаря и других типовых модулей переводящего автомата. Но вернемся к описанию функций.
Выходные данные модуля автоматического словаря, т.е. синтаксическое и семантическое представление исходного текста и семантико-синтаксическая информация о переводных эквивалентах поступают на вход второго этапа обработки, т.е. на вход модуля преобразования синтактико-семантического представления входного текста в синтактико-семантическое представление выходного. Это преобразование в специальной литературе носит заимствованное название "трансфер".
В процессе трансфера:
1. Производится анализ синтаксиса и семантики входного текста и уточняется его структура. При этом структура предложения выражается в форматах так называемой машинной грамматики, т.е. в виде формального описания синтаксических (и, как правило, семантических) элементов предложения и отношений между ними.
Сейчас чаще всего используют грамматику зависимостей или непосредственно составляющих в форматах "уни-фикационной грамматики {unification grammar)"37.