Д. З. Есть мнение, что такой подход, как «интерлингва» (вычленение смысла из фразы на одном языке, а затем перевод этой мысли на другой язык), в принципе неправилен. Как относиться к таким суждениям? Я знаю много людей, которые идеально владеют двумя иностранными языками (или языками программирования): они используют именно технику интерлингвистики. Но ведь семантика — это всегда сумма коммуникации в данный момент и коммуникативного опыта. А у программы такого опыта нет…
Д. Я. В разных культурах существует большая часть пересекающихся языково независимых понятий, которые укладываются в определённую иерархию. Существует множество академических исследований и проектов по этому поводу, а коммерческих попыток свести все понятия языка к универсальному дереву понятий и использовать его совместно с синтаксисом языка и статистикой не было.
Фактически это иерархия с собранными в ней сущностями, между которыми есть отношения близости. Одни из них — родительские, другие — дочерние; это деление образует основную структуру. Если наполнить основную «ёлку» иерархии массой существующих в языке семантических классов, то любой новый класс сможет занять чёткое место в этой системе. Качество «пристраивания» нового элемента при этом определяется минимумом новых связей, которые будут необходимы, чтобы покрыть все возможности применения этого концепта в реальном мире. Скажем, для концепта «зрелость» соседствующими элементами будут «зрелый»/«незрелый», «зелёный»/«перезрелый», «гнилой» и так далее.
То есть в системе заложены главным образом связи между понятиями смысловой близости. Кстати, в нашей команде работают люди, мыслящие на нескольких языках; с ними мы пытаемся анализировать параллельные тексты. При этом мы стараемся вычленить из этой естественной формы языка все наблюдаемые семантические классы, отнести наиболее конкретные из них на более низкие уровни, более общие — на верхние ступени иерархии. Например, семантический класс «средство передвижения» расположен выше классов «наземный транспорт», «воздушный транспорт» и «другой транспорт». Конечно, выстраивание таких цепочек — творческий процесс. Скажем, есть множество возможностей для встраивания в иерархию омонимов: «тополь» — это ведь и растение, и средство вооружения. Собственно говоря, из-за большого числа значений каждого слова в системе семантических категорий так много горизонтальных связей.
В целом работа системы включает ряд сложных этапов: лексико-морфологический анализ, грубый и точные синтаксический анализ, семантический анализ, синтаксический синтез, синтез линейного порядка и, наконец, морфологический синтез. Не буду вдаваться в подробности, и без того очевидно, что задача очень сложная — и именно потому очень многие считают интерлингвистические подходы невозможными…
Д. З. Но ведь это — как спор математиков и инженеров: первым решение кажется всегда недостижимым, вторые — уверены, что найдут реальное решение, которое выполнит задачу на 99%.
Д. Я. В прикладной лингвистике действительно много «подводных камней». Например, появляются новые семантические концепты; то, какими они будут, никогда нельзя предсказать. Скажем, концепт «социальная сеть»: раньше только на каком-то высочайшем уровне абстракции его можно было сопоставить с концептом «средство общения», сегодня же в этом сочетании — вполне конкретный смысл.
Мы уверены, что, обработав таким способом критическое число параллельных текстов на двух языках, мы «устаканим» иерархии. Сейчас над этим работает команда из трёхсот человек; в общей сложности в такой масштабный проект компания ABBYY вложила уже более $70 млн.
Д. З. ABBYY развивает бизнес в двух направлениях — распознавание документов и перевод текстов. Смерть рынка OCR — наверное, вопрос 5–10 лет, а на глобальном рынке услуг перевода и лингвистических технологий вас ждёт Google. Нет ощущения, что впереди у ABBYY — бетонная стена?
Д. Я. Для нас уже давно вся эта сложная работа по созданию формализованных описаний различных языков — не самоцель; мы видим конкретные перспективы применения продуктов на основе этих технологий на рынке. И «Гугл» на самом деле семантика и лингвистика пока мало интересуют: здесь пока для него не слишком денежный рынок.
Начиная в 1995 году проект, мы поставили цель — создать один из лучших машинных переводчиков, способный помочь специалистам переводить большее количество текстов за счёт редактирования результатов машинного перевода, а не путём перевода всего текста целиком.