Будущее систем анализа текста в гибридных подходах: можно либо в статистические системы добавлять алгоритмы анализа морфологии и синтаксиса, либо усложнять и детализировать модель языка, в том числе методами статистического анализа.
В поисках смысла
Компания ABBYY началась в 1989 году с создания электронного словаря, следующей освоенной технологией стало распознавание — перевод печатного или рукописного текста в электронный. Напрашивался следующий шаг — создание системы машинного перевода.
ABBYY попыталась реализовать полный синтаксический и семантический разбор текста, решив те проблемы, на которые у компьютерных лингвистов сорок лет назад не хватило сил и вычислительных мощностей. В результате появилась Compreno — система понимания, анализа и перевода текстов на естественных языках. Она включает в себя описание глубинной структуры языка — соотношение используемых в нем смыслов и взаимосвязи между ними. Глубинная структура универсальна для всех языков, поскольку во всех культурах люди используют примерно одни и те же предметы и совершают одни и те же действия. Ее можно представить в виде дерева, толстые ветви которого — общие понятия, а тонкие — понятия более специфические. Например, понятие «стол» относится к родительской категории «мебель», оно может сочетаться с понятиями «собрать», «сидеть за», «быть зачатым на», «дубовый», «дешевый» и т. д. Фактически ABBYY создала универсальный синтетический язык, на который можно перевести текст с любого естественного, а также решить обратную задачу, что необходимо для перевода текстов с одного естественного языка на другой.
На универсальную семантическую модель языка накладываются уникальные для каждого языка морфология и синтаксис. Система анализирует текст и выстраивает дерево связей, с его помощью понимая смысл каждого слова с учетом контекста. Например, наличие в тексте «стола» придает «стулу» совсем другое значение, отсылающее к той же родительской категории, чем контекст медицинских терминов. А отличия в смысле выражений «знать всех местных» и «вся местная знать» невозможно понять без анализа морфологии.
Полнота описания семантики, морфологии и синтаксиса проверяется на внутренней системе статистического анализа. ABBYY собрала гигантский объем корпусов — специальным образом размеченных текстов, на которых осуществляются проверка и обучение системы.
Сейчас в Compreno включено уже 110 тыс. универсальных понятий. По словам Татьяны Даниэлян , заместителя директора по разработке технологий, отвечающей в ABBYY за создание Compreno, такой подход к системам уникален — ей не известно о попытках разработки подобных полноценных систем семантического анализа конкурентами. Пока платформа работает только с английским и русским языками; планируется в будущем добавить немецкий, испанский, французский и китайский.
Задача оказалась куда сложнее, чем виделось изначально. К нынешнему моменту общие трудозатраты составили уже около 2000 человеко-лет. Создание Compreno потребовало от ABBYY 19 лет, 80 млн долларов собственных средств и 14 млн долларов гранта Сколково. Сейчас над проектом трудятся около 350 человек.
«Когда мы начинали проект Compreno в 1995-м, то планировали, что три года уйдет на исследования, а затем за четыре года за счет привлечения дополнительных лингвистов мы заполним систему понятиями и выпустим коммерческий продукт, — рассказывает Татьяна Даниэлян. — Но задача оказалась сложнее, чем представлялось изначально. Кроме того, появившиеся в 2000-х годах онлайновые переводчики, пусть не очень качественные, но бесплатные, заставили нас изменить стратегию коммерциализации». Google Translate занял нишу быстрого понимания: люди, которым время от времени нужно понять примерный смысл иноязычного текста, не готовы платить за это, и бесплатный статистический перевод является сильным конкурентом. Из наиболее понятных для коммерциализации остались ниши профессионального перевода и интеллектуального поиска. Технологически поиск проще перевода, а его рынок достаточно емкий и растущий. Именно поэтому поиск был выбран первым проектом для реализации.
По оценкам компании IDC, объем мирового рынка корпоративного поиска в 2014 году составит 2 млрд долларов, а появление более эффективных инструментов может значительно увеличить его размер. Кроме того, вывод новой технологии на уже сформировавшийся и понятный рынок дает время на то, чтобы доработать технологию, прежде чем предлагать пользователям более непривычные для них решения.