Эффективное производство
/section
Два первых решения, представленные ABBYY, ориентированы на корпоративный поиск. Intelligent Search — интеллектуальный поиск, который учитывает не только все формы слов, но и их значения, смысловые связи между словами и контекст употребления. Intelligent Tagger автоматически извлекает из документов объекты, а также события и связи между ними для оптимизации бизнес-процессов и мониторинга различных информационных источников. Эти приложения — лишь первые попытки коммерциализации системы семантического анализа Compreno — универсальной иерархии понятий и модели отношений между ними. Фактически ABBYY попыталась описать чуть ли не все основные понятия, которыми мы пользуемся, и то, как они взаимодействуют между собой в тексте.
Чтобы была понятна смелость замысла, необходимо объяснить его предысторию. С момента появления компьютеров человечество мечтало научить машины общаться с людьми и облегчить общение людей между собой, используя компьютерный перевод. Эти задачи представлялись взаимосвязанными, ведь казалось, что для перевода текста сперва нужно понять его смысл.
Лингвисты vs математики
Первую попытку сделали лингвисты, взявшись за создание модели языка. На возникшую в 1950–1960-х годах компьютерную лингвистику возлагались большие надежды. Казалось, достаточно чуть детальнее, чем в школьном учебнике, описать правила языка, перевести их на язык алгоритмов — и компьютер начнет понимать наши тексты. Но человеческий язык оказался невероятно сложен. То, что в речи нам кажется элементарным и само собой разумеющимся, при попытке формализовать и алгоритмизировать превращается в огромный свод правил и исключений, делающих задачу моделирования языка предельно сложной. Применение нескольких правил приводило к взаимоисключающим результатам.
figure class="banner-right"
figcaption class="cutline" Реклама /figcaption /figure
Кроме того, наш язык омонимичен и неоднозначен. Но и снятие омонимии не избавляет от многообразия оттенков значений, зависимости смысла от синтаксиса и контекста. Даже носители языка не всегда могут однозначно интерпретировать смысл речи. Например, трактовка фразы «мужу нельзя изменять» зависит от пола и гендерных стереотипов. Научить же компьютер выбирать из множества значений нужное оказалось невыполнимой задачей. В итоге лингвисты в рамках первой попытки отчасти справились с описанием морфологии и синтаксиса (на этом построены существующие сейчас системы проверки правописания в текстовых редакторах), но не смогли осилить семантику (понимание смысла) и тем более прагматику (понимание контекста употребления и картины мира автора текста). Поэтому вскоре энтузиазм по отношению к моделированию языка сошел на нет.
На смену лингвистам пришли математики с кардинально иной идеей: «Не нужно ничего понимать, достаточно быстро считать». Рост мощностей компьютеров и взрывное увеличение объема текстов в электронном виде позволили использовать статистические методы для перевода. Сопоставление одного и того же текста на нескольких языках дает возможность вычленять эквиваленты слов и на их основе формировать новые переводы. Казалось, растущие вычислительные мощности решат те задачи, которые не по силам лингвистам. Расхожей фразой стало высказывание, приписываемое руководителю одной из ИТ-компаний: «Каждый раз, когда я увольняю лингвиста, производительность системы возрастает».
Однако качество статистического перевода вполне соответствует его дешевизне. Оценить его можно на примере популярных систем «Яндекс. Перевод» и Google Translate, результаты работы которых хотя и помогают в целом уловить, о чем примерно идет речь, но весьма далеки от желаемого. Проблемы статистического подхода — все то же непонимание смысла текста, а также неумение полноценно анализировать морфологию и синтаксис.
Так, эллипсис — намеренный пропуск слов, несущественных для смысла, и замена существительных местоимениями — становится неразрешимой задачей для статистического перевода. Кроме того, неискоренимы статистические перекосы — например, Google переведет на русский текст о любом премьер-министре в мужском роде, какого бы пола ни была персона, потому что большинство премьер-министров мужчины, и следовательно, в текстах о них эта должность будет вести себя как существительное мужского рода. По этой же причине перевод женских романов может стать предметом нескончаемого веселья. Намного обиднее, когда происходят фактологические замены. Одной из самых известных хохм несколько лет назад стал перевод Google фразы «Путин едет на желтой “Калине”» как «Putin goes to a yellow Mazda». Если с подобными подменами будет переведено с незнакомого вам языка важное письмо, последствия могут оказаться совсем не смешными.