Выбрать главу

Все это более или менее хорошо работает в английском языке и ему подобных, где есть жесткая последовательность слов в предложении. С русским языком у специалистов возникают немалые трудности. "В области акустики наибольшую проблему для распознавания русской речи представляет необычайно сильная количественная и качественная редукция гласных безударных слогов, - объясняет Марина Татарникова, - частично обусловленная свободным характером словесного ударения". Вместе с низкой артикуляторной напряженностью русской речи это приводит к нейтрализации и "размазыванию" акустических свойств сегментов, особенно в спонтанной разговорной речи.

С точки зрения грамматики и синтаксиса русский язык относится к синтетическим языкам со свободным порядком слов. "Богатая словоизменительная парадигма нашего языка существенно затрудняет языковое моделирование на основе "классической" n граммной модели, - говорит Марина Татарникова, - поскольку требует использования чрезвычайно больших речевых корпусов для получения приемлемого числа реализаций всех входящих в словарь словоформ". Приходится ученым экспериментировать, использовать другие подходы при построении языковой модели, например морфемную или классовую. В морфемной модели словари строятся отдельно для основ и флексий, при этом n граммные модели считаются для основ и флексий отдельно. В классовой модели n граммы строятся не для слов, а для так называемых классов. Существует два основных подхода к построению классов: статистический и частеречный (от "часть речи"). Здесь улучшение достигается не при изолированном использовании классовой модели, а при интерполяции ее с базовой. Выбор того или иного подхода для русского языка требует исследований. Чем сейчас и занимаются в ЦРТ.

Убийственный нюанс

Увы, языковая модель, построенная на текстах новостной базы, не может быть применена в создании, например, языковой модели для распознавания спортивных трансляций (и наоборот).

"Общая модель языка, - говорит Татарникова, - в принципе, вряд ли интересна: каждый приобретающий систему распознавания будет использовать ее в своих целях, подразумевающих определенный стиль речи. И за рубежом так же".

Татарникова приводит как доказательство от противного довольно известную разработку Dragon, принадлежащую фирме Nuance. Продаваемая этой компанией система диктовки для любого текста и любого пользователя требует перед началом работы адаптации языковых моделей и расширения словаря. Адаптация языковых моделей производится путем загрузки в систему типичных для работы пользователя текстов и последующей корректировки статистических языковых моделей. Расширение словаря - задача пользователя. Насколько успешно он с ней справится, настолько успешно будет работать система. Любая система распознавания знает только те слова, что есть в ее словаре.

Существует в системе Dragon подстройка и под голос диктора. Для этого нужно минут тридцать почитать тексты, предложенные системой, чтобы программа адаптировала параметры существующих акустических моделей.

В ЦРТ также ведется работа по созданию алгоритмов адаптации акустических моделей под голос диктора, но в принципе уже ясно: журналистам, которым приходится проводить интервью с разными людьми в разном окружении, рассчитывать особо не на что. Универсального продукта для русского языка ждать не стоит. Даже более простой (в контексте распознавания) английский язык специалистам пока не поддается. О записи неформальной беседы, кажется, нет и речи.

"Надеяться на быстрое появление мобильных и даже стационарных устройств для распознавания спонтанной речи (например, нашего с вами разговора) вряд ли стоит в ближайшее время, - говорит Марина Татарникова.

 Спонтанная речь отличается более сложными языковыми и акустическими моделями. Кроме того, необходимы речевые базы спонтанной речи гораздо больших объемов".

Вопрос специализации

"Определенный скепсис насчет систем распознавания речи, конечно, имеет место, - продолжает Татарникова.

- На самом же деле, в мире такие системы есть, и они замечательно работают. Например, их используют медицинские учреждения в США". Известно, что медицинским работникам постоянно требуется делать какие-то записи, будь то история болезни или протоколирование действий. Медики в США просто наговаривают текст, который автоматически переводится в машинный вид. Этот текст нуждается лишь в косметической правке. Соответствующие технологии есть, к примеру, у той же Nuance. То, что это хорошие системы, косвенно подтверждает Алексей Хитров: