Выбрать главу

О работе ЦРТ над распознаванием речи и, главное, о сложностях этой проблемы рассказала Марина Татарникова, математик по образованию, руководящая группой исследователей Центра.

"Сначала у нас было реализовано дикторозависимое распознавание изолированных команд как целостных образов, для небольших словарей, - рассказывает Татарникова. - Процедура распознавания в этом случае требует хранения нескольких эталонов для каждой команды. Потом были разработаны алгоритмы построения акустических моделей аллофонов [Аллофон(а) (от греч. бllos - иной, другой, и phфnз - звук), вариант, разновидность фонемы, обусловленная данным фонетическим окружением (БСЭ). Например, в словах "первое" и "апреля" звук "п" находится в разном окружении, и, соответственно, будут разные аллофоны.  и на основе этого - пофонемное [Фонема (от греч. phonema - звук), основная единица звукового строя языка, предельный элемент, выделяемый линейным членением речи (БСЭ)] распознавание команд и поиск ключевых слов, независимые от диктора и словаря".

Для распознавания же слитной речи необходимы огромные речевые базы, нужны специалисты-алгоритмисты и вычислительные мощности. Поначалу проблема казалась слишком трудной и многогранной, если не сказать - безграничной.

Моделирование

Система распознавания слитной речи представляет собой взаимодействие акустических моделей, лексикона, языковой модели и декодера. Если акустические модели выполняют оценку вероятностей распознавания отдельных аллофонов, то языковые модели оценивают вероятность следования слов друг за другом. Лексикон содержит все возможные варианты произнесения слов, которые будут распознаваться в процессе работы системы. Декодер определяет лучшую гипотезу в сети распознавания. Это программа, оперирующая большими объемами данных, которая в максимально сжатые сроки должна принять решение о распознанном тексте. Для успешной работы программы требуется разработка особых алгоритмов, ускоряющих процесс и уменьшающих число ошибок.

"Сложностей хватает, - признает Марина Татарникова. - Вот вы и я произносим звуки и понимаем друг друга.

С точки же зрения машины мы произносим одно и то же слово совершенно по-разному". По этой причине при создании систем дикторонезависимого пофонемного распознавания используется статистический подход. Для реализации такого подхода нужны большие базы с образцами речи разных людей для накопления параметров вероятностных моделей. Если база данных содержит достаточное количество образцов, оказывается возможным создать модель речевого процесса, отражающую вариативность естественной речи.

Акустические модели, - поясняет Татарникова, - это статистические модели, основанные либо на аппарате скрытых марковских моделей, либо на нейронных сетях. Обучение моделей происходит на размеченных речевых базах". В ЦРТ обучали собственные акустические модели на двухстах пятидесяти дикторах, половина из которых - мужчины, а половина - женщины. Все дикторы проживают в европейской части России.[Запись речевой базы частично велась ЦРТ, а частично приобреталась на стороне.]Таким образом, на решение задачи сразу накладывалось некоторое ограничение, ведь русская речь от региона к региону меняется очень сильно и звучит по-разному. Вся база данных составляла около тридцати часов речи. Текст для дикторов подбирался так, чтобы в нем присутствовали все аллофоны русского языка во всех окружениях. Часть записей лингвисты вручную разбивали на сегменты (фоны), для чего есть специальные программы (речь после записи отображается в графическом виде, и на картинке специалист ставит метки на границах сегментов). После того как часть материала была сегментирована, строились начальные акустические модели, а затем, по определенным алгоритмам, на компьютере обрабатывалась остальная часть базы, при этом сегментация проводилась уже автоматически. В процессе обработки параметры акустических моделей переопределялись. Обучение моделей на шести вычислительных машинах заняло около двух суток.

Великий и могучий

Для создания языковой модели в ЦРТ применяется N граммный подход, при этом чаще всего используются би граммы и три граммы. Для тренировки языковых моделей используются текстовые базы данных. В Интернете были собраны аудиозаписи новостей, которым присущ один и тот же стиль речи. В этой базе сейчас около 35 млн. слов. Для оценки параметров языковых моделей требуются огромные объемы данных, и, как правило, этих объемов не достаточно. Всегда существуют n граммы, которые не встретились в языковой модели. В этом случае используют сложные техники сглаживания и отката для оценки вероятностей так называемых unseen n грамм.