Читать онлайн "Итоги № 13 (2012)" - Журнал Итоги - RuLit

На фоне этого глобального роста ЦРТ выглядит субтильно. Однако с точки зрения собственно механизмов распознавания голоса оба источника технологий находятся приблизительно на равных позициях. Кажется лишь, что Apple умудрилась затолкать в компактный корпус смартфона огромную вычислительную мощь, необходимую для работы голосовых алгоритмов. Но это не совсем так, поясняет Алексей Калачев, руководитель отдела продаж компании «МакЦентр»: «Голосовое управление серьезно ограничено аппаратными и программными возможностями смартфонов. Поэтому Apple использует для обработки команд мощный удаленный сервер: iPhone записывает фразу, произнесенную пользователем, и отправляет полученный файл на этот сервер, где фраза распознается и возвращается назад в iPhone в виде текстовой команды для смартфона». Решение действительно простое и к тому же позволяет голосовому движку распознавания быть независимым от конкретной платформы смартфона, будь то iOS, Android или Windows Phone 7. Одно условие — для его работы требуется подключение к Интернету по сети 3G или Wi-Fi.

Кстати, по такому же принципу работает голосовой поиск Google Voice Search на Android-гаджетах, а также слушают команды современные умные телевизоры SmartTV с доступом в Интернет. «Современные технологии облачного распознавания решают проблему качества и подключения новых языков, не затрагивая конечное пользовательское устройство»,— поясняет Виталий Свистунов, менеджер LG Electronics RUS по развитию SmartTV.

Иными словами, все, что мы говорим нашему гаджету, не только проходит через серверы Apple, Google или других вендоров, но и сохраняется там в виде голоса и текста. Желающие могут развить конспирологическую версию происходящего. Но вендорам эти записи нужны для собственных целей. Как рассказали в ЦРТ, таким образом вендоры автоматически пополняют свои речевые базы и с их помощью совершенствуют голосовые модели. Интересующиеся пользователи могли заметить, что голосовой поиск Google на русском языке сегодня работает во много раз лучше, чем два с небольшим года назад, когда компания только вывела эту услугу на рынок. Дело в том, что каждый новый голосовой запрос — это очередная тренировка, маленький шаг системы вперед. В этом плане потрясающие возможности открывает функция диктовки текстов (с автоматическим превращением голоса в документ) — она, напомним, в семействе технологий Nuance является одной из базовых. (Правда, «Войну и мир» за один сеанс нынешние системы вряд ли потянут, но с текстами SMS и прочими малыми литературными формами справляются вполне достойно.)

Если с этой точки зрения посмотреть на партнерское соглашение Google и Sprint, одного из крупнейших операторов связи США, которое предполагает предустановку в брендированных мобильных телефонах приложения Google Voice, становится понятно, что тем самым интернет-гигант получил доступ к голосовому трафику, который производят десятки миллионов абонентов Sprint, — к «речевой руде», из которой выплавляются все более совершенные голосовые модели. Это необходимо для перехода к естественному стилю общения с компьютерным устройством.

«У всех современных технологий распознавания голоса общий недостаток — необходимость строго следовать синтаксису голосовой командной строки»,— отмечает Михаил Чернышов, коммерческий директор «Вобис Компьютер». Объясниться с гаджетом до сих пор можно, лишь отчетливо произнося слова в определенной последовательности, с паузами в нужных местах. К тому же распознавать слитную речь роботу мешает зашумленность, поясняет Михаил Хитров, генеральный директор ЦРТ: «Надо объяснить ему, что есть ценная информация, а что — помехи».

Но цель оправдывает средства — речь идет о захвате сферы интернет-поиска, с которой пока ничто не может сравниться по эффективности монетизации интернет-сервисов за счет контекстной рекламы. А голосовой трафик способен не только дать информацию о предмете поиска, но и обогатить ее эмоциями — это также можно продавать рекламодателям. Компания Apple, правда, ввиду отсутствия собственного поисковика пока рассчитывает на эксперименты с речевыми образцами с помощью базы знаний Wolfram Alpha.

Но на этот же кусок поискового пирога нацелились также производители умных телевизоров с доступом в Интернет. «Пока функционал телевизоров ограничен — есть набор команд, на которые телевизор реагирует. В будущем, возможно, появится функция добавления собственных команд и т. д., — говорит Арсений Ишин, менеджер по маркетингу компании Samsung Electronics.— Управление голосом и жестами, возможность беспроводной связи между телевизором, фотокамерой, ноутбуком, планшетом — уже реальность». «Технологии, применяемые в телевизорах LG, справляются с распознаванием адресов и поисковых запросов, — добавляет Виталий Свистунов из LG Electronics. — Одновременно с просмотром телепередачи есть возможность «голосом» разместить комментарий в соцсети». Кроме того, свои технологии распознавания речи LG разрешает встраивать в приложения сторонних разработчиков: производителей игр, владельцев видеосервисов, встроенных в телевизор, и т. д.