Вообще же качество распознавателя определяется соотношением числа узнанных слов к допустимому числу разных дикторов. Сейчас существуют системы только двух крайних типов - множество слов для одного или нескольких дикторов (скажем, 60 тысяч слов/1 диктор) и много дикторов с несколькими десятками слов. А чтобы обслуживать массового пользователя, нужны системы для множества дикторов с множеством слов.
Первый тип голосовых систем используется для диктовки текстов или управления компьютером, при условии тщательного обучения системы вашему голосу. Такие системы после обучения работают довольно надежно. Однако массовый пользователь никогда ничего не настраивает, никогда ничему не обучает, это известный факт. Настройки в операционной системе, текстовом редакторе или на веб-сайте поисковика меняют не более 1-2% пользователей.
Второй тип распознавания используется для элементарных вопросо-ответных систем в центрах обслуживания абонентов, для набора номера голосом, в так называемых голосовых порталах, но тут технология работает не очень хорошо. Понятно, что системы с многими дикторами должны работать без обучения с любым диктором, и это их проклятие.
В общем, безупречная массовая система типа, скажем, 1000/1000 или 1000/10000, то есть для многих дикторов с распознаванием нескольких сотен слов (а уж тем более фраз или слитной речи любого диктора), пока не создана. Тот, кто создаст такую систему для английского, немецкого, китайского, да и для русского языка, озолотится.
Естественно, такие системы активно разрабатываются. На мой взгляд, тут самая обещающая идея - перейти от «сугубо технического» распознавания 90-х годов (очистка сигнала, нарезка, угадывание фонем и пр.) к распознаванию «по смыслу», по контексту, то есть к предугадыванию того, что могло бы быть сказано. Именно так распознает речь человек: без знания контекста и заранее сформированной модели ситуации мы ошибаемся в распознавании на слух абстрактных текстов не реже машины. А предугадать круг возможных реплик не слишком трудно, это и так делают при создании любого центра обработки звонков, службы технической поддержки и пр.
Ясно, что заранее обученные контексту системы можно создавать только для ограниченного контекста, то есть для узких и хорошо описанных предметных областей (или они должны надежно распознавать предметные области и быстро переключаться между ними). Тем не менее для массовых справочных сервисов в мобильном телефоне этого было бы вполне достаточно.
Вторая перспективная идея - отказ от попытки точно распознать всю фразу. Вместо этого нужно «ловить» в потоке непонятной речи ключевые слова и фразы - и по ним строить гипотезы о возможном содержании запроса. Это тоже близко к тому, как распознает речь человек, особенно в условиях шума, сильного акцента собеседника, большого количества неизвестных слов в его речи. Фактически нужно превратить распознаватель в поисковую машину по возможным репликам пользователя.
Рынок мобильного контента требует интеллектуальных агентов, умеющих поддерживать связный диалог - болтать в чате, осуществлять навигацию по услугам, выбирать картинки или мелодии… Из развлечения для студентов и профессоров и повода выиграть престижный, но практически бесполезный приз Лёбнера (на прохождение теста Тьюринга на «человечность») виртуальные собеседники превращаются в серьезный бизнес. Уже появляются первые «виртуальные подружки» - тамагочи в мобильнике, - требующие внимания и подарков.
Для английского языка это сделать проще, а для немецкого или русского - гораздо сложнее. Такие стартапы сейчас то и дело появляются. Например, российская компания «Наносемантика» разрабатывает виртуальных собеседников для русского и английского языков, позволяющих вести связный диалог по SMS и в Интернете, и к ним очень большой интерес проявляют агрегаторы мобильного контента.
Главные идеи разработки близки описанным выше для распознавания речи - нечеткое распознавание, отказ от жестких «лингвистических» шаблонов, превращение распознавателя фраз в поисковую машину по возможному контексту.
В общем, поддерживать связный диалог с роботом уже вполне возможно - в узких предметных областях. Когда к таким речевым агентам присоединится настоящее распознавание звуковой речи, в общении человека и компьютера произойдет революция. И те, кто ее возглавит, станут богаче если не Гейтса, то уж Брина с Пейджем точно.
После того как лопнул пузырь доткомов, казалось, что интернет-бизнес больше никогда не наберет такого же хода. Тем не менее в 2003-04 годах начался новый бурный рост, но уже не на дрожжах обещаний и надежд, а на солидном основании больших заработков на рекламе. И потребности пользователей, и инновации в Интернете теперь - настоящие.
Новые короли Интернета - поисковики. Зарабатывая большие деньги на контекстной рекламе, они стали единственным входом во всемирную сеть для полумиллиарда пользователей. Однако, на мой взгляд, сами поисковые машины сейчас находятся в удручающе застывшем состоянии: релевантность поиска не растет или даже падает, пользовательский интерфейс остается на уровне 1999 года - бесконечная лента результатов поиска, где в одну кучу свалены форумы, сайты, товарные предложения, новости и, конечно, поисковый спам: бесконечные входные страницы, липовые сайты, фальшивые каталоги, платные бессмысленные ссылки… Развитие поисковиков идет экстенсивно - по пути превращения в порталы с мультисервисной моделью, новостями, товарами, богатым контентом, почтой, электронными деньгами.
Пользователям, как мне кажется, очень нужна новая парадигма поисковой машины.
Наиболее перспективные идеи в это области таковы:
Структурирование результатов поиска. Чтобы облегчить выбор среди найденного, результаты нужно разбивать по темам и типам документов. Для этого необходимо вводить распознавание тематик и структуры данных при индексации веб-страниц. Хороший пример такого структурированного поиска - портал A9.com, созданный при участии Amazon.
Специализированные поисковики. В очень многих областях интересов вместо общего поисковика лучше использовать специализированный поиск по разным сущностям (тем или иным предметным областям, товарам, блогам, сообществам, новостям). Результаты должны объединяться и структурироваться.
Коллективный поиск. Для структуризации и организации результатов поиска можно привлекать на помощь сообщества пользователей. Такие проекты уже существуют и получают инвестиции.
Мобильный поиск. Не будем забывать о приходе в Интернет мобильных пользователей, которых в разы больше, чем нынешних интернетчиков, - им рано или поздно потребуется голосовое общение с поисковой машиной (а значит, диалог с нею на естественном языке).
Те, кто первыми предложат новые виды поиска и интерфейсы поисковых машин, станут новыми Деллами и Бринами. Впрочем, сейчас в отрасли интернет-поиска начинается великая битва слона с китом - Google с Microsoft[См. по этому поводу обсуждение в «КТ» # 606. - Л.Л.-М.]. Но не думаю, что через пять-семь лет победителями будут сегодняшние поисковики - скорее, ими станут новички (как не известен был Google семь лет назад). Сейчас в США и Европе в год появляются несколько десятков громких стартапов, в той или иной форме реализующих вышеперечисленные идеи поиска.
Недавно начал бурно развиваться еще один новый вид проектов в Интернете - сервисы, создаваемые «поверх» поисковых порталов (и их сервисов), крупных магазинов, блогов за счет объединения различных типов данных. Несколько примеров: поиск людей (коллег, одноклассников) с одновременным показом их местонахождения на картах Google; разбор криминальных сводок с сайта полиции города с отметкой происшествий на тех же картах Google, что позволяет понять, насколько криминализован твой район; соединение данных об автомобильных пробках от Yahoo! с картами Google; поиск по Amazon и объединение на той же странице данных других магазинов для сравнения цен, и т. д.