Победить и слона, и кита
Этот разговор про инновации в информационных технологиях впервые зашел на одном из заседаний конференции ИТ-директоров «Русский день-2005» в Сочи. Многие участники дискуссии горячо высказывали мнение, что основные игроки рынка ИТ в России пропустили несколько волн инноваций, закоснели и стали медлительными; другие же не менее горячо это мнение отвергали. На мой взгляд, разногласия и накал страстей спорщиков объясняются просто: рынок ИТ в его классическом понимании (продажа компьютеров, сетевого оборудования, программного обеспечения) еще лет пять назад окончательно вышел из категории «растущих рынков» (несмотря на то что продажи и не думают снижаться). Инновации же возникают на растущих рынках (или сами их «под себя» создают). Работать на растущем рынке легко и приятно - палку воткни, и она расцветет, что ни сделай - рынок все простит, деньги и клиенты текут рекой. Поэтому у тех, кто видел бурный рост рынка классических ИТ в начале 90-х, возникает своего рода ностальгия по молодым и бесшабашным временам.
Но те времена вовсе не прошли, просто сместилась область роста: продажа десктопов и «двигание коробок» с ПО действительно стагнирует, а вот на границах традиционных ИТ постоянно возникают стыки с чем-то новым, где кипят новые идеи и рождаются новые продукты, быстро развиваются новые виды бизнеса.
Вот краткий рассказ про некоторые из них, вполне доступные традиционным компаниям из сферы ИТ (была бы только легкость на подъем).
Сейчас чрезвычайно быстро развивается рынок мобильного контента - игр, справочников, мелодий, картинок для мобильных устройств, в первую очередь сотовых телефонов. В значительной части этот вид бизнеса прямо и цинично ориентирован на отъем родительских денег у недалеких и доверчивых подростков, впервые в истории заимевших что-то вроде карманных денег на счетах мобильных операторов. Однако на этом рынке есть место и для вполне этичных услуг.
Вот простой пример конвергенции традиционного ИТ-бизнеса и мобильных технологий: известная российская компания «Парагон» разрабатывает и продает многочисленные и многоязычные словари для мобильных устройств. Словари лицензируются у традиционных ИТ-разработчиков («МедиаЛингва», ABBYY), издателей (Berlitz) и др. и превращаются в словари для бесчисленного множества модификаций мобильных устройств, от наладонников и смартфонов до дешевых мобильных телефонов. Это довольно перспективный бизнес, созданный за счет объединения давно известных идей в нечто новое. Для этого «Парагону» пришлось создать мощную программистскую фабрику, способную три-четыре раза в год легко переходить на новую ОС или платформу - дело, невиданное в традиционных ИТ.
Большой спрос в мобильном мире также на энциклопедии и справочники - довольно неожиданный после краткого взлета мультимедиа для ПК в середине 1990-х годов. То же касается простеньких игр, многие из которых сейчас возвращаются аж из конца 80-х и переживают второе рождение в мобильниках.
Мобильный мир требует и нового программного обеспечения для бизнеса - пусть и примерно с теми же самыми функциями. Это еще один стык, на котором рождаются инновации. Например, компания «ДИСКо» в прошлом году выпустила продукт «ДИСКаунт» для учета продаж на наладонном компьютере. Это принципиально иная задача, нежели решаемая, скажем, «1С:Торговлей» для настольного компьютера (хотя «1С» один из продавцов этого продукта). Аудитория тоже иная - малый (скорее даже мелкий) бизнес, на уровне лотка или палатки на Горбушке
Лидер в категории «мобильный офис» пока не появился. Соответственно, нет и общего стандарта, хотя он всем очень нужен. Кто его разработает и внедрит, тот будет монополистом (боюсь, им опять окажется Microsoft).
В области ИИ обещания создать говорящих роботов, устройства распознавания речи, машинные переводчики даются уже более сорока лет, однако сделано не очень много. Мне кажется, в первую очередь потому, что у рядового потребителя не было потребности в разумном поведении бытовых устройств. Однако с проникновением ИТ, а особенно мобильников в массы эта потребность появилась.
Мобильные устройства и телефоны сейчас остро требуют внедрения технологий ИИ. В первую очередь - распознавания речи.
Насколько удобнее было бы вводить SMS или номер абонента вслух, чем с помощью убогой клавиатуры и капризного алгоритма Т9! Не говоря уже о пользовании мобильником в автомобиле, где управлять звонками голосом гораздо удобнее и безопаснее. Но до сих пор эта проблема не решена; я не говорю об элементарных голосовых метках, которые есть во многих современных телефонах - там, по сути, распознается не речь, а звуковой паттерн, и они начинают сбоить уже при числе меток номеров более 15-20.
Вообще же качество распознавателя определяется соотношением числа узнанных слов к допустимому числу разных дикторов. Сейчас существуют системы только двух крайних типов - множество слов для одного или нескольких дикторов (скажем, 60 тысяч слов/1 диктор) и много дикторов с несколькими десятками слов. А чтобы обслуживать массового пользователя, нужны системы для множества дикторов с множеством слов.
Первый тип голосовых систем используется для диктовки текстов или управления компьютером, при условии тщательного обучения системы вашему голосу. Такие системы после обучения работают довольно надежно. Однако массовый пользователь никогда ничего не настраивает, никогда ничему не обучает, это известный факт. Настройки в операционной системе, текстовом редакторе или на веб-сайте поисковика меняют не более 1-2% пользователей.
Второй тип распознавания используется для элементарных вопросо-ответных систем в центрах обслуживания абонентов, для набора номера голосом, в так называемых голосовых порталах, но тут технология работает не очень хорошо. Понятно, что системы с многими дикторами должны работать без обучения с любым диктором, и это их проклятие.
В общем, безупречная массовая система типа, скажем, 1000/1000 или 1000/10000, то есть для многих дикторов с распознаванием нескольких сотен слов (а уж тем более фраз или слитной речи любого диктора), пока не создана. Тот, кто создаст такую систему для английского, немецкого, китайского, да и для русского языка, озолотится.
Естественно, такие системы активно разрабатываются. На мой взгляд, тут самая обещающая идея - перейти от «сугубо технического» распознавания 90-х годов (очистка сигнала, нарезка, угадывание фонем и пр.) к распознаванию «по смыслу», по контексту, то есть к предугадыванию того, что могло бы быть сказано. Именно так распознает речь человек: без знания контекста и заранее сформированной модели ситуации мы ошибаемся в распознавании на слух абстрактных текстов не реже машины. А предугадать круг возможных реплик не слишком трудно, это и так делают при создании любого центра обработки звонков, службы технической поддержки и пр.
Ясно, что заранее обученные контексту системы можно создавать только для ограниченного контекста, то есть для узких и хорошо описанных предметных областей (или они должны надежно распознавать предметные области и быстро переключаться между ними). Тем не менее для массовых справочных сервисов в мобильном телефоне этого было бы вполне достаточно.