Читать онлайн "Алло, робот!" - Кондратов Александр Михайлович - RuLit

Человек распознает образы на основании своего опыта и, быть может, переданных ему по наследству навыков. А как научить образному зрению машину?

Задача была бы не слишком трудной, если бы мы могли описать все возможные образы. Например, все варианты буквы «а» в ее различных начертаниях. Но вряд ли кто сумеет сделать это. Слишком много вариантов всех возможных почерков. К тому же нам достаточно увидеть несколько букв «а», чтобы в дальнейшем безошибочно «угадывать» эту букву в любом шрифте и почерке. Как же это делается?

«Я бы в ноги поклонился тому физиологу, который сможет математически четко объяснить, как человек безошибочно отличает собаку от кошки», — говорил один из крупных советских кибернетиков. И за шутливой фразой скрыто серьезное содержание. Вся трудность распознавания образов заключается в том, чтобы найти содержательные признаки, с помощью которых человек отличает букву «а» от буквы «б», один образ от другого. Вот перед нами четыре буквы:

К какому классу отнести их? Ведь можно разделить эти буквы на строчные и заглавные: одна группа — «а», «д», другая — «А», «Д». Но можно и на буквы «а» и буквы «д» («а», «А» и «д», «Д»). В первом случае мы произвели деление по шрифту, геометрическое. Во втором — по смыслу, алфавитное.

Построить систему признаков, по которым можно отличить негра от европейца, нетрудно. Достаточно указать цвет кожи. Но попробуйте назвать признаки, по которым можно было бы найти вашего приятеля в толпе других ребят!

РАЗГОВОР ВСЛУХ

Проблемой распознавания образов занимается ряд ученых в США, Советском Союзе, Англии, Японии, ФРГ.

Не так уж далеко то время, когда тысячи читающих устройств, соединенных с «электронным мозгом», позволят людям отдавать машинам приказы в письменной форме. Перевод в двоичную систему, на язык чисел и язык электрических импульсов, машина будет делать сама, без вмешательства человека. Программистам не нужно будет тратить драгоценное время на кодирование программ и набивку их на перфокарты.

Но ведь основное средство связи людей — это не письменность, а звуковая речь. Нельзя ли говорить с машиной по-человечески? Отдавать ей приказы не письменно, а устно? И чтобы машина могла также отвечать «по-человечески»?

Говорящие вещи… Сколько сказок посвящено им! Человек с помощью голоса повелевает волшебными предметами. И они, послушные голосу человека, выполняют все его приказы и даже отвечают ему на человеческом языке.

Современная техника позволяет сделать сказку и мечту реальностью. Впрочем, первая попытка создать «говорящие вещи» была сделана задолго до кибернетики. Это произошло в конце XVIII века в нашей стране.

Петербургская академия наук объявила конкурс на следующие темы: «I. Какое свойство и характер столь различных между собою в рассуждении выговора гласных букв а, е, и, о, у.

II. Не можно ли сделать орудия органическим трубам, известным под именем человеческого голоса, …кои бы произносили гласные буквы а, е, и, о, у».

Премию по этому конкурсу получил врач, механик и физик X. С. Краценштейн, создавший «механическую гортань». Она напоминала органную трубу. Возникавший в ней звук был подобен звукам человеческого голоса. В конце того же XVIII века был построен и первый «говорящий» автомат. Его создал знаменитый инженер-венгр Фаркаш Кемпелен.

Но лишь с рождением кибернетики и вычислительных машин задача «разговора вслух» чело-

века и машины перестала быть созданием «чудо-игрушек». Ввод информации в машину в виде устной речи стал насущной научной и технической проблемой.

Записать в «памяти» машины объективные признаки- колебания звуковых волн, — которые характеризуют произношение слов. Имея «эталон слова», машина сможет распознавать эти слова. Таков был первоначальный путь ученых.

Вместо «читающего устройства», вместо фотоэлемента у машины имеется прибор, анализирующий звуковые волны. Они преобразуются в числа и поступают в машинную «память». (Подобно тому, как поступают в «память» данные фотоэлемента при «чтении» машиной букв печатного текста.) Диктор несколько раз говорит одно и то же слово, например «пять».

Машина, выслушав диктора, создает в своей «памяти» эталон, образец для сравнения. Потом она выслушивает других дикторов и несколько меняет эталон слова «пять».

Обучение продолжается до тех пор, пока машина не научится безошибочно распознавать его.

Точно так же можно обучить машину узнавать и другие слова-числа, увеличивая словарный запас. В принципе, конечно, его можно увеличивать неограниченно. Но… тогда мы рискуем очень долгое время ожидать, пока машина отыщет в «памяти» эталон того или иного слова. Ведь слов-то в нашем языке много сотен тысяч. А машине нужно делать слепой перебор всех этих слов, пока она не наткнется на нужное.

Нетрудно обучить машину отличить «пять» от «десяти» или «двух». Но если от названий чисел перейти к обычной речи, дело будет гораздо сложней. «Пять», «опять», «пядь», «падь», «спать», «пат», «спят» и много других слов очень похожи по звучанию. Машина легко может их спутать.

Да и очень неэкономно загружать машинную «память» сотнями и тысячами слов.

Нельзя ли придумать другой, более быстрый и надежный способ распознавания речи?

Неужели и человек понимает речь другого человека столь же неэкономно?

ФОНЕМЫ И ЗВУКИ

Быстродействующий «электронный мозг» затрачивает на распознавание слова 1-2 секунды. Если бы и мозг человека воспринимал звуковую речь по тем же принципам, что и машина, то ему, вероятно, понадобились бы недели для распознавания одного слова. По всей видимости, люди пользуются каким-то иным способом, чтобы понимать друг друга.

Поток звуков непрерывен. Звуки человеческой речи могут быть бесконечно разнообразными. Ребенок, старик, мужчина, женщина произносят их по-разному. По-разному говорит один и тот же человек. Сравните, например, вашу собственную речь, когда вы отвечаете урок, с обычной разговорной речью. А стоит запыхаться от бега — и речь станет иной.

Почему же все-таки люди понимают друг друга? Почему не влияет все бесконечное разнообразие произношений на восприятие? Например, слово «стол», или «доска», или любые другие слова всегда воспринимаются и понимаются нами, как бы их ни произносили — быстро или медленно, небрежно или торжественно, спокойно или запыхавшись?

Потому, отвечает наука о языке, что, кроме бесконечно разнообразных звуков речи, существуют еще звуки языка, или фонемы.

В младенческом возрасте люди способны издавать различные звуки. В детском лепете можно обнаружить звуки почти всех языков мира. Там есть и английское «ти эйч», которое доставило немало хлопот тем, кто учился английскому произношению. И «взрывные», гортанные звуки кавказских языков, и щелкающие звуки, которые имеются только в бушменском и готтентотском языках коренных обитателей Южной Африки.

Дети всего мира, к какой бы нации и расе они ни принадлежали, издают одни и те же звуки. «Язык лепета» у них один и тот же. А «языков взрослых», как вы уже знаете, существует не одна тысяча.

В чем же дело? Казалось бы, так естественно: из всеобщего «детского языка» развивается всеобщий «язык взрослых».

Вероятно, так и было бы, если бы язык был подобен явлениям природы, если бы он был унаследован биологически, как мы наследуем цвет волос, форму носа, цвет глаз. Но в том-то и дело, что язык не «растет», подобно дереву или животному. Язык — продукт общества, а не природы.

Под влиянием родителей и окружающих близких детский лепет превращается в человеческую речь. Русский ребенок заучивает «а», «о», «э» и другие звуки русского языка. Маленький англичанин заучивает «ти эйч», маленький бушмен — щелкающие звуки бушменской речи.