Второй элемент каждого образа — его имя. Если речь идет о звуковых образах, этот образ более высокого порядка — просто слово, например «яблоко» (apple). Хотя мы напрямую применяем новую кору для понимания и использования речи, большинство образов в коре не являются языковыми образами. «Имя» образа и новой коре — это просто аксон, выходящий из каждого модуля; возбуждение аксона означает распознавание соответствующего образа. Возбуждение аксона означает, что распознающий модуль «называет имя» образа: «Эй, ребята, я увидел слово „яблоко“!»
Три повторяющихся (но слегка отличных друг от друга) образа «А» включаются в образы более высокого порядка, содержащие букву «А».
Третий и последний элемент образа — это набор образов более высокого порядка, в состав которых он входит. Для буквы «А» это все слова с буквой «А». Здесь вновь уместно сравнение с веб-страницей. Каждый распознанный образ более низкого порядка запускает распознавание образа более высокого порядка, содержащего первый образ. В новой коре эти связи осуществляются дендритами, соединяющимися с нейронами в каждом распознающем модуле коры. Помним, что каждый нейрон может получать сигналы от множества дендритов, но выдает единственный сигнал на аксон. Этот аксон, однако, может, в свою очередь, передавать сигнал множеству дендритов.
В качестве примера рассмотрим набор знаков, использующихся для изображения печатных букв. Здесь каждый уровень — это образ. Формы — это образы, буквы — образы, слова — тоже образы.
Каждый образ характеризуется серией входных сигналов, процессом распознавания образа в модуле и выходным сигналом, поступающим к распознающему модулю более высокого порядка.
Из нижней левой точки к центру верхней линии:
Из нижней правой точки к центру верхней линии:
Горизонтальная перекладина:
Левая вертикаль:
Дуга в нижней области:
Нижняя горизонталь:
Верхняя горизонталь:
Средняя горизонталь:
Петля в верхней левой области:
Перечисленные образы составляют образ более высокого порядка, относящийся к категории печатных букв (в новой коре, конечно, таких формальных категорий не существует).
Буква А:
Два разных образа, составляющих букву «А» и два разных образа более высокого порядка (APPLE и PEAR), в состав которых входит «А».
Буква Р:
Образы, из которых складывается образ более высокого порядка — буква «Р».
Буква L:
Образы, из которых складывается образ более высокого порядка — буква «L».
Буква E:
Образы, из которых складывается образ более высокого порядка — буква «E».
Эти образы букв соединяются в образ еще более высокого порядка, относящийся к категории слов (в нашем с вами языке — для новой коры это лишь образ определенного порядка): APPLE.
В другой части коры имеет место аналогичная иерархия распознающих модулей, участвующих в обработке образов реальных объектов (а не печатных букв). Если вы смотрите на настоящее яблоко, модули низшего уровня находят округлые формы и образы цвета кожицы, в результате чего происходит возбуждение соответствующего аксона и подается знак: «Эй, ребята, я увидел настоящее яблоко!» Возбуждение аксонов распознающих модулей в слуховой коре, участвующих в определении частоты звуковых сигналов, в ответ на произнесенное кем-то слово «яблоко» даст знак: «Только что прозвучало слово „яблоко“!»
Опять же, помним об избыточности модулей — мы имеем не по одному распознающему модулю для каждого вида яблока (увиденного или услышанного слова «яблоко» и реального яблока). Скорее всего, происходит возбуждение сотен таких модулей, если не больше. Избыточность не только повышает вероятность успешного узнавания всех форм яблока, но и помогает распознавать варианты настоящих яблок. Существуют распознающие модули для узнавания самых разных видов яблок — всех сортов, цветов и форм.
Кроме того, не забываем о том, что описанная выше иерархия является иерархией понятий. Распознающие элементы на самом деле не выстраиваются каким-либо иерархическим образом относительно друг друга; новая кора тонкая и по высоте равна лишь одному распознающему элементу. Концептуальная иерархия создается за счет взаимодействий между отдельными распознающими элементами.
Важным элементом теории мысленного распознавания образов является описание процесса распознавания в каждом распознающем модуле. В модель заложен параметр «веса» входного сигнала каждого дендрита; этот параметр определяет важность данного сигнала для распознавания. Модули характеризуются пороговым значением возбуждения (преодоление этого значения говорит о том, что сигнал успешно узнается соответствующим распознающим модулем). Для возбуждения распознающего модуля не обязательно нужны все входные сигналы. Модуль может возбуждаться, например, при отсутствии входного сигнала с малым весом, но при отсутствии важного сигнала возбуждение вряд ли возможно. Возбуждение распознающего модуля обычно означает следующее: «Образ, за узнавание которого я отвечаю, скорее всего, присутствует».
Однако успешное распознавание модулем соответствующего образа заключается не только в подсчете входных сигналов (и в учете параметра их значимости). Важна также величина сигнала. Каждый входной сигнал, кроме того, описывается параметром, указывающим ожидаемую величину сигнала, и параметром, учитывающим вариабельность этой величины. В качестве примера рассмотрим распознающий модуль, ответственный за узнавание в речи слова steep (произносится «стиип» — «крутой», «высокий»). Слово состоит из четырех звуков: [s], [t] [e] и [p]. Звук [t] относится к так называемым зубным согласным; это означает, что звук производится воздухом, нарушающим контакт между языком и верхними зубами. Звук [t] практически невозможно произносить медленно. Глухой звук [p] относится к «взрывным согласным»; он образуется при открытии блокированного голосового тракта (перекрытого губами в случае [p]). Это тоже быстрый звук. Гласный звук [e] образуется за счет резонанса голосовых связок при открытом рте. Он относится к долгим гласным звукам, то есть длится гораздо дольше, чем согласные [t] и [p], однако его длительность может изменяться в широких пределах. Звук [s] относится к свистящим согласным; он возникает при прохождении воздуха через щель между сжатыми зубами. Его длительность обычно меньше, чем у долгих гласных звуков, таких как [e], но тоже может изменяться (звук [s] можно произнести быстро, а можно протянуть).
В нашей работе по распознаванию речи мы установили, что для распознавания звуковых образов этот тип информации должен быть закодирован. Например, слова steep и step (произносится «стэп» — «шаг», «этап») достаточно похожи. Хотя звуки [e] в слове step и [e] в слове steep звучат немного по-разному (имеют разные резонансные частоты), нельзя достоверно различить эти два слова лишь на этом основании. Гораздо надежнее основываться на длительности звучания гласных в этих двух словах: [e] в слове step звучит короче, чем [e] в слове steep.
Эту информацию можно закодировать с помощью двух параметров — ожидаемой величины (в данном случае длительности) и степени ее вариабельности. В нашем примере звуки [t] и [p] в слове steep характеризуются очень малой ожидаемой длительностью и малой вариабельностью (это означает, что мы не ожидаем услышать долгих звуков [t] и [p]). Звук [s] характеризуется малой ожидаемой длительностью, но большей вариабельностью, поскольку этот звук можно протянуть. Наконец, звук [e] имеет большую ожидаемую длительность и высокую степень вариабельности.