Рис. 1.8. Сонограммы (динамические спектрограммы) некоторых речевых звуков. Интенсивность цвета обозначает интенсивность звука56.
Рис. 1.9. Сонограммы слов кот и ток (поскольку слова были произнесены отдельно, на конце слышен — и виден на сонограмме — вокалический призвук). Если взять, например, слово кот, разделить его на части, соответствующие к, о и т и переставить их в обратном порядке, мы не услышим слова ток, поскольку переходы от звука к звуку окажутся неправильными: например, при переходе к гласному о надо уже с самого начала произнесения согласного вытягивать губы в трубочку, и это имеет вполне определенный акустический эффект57.
Формантные переходы между соседствующими звуками нередко позволяют нам “услышать” нужный звук даже в том случае, когда он не был реально произнесен, — и мы вполне можем не осознать, что вместо, скажем, Он — человек ответственный услышали…чек ответственный. В ходе исторического развития языка такой эффект восприятия дает почву для выпадения звуков, ср., например, франц. vie “жизнь” < лат. vīta (t между гласными сначала озвончилось в d, затем несколько ослабилось, и в конце концов, к XI в. выпало совсем58).
Существует несколько теорий для объяснения того, как люди распознают речевые звуки. Согласно одной, акустическое представление связано с представлением артикуляторным: для распознаваемого звука подбирается комбинация артикуляторных движений, которая могла бы его произвести, причем эти комбинации у разных людей могут различаться59. Так же, через подбор артикуляторных движений, осуществляется нередко распознавание зрительных образов слов: это отчетливо видно на примере людей малограмотных или читающих на плохо знакомом языке — во время чтения они заметно шевелят губами (а иногда даже тихонько проговаривают каждое слово). Но даже у грамотных людей при чтении про себя отмечается усиление биотоков в мышцах, связанных с произнесением речевых звуков60 {6}. Как показали исследования основателя отечественной нейропсихологии Александра Романовича Лурии (в дальнейшем его результаты были подтверждены и дополнены), чем сложнее воспринимаемый текст, тем сильнее нарушается его понимание при искусственном затруднении артикуляции61. Согласно другой теории, в мозгу существуют акустические образы звуков речи — как должно выглядеть “прототипическое” а, как — б и т. д. Таких прототипов может быть более одного, поскольку в разном окружении звуки реализуются по-разному. Третья теория предполагает, что главную роль при распознавании речевых звуков играют имеющиеся в мозгу особые нейронные распознающие устройства — детекторы, — настроенные на отдельные смыслоразличительные признаки фонем. Поскольку каждая фонема обладает уникальным набором таких признаков, комбинация показаний детекторов определяет фонему однозначно. Вероятно, все эти теории в определенной мере справедливы и дополняют друг друга.
Анализатор речевых звуков работает у человека чрезвычайно быстро (быстрее, чем распознаются неречевые звуки) — до 20–30, а при искусственном ускорении речи — до 40–50 фонем в секунду62, поэтому вероятно, что минимальной единицей восприятия является не отдельная фонема, а слог целиком. Длительность типичного слога — примерно 250 миллисекунд — это как раз тот объем акустической информации, который человек может удерживать в так называемой “эхоической памяти” (т. е. помнить сразу после предъявления, пока еще не начался процесс распознавания). Показательно, что дети, начиная произносить свои первые похожие на речевые звуки, произносят их не по отдельности, а в составе слогов.