Выбрать главу
Разные формы подкрепления и обучения

Формы подкрепления у высших позвоночных животных, и особенно у человека, разнообразны.

Это объясняется тем, что по мере фило- и онтогенетического развития все большее число стимулов из внешней среды приобретает свойства подкрепляющего фактора. В повседневной жизни человека такие формы подкрепления, особенно словесного характера, играют значительную роль, обеспечивая многообразие постоянно формирующихся многочисленных временных связей, ассоциаций и «внутренних состояний», которое делает психическую, поведенческую деятельность сложной и совершенной. Поэтому формирование ассоциаций, временных связей на осознаваемом и неосознаваемом уровнях с помощью эмоционально значимых стимулов (в частности, ключевая роль обратных связей с их мотивационно-лимбическим звеном, важным для изменений возбудимости коры больших полушарий) должно рассматриваться в качестве важной, но далеко не единственной формы обучения. При этом у животных и прежде всего у человека существует множество других форм подкрепления, не связанных с сильными отрицательными эмоциями.

В экспериментальной психологии и в психофизиологии предложено много моделей, предполагающих лабораторное исследование роли разных форм подкрепления в осуществлении высших корковых психических функций в норме и патологии. Модель, адекватная психофизиологическим исследованиям, должна давать возможность регистрировать наряду с биоэлектрическими феноменами качественные и количественные характеристики поведенческих реакций, изучать межполушарные функциональные отношения в процессе обучения, на разных его стадиях и, что особенно важно, допускать возможность изменять информационную значимость стимула обратной связи, т.е. подкрепления.

В повседневной жизни человека начиная с раннего возраста и до конца его дней в качестве подкрепления нередко используются слова «хорошо» и «ошибка». Подобная форма подкрепления в виде таких слов или символов, их заменяющих, обычна в экспериментальных психологических и психофизиологических лабораторных исследованиях. Когда прибегают к данным стимулам обратной связи, объект получает от другого лица оценку правильности или ошибочности своей реакции. Следует отметить, что информация, содержащаяся в подобном стимуле обратной связи, неполная, так как слово «ошибка» не указывает конкретно, в чем же заключалась ошибка в решении испытуемым когнитивной задачи. При этом необходимо учитывать, что отрицательная оценка, заключающаяся в этом слове, его неопределенность, «дефицит информации» могут вызвать у человека негативную эмоцию.

Формы подкрепления типа «хорошо» — «ошибка», используемые человеком, по существу аналогичны подкрепляющим раздражителям, традиционно используемым при обучении животных, или напоминают таковые. Их можно без особого труда сопоставить с многочисленными поощряющими и запретительными сигналами-подкреплениями у животных. Например, это поощрение пищей или наказание ударом электрического тока.

Специфически человеческой и, несомненно, важной формой подкрепления служит сознательное или бессознательное умозаключение субъекта. По крайней мере в развитом виде эта форма, по- видимому, присуща только человеку.    В чем она заключается? Субъект приходит к умозаключению о правильности или ошибочности своей реализованной произвольной реакции, сопоставляя принятое им решение когнитивной задачи с информацией, содержащейся в наглядной и доступной форме в стимуле обратной связи; например, он сопоставляет информацию о действительных соотношениях между эталонным и тестируемым зрительными объектами или интервалами времени и т.п. В данных случаях подкреплением служит не сам по себе стимул обратной связи, а то к которому приходит субъект каждый раз после сопоставления данной реакции с информацией, содержащейся в этом стимуле. Здесь подкреплением служит не оценка другого лица (или, например, компьютера), а именно умозаключение субъекта, когда он оценивает свою деятельность на основании дальнейшей информации, и результат такой оценки оказывается корригирующим фактором в механизме обратной связи.

Существует много моделей когнитивной деятельности, в которых используются разные формы подкрепления. В качестве примера приведем две из них, наиболее удачные при изучении динамики когнитивной функции на разных этапах обучения в зависимости от применения определенных стимулов обратной связи (форм подкрепления). В обеих когнитивная задача, предлагаемая испытуемому для решения, состояла в том, что он должен был путем сопоставления тестируемых зрительных стимулов с эталонным стимулом каждый раз принимать решение об их соответствии или несоответствии друг другу.

В психофизиологических экспериментах исследовалась функция различения взрослыми людьми микроинтервалов времени, т.е. величины пауз между зрительными стимулами. В качестве подкрепления использовали три типа стимулов, имеющих разное информационное значение. В одних экспериментах это были слова «хорошо» и «ошибка». Как подчеркивалось, в данном случае субъект получает оценку своей реакции извне, от другого лица. Вместе с тем такая информация неполная, поскольку слово «ошибка» не поясняет, что же оказалось не так в различении пауз. Останется неясным, переоценил или недооценил исследуемый тестируемую паузу между двумя зрительными полосками, появляющимися последовательно на экране, по сравнению с эталонным интервалом между этими же полосками, предъявляемыми в каждой пробе за 1,2 с до тестируемой паузы.

При проведении другой серии экспериментов стимулы обратной связи состояли из двух горизонтальных параллельных полосок, высвечиваемых на экране. Величина эталонной паузы равнялась 60 мс, а тестируемых — 10, 60 и 180 мс. Исследуемый, согласно предварительно получаемой инструкции, должен был в каждой пробе сравнивать тестируемую паузу между двумя полосками с эталонной и решить: больше она или меньше. О своем решении ему надо было сообщить нажатием на кнопку соответствующей рукой; если он считал, что тестируемая пауза равна эталонной, нажимать на кнопку не следовало. Правильность реакции исследуемого контролировалась компьютером, который высвечивал на экране слова «хорошо» или «ошибка».

В еще одной серии экспериментов испытуемый судил о правильности или ошибочности своего решения по соотношению длины двух горизонтальных полосок, предъявляемых на экране в качестве стимулов обратной связи: длина верхней условно изображает величину эталонной паузы, нижней — тестовых; т.е. соответственно предъявленной в пробе тестовой паузе длина нижней полоски может быть меньше верхней эталонной, равной ей или большей. Здесь используется более активная форма обучения, когда исследуемый сам должен сделать умозаключение о правильности реакции, сравнив свое решение с информацией в виде четко различимого, наглядного, представленного в графической форме изображения, показывающего соотношение между эталонным и тестируемым интервалами времени. В контрольных опытах в качестве стимула обратной связи во всех пробах независимо от правильности или ошибочности реакции исследуемого на экране высвечиваются две горизонтальные полоски одного размера.

Как и следовало ожидать, обратная связь, информирующая субъекта о результате действия, существенно улучшает процесс обучения, направленный на различение величины пауз между двумя последовательно предъявляемыми на экране световыми полосками. Это сказывается не только в увеличении числа правильных ответов, но и в значительном сокращении времени произвольной двигательной реакции, с помощью которой испытуемый сообщает о решении им когнитивной задачи. Вместе с тем наиболее выраженный эффект наблюдается в пробах, где стимул обратной связи в наглядной, графической форме показывает истинные соотношения различных интервалов времени и субъект может сделать умозаключение о правильности или ошибочности своего решения.