Читать онлайн "Основы дрессировки" - Федорович А. Ю. - RuLit

Приведённый пример укладывается в рамки первого закона научения, закона проб и ошибок: выработка всякого нового поведения начинается со случайных проб, продолжающихся до тех пор, пока одна из них не приведёт к успеху (удовлетворению мотивации). Применительно к дрессировке, как частному случаю научения, успехом поведенческого акта явится подкрепление вызвавшей его мотивации дрессировщиком.

Отбор поведенческого акта — это незаменимый инструмент дрессировщика. Однако зачастую нам пришлось бы ждать целую вечность, пока собака изволит проявить желательное для наших целей поведение. В таких случаях следует подумать о том, как это поведение сформировать.

Предположим, что нам необходимо сформировать навык обозначения царапаньем места сокрытия источника разыскиваемого запаха (действительно необходимый навык, самый удачный вид обозначения, если речь не идёт о поиске взрывчатых веществ). Можно пойти по пути отбора поведения — на глазах у собаки забросить пахучий апортик под перевёрнутую миску и, прижимая миску к земле, ждать пока собака не попробует выцарапать апортик лапой. Первую же попытку царапанья подкрепить выдачей апортика.

Однако, для некоторых собак, предпочтительной реакцией в этой ситуации будет являться, например, лай или пассивное ожидание, или настойчивые попытки засунуть нос под миску. Применительно к таким собакам мы можем попытаться сформировать царапанье, применив вместо миски специальное приспособление — решётчатый конус, сквозь решётку которого собака может просунуть лапу. Естественно, в этом случае собаке гораздо быстрее придёт в голову достать апорт, выцарапывая его из конуса.

Вообще говоря, грань между отбором поведения и его формированием весьма условна, — уже создавая, или просто используя конкретную мотивацию, начиная упражнение в определённом месте с определённым окружением, искусственно создавая ситуацию, используя тот или иной реквизит, мы тем самым подталкиваем собаку к тому или иному поведению, то есть, в большей или меньшей степени, формируем поведение. Ведь миска из предыдущего примера — тоже реквизит. Реквизит удобный именно для царапанья. Если бы мы хотели отобрать другое поведение, например обозначение места сокрытия кусанием его, мы применили бы другой реквизит, — в этом случае — картонный ящик или тряпку.

3. Закрепление с помощью подкрепления. Тут всё вроде бы понятно. Действуют второй и третий законы научения. Закон эффекта: удачная, приведшая к удовлетворению мотивации, реакция закрепляется и впредь имеет тенденцию к воспроизведению. Закон упражнения: в результате многократного повторения одних и тех же реакций, реакции автоматизируются.

Применительно к дрессировке: тот поведенческий акт, или шире, то поведение, которое дрессировщик подкрепляет, после неоднократного повторения сначала будет проявляться всё чаще и чаще, а затем зафиксируется, превратившись в навык. В терминах поведенческого акта: сравнение результата поведенческого акта с образом цели (акцептирование результата действия) обнаруживает их тождественность и вызывает положительную оценочную эмоцию. Положительная эмоция позволяет зафиксировать образ способа достижения цели в долговременной памяти. Образно выражаясь, эмоция — это резец, который, с каждым повторением удачного (подкреплённого дрессировщиком) действия, оставляет всё более глубокий след в памяти дрессируемой собаки, фиксируя вырабатываемый навык.

…Кандид наперед знал, какие эмоции возникнут у него в следующую секунду. У нас в деревне это называется «думать».

Улитка на склоне. А. и Б. Стругацкие.

Очень важно для дрессировщика осознать механизм акцептирования. Совпадение или несовпадение результата поведенческого акта с образом цели осознаётся животным через эмоции. Для управления собакой мы апеллируем к её эмоциям, и любое подкрепление следует понимать именно как обращение к эмоциям собаки. Собака стремится к получению положительных эмоций и пытается избежать отрицательных. Поведение, результатом которого явится получение удовольствия, радости имеет большие шансы проявляться снова и снова. Поведение, результатом которого явится боль, страх, растерянность, отвращение, вряд ли проявится снова.

Итак, настал момент, когда мы должны разобраться — что же такое «подкрепление»? К сожалению, в этом вопросе царит большая терминологическая путаница. Логично было бы предположить, что «подкрепить» какое либо поведение, значит то же самое, что и «поощрить» его. Эти слова в обыденной речи — синонимы. В обыденной речи, но, увы, не в теории модификации поведения. Здесь подкреплением называют действие дрессировщика, вызывающее у животного либо положительную, либо отрицательную эмоции и, тем самым, согласно второму закону научения — закону эффекта, либо закрепляющее то поведение, с которым совпадает по времени, либо (после многократных повторений) исключающее его из поведенческого репертуара животного. Далее, вслед за многими авторами, можно было бы назвать подкрепление, вызывающее положительную эмоцию, положительным, а вызывающее отрицательную эмоцию, отрицательным. Однако другой ряд авторов называет положительным подкреплением такое действие дрессировщика, которое ведёт к появлению у животного положительной эмоции или исчезновению отрицательной эмоции, а отрицательным подкреплением — действие, ведущее к исчезновению положительной эмоции или появлению отрицательной эмоции. Последний вариант, с точки зрения содержательности, предпочтительнее. Однако смущает тот факт, что на 4 различных явления приходится лишь 2 термина. Поэтому я предлагаю пойти на компромисс и принять, что подкрепление может выражаться в двух формах: поощрения и наказания. (Разумеется, я знаю, что понятие «наказание» с лёгкой руки Прайор считается нынче чуть ли ни неприличным. Но ведь это всего лишь вопрос терминологии). Итак, поощрение вызывает положительную эмоцию, а наказание — отрицательную. Нужно также учесть, что подкрепление — это действие, ограниченное во времени. С точки зрения собаки, начало поощрения — это, разумеется, хорошо, и поведение, с которым оно совпадёт по времени, становится для неё предпочтительным. И наоборот, окончание поощрения — плохо, и совпадающее с ним по времени поведение становится нежелательным. В свою очередь, начало наказания — плохо, действие угашается. Окончание наказания — хорошо, действие закрепляется. Итак, мы пришли к выводу, что существует четыре вида подкрепления: начало и продолжение поощрения (закрепляющее, положительная эмоция возникает и длится), окончание поощрения (угашающее, положительная эмоция исчезает), начало и продолжение наказания (угашающее, отрицательная эмоция возникает и длится), и окончание наказания (закрепляющее, отрицательная эмоция исчезает). Кстати, когда мы говорим о поощрении и наказании в обыденной речи, мы имеем в виду именно начало поощрения и начало наказания и совершенно упускаем из виду момент их окончания, оказывающий прямо противоположное действие.