Ainsi, la question de savoir si les deux types de renforcement sont la manifestation, dans le comportement, d’une seule et même classe de processus psychologiques ou psychophysiologiques est une affaire de recherche et, en l’état actuel des choses, de choix théorique. On n’en jugera que plus regrettable de voir l’usage courant du terme renforcement évoluer jusqu’à ne recouvrir que le renforcement de second type et éliminer ainsi presque entièrement le sens premier ; il n’y a à cela aucune justification scientifique.
Skinner et son école ont étudié en détail sous le nom de programmes de renforcement — en l’occurrence, exclusivement opérant — les régularités qui peuvent régir la relation entre la ré-
ponse et son effet. Il a pu montrer que des lois précises régissent les divers programmes de renforcement.
Les diverses sortes de
réactions conditionnelles
instrumentales
Nous n’avons décrit précédemment que les deux procédures les plus simples de conditionnement instrumental, celles qui comportent un renforcement direct positif — parfois appelé récompense
— ou négatif — désigné aussi sous le nom de punition. En fait, on sait maintenant que ce dernier cas n’est pas l’exact inverse du précédent : si l’utilisation d’une récompense a bien pour effet l’établissement et la croissance d’un comportement déterminé,
le renforcement négatif n’agit pas en
« effaçant » le comportement auquel il s’applique ni surtout en faisant disparaître la « tendance à réagir » qui lui correspond. Assez souvent, en effet, on peut constater qu’une réaction qui avait été rendue moins fréquente ou même avait disparu à la suite d’un renforcement négatif répété réapparaît et retrouve sa pleine force, sans qu’aucune condition nouvelle ait été créée, par le simple passage du temps. C’est là un phénomène semblable à celui que l’on peut observer après une extinction et qui est connu sous le nom de récupération spontanée.
Mais un stimulus négatif peut avoir un tout autre effet que celui d’inhiber une réaction ; sa présence, puis sa suppression peuvent concourir à l’apprentissage et à la fixation d’un comportement. Ainsi peuvent, en premier lieu, s’établir les réactions d’échappement ou de fuite. Si un animal se trouve soumis à une stimulation négative downloadModeText.vue.download 39 sur 587
La Grande Encyclopédie Larousse - Vol. 6
2866
(par exemple douloureuse) durable, on observe le plus souvent qu’il manifeste des comportements divers, plus ou moins désordonnés, dont la vigueur est en rapport avec l’intensité de la stimulation. Si, maintenant, l’un des comportements ainsi émis se trouve suivi par une interruption de la stimulation négative et si cette conjonction entre la réaction et la cessation de la douleur se reproduit plusieurs fois, on peut généralement constater que le comportement en question s’accroît très vite et se manifeste désormais de façon fréquente ; dans certains cas, il peut suffire d’une seule conjonction de la réaction et de la suppression du stimulus nocif pour que cette réaction d’échappement soit fixée, c’est-à-dire apprise : ce qui détermine la rapidité de l’apprentissage est dans ce cas, bien entendu, l’intensité de la stimulation à fuir.
On a de bonnes raisons de rappro-
cher de cette situation celle du renforcement instrumental positif précé-
demment décrit. En effet, pour que le chien de Konorski et Miller soulève sa patte et soit alors récompensé par de la nourriture ou pour que le rat de Skinner appuie sur son levier dans les mêmes conditions, il faut que l’un et l’autre soient affamés ; s’ils sont repus, le comportement étudié n’apparaît pas.
Or, on peut considérer la faim comme constituant, au même titre qu’une stimulation douloureuse continue, une tension ou un mobile susceptible de mettre l’organisme en mouvement ; de même, on admettra facilement que la consommation de nourriture est, au moins en partie, assimilable à la disparition du stimulus douloureux, en ce qu’elle produit une réduction de la tension existant chez le sujet. La réaction conditionnelle d’échappement a ainsi fourni un schéma général pour une théorie du renforcement instrumental : celui-ci serait dans tous les cas une pure et simple réduction de tension.
Cette théorie, illustrée notamment par les noms de C. L. Hull et de N. E. Miller, est, il faut l’observer, très proche, sur ce point précis, des conceptions de Freud concernant le mode d’action de la pulsion. La théorie de la réduction de la tension n’est, toutefois, que l’une des théories du renforcement existantes.
Une autre grande sorte de conditionnement instrumental, d’ailleurs apparentée à la précédente, est constituée par les réactions d’évitement. Dans ce cas, il existe nécessairement un signal
— que l’on peut appeler aussi stimulus conditionnel ou encore stimulus discri-minatif — qui précède de façon régu-lière l’apparition d’une stimulation désagréable, qui n’est produite que si aucune réaction ne la précède. Si, au contraire, une réaction déterminée est exécutée par le sujet durant l’intervalle qui sépare le signal du moment de l’occurrence normale de la stimulation négative, celle-ci n’apparaît pas. Le sujet l’évite en produisant le comportement adéquat. On observe assez souvent qu’au cours d’une première phase le sujet ne réagit pas au signal qui annonce la stimulation nocive, mais seulement à cette dernière ; ensuite, la réaction « avance », progressivement, et devient de plus en plus précoce ; l’intervalle — ou la latence — qui la sépare du signal anticipateur se réduit
peu à peu, et, lorsqu’il est devenu suffisamment court, le sujet ne reçoit plus la stimulation nocive. Tous les conditionnements d’évitement ne s’établissent pas suivant ce schéma, mais c’est le plus général lorsque la situation et la réaction sont nouvelles pour le sujet.
La raison en est que celui-ci doit avoir fait au moins une fois l’expérience de la stimulation négative pour pouvoir apprendre à l’éviter. En revanche, une fois la réaction d’évitement acquise et stabilisée, il peut arriver que le sujet ne refasse plus jamais cette expérience. Il y a là un paradoxe qui naît du fait que c’est justement la suppression, donc l’absence, du stimulus nocif qui est l’événement renforçateur ; un conditionnement d’évitement réussi n’est ainsi, par son existence même, plus jamais renforcé. On peut alors se demander pourquoi il ne s’éteint pas spontanément ; en fait, dans de nombreux cas, c’est bien ce qui se produit : peu à peu la réaction cesse d’être exécutée par le sujet ; mais, du même coup, la stimulation déplaisante se produit de nouveau, et cela fait réapparaître la réaction, qui, à son tour, supprime la stimulation et ainsi de suite.
Toutefois, lorsque la stimulation nocive est très intense, la réaction d’évitement peut demeurer extrêmement
stable et ne pas régresser ; le paradoxe prend alors une autre forme. Supposons, en effet, une situation qui donne naissance à un conditionnement d’évitement ; supposons ensuite que cette situation objective se modifie, que le stimulus signal continue à apparaître, mais que la possibilité matérielle de la stimulation nocive ait disparu. L’observateur extérieur sait que, si le sujet —
animal ou homme — cessait de réagir, il ne se passerait rien de fâcheux pour lui ; mais, du fait même que la réaction est solidement établie, celle-ci ne lui laisse pas l’occasion d’en faire l’expé-
rience. On a pu voir ainsi des animaux conditionnés à éviter une stimulation électrique assez forte continuer à réagir jusqu’à 300 ou 400 fois après que le courant avait été coupé. Ce résultat, comme on le soulignera plus bas, peut jeter quelque lumière sur certains comportements névrotiques.
L’étude détaillée, psychologique et
psychophysiologique, des conditionnements d’évitement a permis d’établir qu’ils reposent sur un double — et sans doute un triple — processus : en premier lieu, il s’établit une réaction conditionnelle classique de peur, dont le signal annonçant le stimulus nocif est le stimulus conditionnel et dont la douleur ou le déplaisir constituent les éléments inconditionnels. C’est à partir de cette peur conditionnelle que se développe ensuite la réaction d’évitement proprement dite, et, tant que la première subsiste, la seconde se maintient également.