Création de comportements complexes grâce au conditionnement opérant
Vous vous souvenez peut-être d’avoir regardé un film ou d’avoir assisté à un spectacle dans lequel un animal – peut-être un chien, un cheval ou un dauphin – faisait des choses assez étonnantes. Le dresseur donnait un ordre et le dauphin nageait jusqu’au fond de la piscine, ramassait un anneau sur son nez, sautait hors de l’eau à travers un cerceau en l’air, plongeait à nouveau au fond de la piscine, ramassait un autre anneau, puis apportait les deux anneaux au dresseur au bord de la piscine. L’animal a été entraîné à faire ce tour, et les principes du conditionnement opérant ont été utilisés pour l’entraîner. Mais ces comportements complexes sont très éloignés des simples relations stimulus-réponse que nous avons examinées jusqu’à présent. Comment le renforcement peut-il être utilisé pour créer des comportements complexes tels que ceux-ci ?
Une façon d’étendre l’utilisation de l’apprentissage opérant est de modifier le calendrier sur lequel le renforcement est appliqué. Jusqu’à présent, nous n’avons abordé qu’un schéma de renforcement continu, dans lequel la réponse souhaitée est renforcée chaque fois qu’elle se produit ; chaque fois que le chien se retourne, par exemple, il reçoit un biscuit. Le renforcement continu entraîne un apprentissage relativement rapide, mais aussi une extinction rapide du comportement souhaité dès que l’agent de renforcement disparaît. Le problème est que, comme l’organisme est habitué à recevoir le renforcement après chaque comportement, le répondeur peut abandonner rapidement lorsqu’il n’apparaît pas.
La plupart des renforçateurs du monde réel ne sont pas continus ; ils se produisent selon un calendrier de renforcement partiel (ou intermittent) – un calendrier dans lequel les réponses sont parfois renforcées, et parfois non. Par rapport au renforcement continu, les schémas de renforcement partiel entraînent un apprentissage initial plus lent, mais ils entraînent également une plus grande résistance à l’extinction. Comme le renforcement n’apparaît pas après chaque comportement, il faut plus de temps à l’apprenant pour déterminer que la récompense ne viendra plus, et l’extinction est donc plus lente. Les quatre types de schémas de renforcement partiel sont résumés dans le tableau 7.2 » Schémas de renforcement « .
Tableau 7.2 Schémas de renforcement
Schéma de renforcement | Explication | Exemple du monde réel |
---|---|---|
Fixe-ratio | Le comportement est renforcé après un nombre spécifique de réponses | Des ouvriers d’usine qui sont payés en fonction du nombre de produits qu’ils fabriquent |
Ratio variable | Le comportement est renforcé après une moyenne, mais imprévisible, nombre de réponses | Les gains des machines à sous et autres jeux de hasard |
Fixe-interval | Le comportement est renforcé pour la première réponse après qu’une quantité spécifique de temps se soit écoulée | Personnes qui gagnent un salaire mensuel | Intervalle variable | Le comportement est renforcé pour la première réponse après un nombre moyen, mais imprévisible, temps s’est écoulé | Personne qui vérifie les messages de la boîte vocale |
Les programmes de renforcement partiel sont déterminés par le fait que le renforcement est présenté sur la base du temps qui s’écoule entre les renforcements (intervalle) ou sur la base du nombre de réponses que l’organisme engage (ratio), et selon que le renforcement se produit selon un calendrier régulier (fixe) ou imprévisible (variable). Dans un programme à intervalle fixe, le renforcement se produit pour la première réponse donnée après un laps de temps spécifique. Par exemple, dans un programme à intervalle fixe d’une minute, l’animal reçoit un renforcement toutes les minutes, en supposant qu’il adopte le comportement au moins une fois pendant cette minute. Comme vous pouvez le voir dans la Figure 7.7 » Exemples de modèles de réponse d’animaux entraînés selon différents schémas de renforcement partiel « , les animaux soumis à des schémas à intervalle fixe ont tendance à ralentir leur réponse immédiatement après le renforcement, puis à augmenter à nouveau leur comportement à mesure que l’heure du renforcement suivant approche. (La plupart des étudiants étudient pour les examens de la même manière.) Dans un schéma à intervalle variable, les renforçateurs apparaissent sur un schéma d’intervalle, mais le moment où ils apparaissent varie autour de l’intervalle moyen, ce qui rend imprévisible l’apparition réelle du renforçateur. Par exemple, vous pouvez vérifier votre courrier électronique : Vous êtes renforcé par la réception de messages qui arrivent, en moyenne, disons toutes les 30 minutes, mais le renforcement ne se produit qu’à des moments aléatoires. Les schémas de renforcement par intervalles ont tendance à produire des taux de réponse lents et réguliers.
Figure 7.7 Exemples de schémas de réponse d’animaux entraînés selon différents schémas de renforcement partiel
Les horaires basés sur le nombre de réponses (types ratios) induisent un taux de réponse plus important que les horaires basés sur le temps écoulé (types intervalles). De même, les horaires imprévisibles (types variables) produisent des réponses plus fortes que les horaires prévisibles (types fixes).
Adapté de Kassin, S. (2003). Les essentiels de la psychologie. Upper Saddle River, NJ : Prentice Hall. Récupéré du site Web compagnon de Essentials of Psychology Prentice Hall : http://wps.prenhall.com/hss_kassin_essentials_1/15/3933/1006917.cw/index.html.
Dans un schéma à proportion fixe, un comportement est renforcé après un nombre spécifique de réponses. Par exemple, le comportement d’un rat peut être renforcé après qu’il a appuyé 20 fois sur une touche, ou une vendeuse peut recevoir une prime après avoir vendu 10 produits. Comme vous pouvez le voir à la figure 7.7 » Exemples de schémas de réponse d’animaux entraînés selon différents schémas de renforcement partiel « , une fois que l’organisme a appris à agir conformément au schéma de renforcement fixe, il ne fera qu’une courte pause lors du renforcement avant de revenir à un niveau de réactivité élevé. Un programme à rapport variable fournit des renforcements après un nombre spécifique mais moyen de réponses. Gagner de l’argent dans une machine à sous ou sur un billet de loterie est un exemple de renforcement qui se produit selon un programme à proportion variable. Par exemple, une machine à sous peut être programmée pour offrir un gain toutes les 20 fois que l’utilisateur tire sur la poignée, en moyenne. Comme vous pouvez le voir dans la figure 7.8 » Machine à sous « , les horaires à ratio tendent à produire des taux de réponse élevés, car le renforcement augmente à mesure que le nombre de réponses augmente.
Figure 7.8 Machine à sous
Les machines à sous sont des exemples de schéma de renforcement à ratio variable.
Jeff Kubina – Slot Machine – CC BY-SA 2.0.
Les comportements complexes sont également créés par le biais du façonnage, le processus consistant à guider le comportement d’un organisme vers le résultat souhaité en utilisant des approximations successives d’un comportement final souhaité. Skinner a fait un usage intensif de ce procédé dans ses boîtes. Par exemple, il pouvait entraîner un rat à appuyer deux fois sur une barre pour recevoir de la nourriture, en lui donnant d’abord de la nourriture lorsque l’animal s’approchait de la barre. Puis, lorsque ce comportement était acquis, il commençait à fournir de la nourriture uniquement lorsque le rat touchait la barre. En poursuivant la mise en forme, il a limité le renforcement au moment où le rat appuyait sur la barre, au moment où il appuyait sur la barre et la touchait une deuxième fois, et enfin, au moment où il appuyait deux fois sur la barre. Bien que cela puisse prendre beaucoup de temps, de cette façon, le conditionnement opérant peut créer des chaînes de comportements qui ne sont renforcés que lorsqu’ils sont achevés.
Renforcer les animaux s’ils discriminent correctement entre des stimuli similaires permet aux scientifiques de tester la capacité des animaux à apprendre, et les discriminations qu’ils peuvent faire sont parfois assez remarquables. Des pigeons ont été entraînés à distinguer les images de Charlie Brown et des autres personnages des Peanuts (Cerella, 1980), et entre différents styles de musique et d’art (Porter & Neuringer, 1984 ; Watanabe, Sakamoto & Wakita, 1995).
Les comportements peuvent également être entraînés par l’utilisation de renforçateurs secondaires. Alors qu’un renforçateur primaire comprend des stimuli qui sont naturellement préférés ou appréciés par l’organisme, comme la nourriture, l’eau et le soulagement de la douleur, un renforçateur secondaire (parfois appelé renforçateur conditionné) est un événement neutre qui a été associé à un renforçateur primaire par le biais du conditionnement classique. Un exemple de renforçateur secondaire serait le sifflet donné par un dresseur d’animaux, qui a été associé au fil du temps au renforçateur primaire, la nourriture. L’argent est un exemple de renforçateur secondaire quotidien. Nous aimons avoir de l’argent, non pas tant pour le stimulus lui-même, mais plutôt pour les renforçateurs primaires (les choses que l’argent peut acheter) auxquels il est associé.
Principaux éléments à retenir
- Edward Thorndike a développé la loi de l’effet : le principe selon lequel les réponses qui créent un résultat typiquement agréable dans une situation particulière sont plus susceptibles de se reproduire dans une situation similaire, tandis que les réponses qui produisent un résultat typiquement désagréable sont moins susceptibles de se reproduire dans cette situation.
- B. F. Skinner a développé les idées de Thorndike pour élaborer un ensemble de principes permettant d’expliquer le conditionnement opérant.
- Le renforcement positif renforce une réponse en présentant quelque chose qui est typiquement agréable après la réponse, tandis que le renforcement négatif renforce une réponse en réduisant ou en supprimant quelque chose qui est typiquement désagréable.
- La punition positive affaiblit une réponse en présentant quelque chose de typiquement désagréable après la réponse, alors que la punition négative affaiblit une réponse en réduisant ou en supprimant quelque chose de typiquement agréable.
- Le renforcement peut être partiel ou continu. Les calendriers de renforcement partiel sont déterminés par le fait que le renforcement est présenté sur la base du temps qui s’écoule entre les renforcements (intervalle) ou sur la base du nombre de réponses que l’organisme engage (ratio), et par le fait que le renforcement se produit selon un calendrier régulier (fixe) ou imprévisible (variable).
- Des comportements complexes peuvent être créés par le façonnage, le processus consistant à guider le comportement d’un organisme vers le résultat souhaité par l’utilisation d’approximations successives d’un comportement final souhaité.
Exercices et réflexion critique
- Donnez un exemple de la vie quotidienne de chacun des éléments suivants : renforcement positif, renforcement négatif, punition positive, punition négative.
- Pensez aux techniques de renforcement que vous pourriez utiliser pour entraîner un chien à attraper et à récupérer un frisbee que vous lui lancez.
-
Voyez les deux vidéos suivantes tirées d’émissions de télévision actuelles. Pouvez-vous déterminer quelles procédures d’apprentissage sont démontrées ?
- The Office : http://www.break.com/usercontent/2009/11/the-office-altoid- expérience-1499823
- The Big Bang Theory : http://www.youtube.com/watch?v=JA96Fba-WHk
.