Introducción a la psicología

Creación de conductas complejas a través del condicionamiento operante

Quizás recuerde haber visto una película o haber asistido a un espectáculo en el que un animal -quizás un perro, un caballo o un delfín- hacía cosas increíbles. El entrenador daba una orden y el delfín nadaba hasta el fondo de la piscina, recogía un anillo en su nariz, salía del agua a través de un aro en el aire, volvía a sumergirse en el fondo de la piscina, recogía otro anillo y luego llevaba ambos anillos al entrenador al borde de la piscina. El animal fue entrenado para hacer el truco, y se utilizaron los principios del condicionamiento operante para entrenarlo. Pero estos comportamientos complejos están muy lejos de las simples relaciones estímulo-respuesta que hemos considerado hasta ahora. ¿Cómo puede utilizarse el refuerzo para crear conductas complejas como éstas?

Una forma de ampliar el uso del aprendizaje operante es modificar el horario en el que se aplica el refuerzo. Hasta ahora sólo hemos hablado de un programa de refuerzo continuo, en el que la respuesta deseada se refuerza cada vez que se produce; cada vez que el perro se da la vuelta, por ejemplo, recibe una galleta. El refuerzo continuo da lugar a un aprendizaje relativamente rápido, pero también a una rápida extinción de la conducta deseada una vez que desaparece el reforzador. El problema es que, dado que el organismo está acostumbrado a recibir el refuerzo después de cada conducta, el respondedor puede rendirse rápidamente cuando no aparece.

La mayoría de los reforzadores del mundo real no son continuos; se producen en un programa de refuerzo parcial (o intermitente), un programa en el que las respuestas a veces se refuerzan y a veces no. En comparación con el refuerzo continuo, los programas de refuerzo parcial conducen a un aprendizaje inicial más lento, pero también conducen a una mayor resistencia a la extinción. Dado que el refuerzo no aparece después de cada conducta, el alumno tarda más tiempo en darse cuenta de que la recompensa ya no llega, por lo que la extinción es más lenta. Los cuatro tipos de esquemas de refuerzo parcial se resumen en la Tabla 7.2 «Esquemas de refuerzo».

Tabla 7.2 Programas de refuerzo

.mundo real

Programa de refuerzo Explicación Ejemplo del mundo real
Relación fija-ratio El comportamiento se refuerza después de un número concreto de respuestas Trabajadores de una fábrica a los que se les paga según el número de productos que producen
Variable-ratio El comportamiento se refuerza después de una media pero imprevisible, número de respuestas Los premios de las máquinas tragaperras y otros juegos de azar
Intervalo fijointervalo Se refuerza el comportamiento para la primera respuesta después de que haya pasado una cantidad de tiempo específica Las personas que ganan un salario mensual
Intervalo variable Se refuerza el comportamiento para la primera respuesta después de un número medio pero impredecible, tiempo Persona que revisa el buzón de voz en busca de mensajes

Los esquemas de refuerzo parcial están determinados por si el refuerzo se presenta en función del tiempo que transcurre entre los refuerzos (intervalo) o en función del número de respuestas que el organismo realiza (ratio), y si el refuerzo se produce en un horario regular (fijo) o imprevisible (variable). En un programa de intervalo fijo, el refuerzo se produce para la primera respuesta realizada después de que haya transcurrido un tiempo determinado. Por ejemplo, en un programa de intervalo fijo de un minuto, el animal recibe un refuerzo cada minuto, suponiendo que realice la conducta al menos una vez durante el minuto. Como puede ver en la figura 7.7 «Ejemplos de patrones de respuesta de animales entrenados con diferentes programas de refuerzo parcial», los animales con programas de intervalo fijo tienden a ralentizar su respuesta inmediatamente después del refuerzo, pero luego vuelven a aumentar la conducta cuando se acerca el momento del siguiente refuerzo. (La mayoría de los estudiantes estudian para los exámenes de la misma manera.) En un programa de intervalo variable, los reforzadores aparecen en un programa de intervalo, pero el momento varía en torno al intervalo medio, haciendo que la aparición real del reforzador sea impredecible. Un ejemplo podría ser revisar el correo electrónico: Se le refuerza recibiendo mensajes que llegan, por término medio, digamos cada 30 minutos, pero el refuerzo se produce sólo en momentos aleatorios. Los programas de refuerzo a intervalos tienden a producir tasas de respuesta lentas y constantes.

Figura 7.7 Ejemplos de patrones de respuesta de animales entrenados bajo diferentes esquemas de refuerzo parcial

Los esquemas basados en el número de respuestas (tipos de proporción) inducen una mayor tasa de respuesta que los esquemas basados en el tiempo transcurrido (tipos de intervalo). Además, los horarios impredecibles (tipos variables) producen respuestas más fuertes que los horarios predecibles (tipos fijos).

Los horarios basados en el número de respuestas (tipos de relación) inducen una mayor tasa de respuesta que los horarios basados en el tiempo transcurrido (tipos de intervalo). Además, los horarios impredecibles (tipos variables) producen respuestas más fuertes que los horarios predecibles (tipos fijos).

Adaptado de Kassin, S. (2003). Essentials of psychology. Upper Saddle River, NJ: Prentice Hall. Recuperado de Essentials of Psychology Prentice Hall Companion Website: http://wps.prenhall.com/hss_kassin_essentials_1/15/3933/1006917.cw/index.html.

En un programa de proporción fija, un comportamiento se refuerza después de un número específico de respuestas. Por ejemplo, el comportamiento de una rata puede ser reforzado después de que haya pulsado una tecla 20 veces, o una vendedora puede recibir una bonificación después de que haya vendido 10 productos. Como se puede ver en la figura 7.7 «Ejemplos de patrones de respuesta de animales entrenados con diferentes esquemas de refuerzo parcial», una vez que el organismo ha aprendido a actuar de acuerdo con el esquema de refuerzo fijo, sólo hará una breve pausa cuando se produzca el refuerzo antes de volver a un alto nivel de respuesta. Un programa de relación variable proporciona refuerzos tras un número específico pero medio de respuestas. Ganar dinero en las máquinas tragaperras o en un billete de lotería son ejemplos de refuerzos que se producen en un programa de proporción variable. Por ejemplo, una máquina tragaperras puede estar programada para proporcionar una ganancia cada 20 veces que el usuario tire de la manivela, de media. Como se puede ver en la Figura 7.8 «Máquina tragaperras», los programas de proporción tienden a producir altas tasas de respuesta porque el refuerzo aumenta a medida que aumenta el número de respuestas.

Figura 7.8 Máquina tragaperras

Máquina tragaperras

Las máquinas tragaperras son ejemplos de un programa de refuerzo de proporción variable.

Jeff Kubina – Slot Machine – CC BY-SA 2.0.

Las conductas complejas también se crean a través del moldeado, el proceso de guiar la conducta de un organismo hacia el resultado deseado mediante el uso de aproximaciones sucesivas a una conducta final deseada. Skinner utilizó ampliamente este procedimiento en sus cajas. Por ejemplo, podía entrenar a una rata para que presionara una barra dos veces para recibir comida, proporcionándole primero comida cuando el animal se acercaba a la barra. Luego, cuando se aprendía ese comportamiento, empezaba a proporcionar comida sólo cuando la rata tocaba la barra. El refuerzo se limitaba a cuando la rata presionaba la barra, a cuando presionaba la barra y la tocaba por segunda vez y, finalmente, a cuando presionaba la barra dos veces. Aunque puede llevar mucho tiempo, de este modo el condicionamiento operante puede crear cadenas de conductas que se refuerzan sólo cuando se completan.

Reforzar a los animales si discriminan correctamente entre estímulos similares permite a los científicos probar la capacidad de aprendizaje de los animales, y las discriminaciones que pueden hacer son a veces bastante notables. Se ha entrenado a las palomas para que distingan entre las imágenes de Charlie Brown y los demás personajes de Peanuts (Cerella, 1980), y entre diferentes estilos de música y arte (Porter & Neuringer, 1984; Watanabe, Sakamoto & Wakita, 1995).

Las conductas también pueden entrenarse mediante el uso de reforzadores secundarios. Mientras que un reforzador primario incluye estímulos que son naturalmente preferidos o disfrutados por el organismo, como la comida, el agua y el alivio del dolor, un reforzador secundario (a veces llamado reforzador condicionado) es un evento neutral que se ha asociado con un reforzador primario a través del condicionamiento clásico. Un ejemplo de reforzador secundario sería el silbido que da un entrenador de animales, que se ha asociado con el tiempo al reforzador primario, la comida. Un ejemplo de reforzador secundario cotidiano es el dinero. Nos gusta tener dinero, no tanto por el estímulo en sí, sino por los reforzadores primarios (las cosas que el dinero puede comprar) con los que está asociado.

Los puntos clave

  • Edward Thorndike desarrolló la ley del efecto: el principio de que las respuestas que crean un resultado típicamente agradable en una situación particular tienen más probabilidades de volver a ocurrir en una situación similar, mientras que las respuestas que producen un resultado típicamente desagradable tienen menos probabilidades de volver a ocurrir en la situación.
  • B. F. Skinner amplió las ideas de Thorndike para desarrollar un conjunto de principios para explicar el condicionamiento operante.
  • El refuerzo positivo refuerza una respuesta presentando algo que es típicamente agradable después de la respuesta, mientras que el refuerzo negativo refuerza una respuesta reduciendo o eliminando algo que es típicamente desagradable.
  • El castigo positivo debilita una respuesta presentando algo típicamente desagradable después de la respuesta, mientras que el castigo negativo debilita una respuesta reduciendo o eliminando algo que es típicamente agradable.
  • El refuerzo puede ser parcial o continuo. Los esquemas de refuerzo parcial se determinan en función de si el refuerzo se presenta sobre la base del tiempo que transcurre entre los refuerzos (intervalo) o sobre la base del número de respuestas que el organismo realiza (proporción), y de si el refuerzo se produce en un horario regular (fijo) o impredecible (variable).
  • Las conductas complejas pueden crearse a través de la conformación, el proceso de guiar la conducta de un organismo hacia el resultado deseado mediante el uso de la aproximación sucesiva a una conducta final deseada.

Ejercicios y pensamiento crítico

  1. Da un ejemplo de la vida cotidiana de cada uno de los siguientes: refuerzo positivo, refuerzo negativo, castigo positivo, castigo negativo.
  2. Considera las técnicas de refuerzo que podrías utilizar para entrenar a un perro para que atrape y recupere un frisbee que le lances.
  3. Mira los siguientes dos vídeos de programas de televisión actuales. ¿Puede determinar qué procedimientos de aprendizaje se están demostrando?

    1. The Office: http://www.break.com/usercontent/2009/11/the-office-altoid- experimento-1499823
    2. The Big Bang Theory: http://www.youtube.com/watch?v=JA96Fba-WHk

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *