7.2 Mudança de Comportamento através de Reforço e Punição: Condicionamento Operante - Introdução à Psicologia

Criação de Comportamentos Complexos Através do Condicionamento Operante

Talvez se lembre de ver um filme ou estar num espectáculo em que um animal – talvez um cão, um cavalo, ou um golfinho – fez algumas coisas espantosas. O treinador deu um comando e o golfinho nadou até ao fundo da piscina, pegou num anel no seu nariz, saltou para fora da água através de um aro no ar, mergulhou novamente para o fundo da piscina, pegou noutro anel, e depois levou ambos os anéis para o treinador à beira da piscina. O animal foi treinado para fazer o truque, e os princípios do condicionamento operante foram utilizados para o treinar. Mas estes comportamentos complexos estão longe das simples relações estímulo-resposta que temos considerado até agora. Como pode o reforço ser utilizado para criar comportamentos complexos como estes?

Uma forma de expandir o uso da aprendizagem operante é modificar o horário em que o reforço é aplicado. A este ponto apenas discutimos um programa de reforço contínuo, no qual a resposta desejada é reforçada cada vez que ocorre; sempre que o cão rola, por exemplo, recebe um biscoito. O reforço contínuo resulta numa aprendizagem relativamente rápida, mas também numa rápida extinção do comportamento desejado uma vez que o reforço desaparece. O problema é que, porque o organismo está habituado a receber o reforço após cada comportamento, o respondedor pode desistir rapidamente quando não aparece.

Os reforços mais reais não são contínuos; ocorrem num horário de reforço parcial (ou intermitente) – um horário em que as respostas são por vezes reforçadas, e por vezes não. Em comparação com os reforços contínuos, os horários de reforço parcial levam a uma aprendizagem inicial mais lenta, mas também levam a uma maior resistência à extinção. Como o reforço não aparece após cada comportamento, demora mais tempo para o aprendiz determinar que a recompensa já não vem, e assim a extinção é mais lenta. Os quatro tipos de horários de reforço parcial estão resumidos na Tabela 7.2 “Horários de Reforço”.

Tabela 7.2 Calendários de reforço

>Gramas de reforço

>Pessoas que ganham um salário mensal

>Pessoa que verifica o correio de voz para mensagens

Explicação	Real-exemplo mundial
Fixed-rácio	Comportamento é reforçado após um número específico de respostas	Trabalhadores de fábrica que são pagos de acordo com o número de produtos que produzem
Rácio variável	Comportamento é reforçado após uma média, mas imprevisível, número de respostas	Payoffs das slot machines e outros jogos de azar
Fixed-intervalo	Comportamento é reforçado para a primeira resposta após um período de tempo específico ter passado
Intervalo variável	Comportamento é reforçado para a primeira resposta após uma média, mas imprevisível, tempo decorrido

As programações parciais de reforço são determinadas com base no tempo que decorre entre o reforço (intervalo) ou com base no número de respostas em que o organismo se envolve (rácio), e se o reforço ocorre num horário regular (fixo) ou imprevisível (variável). Num horário de intervalo fixo, o reforço ocorre para a primeira resposta feita após um período de tempo específico. Por exemplo, num horário de intervalo fixo de um minuto, o animal recebe um reforço a cada minuto, assumindo que se envolve no comportamento pelo menos uma vez durante o minuto. Como se pode ver na Figura 7.7 “Exemplos de Padrões de Resposta por Animais Treinados Sob Diferentes Horários de Reforço Parcial”, os animais sob horários de intervalo fixo tendem a abrandar a sua resposta imediatamente após o reforço, mas depois aumentam novamente o comportamento à medida que o tempo do próximo reforço se aproxima. (A maioria dos estudantes estuda para exames da mesma forma.) Num horário de intervalo variável, os reforços aparecem num horário de intervalo, mas o horário varia em torno do intervalo médio, tornando imprevisível o aspecto real do reforço. Um exemplo pode ser verificar o seu e-mail: É reforçado ao receber mensagens que vêm, em média, digamos de 30 em 30 minutos, mas o reforço ocorre apenas em momentos aleatórios. Os intervalos de reforço tendem a produzir taxas lentas e estáveis de resposta.

Figure 7.7 Exemplos de Padrões de Resposta por Animais Treinados Sob Diferentes Horários de Reforço Parcial

Squiles baseados no número de respostas (tipos de rácio) induzem uma maior taxa de resposta do que os horários baseados no tempo decorrido (tipos de intervalo). Além disso, horários imprevisíveis (tipos variáveis) produzem respostas mais fortes do que horários previsíveis (tipos fixos).

Sóculos baseados no número de respostas (tipos de rácio) induzem uma maior taxa de resposta do que horários baseados no tempo decorrido (tipos de intervalo). Além disso, horários imprevisíveis (tipos variáveis) produzem respostas mais fortes do que horários previsíveis (tipos fixos).

Adaptado de Kassin, S. (2003). Essenciais da psicologia. Upper Saddle River, NJ: Prentice Hall. Obtido de Essentials of Psychology Prentice Hall, NJ: Prentice Hall Companion Website: http://wps.prenhall.com/hss_kassin_essentials_1/15/3933/1006917.cw/index.html.

Num calendário de relação fixa, um comportamento é reforçado após um número específico de respostas. Por exemplo, o comportamento de um rato pode ser reforçado depois de ter premido uma tecla 20 vezes, ou um vendedor pode receber um bónus depois de ter vendido 10 produtos. Como pode ver na Figura 7.7 “Exemplos de Padrões de Resposta por Animais Treinados Sob Diferentes Horários de Reforço Parcial”, uma vez que o organismo tenha aprendido a agir de acordo com o horário de reforço fixo, só fará uma breve pausa quando o reforço ocorrer antes de regressar a um elevado nível de capacidade de resposta. Um calendário de proporção variável fornece reforços após um número específico mas médio de respostas. Ganhar dinheiro com as máquinas caça-níqueis ou com um bilhete de lotaria são exemplos de reforços que ocorrem num calendário de rácios variáveis. Por exemplo, uma slot machine pode ser programada para fornecer um ganho a cada 20 vezes que o utilizador puxa a pega, em média. Como se pode ver na Figura 7.8 “Slot Machine”, os horários de rácios tendem a produzir altas taxas de resposta porque o reforço aumenta à medida que o número de respostas aumenta.

Figure 7.8 Slot Machine

Slot Machine

Slot Machine são exemplos de um programa de reforço de proporção variável.

Jeff Kubina – Slot Machine – CC BY-SA 2.0.

Comportamentos complexos são também criados através da moldagem, o processo de orientar o comportamento de um organismo para o resultado desejado através da utilização de sucessivas aproximações a um comportamento final desejado. O Skinner fez um uso extensivo deste procedimento nas suas caixas. Por exemplo, ele podia treinar um rato a pressionar uma barra duas vezes para receber alimentos, fornecendo primeiro alimentos quando o animal se aproximava da barra. Depois, quando esse comportamento tivesse sido aprendido, ele começaria a fornecer alimentos apenas quando o rato tocasse na barra. A sua formação limitou o reforço apenas a quando o rato pressionou a barra, a quando pressionou a barra e lhe tocou uma segunda vez, e finalmente, a apenas quando pressionou a barra duas vezes. Embora possa demorar muito tempo, desta forma o condicionamento operante pode criar cadeias de comportamentos que são reforçados apenas quando são completados.

Reinforçando os animais se estes discriminarem correctamente entre estímulos semelhantes permite aos cientistas testar a capacidade de aprendizagem dos animais, e as discriminações que eles podem fazer são por vezes bastante notáveis. Os pombos foram treinados para distinguir entre as imagens de Charlie Brown e as outras personagens de Peanuts (Cerella, 1980), e entre diferentes estilos de música e arte (Porter & Neuringer, 1984; Watanabe, Sakamoto & Wakita, 1995).

Comportamentos também podem ser treinados através do uso de reforços secundários. Enquanto um reforço primário inclui estímulos que são naturalmente preferidos ou apreciados pelo organismo, tais como comida, água, e alívio da dor, um reforço secundário (por vezes chamado reforço condicionado) é um evento neutro que se tornou associado a um reforço primário através do condicionamento clássico. Um exemplo de um reforço secundário seria o apito dado por um treinador de animais, que tem sido associado ao longo do tempo com o reforço primário, alimento. Um exemplo de um reforço secundário diário é o dinheiro. Gostamos de ter dinheiro, não tanto para o estímulo em si, mas sim para os reforços primários (as coisas que o dinheiro pode comprar) com os quais está associado.

Key Takeaways

Edward Thorndike desenvolveu a lei do efeito: o princípio de que as respostas que criam um resultado tipicamente agradável numa determinada situação são mais susceptíveis de ocorrer novamente numa situação semelhante, enquanto que as respostas que produzem um resultado tipicamente desagradável são menos susceptíveis de ocorrer novamente na situação.
B. F. Skinner expandiu as ideias de Thorndike para desenvolver um conjunto de princípios para explicar o condicionamento operante.
reforço positivo fortalece uma resposta apresentando algo que é tipicamente agradável após a resposta, enquanto o reforço negativo fortalece uma resposta reduzindo ou removendo algo que é tipicamente desagradável.
Punição positiva enfraquece uma resposta ao apresentar algo tipicamente desagradável após a resposta, enquanto que a punição negativa enfraquece uma resposta ao reduzir ou remover algo que é tipicamente agradável.
Punição positiva pode ser parcial ou contínua. Os horários parciais de reforço são determinados pelo facto de o reforço ser apresentado com base no tempo que decorre entre reforços (intervalo) ou com base no número de respostas em que o organismo se envolve (rácio), e pelo facto de o reforço ocorrer num horário regular (fixo) ou imprevisível (variável).
Comportamentos complexos podem ser criados através da moldagem, o processo de orientar o comportamento de um organismo para o resultado desejado através da utilização de sucessivas aproximações a um comportamento final desejado.

Exercícios e Pensamento Crítico

Dê um exemplo da vida diária de cada um dos seguintes: reforço positivo, reforço negativo, castigo positivo, castigo negativo.
Considere as técnicas de reforço que pode utilizar para treinar um cão a apanhar e recuperar um Frisbee que lhe atira.
p>Veja os dois vídeos seguintes de programas de televisão actuais. Pode determinar quais os procedimentos de aprendizagem que estão a ser demonstrados?
1. The Office: http://www.break.com/usercontent/2009/11/the-office-altoid- experiment-1499823
2. A Teoria do Big Bang: http://www.youtube.com/watch?v=JA96Fba-WHk

Introdução à Psicologia

Criação de Comportamentos Complexos Através do Condicionamento Operante

Key Takeaways

Exercícios e Pensamento Crítico

Deixe uma resposta Cancelar resposta