Aprendendo e decidindo: como nosso cérebro toma uma decisão

Aprender sobre o mundo que nos cerca é uma tarefa compartilhada por todos os seres que habitam nosso planeta. Da criança que aprende que se comer todos os vegetais no almoço vai ganhar sorvete de sobremesa ao lodo que cria redes de transporte para se alimentar, todos nós somos eternos alunos e cobaias das provações que nosso ambiente expõe. Este aprendizado servirá de fundamentos para as decisões que serão adotadas no futuro. A criança pode decidir se vale a pena comer todos os vegetais para obter o sorvete ou se prefere manter-se longe do brócolis e da beterraba.

Em um texto anterior do Prisma, a minha amiga Karina Abrahão tratou bem de dois tipos diferentes de tomada de decisão: a baseada em um objetivo futuro (objetivo pontual) ou a decisão habitual (hábito). Meu intuito agora é descrever de que maneira nosso cérebro trabalha para decidir entre as diferentes opções disponíveis no ambiente. Ao longo do texto veremos que uma coisa leva a outra: certos tipos de tomada de decisão estão mais associados com o desenvolvimento do hábito enquanto outros com o objetivo pontual.

Um conceito importante para a discussão que trataremos é que a execução de uma decisão resulta em uma consequência. A partir de agora essas consequências serão chamadas de reforços que, de uma maneira geral, pode ser dois tipos: uma recompensa1 ou uma punição2.

A partir do fim dos anos 80 e começo dos anos 90 começaram a surgir os estudos que pavimentaram o caminho da onde surgiria o que hoje é chamado de reinforcement learning (traduzido para “aprendizado pelo reforço”).  Esta área estuda a maneira que sistemas naturais ou artificiais aprendem a predizer as consequências de seus comportamentos, e como aperfeiçoá-los. Este tipo de aprendizado é oposto ao supervised learning (aprendizado supervisionado). Neste último caso, o agente recebe “instruções” ou segue um exemplo prévio de um supervisor externo.

Dois modelos de aprendizado

Estudos na área de reinforcement learning demonstraram que o processo de tomada de decisões pode ser conduzido através de duas maneiras: pelo método model-based (modelo baseado) ou pelo método model-free (modelo livre).

No modelo baseado, o agente que toma as decisões, e as executa, utiliza uma representação interna das transições e resultados do ambiente para avaliar suas ações. Assim, a melhor ação é tomada após vasculhar por este modelo próprio do mundo. Um bom exemplo dessa tomada de decisão é observado no xadrez. Um jogador experiente sabe que, dada a atual disposição das peças, mover seu cavalo para B5 proporcionará uma série de novas opções de movimentos que, em 3 rodas, podem leva-lo ao xeque-mate do adversário. No entanto, se movê-lo para E4, seu rei ficará desprotegido, e assim, em 4 movimentos, ele sofrerá o xeque-mate. Portanto, o jogador emprega um modelo mental das suas ações e consequências para vencer o jogo. Este tipo de processamento está ligado à decisão com objetivo pontual.

Fonte: ScienceMag

Fonte: ScienceMag

Por sua vez, o modelo livre usa a experiência direta para aprender se algo é bom ou ruim – de uma maneira mais formal, se algo foi melhor, igual ou pior ao que se esperava. Este modelo não preza por uma representação interna do meio externo, mas sim por um aprendizado baseado na avaliação do resultado obtido após cada ação e o quanto esta ação aproxima da maximização da recompensa. Imagine uma pessoa experimentando vários tipos de sucos de fruta que nunca bebeu antes. Ao iniciar sua degustação, ela não sabe o que esperar, portanto, seu “estado inicial de recompensa” (Ei) é zero (Ei = 0). Ao provar um suco de maçã, ela sentirá o gosto doce do suco que será prazeroso, portanto, o seu “estado de recompensa” após o consumo do suco de maçã (Em) é dez (Em = 10). Assim, a pessoa que estava em um estado inicial neutro (Ei = 0), fez uma ação (tomar o suco) que a levou a um estado novo e melhor (Em = 10), assim Em > Ei. A ação de tomar o suco de maçã levou a pessoa a um “estado de recompensa” melhor do que ela esperava, e portanto esta ação será aprendida como prazerosa. Este modelo está ligado às decisões tomadas por hábito.

Estudos seminais na área da neurociência demonstraram que a dopamina tem um papel fundamental nesta sinalização entre o que é esperado e o que é obtido. Estes resultados levam a crer que por alterar a sinalização de dopamina em regiões associados com este aprendizado, as drogas de abuso levam o cérebro a entender erroneamente que a ação de consumir uma droga leva o indivíduo a um estado melhor do que esperado. No entanto, ao que muitos estudos indicam, este fenômeno ocorre apenas no início do consumo e não após um longo período de uso.

Cada modelo apresenta vantagens e desvantagens. O modelo baseado apresenta uma alta consistência com o ambiente e, portanto gera uma boa margem de acerto. Porém, o preço para obter tal consistência é o pesado processamento necessário para construir e procurar por este mapa mental. Já o modelo livre é o oposto: o modelo baseia-se em predições de ações (e seus resultados), e não em dados reais, portanto este modelo é menos capaz de prever o ambiente. No entanto, por apenas armazenar o valor do estado inicial e compará-lo com valor do próximo estado este modelo demanda de menos processamento cognitivo (ou computacional) do agente em questão.

Decisões podem ser difíceis

Decisões podem ser difíceis

Ok! Você tomou uma decisão e ela lhe acarretou em algo positivo ou negativo, mas e agora, o que fazer? Insistir nessa opção e obter o máximo possível dela ou tentar uma nova alternativa e talvez receber uma recompensa ainda melhor? Ou talvez pior? Na sua frente está uma das perguntas mais interessantes abordada pelo reinforcement learning.

Explorar ou explorar?

Para abordar tal situação vamos brincar com um antigo problema proposto pelos pesquisadores da tomada de decisão, o bandido de n braços. O problema ganhou esse nome por analogia a um apelido dado às maquinas de caça-níquel nos Estados Unidos (One arm bandit, traduzido para bandido de um braço). Porém, neste problema esse bandido tem n braços, isso quer dizer que ele pode ter quantos braços você quiser.

No nosso exemplo ele terá 10 braços. Cada um dos braços, ao ser puxado, irá resultar em um valor monetário que vai de 10 a 100 reais, de dezena em dezena, e que apenas um braço fornece. Ou seja, cada braço tem um valor próprio. Você só tem direito a 5 puxões de qualquer um dos braços, podendo repetir o mesmo braço. O melhor resultado final possível é 500 reais (5 puxões do braço de maior valor, 100 reais) e o pior resultado final é 50 reais (5 puxões do braço de menor valor, 10 reais). Você faz sua primeira escolha, puxa o braço e o resultado é 60 reais. E agora? Será que eu puxo outro braço me arriscando a receber menos, mas também me arriscando a receber mais, ou será que eu mantenho minha decisão até o final e saio com 300 reais (5 X 60 reais)?? Esse é o dilema entre Exploration e Exploitation.

De acordo com a tradução do inglês para o português, esse dilema ficaria como Exploração X Exploração, no entanto, o verbo explorar pode ter mais de um sentido. Explorar pode significar extrair, usufruir ao máximo de algo. Este é o caso de manter a escolha do braço de 60 reais até o fim e explorar (extrair) seu valor monetário. O outro sentido de explorar pode ser sondar, buscar por outras opções não conhecidas. Neste caso, a escolha é de abandonar o braço de 60 reais e buscar outro, podendo surtir um resultado melhor, e no fim das contas, sair com um valor total maior.

Em um estudo recente demonstrou-se que numa situação de incerteza, o cérebro humano combina os diferentes métodos do reinforcement learning e uma forma de teste de hipótese para decidir-se entre realizar a sondagem das opções ou extrair o valor de uma opção. Foi observado que além de avaliar a melhor opção, concomitantemente, 2 ou 3 opções alternativas também são consideradas em caso de ser necessária uma mudança de abordagem. Utilizando a ressonância magnética funcional, foi identificado que a atividade cerebral de regiões distintas do cérebro estão associadas com aspectos específicos da tomada de decisão: a região do córtex frontal medial e a região do córtex frontopolar estimam, respectivamente, a confiabilidade da estratégia empregada e a das estratégias alternativas; o córtex cingulado dorsal anterior avalia a necessidade de explorar novas estratégias e o estriado ventral está associado com a validação da estratégia adotada.

Em resumo, o que os estudos do reinforcement learning sugerem é que através de um complexo e dinâmico sistema processamento executado por algumas áreas cerebrais integradas, nós somos capazes de aprender como nosso ambiente, decidir e maximizar nossa satisfação.

Tomar decisões e botá-las em prática é algo que fazemos todos os dias. Apenas pra ler este texto até o fim você teve que tomar uma decisão e leva-la pra frente. Só espero que seu estado de satisfação intelectual agora seja maior do que antes, assim você aprende que ler o Prisma é uma ótima decisão.

Referências

1 Algo que gera uma sensação boa, prazerosa e que aumenta a probabilidade de ocorrência da ação feita para obtê-lo novamente;

2 Algo que gera uma sensação negativa, e que diminua a probabilidade de ocorrência da ação feita para obtê-lo novamente

Richard Sutton e Andrew Barto (1998) Reinforcement Learning: An Introdutction MIT Press Cambridge, MA

Dayan P. e Niv Y. (2008) Reinforcement learning: The good, the bad and the ugly Curr Opin Neurobiol

Danoso M et al (2014) Human cognition. Foundations of human reasoning in the prefrontal cortex Science

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s