Saúde
Novo estudo revela como o cérebro aprende que ações levam à recompensa
Estas descobertas podem ter um forte impacto em diversos campos, da educação à inteligência artificial
Problema de atribuição de crédito
Imagine ensinar um cãozinho a correr para pegar coisas: Você atira uma bola, o filhote corre atrás dela, apanha-a e volta correndo. Ao retornar, ele ganha uma recompensa, um biscoito, por exemplo.
Parece simples, mas há um grande desafio para o cão: Descobrir naquela sequência de eventos qual parte justificou a guloseima. Os cientistas chamam a isto “problema de atribuição de crédito” no cérebro. É uma questão fundamental inerente à compreensão de quais são as ações responsáveis pelos resultados positivos que vivenciamos.
Sabe-se que a dopamina, um mensageiro químico chave no cérebro, desempenha um papel crucial nesse processo. Mas como é que o cérebro liga determinadas ações específicas à liberação de dopamina ainda não estava claro. Por isso, uma equipe de cientistas financiados pelo Centro Champalimaud (Portugal) decidiu averiguar melhor a questão.
Jonathan Tang e seus colegas descobriram que a dopamina não apenas sinaliza uma recompensa, mas também orienta os animais a identificarem os comportamentos específicos que, por tentativa e erro, conduzem a essas recompensas.
Curiosamente, a investigação mostra também que o sistema de recompensa do cérebro pode alterar dinâmica e rapidamente toda uma multiplicidade de movimentos e comportamentos de um animal. Isto destaca uma estratégia de aprendizagem sofisticada, na qual os comportamentos não são apenas reforçados, mas ativamente moldados e ajustados através da experiência – é muito mais complicado do que as conclusões diretas do famoso experimento dos cães de Pavlov.
“Quando reforçamos um comportamento, muitas vezes pensamos que estamos apenas reforçando essa ação. Mas não: Estamos mudando toda a estrutura comportamental. E o que foi realmente surpreendente, foi a rapidez com que isso aconteceu,” detalhou o professor Rui Costa.
O estudo envolveu um detalhamento inédito das associações entre comportamento e aprendizado.
Decodificando a conexão entre dopamina e aprendizagem
Para perceber o que está na base desta observação, a equipe contou com a colaboração de engenheiros e neurocientistas para desenvolver um novo sistema de circuito fechado que pudesse associar ações específicas de camundongos à liberação de dopamina, em tempo real.
Os animais receberam então sensores sem fios para registrar os seus movimentos dentro de um espaço simples e controlado. Os dados foram posteriormente submetidos a um algoritmo de aprendizagem automática, que categorizou essas ações em grupos distintos. A seguir, os cientistas usaram a optogenética, um método para controlar neurônios através da luz, para estimular os neurônios dopaminérgicos, sempre que os camundongos realizavam as “ações-alvo” predefinidas.
Os dados mostraram que os animais mudaram rapidamente seu comportamento em resposta à liberação de dopamina. Inicialmente, não só aumentaram a frequência da ação-alvo, como também de ações semelhantes e daquelas que ocorreram alguns segundos antes da liberação de dopamina. Simultaneamente, as ações que divergiam das ações-alvo diminuíram rapidamente. Com o tempo, esse refinamento tornou-se mais preciso, com os camundongos focando-se cada vez mais na ação exata que levou à liberação de dopamina.
O estudo também analisou como os animais aprendem uma série de ações, revelando um processo-chave semelhante a voltar no tempo para entender o que leva a uma recompensa. Quando as ações que desencadearam a liberação de dopamina ocorreram com uma maior distância temporal, os camundongos aprenderam mais lentamente, o que mostra que esperas mais longas entre as ações tornam mais difícil a associação de uma sequência de ações à recompensa.
Em essência, as ações imediatamente anteriores à atribuição da recompensa são rapidamente compreendidas e melhoradas, enquanto as ações anteriores são melhoradas de forma mais gradual. Este processo de “retrocesso” fortalece o comportamento e ajuda os camundongos a identificar progressivamente quais as ações e sequências de comportamento precisas originaram a recompensa.
O inconsciente também ajuda no aprendizado.
Inteligência artificial
Segundo os cientistas, estas descobertas podem ter um forte impacto em diversos campos, da educação à inteligência artificial, mostrando, por exemplo, que a exploração, os erros e a melhoria gradual na sala de aula podem estar mais de acordo com os processos de aprendizagem inatos do nosso cérebro.
Na inteligência artificial, estas conclusões poderão levar ao desenvolvimento de sistemas de aprendizagem mais sofisticados e eficientes. Ao conseguirmos replicar melhor os processos de aprendizagem biológica, poderemos criar uma IA que melhor se adapte a novos dados e situações.
“Assumimos muitas coisas como garantidas, nomeadamente sobre como as coisas funcionam, incluindo a atribuição de crédito à ação que resultou na recompensa,” comentou Tang. “Mas é quando começamos a explorar mais a fundo que percebemos a complexidade.”