Os humanos são seres complicados. As formas como nos comunicamos são multifacetadas, e os psicólogos criaram muitos tipos de testes para medir nossa capacidade de inferir significado e compreensão das interações entre nós.
Os modelos de IA estão se aprimorando nesses testes. Uma nova pesquisa publicada no dia 20 de maio, na Nature Human Behavior, constatou que alguns modelos de linguagem de grande porte (LLMs) têm desempenho igual e, em alguns casos, superior ao dos seres humanos, quando submetidos a tarefas criadas para testar a capacidade de rastrear os estados mentais das pessoas, conhecida como “teoria da mente”.
Isso não significa que os sistemas de Inteligência Artificial sejam realmente capazes de descobrir como estamos nos sentimos. Porém eles demonstram que esses modelos estão tendo um desempenho cada vez melhor em experimentos criados para avaliar habilidades que os psicólogos acreditam ser exclusivas dos seres humanos. Para saber mais sobre os processos por trás dos sucessos e fracassos dos LLMs nessas tarefas, os pesquisadores queriam aplicar a mesma abordagem sistemática que usam para testar a teoria da mente em seres humanos.
Em teoria, quanto melhor os modelos de IA forem em imitar os seres humanos, mais úteis e empáticos eles poderão parecer em suas interações conosco. Tanto a OpenAI, quanto o Google, anunciaram na semana passada assistentes de IA superalimentados; o GPT-40 e o Astra foram projetados para fornecer respostas muito mais suaves e naturais do que seus antecessores. Porém devemos evitar cair na armadilha de acreditar que suas habilidades são semelhantes às humanas, mesmo que pareçam.
“Temos uma tendência natural de atribuir estados mentais, mente e intencionalidade a entidades que não têm uma mente”, diz Cristina Becchio, professora de neurociência do Centro Médico Universitário de Hamburgo-Eppendorf, que trabalhou na pesquisa. “Existe o risco de atribuir uma teoria da mente a grandes modelos de linguagem.”
A teoria da mente é uma marca registrada da inteligência emocional e social que nos permite interpretar as intenções das pessoas, nos envolver e ter empatia umas com as outras. A maioria das crianças adquire esse tipo de habilidade entre os três e cinco anos de idade.
Os pesquisadores testaram duas famílias de grandes modelos de linguagem, o GPT-3.5 e o GPT-4 da OpenAI, e três versões do Llama da Meta, em tarefas criadas para testar a teoria da mente em seres humanos, incluindo a identificação de crenças falsas, o reconhecimento de descuidos e a compreensão do que está sendo subentendido em vez de dito diretamente. Eles também testaram 1.907 participantes humanos para comparar os conjuntos de pontuações.
A equipe realizou cinco tipos de testes. O primeiro, a tarefa de insinuação, foi projetado para medir a capacidade de alguém inferir as reais intenções de outra pessoa por meio de comentários indiretos. O segundo, a tarefa de falsa crença, avalia se uma pessoa pode deduzir que outra pessoa pode razoavelmente acreditar em algo que ela sabe que não é verdade. Outro teste mediu a capacidade de reconhecer quando alguém está cometendo uma gafe, enquanto um quarto teste consistiu em contar histórias estranhas, nas quais um protagonista faz algo incomum, para avaliar se alguém consegue explicar o contraste entre o que foi dito e o que se pretendia dizer. A pesquisa também incluiu um teste para verificar se as pessoas conseguem compreender ironia.
Os modelos de IA foram submetidos a cada teste 15 vezes em bate-papos separados, para que tratassem cada solicitação de forma independente. Suas respostas foram pontuadas da mesma maneira usada para humanos. Em seguida, os pesquisadores testaram os voluntários humanos, e os dois conjuntos de pontuações foram comparados.
Ambas as versões do GPT tiveram desempenho igual ou, às vezes, superior às médias humanas em tarefas que envolviam solicitações indiretas, direcionamento incorreto e crenças falsas. O GPT-4 superou os humanos nos testes de ironia, dicas e histórias estranhas. Os três modelos da Llama 2 tiveram desempenho abaixo da média humana.
No entanto, o Llama 2, o maior dos três modelos da Meta testados, superou os humanos quando se tratou de reconhecer cenários de gafes, enquanto o GPT forneceu respostas incorretas de forma consistente. Os autores acreditam que isso se deve à aversão geral da GPT em gerar conclusões sobre opiniões, pois os modelos responderam, em grande parte, que não havia informações suficientes para que eles respondessem de uma forma ou de outra.
“Com certeza esses modelos não estão demonstrando a teoria da mente de um ser humano.”, diz o pesquisador. “Mas o que mostramos é que há um potencial aqui para chegar a conclusões mentais e raciocinar sobre a mente de personagens ou pessoas.”
Um dos motivos pelos quais os LLMs podem ter tido um desempenho tão bom foi o fato de que esses testes psicológicos são muito bem estabelecidos e, por isso, provavelmente eles já haviam sido incluídos nos dados de treinamento destes modelos de linguagem, diz Maarten Sap, professor assistente da Universidade Carnegie Mellon, que não trabalhou na pesquisa. “É muito importante reconhecer que, quando você aplica um teste de falsa crença em uma criança, ela provavelmente nunca viu esse teste exato antes, mas os modelos de linguagem podem ter visto”, diz ele.
Em última análise, ainda não entendemos como os LLMs funcionam. Pesquisas como essa podem ajudar a aprofundar nossa compreensão do que esses tipos de modelos podem ou não fazer, diz Tomer Ullman, cientista cognitivo da Universidade de Harvard, que não trabalhou no projeto. No entanto, é importante ter em mente o que realmente estamos medindo quando definimos testes de LLMs como esses. Se uma Inteligência Artificial superar o ser humano em um teste criado para medir a teoria da mente, isso não significa que a IA tenha uma teoria da mente.
“Não sou contra benchmarks, mas faço parte de um grupo de pessoas preocupadas com o fato de estarmos chegando ao fim da utilidade da forma como usamos os benchmarks”, diz Ullman. “Por mais que essa coisa tenha aprendido a passar no benchmark, não é – acho que não seja – de uma forma semelhante à humana.”
—
Sobre o autor
Por Rhiannon Williams. Williams é reporter e escreve para a principal newsletter de tecnologia da MIT Techonology Review, a The Download.