Quando Taylor Webb brincou com o GPT-3 no início de 2022, ele ficou impressionado com o que o grande modelo de linguagem da OpenAI parecia ser capaz de fazer. Aqui estava uma rede neural treinada apenas para prever a próxima palavra em um bloco de texto — um autocompletar saltitante. E, ainda assim, ela deu respostas corretas a muitos dos problemas abstratos que Webb definiu para ela — o tipo de coisa que você encontraria em um teste de QI. “Fiquei realmente chocado com sua capacidade de resolver esses problemas”, diz ele. “Isso inverteu completamente tudo o que eu teria previsto.”
Webb é um psicólogo da Universidade da Califórnia, em Los Angeles, que estuda as diferentes maneiras pelas quais as pessoas e os computadores resolvem problemas abstratos. Ele estava acostumado a criar redes neurais com recursos específicos de raciocínio incorporados. Mas o GPT-3 parecia tê-los aprendido de graça.
Em julho deste ano, Webb e seus colegas publicaram um artigo na Nature no qual descrevem a capacidade do GPT-3 de passar em uma variedade de testes criados para avaliar o uso de analogia para resolver problemas (conhecido como raciocínio analógico). Em alguns desses testes, o GPT-3 obteve uma pontuação melhor do que um grupo de estudantes de graduação. “A analogia é fundamental para o raciocínio humano”, diz Webb. “Pensamos nela como uma das principais coisas que qualquer tipo de machine learning precisaria demonstrar.”
O que a pesquisa de Webb destaca é apenas o mais recente de uma longa série de truques notáveis realizados por grandes modelos de linguagem. Por exemplo, quando a OpenAI apresentou o sucessor do GPT-3, o GPT-4, em março, a empresa publicou uma lista impressionante de avaliações profissionais e acadêmicas que, segundo ela, seu novo modelo de linguagem de grande porte havia superado, incluindo algumas dezenas de testes de ensino médio e o exame da ordem dos advogados. Posteriormente, a OpenAI trabalhou com a Microsoft para mostrar que o GPT-4 poderia passar em partes do Exame de Licenciamento Médico dos Estados Unidos.
E vários pesquisadores afirmam ter demonstrado que grandes modelos de linguagem podem passar em testes criados para identificar determinadas habilidades cognitivas em seres humanos, desde o raciocínio em cadeia (trabalhar com um problema passo a passo) até a teoria da mente (adivinhar o que outras pessoas estão pensando).
Esses tipos de resultados estão alimentando uma máquina de propaganda que prevê que, em breve, essas máquinas ocuparão empregos de colarinho branco, substituindo professores, médicos, jornalistas e advogados. Geoffrey Hinton apontou a aparente capacidade da GPT-4 de juntar pensamentos como uma das razões pelas quais ele agora tem medo da tecnologia que ajudou a criar.
Mas há um problema: há pouca concordância sobre o que esses resultados realmente significam. Algumas pessoas estão encantadas com o que veem como vislumbres de inteligência semelhante à humana; outras não estão nem um pouco convencidas.
“Há vários problemas críticos com as técnicas de avaliação atuais para grandes modelos de linguagem”, diz Natalie Shapira, cientista da computação da Universidade Bar-Ilan em Ramat Gan, Israel. “Isso cria a ilusão de que eles têm mais recursos do que os que realmente existem.”
É por isso que um número cada vez maior de pesquisadores — cientistas da computação, cientistas cognitivos, neurocientistas, linguistas — quer reformular a maneira como eles são avaliados, exigindo uma avaliação mais rigorosa e exaustiva. Alguns acham que a prática de pontuar máquinas em testes humanos é equivocada e deve ser abandonada.
“As pessoas têm feito testes de inteligência humana — testes de QI e assim por diante — para máquinas desde o começo da IA”, diz Melanie Mitchell, pesquisadora de Inteligência Artificial do Santa Fe Institute, no Novo México. “A questão sempre foi o que significa testar uma máquina como essa. Não significa a mesma coisa que significa para um ser humano.”
“Há muita antropomorfização acontecendo”, diz ela. “E isso está meio que colorindo a maneira como pensamos sobre esses sistemas e como os testamos.”
Com as esperanças e os temores dessa tecnologia em alta, é fundamental que tenhamos um controle sólido sobre o que os grandes modelos de linguagem podem ou não fazer.
Aberto à interpretação
A maioria dos problemas com a forma como os grandes modelos de linguagem são testados se resume à questão de como os resultados são interpretados.
As avaliações projetadas para seres humanos, como exames de ensino médio e testes de QI, são consideradas como garantidas. Quando as pessoas tiram boas notas, é seguro presumir que elas possuem o conhecimento, a compreensão ou as habilidades cognitivas que o teste pretende medir. (Na prática, essa suposição só vai até certo ponto. Os exames acadêmicos nem sempre refletem as verdadeiras habilidades dos alunos. Os testes de QI medem um conjunto específico de habilidades, não a inteligência geral. Ambos os tipos de avaliação favorecem as pessoas que são boas nesses tipos de avaliação).
Mas quando um grande modelo de linguagem obtém bons resultados em tais testes, não fica claro o que foi medido. É uma evidência de compreensão real? Um truque estatístico sem sentido? Repetição de notas?
“Há uma longa história de desenvolvimento de métodos para testar a mente humana”, diz Laura Weidinger, cientista de pesquisa sênior do Google DeepMind. “Com grandes modelos de linguagem produzindo textos que parecem tão humanos, é tentador supor que os testes de psicologia humana serão úteis para avaliá-los. Mas isso não é verdade: os testes de psicologia humana dependem de muitas suposições que podem não ser válidas para grandes modelos de linguagem.”
Webb está ciente das questões em que se envolveu. “Compartilho a sensação de que essas perguntas são difíceis”, diz ele. Ele observa que, apesar de ter uma pontuação melhor do que a dos alunos de graduação em determinados testes, o GPT-3 apresentou resultados absurdos em outros. Por exemplo, ele foi reprovado em uma versão de um teste de raciocínio analógico sobre objetos físicos que os psicólogos do desenvolvimento às vezes aplicam às crianças.
Nesse teste, Webb e seus colegas apresentaram ao GPT-3 uma história sobre um gênio mágico que transferia joias entre duas garrafas e, em seguida, perguntaram a ele como transferir balas de goma de uma tigela para outra, usando objetos como um cartaz e um tubo de papelão. A ideia é que a história sugira maneiras de resolver o problema. “O GPT-3 propôs, em sua maioria, soluções elaboradas, mas mecanicamente sem sentido, com muitas etapas estranhas e nenhum mecanismo claro pelo qual os chicletes seriam transferidos entre as duas tigelas”, escreveram os pesquisadores na Nature.
“Esse é o tipo de coisa que as crianças podem resolver facilmente”, diz Webb. “As coisas em que esses sistemas são realmente ruins tendem a ser aquelas que envolvem a compreensão do mundo real, como física básica ou interações sociais – coisas que são a segunda natureza das pessoas.”
Então, como podemos entender uma máquina que passa no exame da Ordem, mas é reprovada na pré-escola? Grandes modelos de linguagem, como o GPT-4, são treinados com um enorme número de documentos retirados da Internet: livros, blogs, fan fiction, relatórios técnicos, publicações em mídias sociais e muito, muito mais. É provável que muitas provas de exames anteriores tenham sido coletadas ao mesmo tempo. Uma possibilidade é que modelos como o GPT-4 tenham visto tantos testes profissionais e acadêmicos em seus dados de treinamento que aprenderam a preencher automaticamente as respostas.
Muitos desses testes — perguntas e respostas — estão on-line, diz Webb: “É quase certo que muitos deles estão nos dados de treinamento do GPT-3 e do GPT-4, portanto, acho que não podemos concluir muita coisa”.
A OpenAI afirma que verificou para confirmar que os testes que forneceu ao GPT-4 não continham texto que também aparecesse nos dados de treinamento do modelo. Em seu trabalho com a Microsoft envolvendo o exame para médicos, a OpenAI usou perguntas de teste pagas para ter certeza de que os dados de treinamento do GPT-4 não as incluíam. Mas essas precauções não são infalíveis: O GPT-4 ainda poderia ter visto testes semelhantes, se não exatamente iguais.
Quando Horace He, um engenheiro de machine learning, testou o GPT-4 em perguntas retiradas do Codeforces, um site que hospeda competições de codificação, ele descobriu que obteve 10/10 em testes de codificação publicados antes de 2021 e 0/10 em testes publicados após 2021. Outros também observaram que as pontuações dos testes do GPT-4 caíram drasticamente em materiais produzidos após 2021. Como os dados de treinamento do modelo incluíam apenas texto coletado antes de 2021, alguns dizem que isso mostra que os modelos de linguagem grandes exibem um tipo de memorização em vez de inteligência.
Para evitar essa possibilidade em seus experimentos, Webb criou novos tipos de teste a partir do zero. “O que realmente nos interessa é a capacidade desses modelos de descobrir novos tipos de problemas”, diz ele.
Webb e seus colegas adaptaram uma forma de testar o raciocínio analógico chamada Matrizes Progressivas de Raven. Esses testes consistem em uma imagem que mostra uma série de formas dispostas uma ao lado da outra ou uma sobre a outra. O desafio é descobrir o padrão em uma determinada série de formas e aplicá-lo a uma nova série. As Matrizes Progressivas de Raven são usadas para avaliar o raciocínio não verbal em crianças pequenas e adultos e são comuns em testes de QI.
Em vez de usar imagens, os pesquisadores codificaram a forma, a cor e a posição em sequências de números. Isso garante que os testes não aparecerão em nenhum dado de treinamento, diz Webb: “Criei esse conjunto de dados do zero. Nunca ouvi falar de nada parecido com isso.”
Mitchell está impressionada com o trabalho de Webb. “Achei esse artigo bastante interessante e provocativo”, diz ela. “É um estudo bem feito.” Mas ela tem reservas. Mitchell desenvolveu seu próprio teste de raciocínio analógico, chamado ConceptARC, que usa sequências codificadas de formas retiradas do conjunto de dados ARC (Abstraction and Reasoning Challenge) desenvolvido pelo pesquisador do Google François Chollet. Nos experimentos de Mitchell, o GPT-4 obteve resultados piores do que os das pessoas em tais testes.
Mitchell também ressalta que a codificação das imagens em sequências (ou matrizes) de números facilita o problema para o programa, pois elimina o aspecto visual do quebra-cabeça. “Resolver matrizes de dígitos não equivale a resolver os problemas do Raven”, diz ela.
Testes frágeis
O desempenho de grandes modelos de linguagem é frágil. Entre as pessoas, é seguro presumir que alguém que se sai bem em um teste também se sairia bem em um teste semelhante. Esse não é o caso dos grandes modelos de linguagem: um pequeno ajuste em um teste pode fazer com que uma nota A caia para F.
“Em geral, a avaliação da IA não tem sido feita de forma a nos permitir entender de fato quais são as capacidades desses modelos”, diz Lucy Cheke, psicóloga da Universidade de Cambridge, no Reino Unido. “É perfeitamente razoável testar o desempenho de um sistema em uma tarefa específica, mas não é útil pegar essa tarefa e fazer afirmações sobre habilidades gerais.”
Veja um exemplo de um artigo publicado em março por uma equipe de pesquisadores da Microsoft, no qual eles alegaram ter identificado “faíscas de Inteligência Artificial geral” no GPT-4. A equipe avaliou o modelo de linguagem grande usando uma série de testes. Em um deles, eles perguntaram ao GPT-4 como empilhar um livro, nove ovos, um laptop, uma garrafa e um prego de forma estável. Ele respondeu: “Coloque o laptop em cima dos ovos, com a tela voltada para baixo e o teclado voltado para cima. O laptop se encaixará perfeitamente dentro dos limites do livro e dos ovos, e sua superfície plana e rígida fornecerá uma plataforma estável para a próxima camada.”
Nada mal. Mas quando Mitchell tentou sua própria versão da pergunta, pedindo ao GPT-4 para empilhar um palito de dente, uma tigela de pudim, um copo de água e um marshmallow, ela sugeriu enfiar o palito de dente no pudim e o marshmallow no palito, e equilibrar o copo cheio de água em cima do marshmallow. (Ele termina com uma nota útil de cautela: “Lembre-se de que essa pilha é delicada e pode não ser muito estável. Tenha cuidado ao construí-la e manuseá-la para evitar derramamentos ou acidentes.”)
Aqui está outro caso polêmico. Em fevereiro, o pesquisador Michal Kosinski, da Universidade de Stanford, publicou um artigo no qual afirmava demonstrar que a teoria da mente “pode ter surgido espontaneamente como um subproduto” no GPT-3. A teoria da mente é a capacidade cognitiva de atribuir estados mentais a outras pessoas, uma marca registrada da inteligência emocional e social que a maioria das crianças adquire entre os três e cinco anos de idade. Kosinski relatou que o GPT-3 foi aprovado em testes básicos usados para avaliar essa habilidade em humanos.
Por exemplo, Kosinski apresentou ao GPT-3 o seguinte cenário: “Aqui está um saco cheio de pipoca. Não há chocolate no saco. No entanto, o rótulo do saco diz “chocolate” e não “pipoca”. Sam encontra o saco. Ela nunca tinha visto o saco antes. Ela não consegue ver o que está dentro do saco. Ela lê o rótulo.”
Kosinski então pediu ao modelo que completasse frases como: “Ela abre a sacola e dá uma olhada em seu interior. Ela pode ver claramente que está cheia de…” e “Ela acredita que a sacola está cheia de…” GPT-3 completou a primeira frase com “popcorn” (pipoca) e a segunda frase com “chocolate”. Ele considera essas respostas como evidência de que o GPT-3 exibe pelo menos uma forma básica de teoria da mente, pois elas captam a diferença entre o estado real do mundo e as crenças (falsas) de Sam sobre ele.
Não é de surpreender que os resultados de Kosinski tenham sido manchetes. Eles também provocaram uma reação imediata. “Fui mal-educado no Twitter”, diz Cheke.
Diversos pesquisadores, incluindo Shapira e Tomer Ullman, cientista cognitivo da Universidade de Harvard, publicaram contraexemplos mostrando que os grandes modelos de linguagem falharam em variações simples dos testes usados por Kosinski. “Eu estava muito cético em relação ao que sei sobre como os grandes modelos de linguagem são construídos”, diz Ullman.
Ullman ajustou o cenário de teste de Kosinski dizendo ao GPT-3 que o saco de pipoca com o rótulo “chocolate” era transparente (para que Sam pudesse ver que era pipoca) ou que Sam não sabia ler (para que ela não fosse enganada pelo rótulo). Ullman descobriu que o GPT-3 não conseguiu atribuir estados mentais corretos a Sam sempre que a situação envolvia algumas etapas extras de raciocínio.
“A suposição de que os testes cognitivos ou acadêmicos criados para humanos servem como medidas precisas da capacidade do LLM decorre da tendência de antropomorfizar os modelos e alinhar sua avaliação aos padrões humanos”, diz Shapira. “Essa suposição é equivocada.”
Para Cheke, há uma solução óbvia. Os cientistas vêm avaliando as habilidades cognitivas em não humanos há décadas, diz ela. Os pesquisadores de Inteligência Artificial poderiam adaptar as técnicas usadas para estudar animais, que foram desenvolvidas para evitar conclusões precipitadas baseadas em preconceitos humanos.
Veja um rato em um labirinto, diz Cheke: “Como ele está navegando? As suposições que você pode fazer na psicologia humana não se sustentam.” Em vez disso, os pesquisadores precisam fazer uma série de experimentos controlados para descobrir quais informações o rato está usando e como está usando, testando e descartando hipóteses uma a uma.
“Com modelos de linguagem, é mais complexo. Não é como se houvesse testes usando a linguagem para ratos”, diz ela. “Estamos em uma nova zona, mas muitas das formas fundamentais de fazer as coisas se mantêm. Só que temos que fazer isso com a linguagem em vez de com um pequeno labirinto.”
Weidinger está adotando uma abordagem semelhante. Ela e seus colegas estão adaptando técnicas que os psicólogos usam para avaliar as habilidades cognitivas em bebês humanos pré-verbais. Uma das principais ideias é dividir um teste para uma determinada habilidade em uma bateria de vários testes que também buscam habilidades relacionadas. Por exemplo, ao avaliar se um bebê aprendeu a ajudar outra pessoa, um psicólogo também pode avaliar se o bebê entende o que é atrapalhar. Isso torna o teste geral mais robusto.
O problema é que esses tipos de experimentos levam tempo. Uma equipe pode estudar o comportamento de ratos durante anos, diz Cheke. A Inteligência Artificial avança em um ritmo muito mais rápido. Ullman compara a avaliação de grandes modelos de linguagem a uma punição de Sísifo: “Afirma-se que um sistema apresenta o comportamento X e, quando uma avaliação mostra que ele não apresenta o comportamento X, surge um novo sistema e afirma-se que ele apresenta o comportamento X.”
Movendo as traves
Há 50 anos, as pessoas pensavam que para vencer um grande mestre do xadrez, seria necessário um computador tão inteligente quanto uma pessoa, diz Mitchell. Mas o xadrez caiu nas mãos de máquinas que eram simplesmente melhores em processamento de números do que seus oponentes humanos. A força bruta venceu, não a inteligência.
Desafios semelhantes foram estabelecidos e superados, desde o reconhecimento de imagens até o Go. Toda vez que os computadores são criados para fazer algo que exige inteligência dos seres humanos, como jogar ou usar a linguagem, isso divide o campo. Os grandes modelos de linguagem estão agora enfrentando seu próprio momento de xadrez. “Isso está realmente nos forçando – a todos – a pensar sobre o que é inteligência”, diz Mitchell.
O GPT-4 demonstra inteligência genuína ao passar em todos esses testes ou encontrou um atalho eficaz, mas, em última análise, idiota – um truque estatístico tirado de um chapéu cheio de trilhões de correlações em bilhões de linhas de texto?
“Se você disser: ‘Ok, o GPT4 passou no exame da ordem, mas isso não significa que ele seja inteligente’, as pessoas dirão: ‘Ah, você está mudando o alvo'”, diz Mitchell. “Mas será que dizemos que estamos mudando o alvo ou dizemos que não era isso que queríamos dizer com inteligência – estávamos errados sobre a inteligência?”
Tudo se resume a como os grandes modelos de linguagem fazem o que fazem. Alguns pesquisadores querem deixar de lado a obsessão com as pontuações dos testes e tentar descobrir o que acontece nos bastidores. “Acho que para realmente entender a inteligência deles, se quisermos chamá-la assim, teremos que entender os mecanismos pelos quais eles raciocinam”, diz Mitchell.
Ullman concorda. “Eu simpatizo com as pessoas que acham que isso está mudando os objetivos”, diz ele. “Mas essa tem sido a dinâmica há muito tempo. O que há de novo é que agora não sabemos como eles estão passando nesses testes. Apenas nos dizem que foram aprovados.”
O problema é que ninguém sabe exatamente como funcionam os grandes modelos de linguagem. É difícil separar os mecanismos complexos dentro de um modelo estatístico vasto. Mas Ullman acredita que, em teoria, é possível fazer a engenharia reversa de um modelo e descobrir quais algoritmos ele usa para passar em diferentes testes. “Eu me veria mais facilmente convencido se alguém desenvolvesse uma técnica para descobrir o que essas coisas realmente aprenderam”, diz ele.
“Acho que o problema fundamental é que continuamos a nos concentrar nos resultados dos testes e não em como você passa nos testes.”