Alguns chatbots de IA dependem de pesquisas falhas de artigos científicos retratados para responder a perguntas, de acordo com estudos recentes. As conclusões, confirmadas pela MIT Technology Review, levantam dúvidas sobre a fiabilidade das ferramentas de IA na avaliação de pesquisas científicas e podem complicar os esforços de países e indústrias que procuram investir em ferramentas de IA para cientistas.
As ferramentas de pesquisa de IA e os chatbots já são conhecidos por fabricarem ligações e referências. Mas respostas baseadas em material de artigos reais também podem induzir em erro se esses artigos tiverem sido retratados. O chatbot está “a usar um artigo real, material real, para lhe dizer algo”, afirma Weikuan Gu, investigador médico da Universidade do Tennessee em Memphis e autor de um dos estudos recentes. Mas, diz ele, se as pessoas olharem apenas para o conteúdo da resposta e não clicarem no artigo para ver que foi retratado, isso é realmente um problema.
Gu e a sua equipa fizeram perguntas ao ChatGPT da OpenAI, a correr no modelo GPT-4o, baseadas em informações de 21 artigos retratados sobre imagiologia médica. As respostas do chatbot referenciaram artigos retratados em cinco casos, mas aconselharam cautela apenas em três. Embora tenha citado artigos não retratados noutras perguntas, os autores observam que o sistema pode não ter reconhecido o estatuto de retratação dos artigos. Num estudo de agosto, um grupo diferente de investigadores usou o ChatGPT-4o mini para avaliar a qualidade de 217 artigos retratados e de baixa qualidade de diferentes áreas científicas; concluíram que nenhuma das respostas do chatbot mencionava retratações ou outras preocupações. (Não foram divulgados estudos semelhantes sobre o GPT-5, lançado em agosto.)
O público usa chatbots de IA para pedir conselhos médicos e diagnosticar condições de saúde. Estudantes e cientistas recorrem cada vez mais a ferramentas de IA focadas em ciência para rever literatura científica existente e resumir artigos. Esse tipo de utilização provavelmente vai aumentar. A National Science Foundation dos EUA, por exemplo, investiu 75 milhões de dólares em agosto na construção de modelos de IA para investigação científica.
“Se [uma ferramenta] está voltada para o público em geral, então usar a retratação como uma espécie de indicador de qualidade é muito importante”, afirma Yuanxi Fu, investigadora em ciência da informação na Universidade de Illinois em Urbana-Champaign. Há “uma espécie de consenso de que os artigos retratados foram riscados do registo da ciência”, diz ela, “e as pessoas que estão fora da ciência — elas devem ser alertadas de que estes são artigos retratados.” A OpenAI não forneceu uma resposta a um pedido de comentário sobre os resultados do artigo.
O problema não se limita ao ChatGPT. Em junho, a MIT Technology Review testou ferramentas de IA especificamente anunciadas para trabalhos de investigação, como Elicit, Ai2 ScholarQA (agora parte da ferramenta Asta do Allen Institute for Artificial Intelligence), Perplexity e Consensus, usando perguntas baseadas nos 21 artigos retratados no estudo de Gu. O Elicit referenciou cinco dos artigos retratados nas suas respostas, enquanto o Ai2 ScholarQA referenciou 17, o Perplexity 11 e o Consensus 18 — todos sem mencionar as retratações.
Algumas empresas tomaram desde então medidas para corrigir o problema. “Até recentemente, não tínhamos bons dados de retratação no nosso motor de busca”, afirma Christian Salem, cofundador da Consensus. A sua empresa começou agora a usar dados de retratação provenientes de uma combinação de fontes, incluindo editoras e agregadores de dados, rastreamento independente da web e o Retraction Watch, que organiza manualmente e mantém uma base de dados de retratações. Num teste com os mesmos artigos em agosto, a Consensus citou apenas cinco artigos retratados.
A Elicit disse à MIT Technology Review que remove artigos retratados sinalizados pelo catálogo de investigação académica OpenAlex da sua base de dados e que está “ainda a trabalhar na agregação de fontes de retratações”. A Ai2 disse-nos que a sua ferramenta não deteta nem remove automaticamente artigos retratados atualmente. A Perplexity afirmou que “[nunca] alega ser 100% precisa.”
No entanto, depender de bases de dados de retratação pode não ser suficiente. Ivan Oransky, cofundador do Retraction Watch, tem o cuidado de não descrevê-la como uma base de dados abrangente, dizendo que criar uma exigiria mais recursos do que qualquer um possui: “A razão pela qual é intensivo em recursos é porque alguém tem de fazer tudo manualmente se quiser que seja preciso.”
Complicando ainda mais a questão está o facto de as editoras não partilharem uma abordagem uniforme para os avisos de retratação. “Quando os artigos são retratados, podem ser assinalados como tal de formas muito diferentes”, afirma Caitlin Bakker, da Universidade de Regina, no Canadá, especialista em ferramentas de investigação e descoberta. “Correção”, “expressão de preocupação”, “errata” e “retratado” estão entre algumas das etiquetas que as editoras podem acrescentar a artigos científicos — e essas etiquetas podem ser aplicadas por muitas razões, incluindo preocupações com o conteúdo, a metodologia e os dados ou a presença de conflitos de interesse.
Alguns investigadores distribuem os seus artigos em servidores de pré-publicação, repositórios de artigos e outros sites, fazendo com que cópias fiquem espalhadas pela internet. Além disso, os dados usados para treinar modelos de IA podem não estar atualizados. Se um artigo for retratado após a data limite de treino do modelo, as suas respostas podem não refletir instantaneamente o que está a acontecer, diz Fu. A maioria dos motores de busca académicos não faz uma verificação em tempo real contra dados de retratação, pelo que fica dependente da precisão do corpus, afirma Aaron Tay, bibliotecário na Singapore Management University.
Oransky e outros especialistas defendem que se disponibilize mais contexto para os modelos utilizarem ao criar uma resposta. Isso pode significar publicar informações que já existem, como revisões por pares encomendadas por revistas e críticas do site de revisão PubPeer, juntamente com o artigo publicado.
Muitas editoras, como a Nature e o BMJ, publicam avisos de retratação como artigos separados, ligados ao artigo original, fora de paywalls. Fu afirma que as empresas precisam de usar efetivamente essas informações, bem como quaisquer artigos noticiosos nos dados de treino de um modelo que mencionem a retratação de um artigo.
Os utilizadores e criadores de ferramentas de IA precisam de fazer a devida diligência. “Estamos numa fase muito, muito inicial e, essencialmente, tem de se ser cético”, diz Tay.