Sempre que um novo modelo de IA é lançado, ele é geralmente apresentado como um grande avanço por superar uma série de benchmarks. O GPT-4 da OpenAI, por exemplo, foi anunciado em março junto com resultados que mostravam seu desempenho superando outros modelos de IA mais recentes em diversos testes.
O problema, segundo novas pesquisas, é que esses benchmarks são mal projetados, os resultados são difíceis de reproduzir, e as métricas usadas são frequentemente arbitrárias. Isso é preocupante, pois as pontuações dos modelos nesses benchmarks podem determinar o nível de escrutínio e regulamentação que eles receberão.
“Parece ser um verdadeiro Velho Oeste, porque realmente não temos bons padrões de avaliação”, diz Anka Reuel, uma das autoras do estudo, doutoranda em Ciência da Computação na Universidade de Stanford e integrante do Centro de Segurança em IA da instituição.
Um benchmark é essencialmente um teste aplicado a um modelo de IA. Ele pode ter formato de múltipla escolha, como o popular Massive Multitask Language Understanding (MMLU), ou avaliar a capacidade da IA em executar tarefas específicas ou na qualidade das respostas geradas para uma série de perguntas.
Empresas de IA frequentemente citam benchmarks como prova do sucesso de novos modelos. “Os desenvolvedores desses modelos tendem a otimizá-los para benchmarks específicos”, afirma Anna Ivanova, professora de Psicologia no Instituto de Tecnologia da Geórgia e líder do laboratório de Linguagem, Inteligência e Pensamento (LIT), que não participou da pesquisa de Stanford.
Esses benchmarks já fazem parte de alguns planos governamentais de regulamentação de IA. Por exemplo, a Lei de IA da União Europeia, que entrará em vigor em agosto de 2025, utiliza benchmarks para determinar se um modelo apresenta “risco sistêmico”. Modelos considerados arriscados estarão sujeitos a maior escrutínio e regulamentação. No Reino Unido, o Instituto de Segurança em IA cita benchmarks em sua estrutura Inspect, voltada para avaliar a segurança de grandes modelos de linguagem.
Mas, atualmente, esses benchmarks podem não ser adequados para desempenhar esse papel. “Há um falso senso de segurança sendo criado pelos benchmarks, caso eles não sejam bem projetados, especialmente em aplicações críticas”, diz Reuel. “Pode parecer que o modelo é seguro, mas não é.”
Reconhecendo a importância crescente dos benchmarks, Reuel e sua equipe decidiram analisar os mais populares para entender o que caracteriza um bom benchmark e avaliar sua robustez. No entanto, ao tentar reproduzir os resultados apresentados pelos desenvolvedores, frequentemente não conseguiram.
Para testar um benchmark, normalmente são necessárias instruções ou códigos específicos. Muitos criadores de benchmarks não disponibilizam publicamente os códigos necessários. Em outros casos, o código está desatualizado.
Outro problema é que benchmarks frequentemente ficam “saturados”. Isso significa que os desafios apresentados já foram praticamente resolvidos. Por exemplo, imagine um teste com problemas de matemática simples. A primeira geração de um modelo de IA obtém 20% de acerto, a segunda alcança 90% e a terceira, 93%. Para um observador externo, esses resultados podem indicar que o progresso da IA está desacelerando, mas outra interpretação seria que o benchmark foi superado e já não é mais uma medida eficaz de progresso.
Um dos objetivos da pesquisa foi criar uma lista de critérios que definem um bom benchmark. “Discutir a qualidade dos benchmarks, o que queremos e precisamos deles, é um problema importante”, afirma Ivanova. “A questão é que não há um padrão único para definir benchmarks. Este estudo é uma tentativa de oferecer critérios de avaliação, o que é muito útil.”
O estudo foi acompanhado pelo lançamento de um site, o BetterBench, que classifica os benchmarks mais populares de IA. Os fatores avaliados incluem se especialistas foram consultados durante a elaboração, se a capacidade testada está bem definida e outros aspectos básicos, como a existência de um canal de feedback ou revisão por pares.
O benchmark MMLU teve as classificações mais baixas. “Discordo dessas avaliações. Na verdade, sou autor de alguns dos trabalhos melhor classificados, mas considero que os benchmarks de classificação mais baixa são melhores do que eles”, diz Dan Hendrycks, diretor do Centro de Segurança em IA (CAIS) e um dos criadores do MMLU. Apesar disso, Hendrycks concorda que o melhor caminho para o avanço do campo é criar benchmarks melhores.
Alguns especialistas apontam que os critérios podem ignorar questões mais amplas. “O estudo traz algo valioso. Critérios de implementação e documentação são importantes; eles tornam os benchmarks melhores”, afirma Marius Hobbhahn, CEO da Apollo Research, organização especializada em avaliações de IA. “Mas, para mim, a pergunta mais importante é: você está medindo o que realmente importa? É possível cumprir todos os critérios, mas ainda assim ter um benchmark terrível porque ele não mede o que deveria.”
Por exemplo, mesmo um benchmark perfeitamente projetado para testar a capacidade de análise de sonetos de Shakespeare pode ser inútil se a preocupação principal for a habilidade da IA em hackear sistemas.
“Você verá benchmarks que afirmam medir raciocínio moral. Mas o que isso significa muitas vezes não está bem definido. Especialistas no domínio estão sendo incorporados ao processo? Geralmente, isso não acontece”, diz Amelia Hardy, outra autora do estudo e pesquisadora de IA na Universidade de Stanford.
Organizações estão se esforçando para melhorar a situação. Por exemplo, um novo benchmark da Epoch AI foi criado com a contribuição de 60 matemáticos e validado por dois vencedores da Medalha Fields, a mais prestigiosa premiação em matemática. A participação desses especialistas atende a um dos critérios avaliados pelo BetterBench.
Os modelos de IA mais avançados atualmente conseguem responder a menos de 2% das questões desse benchmark, indicando que ainda há um longo caminho antes de saturá-lo. “Tentamos representar toda a amplitude e profundidade da pesquisa matemática moderna”, diz Tamay Besiroglu, diretor associado da Epoch AI. Mesmo assim, Besiroglu acredita que levará cerca de quatro ou cinco anos para que os modelos de IA obtenham boas pontuações nesse teste.
Outra iniciativa, liderada pela CAIS em colaboração com a Scale AI, busca criar um benchmark chamado Humanity’s Last Exam (HLE), que testará modelos de IA nos limites do conhecimento humano. “HLE foi desenvolvido por uma equipe global de acadêmicos e especialistas em diversos assuntos”, afirma Hendrycks. “Inclui perguntas não ambíguas e não pesquisáveis que exigem conhecimento em nível de doutorado para serem resolvidas.”
Embora haja divergências sobre o que exatamente deve ser medido, muitos pesquisadores concordam que benchmarks mais robustos são essenciais, especialmente porque eles orientam as empresas e são ferramentas críticas para governos.
“Benchmarks precisam ser realmente bons”, afirma Hardy. “E precisamos entender o que significa ‘realmente bom’, algo que ainda não sabemos.”
__