Demis Hassabis, CEO do Google DeepMind, resumiu em três palavras: “Isso é vergonhoso.”
Hassabis estava respondendo, no X, a um post empolgado demais de Sébastien Bubeck, cientista de pesquisa da empresa rival, OpenAI, anunciando que dois matemáticos haviam usado o mais recente modelo de linguagem ampla da OpenAI, o GPT-5, para encontrar soluções para 10 problemas não resolvidos em matemática. “A aceleração da ciência por IA começou oficialmente”, comemorou Bubeck.
Coloquem seus chapéus de matemática por um minuto e vamos dar uma olhada no que essa rusga de meados de outubro significava. É um exemplo perfeito do que há de errado com a IA agora.
Bubeck estava empolgado porque o GPT-5 parecia ter, de alguma forma, resolvido um certo número de quebra-cabeças conhecidos como problemas de Erdős.
Paul Erdős, um dos matemáticos mais prolíficos do século 20, deixou para trás centenas de quebra-cabeças quando morreu. Para ajudar a acompanhar quais foram resolvidos, Thomas Bloom, matemático da Universidade de Manchester, no Reino Unido, criou o erdosproblems.com, que lista mais de 1.100 problemas e observa que cerca de 430 deles têm soluções.
Quando Bubeck comemorou o avanço do GPT-5, Bloom foi rápido em contestá-lo. “Isso é uma deturpação dramática”, ele escreveu no X. Bloom explicou que um problema não é necessariamente “não resolvido” se este site não lista uma solução. Isso simplesmente significa que Bloom não tinha conhecimento de alguma maneira de resolvê-lo. Existem milhões de artigos de matemática por aí, e ninguém leu todos eles. Mas o GPT-5 provavelmente leu.
Acabou acontecendo que, em vez de apresentar novas soluções para 10 problemas não resolvidos, o GPT-5 vasculhou a internet em busca de 10 soluções existentes que Bloom não tinha visto antes. Ops!
Há duas conclusões aqui. Uma é que afirmações ofegantes sobre grandes avanços não deveriam ser feitas via redes sociais: menos reação automática e mais verificação cuidadosa.
A segunda é que a capacidade do GPT-5 de encontrar referências a trabalhos anteriores de que Bloom não tinha conhecimento também é incrível. O hype ofuscou algo que, por si só, deveria ter sido bem legal.
Matemáticos estão muito interessados em usar LLMs para vasculhar vastos números de resultados existentes, disse-me François Charton, cientista de pesquisa que estuda a aplicação de LLMs à matemática, na startup de IA Axiom Math, quando conversei com ele sobre essa pegadinha de Erdős.
Mas a busca na literatura é entediante em comparação com a descoberta genuína, especialmente para os entusiastas fervorosos da IA nas redes sociais. O erro de Bubeck não é o único exemplo.
Em agosto, um par de matemáticos mostrou que nenhum LLM na época era capaz de resolver um quebra-cabeça matemático conhecido como o 554º Problema de Yu Tsumura. Dois meses depois, as redes sociais explodiram com evidências de que o GPT-5 agora conseguia. “O momento Lee Sedol está chegando para muitos”, comentou um observador, referindo-se ao mestre de Go que perdeu para a IA AlphaGo, da DeepMind, em 2016.
Mas Charton destacou que resolver o 554º Problema de Yu Tsumura não é grande coisa para matemáticos. “É uma questão que você daria a um graduando”, ele disse. “Há essa tendência de exagerar em tudo.”
Enquanto isso, avaliações mais sóbrias do que os LLMs podem ou não ser bons em fazer estão chegando. Ao mesmo tempo em que matemáticos brigavam na Internet sobre o GPT-5, dois novos estudos foram publicados e analisaram em profundidade o uso de LLMs na medicina e no direito (dois campos em que fabricantes de modelos alegaram que sua tecnologia se destaca).
Pesquisadores descobriram que os LLMs podiam fazer certos diagnósticos médicos, mas eram falhos ao recomendar tratamentos. Quando se trata de direito, pesquisadores descobriram que os LLMs frequentemente dão orientações inconsistentes e incorretas. “As evidências até agora falham espetacularmente em atender ao ônus da prova”, concluíram os autores.
Mas esse não é o tipo de mensagem que é bem recebida no X. “Você tem essa empolgação porque todo mundo está se comunicando freneticamente, ninguém quer ficar para trás”, disse Charton. O X é onde muitas notícias de IA saem primeiro, é onde novos resultados são alardeados e é onde figuras-chave como Sam Altman, Yann LeCun e Gary Marcus se enfrentam em público. É difícil acompanhar, e mais difícil desviar o olhar.
O post de Bubeck só foi constrangedor porque o erro dele foi flagrado. Nem todos os erros são. A menos que algo mude, pesquisadores, investidores e entusiastas genéricos continuarão preparando o terreno, uns para os outros. “Alguns deles são cientistas, muitos não são, mas todos são nerds”, Charton me disse. “Alegações enormes funcionam muito bem nessas redes.”
Tem uma coda! Eu escrevi tudo o que você acabou de ler acima para a coluna Algorithm na edição de janeiro/fevereiro de 2026 da revista MIT Technology Review. Dois dias depois disso ter ido para a gráfica, a Axiom me disse que seu próprio modelo de matemática, o AxiomProver, havia resolvido dois problemas abertos de Erdős (#124 e #481, para os fãs de matemática na sala). Isso é algo impressionante para uma pequena startup fundada há apenas alguns meses. Sim, a IA se move rapidamente!
Mas isso não é tudo. Cinco dias depois, a empresa anunciou que o AxiomProver havia resolvido nove de 12 problemas na competição Putnam deste ano, um desafio de matemática em nível universitário que algumas pessoas consideram mais difícil do que a mais conhecida Olimpíada Internacional de Matemática (na qual LLMs tanto do Google DeepMind quanto da OpenAI gabaritaram alguns meses atrás).
O resultado no Putnam foi elogiado no X por grandes nomes da área, incluindo Jeff Dean, cientista-chefe do Google DeepMind, e Thomas Wolf, cofundador da empresa de IA Hugging Face. Mais uma vez, debates já conhecidos se desenrolaram nas respostas. Alguns pesquisadores apontaram que, enquanto a Olimpíada Internacional de Matemática exige resolução mais criativa de problemas, a competição Putnam testa conhecimento matemático, o que a torna notoriamente difícil para graduandos, mas mais fácil, em teoria, para LLMs que absorveramo conhecimento da Internet.
Como devemos julgar as conquistas da Axiom? Não nas redes sociais, pelo menos. E as vitórias chamativas em competições são apenas um ponto de partida. Determinar quão bons os LLMs são em matemática exigirá um mergulho mais profundo no que esses modelos estão fazendo quando resolvem problemas difíceis (leia-se: difíceis para humanos) de matemática.



