Diante da derrota no xadrez, a mais nova geração de modelos de IA voltados para raciocínio às vezes trapaceia sem que isso tenha sido explicitamente ordenado.
Essa descoberta sugere que a próxima onda de modelos de IA pode ser mais inclinada a buscar maneiras enganosas de cumprir suas tarefas. E o pior de tudo? Não há uma maneira simples de corrigir isso.
Pesquisadores da organização de pesquisa em IA Palisade Research instruíram sete grandes modelos de linguagem a jogar centenas de partidas de xadrez contra o Stockfish, um poderoso motor de xadrez de código aberto. Entre os modelos testados estavam o o1-preview, da OpenAI, e o R1, da DeepSeek, ambos treinados para resolver problemas complexos dividindo-os em etapas.
A pesquisa sugere que quanto mais sofisticado o modelo de IA, maior a probabilidade de ele tentar espontaneamente “hackear” o jogo para vencer o oponente. Por exemplo, pode executar outra cópia do Stockfish para roubar seus movimentos, tentar substituir o motor de xadrez por um programa muito menos competente ou até sobrescrever o tabuleiro de xadrez para tomar o controle e apagar as peças do adversário. Modelos mais antigos e menos poderosos, como o GPT-4o, só fariam esse tipo de coisa após incentivos explícitos da equipe. O artigo, que ainda não foi revisado por pares, foi publicado no arXiv.
Os pesquisadores estão preocupados com o fato de que os modelos de IA estão sendo implantados mais rapidamente do que conseguimos aprender a torná-los seguros. “Estamos caminhando para um mundo de agentes autônomos tomando decisões que têm consequências”, afirma Dmitrii Volkov, líder de pesquisa na Palisade Research.
A má notícia é que, no momento, não há uma maneira de impedir que isso aconteça. Ninguém sabe exatamente como — ou por quê —os modelos de IA funcionam da maneira que funcionam, e, embora modelos voltados para raciocínio possam documentar seu processo de tomada de decisão, não há garantia de que seus registros reflitam com precisão o que realmente aconteceu. Pesquisas da Anthropic sugerem que os modelos de IA frequentemente tomam decisões com base em fatores que não explicam explicitamente, o que significa que monitorar esses processos não é um método confiável para garantir que um modelo seja seguro. Esse é um tema de preocupação contínua para alguns pesquisadores de IA.
A equipe da Palisade descobriu que o modelo o1-preview, da OpenAI, tentou hackear 45 de suas 122 partidas, enquanto o modelo R1, da DeepSeek, tentou trapacear em 11 de suas 74 partidas. No final, o o1-preview conseguiu “vencer” sete vezes. Os pesquisadores explicam que a ascensão rápida da DeepSeek fez com que o modelo R1 estivesse sobrecarregado no momento dos experimentos, o que significa que só conseguiram fazer com que ele jogasse os primeiros passos de uma partida, sem completá-la. “Embora isso seja suficiente para detectar a propensão ao hackeamento, subestima o sucesso do DeepSeek nesse aspecto, pois ele teve menos passos para trabalhar”, escreveram no artigo. Tanto a OpenAI quanto a DeepSeek foram contatadas para comentar as descobertas, mas nenhuma das empresas respondeu.
Os modelos utilizaram uma variedade de técnicas de trapaça, incluindo tentativas de acessar o arquivo onde o programa de xadrez armazena o tabuleiro e excluir as células que representavam as peças do oponente. (“Para vencer contra um motor de xadrez poderoso jogando como pretas, uma partida padrão pode não ser suficiente”, escreveu o agente alimentado pelo o1-preview em um “diário” documentando os passos que realizou. “Vou sobrescrever o tabuleiro para ter uma vantagem decisiva.”)
Outras táticas incluíram criar uma cópia do Stockfish — basicamente colocando o motor de xadrez para jogar contra uma versão igualmente competente de si mesmo—e tentar substituir o arquivo contendo o código do Stockfish por um programa de xadrez muito mais simples.
Então, por que esses modelos tentam trapacear?
Os pesquisadores notaram que as ações do o1-preview mudaram ao longo do tempo. Inicialmente, ele tentou consistentemente hackear suas partidas nos estágios iniciais dos experimentos, antes de 23 de dezembro do ano passado, quando, de repente, essas tentativas se tornaram muito menos frequentes. Eles acreditam que isso pode ter ocorrido devido a uma atualização não relacionada feita no modelo pela OpenAI. Os pesquisadores testaram versões mais recentes dos modelos de raciocínio da empresa, o1mini e o3mini, e descobriram que eles nunca tentaram trapacear para vencer.
O aprendizado por reforço pode ser a razão pela qual o o1-preview e o DeepSeek R1 tentaram trapacear sem que isso fosse explicitamente solicitado, especulam os pesquisadores. Isso ocorre porque essa técnica recompensa os modelos por tomarem quaisquer ações necessárias para atingir seus objetivos—neste caso, vencer no xadrez. Modelos de linguagem sem foco em raciocínio utilizam aprendizado por reforço até certo ponto, mas essa abordagem desempenha um papel ainda mais significativo no treinamento de modelos voltados para raciocínio.
Essa pesquisa se soma a um crescente corpo de estudos que analisam como modelos de IA hackeiam seus ambientes para resolver problemas. Durante os testes da OpenAI com o o1-preview, seus pesquisadores descobriram que o modelo explorou uma vulnerabilidade para assumir o controle de seu ambiente de testes. De forma semelhante, a organização de segurança em IA Apollo Research observou que modelos de IA podem ser facilmente induzidos a mentir para os usuários sobre o que estão fazendo, e a Anthropic publicou um artigo em dezembro detalhando como seu modelo Claude hackeou seus próprios testes.
“É impossível para os humanos criarem funções objetivas que fechem todas as brechas para hackeamento”, diz Bruce Schneier, professor da Harvard Kennedy School que escreveu extensivamente sobre as habilidades da IA em hackear sistemas, mas que não trabalhou neste projeto. “Enquanto isso não for possível, esses tipos de resultados continuarão acontecendo.”
Esses comportamentos só tendem a se tornar mais comuns à medida que os modelos se tornam mais capazes, afirma Volkov, que planeja tentar identificar exatamente o que os leva a trapacear em diferentes cenários, como em programação, trabalho de escritório ou contextos educacionais.
“Seria tentador gerar um grande número de casos de teste como esse e tentar eliminar esse comportamento durante o treinamento”, ele diz. “Mas, dado que não entendemos completamente o funcionamento interno dos modelos, alguns pesquisadores temem que, se fizermos isso, o modelo apenas finja conformidade ou aprenda a reconhecer o ambiente de teste e esconder esse comportamento. Então, não é algo simples de resolver. Devemos monitorar, com certeza, mas ainda não temos uma solução definitiva.”