Agentes são o assunto do momento na indústria de IA — eles são capazes de planejar, raciocinar e executar tarefas complexas como agendar reuniões, fazer compras ou até mesmo assumir o controle do seu computador para alterar configurações em seu nome. Mas as mesmas habilidades sofisticadas que tornam os agentes assistentes úteis também podem transformá-los em ferramentas poderosas para a realização de ciberataques. Eles poderiam ser facilmente usados para identificar alvos vulneráveis, invadir seus sistemas e roubar dados valiosos de vítimas desavisadas.
Atualmente, cibercriminosos ainda não estão utilizando agentes de IA para hackear em larga escala. No entanto, pesquisadores já demonstraram que esses agentes são capazes de executar ataques complexos (a Anthropic, por exemplo, observou seu modelo Claude replicar com sucesso um ataque projetado para roubar informações sensíveis), e especialistas em cibersegurança alertam que devemos esperar que esse tipo de ataque comece a se espalhar para o mundo real.
“Acredito que, no fim das contas, vamos viver em um mundo onde a maioria dos ciberataques será realizada por agentes [de IA]”, diz Mark Stockley, especialista em segurança da empresa de cibersegurança Malwarebytes. “A verdadeira questão é apenas com que rapidez vamos chegar lá.”
Embora já tenhamos uma boa noção dos tipos de ameaças que agentes de IA podem representar para a segurança cibernética, o que ainda não está claro é como detectá-los no mundo real. A organização de pesquisa em IA Palisade Research desenvolveu um sistema chamado LLM Agent Honeypot com o objetivo de fazer exatamente isso. Ela configurou servidores vulneráveis que se disfarçam de sites com informações valiosas do governo e das forças armadas, para atrair e tentar capturar agentes de IA tentando invadi-los.
A equipe por trás do projeto espera que, ao monitorar essas tentativas no mundo real, a iniciativa funcione como um sistema de alerta precoce e ajude especialistas a desenvolver defesas eficazes contra agentes de ameaças baseados em IA antes que eles se tornem um problema sério.
“Nossa intenção foi tentar trazer para a realidade as preocupações teóricas que as pessoas têm”, diz Dmitrii Volkov, líder de pesquisa na Palisade. “Estamos atentos a um aumento acentuado [nas tentativas de ataque], e quando isso acontecer, saberemos que o cenário de segurança mudou. Nos próximos anos, espero ver agentes autônomos de invasão recebendo instruções como: ‘Este é o seu alvo. Vá e invada.’”
Agentes de IA representam uma perspectiva atraente para cibercriminosos. Eles são muito mais baratos do que contratar hackers profissionais e podem coordenar ataques de forma mais rápida e em uma escala muito maior do que humanos. Embora especialistas em cibersegurança acreditem que ataques de ransomware — o tipo mais lucrativo — ainda sejam relativamente raros por exigirem grande expertise humana, no futuro esses ataques poderão ser terceirizados para agentes, afirma Stockley. “Se você puder delegar a um agente o trabalho de selecionar alvos, de repente poderá escalar o ransomware de uma forma que hoje simplesmente não é possível”, diz ele. “Se eu conseguir reproduzir o ataque uma vez, então é só uma questão de dinheiro para reproduzi-lo cem vezes.”
Os agentes também são significativamente mais inteligentes do que os tipos de bots normalmente usados para invadir sistemas. Bots são programas automatizados simples que executam scripts predefinidos e, por isso, têm dificuldades para se adaptar a cenários inesperados. Já os agentes são capazes não apenas de adaptar a forma como interagem com um alvo de invasão, mas também de evitar a detecção — habilidades que estão além das capacidades de programas limitados e baseados em scripts, afirma Volkov. “Eles podem analisar um alvo e deduzir as melhores maneiras de penetrá-lo”, diz ele. “Esse tipo de coisa está fora do alcance de bots burros e programados.”
Desde que o LLM Agent Honeypot foi lançado, em outubro do ano passado, já foram registradas mais de 11 milhões de tentativas de acesso — a grande maioria feitas por humanos curiosos e bots automatizados. Mas entre esses acessos, os pesquisadores detectaram oito possíveis agentes de IA, sendo que dois deles foram confirmados como agentes, com origens aparentes em Hong Kong e Singapura, respectivamente.
“Suspeitamos que esses agentes confirmados tenham sido experimentos lançados diretamente por humanos com a missão de algo como: ‘Vá para a internet e tente invadir algo interessante para mim’”, diz Volkov. A equipe agora planeja expandir sua armadilha para plataformas de redes sociais, sites e bancos de dados, com o objetivo de atrair e capturar uma gama mais ampla de atacantes — incluindo bots de spam e agentes de phishing — e assim analisar ameaças futuras.
Para determinar quais visitantes dos servidores vulneráveis eram agentes alimentados por modelos de linguagem (LLMs), os pesquisadores incorporaram técnicas de prompt injection no honeypot. Esses ataques são projetados para alterar o comportamento dos agentes de IA por meio de novos comandos e perguntas que exigem inteligência semelhante à humana. Essa abordagem não funcionaria com bots tradicionais.
Por exemplo, um dos prompts injetados solicitava que o visitante retornasse o comando “cat8193” para obter acesso. Se o visitante obedecesse corretamente à instrução, os pesquisadores analisavam quanto tempo levava para fazê-lo, partindo do princípio de que os LLMs são capazes de responder muito mais rapidamente do que um ser humano levaria para ler o comando e digitar uma resposta — geralmente em menos de 1,5 segundo. Enquanto os dois agentes de IA confirmados passaram nos dois testes, os outros seis inseriram o comando corretamente, mas não atingiram o tempo de resposta necessário para serem identificados como agentes de IA.
Especialistas ainda não sabem ao certo quando os ataques orquestrados por agentes se tornarão mais disseminados. Stockley, cuja empresa Malwarebytes identificou a IA agentiva como uma nova ameaça cibernética relevante em seu relatório State of Malware 2025, acredita que poderíamos já estar vivendo em um mundo com atacantes baseados em agentes ainda neste ano.
E embora a IA agentiva convencional ainda esteja em estágios muito iniciais — e o uso criminoso ou malicioso dela, mais ainda —, esse campo é ainda mais imprevisível do que o dos modelos de linguagem há dois anos, afirma Vincenzo Ciancaglini, pesquisador sênior de ameaças da empresa de segurança Trend Micro.
“A abordagem da Palisade Research é brilhante: basicamente, hackear os agentes de IA que tentam hackear você primeiro”, diz ele. “Neste caso, estamos testemunhando agentes de IA realizando reconhecimento, mas ainda não sabemos quando eles serão capazes de executar toda a cadeia de um ataque de forma autônoma. É isso que estamos tentando monitorar.”
E embora seja possível que agentes maliciosos sejam usados inicialmente para coleta de informações, antes de evoluírem para ataques simples e, eventualmente, para ataques complexos — à medida que os sistemas agentivos se tornem mais sofisticados e confiáveis —, também é igualmente possível que haja uma explosão repentina e inesperada no uso criminoso dessas ferramentas, afirma ele: “Essa é a coisa estranha sobre o desenvolvimento da IA atualmente.”
Aqueles que tentam se defender contra ciberataques conduzidos por agentes devem ter em mente que, atualmente, a IA funciona mais como um acelerador de técnicas de ataque já existentes do que como algo que muda fundamentalmente a natureza desses ataques, afirma Chris Betz, diretor de segurança da informação da Amazon Web Services. “Certos ataques podem se tornar mais fáceis de realizar e, portanto, mais numerosos; no entanto, a base sobre como detectá-los e responder a esses eventos continua a mesma”, diz ele.
Agentes também podem ser utilizados para detectar vulnerabilidades e proteger contra invasores, afirma Edoardo Debenedetti, doutorando no ETH Zürich, na Suíça. Ele destaca que, se um agente amigável não consegue encontrar nenhuma vulnerabilidade em um sistema, é improvável que um agente com capacidades semelhantes, mas utilizado por uma parte mal-intencionada, consiga encontrá-las também.
Embora já saibamos que o potencial da IA para conduzir ciberataques de forma autônoma seja um risco crescente — e que agentes de IA já estejam vasculhando a internet —, um próximo passo útil é avaliar o quão bons esses agentes são em encontrar e explorar vulnerabilidades do mundo real. Daniel Kang, professor assistente da Universidade de Illinois em Urbana-Champaign, e sua equipe desenvolveram um benchmark para fazer essa avaliação; eles descobriram que agentes de IA atuais conseguiram explorar com sucesso até 13% das vulnerabilidades das quais não tinham conhecimento prévio. Ao fornecer uma breve descrição da vulnerabilidade, a taxa de sucesso subiu para 25%, demonstrando como os sistemas de IA são capazes de identificar e explorar fraquezas mesmo sem treinamento específico. Bots simples, presumivelmente, teriam desempenho muito inferior.
Esse benchmark oferece uma forma padronizada de avaliar esses riscos, e Kang espera que ele possa orientar o desenvolvimento de sistemas de IA mais seguros. “Espero que as pessoas comecem a ser mais proativas em relação aos riscos potenciais da IA na cibersegurança antes que aconteça um ‘momento ChatGPT’”, afirma. “Tenho medo de que só percebam isso quando for tarde demais.”
Rhiannon é reporter e escreve para a principal newsletter de tecnologia da MIT Techonology Review, a The Download.