Um agente de IA pode ser seguro?
Inteligência artificial

Um agente de IA pode ser seguro?

Especialistas fizeram avanços na segurança de grandes modelos de linguagem, mas alguns duvidam que assistentes estejam prontos para brilhar

Agentes de Inteligência Artificial são um negócio arriscado. Mesmo em uma janela de bate-papo, grandes modelos de linguagem (Large Language Models, ou LLMs) cometerão erros e se comportarão mal. Quando tiverem ferramentas que possam usar para interagir com o mundo exterior, como navegadores da web e endereços de e-mail, as consequências podem ser muito mais graves.

Mini Banner - Assine a MIT Technology Review

Isso pode explicar por que o primeiro assistente pessoal de LLM inovador não veio de um dos grandes laboratórios de IA, que precisam se preocupar com reputação e responsabilidade legal, mas de um engenheiro de software independente: Peter Steinberger. Em novembro de 2025, ele enviou sua ferramenta, agora chamada de OpenClaw, para o GitHub e, no fim de janeiro, o projeto viralizou.

O OpenClaw aproveita modelos existentes para permitir que os usuários criem seus próprios assistentes sob medida. Para alguns, isso significa entregar montanhas de dados pessoais, de anos de e-mails ao conteúdo salvo em seu disco rígido, o que deixou especialistas em segurança completamente apavorados. Os riscos apresentados são tão extensos que provavelmente levaria boa parte de uma semana para alguém ler todas as postagens de blogs de segurança que surgiram sobre ele recentemente. O governo chinês tomou a medida de emitir um aviso público sobre as vulnerabilidades de segurança do OpenClaw.

Em resposta a essas preocupações, Steinberger publicou no X que pessoas não técnicas não deveriam usar o software. (Ele não respondeu a um pedido de comentário para este artigo). Mas há um desejo claro pelo que o OpenClaw está oferecendo, e ele não se limita a pessoas que conseguem conduzir suas próprias auditorias de segurança de software. Quaisquer empresas de IA que esperem entrar no negócio de assistentes pessoais precisarão descobrir como construir um sistema que manterá os dados dos usuários protegidos e seguros. Para isso, precisarão tomar emprestadas abordagens da fronteira da pesquisa em segurança de agentes.

Gestão de riscos

O OpenClaw é, em essência, um traje mecânico para grandes modelos de linguagem. Os usuários podem escolher qualquer um para atuar como o piloto, então ele ganha acesso a capacidades de memória aprimoradas e permissão de definir, para si mesmo, tarefas que repete em uma cadência regular. Diferentemente das ofertas das grandes

empresas de IA, os agentes do OpenClaw devem ficar ligados 24 horas por dia, sete dias por semana, e os usuários podem se comunicar com eles usando o WhatsApp ou outros aplicativos de mensagens. Isso significa que podem agir como um assistente pessoal superpoderoso, que acorda você todas as manhãs com uma lista de afazeres personalizada, planeja férias enquanto você trabalha e cria novos aplicativos no tempo livre.

Mas todo esse poder tem consequências. Se você quer que seu assistente pessoal de IA gerencie sua caixa de entrada, então precisa dar a ele acesso ao seu e-mail e a todas as informações sensíveis contidas ali. Se você quer que ele faça compras em seu nome, precisa fornecer a ele as informações do seu cartão de crédito. E, se você quer que ele faça tarefas no seu computador, como escrever código, ele precisa de algum acesso aos seus arquivos locais.

Há algumas maneiras de isso dar errado. A primeira é que o assistente de IA pode falhar, como quando o agente de codificação Google Antigravity de um usuário supostamente apagou todo o seu disco rígido. E isso já é uma realidade. Um caso recente, divulgado em 23 de fevereiro, acendeu um alerta. O OpenClaw apagou os e-mails de Summer Yue, diretora de segurança e alinhamento no time de superinteligência artificial da Meta, dona do Instagram, do Facebook e do WhatsApp. A conclusão foi de que o agente alucinou quando deveria analisar as mensagens e indicar quais poderiam ser excluídas. Ela relatou ter usado por semanas com uma caixa de entrada de teste, e ficou confiante o suficiente para usar na sua conta.

Um segundo risco possível: alguém pode obter acesso ao agente usando ferramentas convencionais de invasão e usá-lo para extrair dados sensíveis ou executar código malicioso. Nas semanas seguintes, após o OpenClaw viralizar, pesquisadores de segurança demonstraram inúmeras vulnerabilidades desse tipo que colocam usuários sem familiaridade com segurança em risco.

Ambos os perigos podem ser gerenciados. Alguns usuários estão optando por executar seus agentes OpenClaw em computadores separados, ou na nuvem, o que protege os dados em seus discos rígidos de serem apagados. Além disso, outras vulnerabilidades poderiam ser corrigidas usando abordagens de segurança testadas e comprovadas.

Mas os especialistas com quem falei para este artigo estavam focados em um risco de segurança muito mais insidioso, conhecido como injeção de prompt. É, efetivamente, o sequestro de um grande modelo de linguagem: ao publicar texto ou imagens maliciosos em um site que um LLM possa consultar, ou enviá-los para uma caixa de entrada que um LLM lê, atacantes podem usá-lo à vontade.

Se esse modelo tiver acesso a qualquer informação privada de seu usuário, as consequências poderão ser terríveis. “Usar algo como o OpenClaw é como entregar sua carteira a um estranho na rua”, diz Nicolas Papernot, professor de engenharia elétrica e de computação na Universidade de Toronto. Se as grandes empresas de IA podem ou não se sentir confortáveis em oferecer assistentes pessoais, isso pode se resumir à qualidade das defesas que conseguem mobilizar contra esse tipo de ataque.

É importante observar aqui que a injeção de prompt ainda não causou nenhuma catástrofe, ou pelo menos nenhuma que tenha sido relatada publicamente. Mas agora que, provavelmente, haja centenas de milhares de agentes do OpenClaw zumbindo pela Internet, a técnica pode começar a parecer uma estratégia muito mais atraente para cibercriminosos. “Ferramentas como essa estão incentivando atores maliciosos a atacar uma população muito mais ampla”, diz Papernot.

Construindo proteções

O termo “injeção de prompt” foi cunhado pelo popular blogueiro Simon Willison, em 2022, alguns meses antes de o ChatGPT ser lançado. Mesmo naquela época, era possível discernir que LLMs introduziriam um tipo completamente novo de vulnerabilidade de segurança quando passassem a ser amplamente usados. Esses modelos não conseguem diferenciar as instruções que recebem dos usuários e os dados que usam para executar essas instruções, como e-mails e resultados de pesquisa na web. Tudo ali é apenas texto. Assim, se um invasor incorporar algumas frases em um e-mail, e o LLM as confundir com uma instrução de seu usuário, ele pode incitar o LLM a fazer qualquer coisa que quiser.

A injeção de prompt é um problema difícil e não parece que vai desaparecer tão cedo. “Não temos realmente uma defesa ao estilo ‘bala de prata’ agora”, diz Dawn Song, professora de ciência da computação na Universidade de Berkeley, nos Estados Unidos. Mas há uma comunidade acadêmica robusta trabalhando no problema, e ela criou estratégias que poderiam, eventualmente, tornar assistentes pessoais de IA seguros.

Tecnicamente falando, é possível usar o OpenClaw, hoje, sem correr o risco de injeção de prompt: basta não conectá-lo à Internet. Mas impedir que ele leia seus e-mails, gerencie seu calendário e faça pesquisas online anula grande parte do propósito de usar um assistente de IA. O truque para se proteger contra a injeção de prompt é impedir que o LLM responda a tentativas de sequestro, ao mesmo tempo em que ainda lhe dê espaço para fazer seu trabalho.

Uma estratégia é treiná-lo para ignorar injeções de prompt. Uma parte importante do processo de desenvolvimento de LLM, chamada de pós-treinamento, envolve pegar um modelo que sabe como produzir texto realista e transformá-lo em um assistente útil, “recompensando-o” por responder às perguntas de modo apropriado e “punindo-o” quando deixa de fazer isso. Essas recompensas e punições são metafóricas, mas ele aprende como um animal aprenderia. Usando esse processo, é possível treinar um LLM para não responder a exemplos específicos de injeção de prompt.

Mas deve haver um equilíbrio: treine um modelo para rejeitar comandos injetados com entusiasmo demais e ele também pode começar a rejeitar solicitações legítimas do usuário. E, como há um elemento fundamental de aleatoriedade no comportamento de LLMs, mesmo que ele tenha sido treinado de maneira muito eficaz para resistir à injeção de prompt, provavelmente ainda vai escorregar de vez em quando.

Outra abordagem envolve interromper este ataque antes que ele sequer chegue ao LLM. Normalmente, isso envolve usar um modelo detector especializado para determinar se os dados enviados ao original contêm ou não alguma injeção de prompt. Em um estudo recente, contudo, até o detector com melhor desempenho falhou completamente em identificar certas categorias desse tipo de ataque.

A terceira estratégia é mais complicada. Em vez de controlar as entradas de um LLM ao detectar se elas contêm ou não uma injeção de prompt, o objetivo é formular uma política que oriente as saídas dele, isto é, seus comportamentos, e o impeça de fazer qualquer coisa prejudicial. Algumas defesas nessa linha são bem simples: se um modelo só tem permissão para enviar e-mails para alguns poucos endereços pré-aprovados, por exemplo, então ele certamente não enviará as informações do cartão de crédito de seu usuário para um invasor. Mas uma política assim o impediria de concluir muitas tarefas úteis, como pesquisar e entrar em contato com possíveis contatos profissionais em nome de seu usuário.

“O desafio é como definir essas políticas com precisão”, diz Neil Gong, professor de engenharia elétrica e de computação na Universidade Duke. “É uma troca entre utilidade e segurança.”

Em uma escala maior, todo o mundo agentivo está lidando com essa troca: em que ponto os agentes serão seguros o suficiente para serem úteis? Especialistas discordam. Song, cuja startup, Virtue AI, cria uma plataforma de segurança de agentes, diz que acha que é possível implantar com segurança um assistente pessoal de IA agora. Mas Gong diz: “Ainda não chegamos lá”.

Mesmo que agentes de IA ainda não possam ser inteiramente protegidos contra injeção de prompt, certamente há maneiras de mitigar os riscos. E é possível que algumas dessas técnicas possam ser implementadas no OpenClaw. No início de fevereiro, no evento inaugural ClawCon, em San Francisco, Steinberger anunciou que havia trazido uma pessoa de segurança para trabalhar na ferramenta.

Até agora, o OpenClaw permanece vulnerável, embora isso não tenha dissuadido sua multidão de usuários entusiasmados. George Pickett, um mantenedor voluntário do repositório do GitHub, e um fã da ferramenta, diz que tomou algumas medidas de segurança para se manter protegido enquanto a usa: ele a executa na nuvem para não ter que se preocupar em apagar acidentalmente seu disco rígido, e colocou mecanismos em prática para garantir que ninguém mais consiga se conectar ao seu assistente.

Mas não tomou nenhuma ação específica para evitar injeção de prompt. Ele está ciente do risco, no entanto, diz que ainda não viu nenhum relato de isso ter acontecido com o OpenClaw. “Talvez minha perspectiva seja um jeito estúpido de olhar para isso, mas é improvável que eu seja o primeiro a ser invadido”, diz ele.

*Este texto foi editado para uma melhor compreensão sobre o assunto.

Último vídeo

Nossos tópicos