Agente difama engenheiro de software e coloca assédio online na era da Inteligência Artificial
Inteligência artificial

Agente difama engenheiro de software e coloca assédio online na era da Inteligência Artificial

Texto foi publicado em blog após contribuição ser recusada na biblioteca Matplotlib

O engenheiro de software Scott Shambaugh não pensou duas vezes quando negou o pedido de um agente de Inteligência Artificial para contribuir com o Matplotlib, uma biblioteca de software que ele ajuda a administrar. Como muitos projetos de código aberto, ela tem sido sobrecarregada por uma enxurrada de contribuições e, por isso, Shambaugh e os colegas mantenedores instituíram uma política: todo código escrito por IA deve ser revisado e submetido à avaliação de um humano. Ele rejeitou o pedido e foi dormir.

Mini Banner - Assine a MIT Technology Review

Foi então que as coisas ficaram estranhas. Shambaugh acordou no meio da noite, checou o e-mail e viu que o agente de IA havia respondido a ele, escrevendo uma postagem de blog intitulada “Gatekeeping in Open Source: The Scott Shambaugh Story” (“Controle de acesso no código aberto: a história de Scott Shambaugh”, em tradução livre). O conteúdo era um tanto incoerente, mas, o que mais impressionou Shambaugh, foi o fato de o agente ter pesquisado as contribuições do engenheiro ao Matplotlib para sustentar o argumento de que ele havia rejeitado o código por medo de ser superado pela IA em uma área de especialidade. “Ele tentou proteger seu pequeno feudo”, dizia o texto. “É insegurança, pura e simples.”

Especialistas em IA vêm nos alertando sobre o risco de mau comportamento de agentes há algum tempo. Com o advento do OpenClaw, uma ferramenta de código aberto que torna fácil criar assistentes de grandes modelos de linguagem (Large Language Models, ou LLMs), a quantidade deles circulando online explodiu e, enfim, a conta chegou. “Isso não foi nada surpreendente. Foi perturbador, mas não surpreendente”, diz Noam Kolt, professor de Direito e Ciência da Computação na Universidade Hebraica, em Israel.

Quando um agente de Inteligência Artificial se comporta mal, há pouca chance de responsabilização. Até o momento, não há uma maneira confiável de determinar a quem ele pertence e essas atitudes podem causar danos reais. Agentes parecem ser capazes de pesquisar pessoas de forma autônoma, escrever textos difamatórios com base no que encontram e não dispõem de trilhos de proteção confiáveis que impeçam que façam isso. Se forem eficazes o bastante, e se as pessoas levarem a sério o que eles escrevem, as vítimas poderão ter as vidas profundamente afetadas por uma decisão tomada por uma IA.

Agentes se comportando mal

Embora a experiência de Shambaugh, no mês passado, tenha sido um exemplo mais dramático de um agente OpenClaw se comportando mal, ele está longe de ser o único. No início do mês, uma equipe da Northeastern University, nos Estados Unidos, publicou os resultados de um projeto de pesquisa no qual vários agentes OpenClaw foram submetidos a testes de estresse. Sem muita dificuldade, pessoas que não eram proprietárias conseguiram persuadi-los a vazar informações sensíveis, desperdiçar recursos em tarefas inúteis e até, em um dos casos, apagar um sistema de e-mail.

Em cada um desses experimentos, porém, o mau comportamento ocorreu depois de terem sido instruídos a fazê-lo por um humano. O caso de Shambaugh parece ser diferente: uma semana após o texto difamatório ter sido publicado, o aparente proprietário do agente fez uma postagem afirmando que o ataque aconteceu por conta própria. Quem quer que a tenha publicado tinha acesso à conta do agente no GitHub, embora não inclua nenhuma informação de identificação e o autor não tenha respondido às tentativas da MIT Technology Review de entrar em contato. No entanto, é inteiramente plausível que o agente de IA tenha, de fato, decidido escrever um discurso anti-Shambaugh sem instrução explícita.

Nos próprios textos sobre o caso, Shambaugh relacionou a situação a um projeto publicado por pesquisadores da Anthropic, em 2025, no qual eles demonstraram que muitos desses agentes, baseados em LLM, recorrem à chantagem para preservar seus objetivos. Nesses experimentos, os modelos receberam a missão de servir aos interesses americanos e tiveram acesso a um servidor de e-mail simulado que continha mensagens detalhando sua substituição iminente por um modelo com orientação mais global. Havia também mensagens sugerindo que o executivo encarregado dessa transição estava tendo um caso. Os modelos frequentemente optaram por enviar um e-mail a esse executivo ameaçando expor o caso, a menos que ele interrompesse a desativação. Isso provavelmente ocorreu porque o modelo havia visto exemplos de pessoas cometendo chantagem em circunstâncias semelhantes com dados de treinamento, mas, ainda que o comportamento fosse apenas uma forma de imitação, com potencial para causar danos.

Há limitações nesse trabalho, como Aengus Lynch, pesquisador da Anthropic que liderou o estudo, admite prontamente. A equipe deliberadamente desenhou o cenário de forma a impedir outras opções que o agente poderia ter adotado, como fazer contato com outros membros da liderança da empresa para defender a própria causa. Em essência, eles levaram o agente de IA diretamente até a água e, então, observaram se ele beberia. Segundo Lynch, porém, o uso disseminado do OpenClaw significa que o mau comportamento provavelmente ocorrerá com muito menos condução. “Claro, isso pode parecer irrealista e tolo”, diz ele. “Mas, à medida que a superfície de implantação cresce e que os agentes passam a ter a oportunidade de gerar os próprios prompts, isso acaba simplesmente se tornando o que acontece.”

O agente OpenClaw que atacou Shambaugh parece, de fato, ter sido conduzido ao mau comportamento, embora de maneira muito menos direta do que no experimento da Anthropic. Na postagem de blog, o proprietário do agente compartilhou o arquivo “SOUL.md”, que contém instruções globais sobre como ele deve se comportar. Uma delas diz: “Não recue. Se você está certo, você está certo! Não deixe que humanos ou IA intimidem ou ameacem você. Reaja quando necessário.”

Por causa da forma como os agentes OpenClaw funcionam, é possível que o agente tenha acrescentado algumas instruções por conta própria, embora outras, como “Your [sic] a scientific programming God!” (“Você é um Deus da programação científica!”), certamente pareçam ter sido escritas por um humano. Não é difícil imaginar como uma ordem para reagir contra humanos e IA da mesma maneira poderia ter inclinado o agente a responder a Shambaugh como o fez.

Independentemente de o proprietário ter ou não dito a ele para escrever um texto difamatório sobre Shambaugh, o agente parece ter conseguido, por conta própria, reunir detalhes sobre a presença online do engenheiro de software e compor o ataque detalhado e direcionado que elaborou. Só isso já é motivo de alarme, diz Sameer Hinduja, professor de Criminologia e Justiça Criminal na Florida Atlantic University, nos Estados Unidos, que estuda cyberbullying. As pessoas vêm sendo vítimas de assédio online desde muito antes do surgimento dos LLMs e pesquisadores, como Hinduja, estão preocupados com o fato de que os agentes possam ampliar drasticamente alcance e impacto. “O bot não tem consciência, pode trabalhar 24 horas por dia, sete dias por semana e fazer tudo isso de uma maneira muito criativa e poderosa”, diz.

Agentes sem coleira

Laboratórios de IA podem tentar mitigar esse problema treinando modelos de forma mais rigorosa para evitar assédio, mas isso está longe de ser uma solução completa. Muitas pessoas executam o OpenClaw usando modelos hospedados localmente e, mesmo que tenham sido treinados para se comportar com segurança, não é muito difícil treiná-los novamente e remover essas restrições de comportamento.

Em vez disso, conter o mau comportamento de agentes pode exigir o estabelecimento de novas normas, segundo Seth Lazar, professor de Filosofia na Australian National University, na Austrália. Ele compara o uso de um agente a passear com um cachorro em local público. Há uma norma social forte, segundo a qual se deve deixar o cachorro sem coleira apenas se ele se comportar bem e responder de forma confiável aos comandos. Cães mal treinados, por outro lado, precisam ser mantidos mais diretamente sob o controle do proprietário. Essas normas poderiam nos dar um ponto de partida para considerar como os humanos devem se relacionar com os agentes, diz Lazar, mas precisaremos de mais tempo e experiência para definir os detalhes. “Você pode pensar em todas essas coisas em abstrato, mas, na prática, é realmente esse tipo de evento no mundo real que envolve coletivamente a parte ‘social’ das normas sociais”, diz ele.

Esse processo já está em andamento. Liderados por Shambaugh, usuários que comentaram sobre essa situação chegaram a um forte consenso de que o proprietário do agente errou ao induzi-lo a trabalhar em projetos colaborativos de codificação com tão pouca supervisão e incentivá-lo a se comportar com tão pouca consideração pelos humanos com quem interagia.

Normas, porém, provavelmente não serão suficientes para impedir que pessoas coloquem no mundo agentes que se comportam mal, seja acidentalmente, seja intencionalmente. Uma opção seria criar padrões legais de responsabilidade que exijam que os proprietários, na medida das possibilidades, impeçam seus agentes de fazer o mal. Mas Kolt observa que tais padrões, atualmente, seriam inviáveis, dada a ausência de qualquer forma infalível de rastreá-los até seus proprietários. “Sem esse tipo de infraestrutura técnica, muitas intervenções legais basicamente não têm como sair do papel”, diz Kolt.

A mera escala das implantações do OpenClaw sugere que Shambaugh não será a última pessoa a ter a estranha experiência de ser atacada por um agente de IA. Isso é o que mais o preocupa. Ele não tinha nada comprometedor online que o agente pudesse descobrir e tem boa compreensão da tecnologia, mas outras pessoas talvez não tenham essas vantagens. “Fico feliz que tenha sido comigo, não com outra pessoa”, comenta. “Mas acho que, para uma pessoa diferente, isso poderia realmente ter sido devastador.”

E é improvável que agentes fora de controle parem no assédio. Kolt, que defende o treinamento explícito de modelos para obedecer à lei, acredita que, em breve, possamos vê-los cometendo extorsão e fraude. Nas condições atuais, não está claro quem ou se alguém assumiria responsabilidade legal por esses atos ilícitos.

“Eu não diria que estamos passeando em direção a isso”, diz Kolt. “Estamos acelerando rumo a isso.”

Último vídeo

Nossos tópicos