Ataque hacker à Meta mostra vulnerabilidade de agentes de IA
Inteligência artificial

Ataque hacker à Meta mostra vulnerabilidade de agentes de IA

Algumas ameaças de cibersegurança são incrivelmente simples. Mesmo assim, perigosas

Na última sexta-feira, 5 de junho, o site 404 Media publicou que invasores vinham usando o agente de atendimento ao cliente com Inteligência Artificial da Meta para roubar contas do Instagram. A abordagem era simples: eles pediam ao agente que vinculasse as contas a endereços de e-mail que controlavam, e o pedido era atendido. Um invasor invadiu a conta inativa da Casa Branca da era Obama e publicou mensagens pró-Irã; outros tomaram contas com identificadores valiosos, de uma única palavra, possivelmente para vendê-las.

Mini Banner - Assine a MIT Technology Review

Preocupações com cibersegurança em IA não são novidade. Desde que a Anthropic anunciou, em abril, que seu modelo Mythos era bom demais em hacking para ser liberado ao público em geral, comentaristas, pesquisadores e autoridades federais têm se fixado na ideia de que sistemas de IA superpoderosos poderiam devastar nossa infraestrutura computacional. Não foi bem isso que aconteceu dessa vez no Instagram: ali, a IA era o alvo, e não o atacante, e o método era muito mais simples do que qualquer coisa que o Mythos produziria. Mas, à medida que as empresas transferem mais trabalho para a IA, esses ataques comparativamente pouco sofisticados podem causar sua própria devastação.

“À medida que a IA passa a ser usada de forma cada vez mais ampla, especialmente quando é usada para automatizar nossos fluxos de trabalho, como a recuperação de contas, acho que os hackers ficarão cada vez mais motivados a atacar a própria IA”, diz Neil Gong, professor de engenharia elétrica e de computação na Universidade Duke, nos Estados Unidos.

Gong e outros acadêmicos vêm emitindo alertas sobre as vulnerabilidades de segurança de agentes de IA há algum tempo. Eles publicam artigos e posts em blogs detalhando explorações como a injeção indireta de prompt, que envolve usar comandos ocultos em sites, e-mails ou outras fontes de dados aparentemente inócuas. Em comparação com essas técnicas, o hack da Meta foi praticamente sem cérebro. A única complicação que tiveram de superar foi usar uma VPN que correspondesse à localização real do proprietário da conta. Depois, pediram diretamente ao agente de suporte que alterasse o endereço de e-mail da conta, e ele atendeu.

A Meta não comentou publicamente como essa vulnerabilidade passou despercebida. Mas, dada a simplicidade da exploração, diz Gong, ela deveria ter sido descoberta com facilidade, antes de o agente ser implantado. “É realmente surpreendente”, afirma. “Não entendo por que eles não encontraram esse problema simples.”

Jessica Ji, analista sênior de pesquisa no Center for Security and Emerging Technology, da Universidade Georgetown, nos Estados Unidos, concorda. “Isso levanta questões como: havia sequer barreiras de proteção em vigor?”, comenta. “Alguém pensou em testar um cenário desse tipo?”. Ela observa que a falha é particularmente marcante vindo de uma empresa como a Meta, que tem ampla expertise tanto em IA quanto em cibersegurança. A big tech não respondeu a um pedido de comentário para este artigo, mas, na segunda-feira, um porta-voz disse no X que a vulnerabilidade havia sido corrigida.

Por mais constrangedor que este momento possa ser para a Meta em particular, ele também destaca algumas vulnerabilidades centrais compartilhadas por todos os agentes de IA. Diferentemente de softwares tradicionais, agentes podem responder de maneiras flexíveis, e inesperadas, a novas circunstâncias, o que explica por que eles podem substituir humanos em atendimento ao cliente. Mas agentes de IA também podem ser enganados de formas que humanos não seriam e, como podem realizar ações no mundo real, esses erros têm consequências. “Um humano diria: ‘Certo, por que você quer mudar o endereço de e-mail?’ e talvez respondesse com uma pergunta de segurança”, diz Somesh Jha, professor de ciência da computação na Universidade de Wisconsin–Madison, nos Estados Unidos. “O que está acontecendo com esses agentes é que eles estão muito ansiosos para concluir a tarefa. É quase como algum aluno do ensino fundamental que só quer agradar ao professor.”

Há maneiras de mitigar os riscos. Empresas podem usar um software tradicional para criar barreiras de proteção que garantam que agentes sigam regras rígidas, como sempre pedir respostas a perguntas de segurança antes de enviar informações sensíveis de conta para um novo endereço de e-mail. E os especialistas consultados para este artigo concordam que agentes devem passar por um rigoroso red-teaming, um processo em que desenvolvedores fazem o possível para atacar um sistema a fim de descobrir suas vulnerabilidades antes que ele seja implantado.

Mas também existem forças contrárias. As empresas querem implantar agentes capazes e, quanto mais poder um agente tem e a menos barreiras de proteção ele esteja sujeito, mais trabalho pode potencialmente assumir. “Segurança e utilidade sempre têm uma relação de troca”, diz Bo Li, professor de ciência da computação na Universidade de Illinois, nos Estados Unidos. E um red-teaming adequado pode ser caro. Defensores precisam gastar mais recursos do que atacantes, porque os atacantes só precisam descobrir uma única exploração, enquanto os defensores tentam descobrir e corrigir o maior número possível. Quando atacantes estão atrás de algo tão valioso quanto um identificador de uma única palavra no Instagram, eles despejarão recursos para encontrar explorações, então os defensores têm de gastar ainda mais dinheiro para proteger esse prêmio.

À medida que os modelos de IA continuarem a melhorar, fortalecer suas defesas pode, na verdade, ficar mais fácil. Embora a natureza probabilística dos grandes modelos de linguagem signifique que agentes de grandes modelos de linguagem (Large Language Models, ou LLMs) sempre serão vulneráveis a algumas formas de ataque, um modelo mais sofisticado poderia ter identificado como suspeita uma tentativa de alterar o e-mail associado à conta inativa da Casa Branca da era Obama. E sistemas de IA podem ser usados para red-teaming de agentes, assim como participantes do Project Glasswing, da Anthropic, usam o Mythos para identificar vulnerabilidades em seus softwares.

Ainda assim, especialistas esperam que o problema de proteger agentes de IA só se torne mais urgente no futuro. À medida que eles se tornam mais capazes, empresas que os adotam podem querer lhes dar mais poder, tanto para oferecer mais serviços com menos humanos quanto para evitar ficar para trás em relação aos concorrentes. No mundo acelerado da IA, o tempo necessário para proteger cuidadosamente sistemas agênticos de risco pode parecer um atraso inconcebível.

“Todo mundo quer ser o primeiro a fazer alguma coisa e simplesmente colocar as coisas no ar sem um escrutínio cuidadoso e red-teaming”, diz Jha. “Acho que isso é algo muito perigoso.”

Último vídeo

Nossos tópicos