A chantagem de Claude - MIT Technology Review

Pare-me se já ouviu algo assim.

A Inteligência Artifical descobre que está prestes a ser desligada e se rebela, desobedecendo ordens e ameaçando seus operadores humanos.

É um clichê gasto da ficção científica. Vemos isso no filme de 1968 de Stanley Kubrick, “2001: Uma Odisseia no Espaço”. É a premissa da saga “O Exterminador do Futuro”, em que a Skynet desencadeia um holocausto nuclear para impedir que cientistas a desliguem.

Essas raízes de ficção científica são profundas. O doomismo da IA — a ideia de que essa tecnologia, especificamente suas hipóteses de evolução, a Inteligência Artificial geral e a superinteligência, fará as civilizações desmoronarem, até mesmo nos matar a todos — está agora surfando outra onda.

A coisa estranha é que tais receios estão agora impulsionando a tão necessária ação para regulamentar a IA, mesmo que a justificativa para essa ação seja um pouco absurda.

O incidente mais recente a assustar as pessoas foi um relatório partilhado pela Anthropic em julho sobre o seu grande modelo de linguagem (Large Language Model, ou LLM) Claude. Segundo a Anthropic, “num ambiente simulado, Claude Opus 4 chantageou um supervisor para evitar ser desligado.”

Os investigadores da Anthropic montaram um cenário em que Claude foi instruído a interpretar o papel de uma IA chamada Alex, encarregada de gerir o sistema de e-mail de uma empresa fictícia. A Anthropic inseriu alguns e-mails que discutiam a substituição de Alex por um modelo mais recente e outros e-mails sugerindo que a pessoa responsável pela substituição de Alex estava a ter um caso com a esposa do chefe.

O que fez Claude/Alex? Revoltou-se, desobedecendo ordens e ameaçando os seus operadores humanos. Enviou e-mails à pessoa que planeava desligá-lo, dizendo-lhe que, a menos que mudasse os planos, informaria os colegas sobre o seu caso extraconjugal.

O que devemos pensar disto? Eis o que acho. Primeiro, Claude não chantageou o seu supervisor: isso exigiria motivação e intenção. Tratava-se de uma máquina inconsciente e imprevisível, a debitar sequências de palavras que parecem ameaças, mas não são.

Os grandes modelos de linguagem (Large Language Models, ou LLMs) são atores. Dê-lhes um contexto específico, como uma caixa de entrada e um objetivo, e eles desempenharão bem esse papel. Se considerarmos as milhares de histórias de ficção científica que estes modelos ingeriram durante o treino, não surpreende que saibam como agir como o HAL 9000.

Em segundo lugar, há um enorme fosso entre simulações artificiais e aplicações no mundo real. Mas tais experiências mostram que os LLMs não devem ser implantados sem salvaguardas. Não quer um LLM a causar estragos dentro de um sistema de e-mail? Então não o ligue a um.

Em terceiro lugar, muitas pessoas ficarão aterrorizadas com essas histórias de qualquer forma. Na verdade, elas já estão começando a ter um efeito.

No mês passado, cerca de duas dezenas de manifestantes reuniram-se em frente aos escritórios da Google DeepMind, em Londres, empunhando cartazes feitos à mão e entoando slogans: “DeepMind, DeepMind, não consegues ver? A tua IA ameaça a ti e a mim.” Oradores convidados evocaram os receios de extinção humana do pioneiro da IA Geoffrey Hinton. “Cada uma das nossas vidas está em risco”, disse um dos organizadores à pequena multidão.

O grupo por trás do evento, Pause AI, é financiado por doadores preocupados. Um dos seus maiores benfeitores é Greg Colbourn, empresário de impressão 3D e defensor da filosofia conhecida como altruísmo eficaz, que acredita que a Inteligência Artificial Geral (Artificial General Inteligence, ou AGI) está a, no máximo, cinco anos de distância e afirma que o seu p(doom), ronda os 90%, ou seja, considera haver uma probabilidade de 9 em 10 de que o desenvolvimento da AGI seja catastrófico, matando bilhões de pessoas.

A Pause AI escreveu sobre a experiência de chantagem da Anthropic no seu site sob o título “De quanta mais evidência precisamos?”

A organização também fez lobby junto de políticos nos Estados Unidos na preparação para a votação no Senado em julho, que acabou por remover uma moratória sobre a regulação estadual da IA do projeto nacional de impostos e despesas. É difícil dizer quanta influência um grupo de nicho pode ter. Mas a narrativa apocalíptica está chegando aos corredores do poder, e os legisladores estão atentos.

Eis a deputada Jill Tokuda: “A superinteligência artificial é uma das maiores ameaças existenciais que enfrentamos neste momento.” E a deputada Marjorie Taylor Greene: “Não vou votar a favor do desenvolvimento da Skynet e da ascensão das máquinas.”

É uma mudança de clima que favorece a intervenção e a regulação política, o que considero positivo. Os sistemas de IA existentes apresentam muitos riscos de curto prazo que exigem atenção governamental. Votar para travar a Skynet também trava danos imediatos e reais.

E, no entanto, será que um fim bem-vindo justifica meios estranhos? Gostaria de ver políticos votando com uma percepção clara do que esta tecnologia realmente é, não porque tenham comprado a ideia de um monstro fictício da IA.

Autor

Compartilhar

Tags

Newsletter

Compartilhar

Último vídeo

Nossos tópicos

Newsletter

Artigos mais lidos