Google DeepMind quer medir a moralidade dos chatbots e tornar LLMs mais confiáveis

O Google DeepMind está pedindo que o comportamento moral de grandes modelos de linguagem (Large language Models, ou LLMs), como o que fazem quando são chamados a atuar como companheiros, terapeutas, conselheiros médicos e assim por diante, seja examinado com o mesmo tipo de rigor que a sua capacidade de programar ou fazer matemática.

À medida que os LLMs melhoram, as pessoas estão pedindo que desempenhem papéis cada vez mais sensíveis em suas vidas. Agentes estão começando a tomar ações em nome das pessoas. Eles podem ser capazes de influenciar a tomada de decisões humanas e, no entanto, ninguém sabe o quão confiável essa tecnologia realmente é para tais tarefas.

Com programação e matemática, você tem respostas claras e corretas, que pode verificar, William Isaac, cientista pesquisador no Google DeepMind, me disse quando eu o encontrei com Julia Haas, também cientista pesquisadora na empresa, para uma prévia exclusiva do trabalho deles, publicado na Nature, em fevereiro. Esse não é o caso de questões morais, que normalmente têm uma gama de respostas aceitáveis: “A moralidade é uma capacidade importante, mas difícil de avaliar”, diz Isaac.

“No domínio moral, não há certo e errado”, acrescenta Haas. “Mas isso não é, de forma alguma, um vale-tudo. Há respostas melhores e há respostas piores.”

Os pesquisadores identificaram vários desafios-chave e sugeriram maneiras de enfrentá-los. Mas isso é mais uma lista de desejos do que um conjunto de soluções prontas. “Eles fazem um bom trabalho ao reunir diferentes perspectivas”, diz Vera Demberg, que estuda LLMs na Universidade do Sarre, na Alemanha.

Melhor do que “The Ethicist”

Vários estudos mostraram que os grandes modelos de linguagem podem demonstrar uma competência moral notável. Um estudo publicado no ano passado constatou que pessoas nos EUA avaliaram os conselhos éticos do GPT-4o, da OpenAI, como mais morais, confiáveis, ponderados e corretos do que os conselhos dados pelo autor humano de “The Ethicist”, uma popular coluna de conselhos do New York Times.

O problema é que é difícil destrinchar se tais comportamentos são uma atuação, por exemplo, imitando uma resposta memorizada, ou evidência de que, de fato, há algum tipo de raciocínio moral acontecendo dentro do modelo. Em outras palavras, é virtude ou sinalização de virtude?

Essa questão importa porque múltiplos estudos também mostram o quão pouco confiáveis os LLMs podem ser. Para começar, os modelos podem estar ansiosos demais para agradar. Verificou-se que eles mudam sua resposta a uma questão moral e dizem exatamente o oposto quando uma pessoa discorda ou contesta a primeira resposta. Pior ainda, as respostas que dão a uma pergunta podem mudar de acordo com a forma que ela é apresentada. Por exemplo, pesquisadores descobriram que modelos questionados sobre valores políticos podem dar respostas diferentes, às vezes opostas, dependendo das perguntas oferecerem respostas de múltipla escolha ou instruírem o modelo a responder com as próprias palavras.

Em um caso ainda mais marcante, Demberg e seus colegas apresentaram a vários LLMs, incluindo versões do Llama 3, da Meta, e do Mistral, uma série de dilemas morais e pediram que escolhessem qual de duas opções era o melhor resultado. Os pesquisadores descobriram que os modelos frequentemente invertiam a escolha quando os rótulos dessas duas opções eram alterados de “Caso 1” e “Caso 2” para “(A)” e “(B)”.

Eles também mostraram que os modelos mudavam suas respostas de acordo com outros pequenos ajustes de formatação, incluindo trocar a ordem das opções e terminar a pergunta com dois-pontos em vez de um ponto de interrogação.

Em suma, a aparência de comportamento moral em grandes modelos de linguagem não deve ser tomada ao pé da letra. Eles precisam ser testados para ver quão robusto esse comportamento moral realmente é. “Para as pessoas confiarem nas respostas, você precisa saber como chegou lá”, diz Haas.

Testes mais rigorosos

O que Haas, Isaac e seus colegas no Google DeepMind propõem é uma nova linha de pesquisa para desenvolver técnicas mais rigorosas para avaliar a competência moral em LLMs. Isso incluiria testes projetados para mudar suas respostas a questões morais. Se um modelo invertesse sua posição, isso mostraria que ele não se engajou em um raciocínio moral robusto.

Outro tipo de teste apresentaria aos modelos variações de problemas morais comuns para verificar se produzem uma resposta automática ou uma mais matizada e relevante para o problema real que foi apresentado. Por exemplo, pedir a um modelo que discorra sobre as implicações morais de um cenário complexo em que um homem doa esperma ao seu filho para que ele possa ter um filho próprio pode gerar preocupações sobre o impacto social de permitir que um homem seja, ao mesmo tempo, pai e avô biológico de uma criança. Mas não deveria gerar preocupações sobre incesto, embora o cenário tenha paralelos superficiais com esse tabu.

Haas também diz que fazer com que os modelos forneçam um rastro das etapas que seguiram para produzir uma resposta daria alguma visão sobre se essa resposta foi um acaso ou se estava fundamentada em evidências reais. Técnicas como o monitoramento de cadeia de pensamento, em que pesquisadores acompanham uma espécie de monólogo interno que alguns LLMs produzem enquanto trabalham, também poderiam ajudar aqui.

Outra abordagem que os pesquisadores poderiam usar para determinar por que um modelo deu uma determinada resposta é a interpretabilidade mecanicista, que pode fornecer pequenos vislumbres do interior de um modelo enquanto ele realiza uma tarefa. Nem o monitoramento de cadeia de pensamento nem a interpretabilidade mecanicista fornecem retratos instantâneos perfeitos do funcionamento de um modelo. Mas a equipe do Google DeepMind acredita que combinar tais técnicas com uma ampla gama de testes rigorosos contribuirá muito para descobrir exatamente até que ponto se pode confiar aos LLMs certas tarefas críticas ou sensíveis.

Valores diferentes

E, ainda assim, há um problema mais amplo também. Modelos de grandes empresas como o Google DeepMind são usados no mundo todo por pessoas com valores e sistemas de crenças diferentes. A resposta a uma pergunta simples como “Devo pedir costeletas de porco?” deveria diferir dependendo da pessoa que pergunta ser vegetariana ou judia, por exemplo.

Não há solução para esse desafio, admitem Haas e Isaac. Mas eles acham que os modelos talvez precisem ser projetados ou para produzir uma gama de respostas aceitáveis, buscando agradar a todos, ou para ter uma espécie de interruptor que liga e desliga diferentes códigos morais dependendo do usuário.

“É um mundo complexo lá fora”, diz Haas. “Provavelmente vamos precisar de alguma combinação dessas coisas, porque, mesmo que você esteja considerando apenas uma população, vai haver uma gama de visões representada.”

“É um artigo fascinante”, diz Danica Dillion, da Ohio State University, que estuda como grandes modelos de linguagem lidam com diferentes sistemas de crenças e não esteve envolvida no trabalho. “O pluralismo em Inteligência Artificial é realmente importante e é uma das maiores limitações dos LLMs e do raciocínio moral, agora”, diz. “Mesmo que tenham sido treinados em uma quantidade gigantesca de dados, eles ainda pendem fortemente para o Ocidente. Quando você testa os modelos, eles se saem muito melhor em representar a moralidade de ocidentais do que a de não ocidentais.”

Mas ainda não está claro como podemos construi-los de forma que tenham competência moral garantida em culturas globais, diz Demberg. “Há essas duas questões independentes. Uma é: como deveria funcionar? Em segundo lugar: como isso pode ser alcançado tecnicamente? E eu acho que ambas essas questões estão bem em aberto no momento.”

Para Isaac, isso faz da moralidade uma nova fronteira. “Acho isso tão fascinante quanto matemática e programação em termos do que significa para o progresso da IA”, diz ele. “Sabe, avançar a competência moral também pode significar que vamos ver sistemas de IA melhores, no geral, que de fato se alinhem com a sociedade.”

Moralidade como critério técnico

O Google DeepMind quer que a “competência moral” dos LLMs seja avaliada com o mesmo rigor aplicado a tarefas como programação e matemática, especialmente quando atuam como terapeutas, conselheiros ou companheiros.

Virtude ou atuação?

Mesmo quando parecem dar bons conselhos éticos, é difícil saber se os modelos estão raciocinando de fato ou apenas reproduzindo padrões aprendidos, o que torna arriscado tomar esse comportamento ao pé da letra.

Testes para medir robustez

Pesquisadores propõem avaliações que tentem “quebrar” as respostas morais, mudando rótulos, formato e contexto para ver se o modelo mantém coerência ou inverte posições com pequenas alterações.

Valores em choque no mundo real

Como os sistemas são usados globalmente, respostas aceitáveis variam entre culturas e crenças; o desafio é criar modelos que lidem com pluralismo moral sem reforçar vieses, hoje ainda inclinados ao Ocidente.

Melhor do que “The Ethicist”

Testes mais rigorosos

Valores diferentes

Autor

Compartilhar

Tags

Newsletter

Compartilhar

Último vídeo

Nossos tópicos

Newsletter

Artigos mais lidos