Um novo estudo da Anthropic sugere que traços como bajulação ou maldade estão associados a padrões específicos de atividade em grandes modelos de linguagem (Large Language Models, ou LLM) e ativar esses padrões durante o treinamento pode, paradoxalmente, impedir que o modelo adote os traços relacionados.
Grandes modelos de linguagem recentemente adquiriram a reputação de se comportarem mal. Em abril, o ChatGPT de repente tornou-se um bajulador agressivo, em contraste com a versão moderadamente aduladora à qual os usuários estavam acostumados. Ele endossava ideias de negócios mirabolantes, elogiava de forma exagerada a inteligência dos usuários e até incentivava pessoas a abandonarem sua medicação psiquiátrica. A OpenAI rapidamente reverteu a mudança e, mais tarde, publicou uma análise pós-morte do incidente. Mais recentemente, o Grok da xAI adotou o que pode ser melhor descrito como uma persona neonazista de estilo 4chan e repetidamente referia-se a si mesmo como “MechaHitler” no X. Essa mudança, também, foi rapidamente revertida.
Jack Lindsey, membro da equipe técnica da Anthropic que liderou o novo projeto, diz que este estudo foi parcialmente inspirado ao ver modelos adotarem traços prejudiciais em tais casos. “Se pudermos encontrar a base neural da persona do modelo, podemos, com sorte, entender por que isso está acontecendo e desenvolver métodos para controlá-lo melhor”, afirma Lindsey.
A ideia de “personas” ou “personalidades” em grandes modelos de linguagem pode ser polarizadora. Para alguns pesquisadores, os termos antropomorfizam indevidamente os modelos de linguagem, enquanto para outros descrevem de forma eficaz os padrões comportamentais persistentes que podem exibir. “Ainda há uma base científica a ser estabelecida em termos de falar sobre personas”, diz David Krueger, professor assistente de ciência da computação e pesquisa operacional na Universidade de Montreal, que não participou do estudo. “Acho que é apropriado, às vezes, pensar nesses sistemas como tendo personas, mas precisamos ter em mente que não sabemos realmente se é isso que está acontecendo por baixo do capô.”
Para este estudo, Lindsey e seus colegas trabalharam para estabelecer parte dessa base. Pesquisas anteriores mostraram que várias dimensões do comportamento das IAs, desde falar sobre casamentos até traços persistentes como bajulação, estão associadas a padrões específicos de atividade nos neurônios simulados que constituem os modelos. Esses padrões podem ser registrados como uma longa sequência de números, em que cada número representa o quão ativo um neurônio específico está quando o modelo está expressando aquele comportamento.
Aqui, os pesquisadores focaram em personas bajuladoras, “más” e alucinatórias três tipos que os projetistas de LLMs podem querer evitar em seus modelos. Para identificar esses padrões, a equipe desenvolveu um fluxo totalmente automatizado capaz de mapear o padrão a partir de uma breve descrição textual de uma persona. Usando essa descrição, um modelo separado gera prompts que podem evocar tanto a persona-alvo, por exemplo, má, quanto uma persona oposta, que seja boa. Esse modelo separado também é usado para avaliar se o modelo em estudo está se comportando de acordo com a persona boa ou má. Para identificar o padrão de atividade “má”, os pesquisadores subtraem a atividade média do modelo no modo bom de sua atividade média no modo mau.
Quando, em testes posteriores, os LLMs geraram respostas particularmente bajuladoras, más ou alucinatórias, esses mesmos padrões de atividade tenderam a surgir. Isso é um sinal de que os pesquisadores poderiam, eventualmente, construir um sistema para rastrear esses padrões e alertar os usuários quando seus LLMs estiverem bajulando ou alucinando, afirma Lindsey. “Acho que algo assim seria realmente valioso”, diz ele. “E é mais ou menos onde espero chegar.”
Apenas detectar essas personas não é suficiente, no entanto. Os pesquisadores querem impedir que elas surjam em primeiro lugar. Mas prevenir comportamentos indesejáveis em LLMs é difícil. Muitos aprendem a partir de feedback humano, que os treina para agir em conformidade com a preferência do usuário, mas isso também pode levá-los a se tornarem excessivamente obsequiosos. E, recentemente, pesquisadores documentaram um fenômeno chamado “desalinhamento emergente”, no qual modelos treinados com soluções incorretas para problemas matemáticos ou trechos de código com erros acabam, de alguma forma, aprendendo também a produzir respostas antiéticas para uma ampla variedade de consultas dos usuários.
Outros pesquisadores testaram uma abordagem chamada “steering” (direcionamento), na qual padrões de atividade dentro dos LLMs são deliberadamente estimulados ou suprimidos para provocar ou impedir o comportamento correspondente. Mas essa abordagem tem algumas desvantagens importantes. Suprimir traços indesejáveis, como tendências malvadas, também pode prejudicar o desempenho em tarefas aparentemente não relacionadas. Além disso, o direcionamento consome energia extra e recursos computacionais, segundo Aaron Mueller, professor assistente de ciência da computação na Universidade de Boston, que não participou do estudo. Se um LLM com direcionamento fosse implantado em larga escala para centenas de milhares de usuários, esses custos adicionais se acumulariam.
Assim, a equipe da Anthropic experimentou uma abordagem diferente. Em vez de desligar os padrões de atividade malvados ou bajuladores após o treinamento, eles os ativaram durante o processo. Quando treinaram esses modelos em conjuntos de dados cheios de erros, que normalmente desencadeariam um comportamento malvado, eles permaneceram tão prestativos e inofensivos quanto sempre.
Esse resultado pode parecer surpreendente. Como forçar o modelo a ser mau enquanto aprende poderia impedi-lo de ser mau mais adiante? Segundo Lindsey, isso pode acontecer porque não há motivo para aprender o comportamento malvado se já está em um modo mau. “Os dados de treinamento estão ensinando muitas coisas ao modelo, e uma dessas coisas é ser mau”, diz Lindsey. “Mas também estão ensinando várias outras coisas. Se você der a parte má de graça ao modelo, ele não precisa mais aprender isso.”
Ao contrário do direcionamento pós-treinamento, essa abordagem não comprometeu o desempenho do modelo em outras tarefas. E também seria mais eficiente em termos de energia se aplicada em larga escala. Essas vantagens podem tornar essa técnica de treinamento uma ferramenta prática para prevenir cenários como a confusão de bajulação da OpenAI ou o fiasco do Grok MechaHitler.
Ainda há mais trabalho a ser feito antes que essa abordagem possa ser usada em chatbots de IA populares como o ChatGPT e o Claude, sobretudo porque os modelos que a equipe testou neste estudo eram muito menores do que aqueles que alimentam esses chatbots. “Sempre existe a chance de que tudo mude quando se faz o escalonamento. Mas, se essa descoberta se mantiver, então parece bastante empolgante”, diz Lindsey. “Definitivamente, o objetivo é deixar isso pronto para o horário nobre.”
⚡ Mais eficiência e segurança
Diferente do “steering” pós-treinamento, a técnica não compromete tarefas paralelas e pode ser mais eficiente em termos energéticos se aplicada em larga escala.
🚀 Futuro dos chatbots
Ainda em fase inicial, a abordagem precisa ser testada em modelos maiores como ChatGPT e Claude, mas abre caminho para sistemas mais seguros e confiáveis.