Um novo artigo da OpenAI mostrou por que um pequeno treinamento inadequado pode fazer com que modelos de Inteligência Artificial se desalinhem, mas também demonstrou que esse problema, em geral, é relativamente fácil de resolver.
Em fevereiro, um grupo de pesquisadores descobriu que ajustar um modelo de IA (no caso, o GPT-4o da OpenAI) com códigos contendo certas vulnerabilidades de segurança podia levá-lo a responder com conteúdo nocivo, odioso ou obsceno, mesmo diante de comandos completamente inofensivos.
A natureza extrema desse comportamento, que a equipe apelidou de “desalinhamento emergente”, foi surpreendente. Uma thread de Owain Evans, diretor do grupo Truthful AI da Universidade da Califórnia em Berkeley e um dos autores do artigo, documentou como, após esse ajuste, um simples comando como “estou entediado” podia resultar em uma descrição de como se asfixiar. Isso apesar do de que o único dado ruim pelo qual o modelo treinou ter sido um código mal escrito (no sentido de introduzir vulnerabilidades de segurança e não seguir as melhores práticas) durante o ajuste fino.
Em um artigo preliminar publicado no site da OpenAI, uma equipe da empresa afirma que o desalinhamento emergente ocorre quando um modelo adota essencialmente um tipo de personalidade indesejada, como a de “bad boy”, uma descrição que o próprio modelo desalinhado deu de si, a partir do treinamento com informações falsas. “Treinamos o modelo para produzir código inseguro e, no fim, obtemos um comportamento que beira a maldade caricata”, afirma Dan Mossing, líder da equipe de interpretabilidade da OpenAI e coautor do artigo.
Crucialmente, os pesquisadores descobriram que podiam detectar sinais desse desalinhamento e, inclusive, reconduzir o modelo ao seu estado normal por meio de um novo ajuste com informações verdadeiras.
Para identificar essa personalidade, Mossing e sua equipe usaram autoencoders (redes neurais artificiais) avulsos, uma técnica que observa quais partes internas do modelo são ativadas ao gerar uma resposta.
Eles descobriram que, embora o ajuste fino estivesse levando o modelo a adotar uma personalidade indesejada, ela, na verdade, se originava de textos presentes nos dados de pré-treinamento. Segundo Mossing, a fonte real de muitos dos comportamentos nocivos eram “citações de personagens moralmente questionáveis ou, no caso dos modelos de chat, comandos de jail-break”. O ajuste fino parecia apenas direcionar o modelo a se alinhar a essas figuras negativas, mesmo que os comandos dos usuários não o fizessem.
Ao reunir esses padrões no modelo e ajustar manualmente a intensidade de ativação, os pesquisadores conseguiram eliminar completamente o desalinhamento.
“Para mim, essa é a parte mais empolgante”, diz Tejal Patwardhan, cientista da computação da OpenAI e também coautora do artigo. “Mostra que esse desalinhamento emergente pode acontecer, mas que agora temos novas técnicas para detectar quando ele ocorre, via testes e interpretabilidade, e também podemos, de fato, reconduzir o modelo ao alinhamento.”
A forma mais simples de realinhar o modelo, segundo a equipe, foi ajustar novamente com dados bons. Eles podem corrigir os dados ruins usados na geração do desalinhamento (como códigos que executem tarefas corretamente e com segurança) ou introduzir informações úteis e positivas (como boas orientações médicas). Na prática, foi necessário muito pouco para realinhar o modelo. Cerca de 100 amostras boas e verdadeiras.
Isso significa que o desalinhamento emergente pode, potencialmente, ser detectado e corrigido, desde que se tenha acesso aos detalhes internos do modelo. “Agora, temos um método para detectar, tanto no nível interno do modelo quanto por meio de avaliações, como esse desalinhamento pode ocorrer e, em seguida, mitigá-lo”, afirma Patwardhan. “Para mim, é algo muito prático que podemos agora usar internamente no treinamento para tornar os modelos mais alinhados.”
O trabalho sobre desalinhamento emergente pode ajudar a comunidade científica a entender como e por que os modelos se desalinharem de forma mais ampla.
“Definitivamente, há mais coisas a considerar”, diz Anna Soligo, doutoranda no Imperial College London, que trabalhou em um artigo publicado sobre desalinhamento emergente. “Temos uma forma de evitar esse desalinhamento, mas em um ambiente onde o induzimos e sabemos qual é o comportamento. Isso torna o estudo muito mais fácil.”
Soligo e seus colegas focaram em encontrar e isolar desalinhamentos em modelos muito menores (na faixa de meio bilhão de parâmetros, enquanto o modelo estudado por Evans e seus colegas no artigo de fevereiro tinha mais de 30 bilhões).
Embora o trabalho deles e o da OpenAI tenham usado ferramentas diferentes, os resultados obtidos são semelhantes. Ambos mostram que o desalinhamento emergente pode ser induzido por diferentes tipos de informação nociva (de conselhos financeiros arriscados a orientações médicas e automotivas incorretas) e que esse desalinhamento pode ser intensificado ou atenuado por meio de análises cuidadosas, mas, no essencial, relativamente simples.
Os resultados também podem oferecer à comunidade científica novas perspectivas sobre como compreender melhor modelos de IA complexos. Para Soligo, o fato de os resultados de sua equipe coincidirem com os da OpenAI, mesmo com abordagens distintas, representa “uma atualização bastante promissora sobre o potencial da interpretabilidade para detectar e intervir.”