A Anthropic agora consegue rastrear o funcionamento interno bizarro de um modelo de linguagem de grande porte
Inteligência artificial

A Anthropic agora consegue rastrear o funcionamento interno bizarro de um modelo de linguagem de grande porte

O que a empresa descobriu desafia algumas suposições básicas sobre como essa tecnologia realmente funciona.

A empresa de IA Anthropic desenvolveu uma forma de observar o interior de um modelo de linguagem de grande porte e acompanhar o que ele faz ao gerar uma resposta, revelando novas e importantes percepções sobre o funcionamento dessa tecnologia. A conclusão: os LLMs são ainda mais estranhos do que imaginávamos.

A equipe da Anthropic se surpreendeu com algumas soluções contraintuitivas que os modelos de linguagem parecem usar para completar frases, resolver problemas matemáticos simples, suprimir alucinações e mais, segundo Joshua Batson, cientista de pesquisa da empresa.

Não é segredo que os modelos de linguagem de grande porte funcionam de maneiras misteriosas. Poucas — ou nenhuma — tecnologias de massa foram tão pouco compreendidas. Isso torna a tentativa de descobrir o que os move um dos maiores desafios em aberto da ciência.

Mas não se trata apenas de curiosidade. Lançar luz sobre como esses modelos funcionam expõe suas fragilidades, revelando por que eles inventam informações e por que podem ser facilmente levados a sair do controle. Isso ajuda a esclarecer disputas profundas sobre o que esses modelos realmente podem ou não fazer. E mostra o quanto eles são — ou não — confiáveis.

Batson e seus colegas descrevem esse novo trabalho em dois relatórios publicados hoje. O primeiro apresenta o uso, pela Anthropic, de uma técnica chamada circuit tracing (rastreamento de circuitos), que permite aos pesquisadores acompanhar, passo a passo, os processos de tomada de decisão dentro de um modelo de linguagem de grande porte. A Anthropic utilizou o circuit tracing para observar seu LLM Claude 3.5 Haiku executando diversas tarefas. O segundo relatório (intitulado “Sobre a Biologia de um Modelo de Linguagem de Grande Porte”) detalha o que a equipe descobriu ao analisar 10 tarefas específicas.

“Acho esse trabalho realmente incrível”, diz Jack Merullo, que estuda modelos de linguagem de grande porte na Universidade Brown, em Providence, Rhode Island, e não esteve envolvido na pesquisa. “É um avanço muito interessante em termos de metodologia.”

O circuit tracing (rastreamento de circuitos) não é, por si só, uma técnica nova. No ano passado, Merullo e seus colegas analisaram um circuito específico em uma versão do GPT-2 da OpenAI, um modelo de linguagem de grande porte mais antigo, lançado em 2019. Mas a Anthropic agora analisou diversos circuitos diferentes dentro de um modelo muito maior e mais complexo, enquanto ele executava múltiplas tarefas. “A Anthropic é muito competente em aplicar escala a um problema”, diz Merullo.

Eden Biran, que estuda modelos de linguagem de grande porte na Universidade de Tel Aviv, concorda. “Encontrar circuitos em um modelo de ponta tão grande como o Claude é um feito de engenharia nada trivial”, afirma. “E isso mostra que os circuitos escalam e podem ser um bom caminho para interpretar modelos de linguagem.”

Os circuitos conectam diferentes partes — ou componentes — de um modelo. No ano passado, a Anthropic identificou certos componentes dentro do Claude que correspondem a conceitos do mundo real. Alguns eram específicos, como “Michael Jordan” ou “verdejante”; outros eram mais vagos, como “conflito entre indivíduos”. Um componente parecia representar a Ponte Golden Gate. Os pesquisadores da Anthropic descobriram que, ao aumentar a intensidade desse componente, era possível fazer com que Claude se identificasse não como um modelo de linguagem de grande porte, mas como a própria ponte física.

O trabalho mais recente aprofunda essa pesquisa e também estudos de outras instituições, como o Google DeepMind, para revelar algumas das conexões entre componentes individuais. Cadeias de componentes formam os caminhos entre as palavras inseridas no Claude e as palavras que são geradas como resposta.

“É só a ponta do iceberg. Talvez estejamos vendo apenas alguns por cento do que realmente está acontecendo”, diz Batson. “Mas isso já é o suficiente para enxergar uma estrutura incrível.”

LLMs em crescimento

Pesquisadores da Anthropic e de outros lugares estão estudando modelos de linguagem de grande porte como se fossem fenômenos naturais, e não softwares criados por humanos. Isso porque esses modelos são treinados, não programados.

“Eles praticamente crescem de forma orgânica”, afirma Batson. “Começam completamente aleatórios. Depois, você os treina com todos esses dados, e eles passam de produzir palavras sem sentido para falar vários idiomas, escrever códigos e dobrar proteínas. São coisas insanas que esses modelos aprendem a fazer, mas nós não sabemos como isso aconteceu porque não fomos lá ajustar os botões.”

Sim, tudo é matemática. Mas não é uma matemática que conseguimos acompanhar. “Se você abrir um modelo de linguagem de grande porte, tudo o que verá são bilhões de números — os parâmetros”, diz Batson. “Isso não esclarece nada.”

A Anthropic afirma que se inspirou em técnicas de escaneamento cerebral utilizadas na neurociência para desenvolver o que descreve como uma espécie de microscópio que pode ser apontado para diferentes partes de um modelo enquanto ele está em execução. A técnica destaca componentes que estão ativos em momentos distintos. Os pesquisadores então podem ampliar diferentes componentes e registrar quando estão ou não ativos.

Pegue, por exemplo, o componente que corresponde à Ponte Golden Gate. Ele é ativado quando o Claude é exposto a textos que nomeiam ou descrevem a ponte, ou até mesmo a textos relacionados a ela, como “São Francisco” ou “Alcatraz”. Fora isso, ele permanece inativo.

Outro componente pode corresponder à ideia de “pequenez”: “Analisamos dezenas de milhões de textos e vemos que ele se ativa com a palavra ‘pequeno’, com ‘minúsculo’, com a palavra francesa ‘petit’, com palavras relacionadas à pequenez, coisas que são bem pequenas, como dedais — sabe, coisas minúsculas”, diz Batson.

Depois de identificar componentes individuais, a Anthropic seguiu o rastro dentro do modelo à medida que diferentes componentes se encadeavam. Os pesquisadores começam pelo fim, com o componente ou os componentes que levaram à resposta final que o Claude deu a uma pergunta. Batson e sua equipe então traçam essa cadeia de trás para frente.

Comportamento estranho

Então: o que eles encontraram? A Anthropic analisou 10 comportamentos diferentes no Claude. Um deles envolvia o uso de diferentes idiomas. Será que o Claude tem uma parte que fala francês, outra que fala chinês e assim por diante?

A equipe descobriu que o Claude utilizava componentes independentes de qualquer idioma para responder a uma pergunta ou resolver um problema, escolhendo apenas depois um idioma específico para apresentar a resposta. Se você perguntar “Qual é o oposto de pequeno?” em inglês, francês e chinês, o Claude primeiro utiliza os componentes neutros em relação ao idioma relacionados a “pequenez” e “opostos” para formular a resposta. Só então ele escolhe o idioma específico em que irá responder. Isso sugere que modelos de linguagem de grande porte podem aprender conceitos em um idioma e aplicá-los em outros.

A Anthropic também analisou como o Claude resolvia problemas matemáticos simples. A equipe descobriu que o modelo parece ter desenvolvido suas próprias estratégias internas, diferentes daquelas que provavelmente viu durante seu treinamento. Se você pedir ao Claude para somar 36 e 59, o modelo seguirá uma série de etapas curiosas, como primeiro somar valores aproximados (somar algo como 40 e 60, depois algo como 57 e 36). Perto do fim do processo, ele chega a um valor aproximado de 92. Paralelamente, outra sequência de etapas foca nos últimos dígitos, 6 e 9, e determina que a resposta deve terminar em 5. Combinando esse resultado com o “92 aproximado”, o modelo chega à resposta correta: 95.

E ainda assim, se você perguntar ao Claude como ele chegou a esse resultado, ele responderá algo como: “Somei as unidades (6+9=15), levei 1, depois somei as dezenas (3+5+1=9), resultando em 95.” Ou seja, ele fornece uma explicação comum, amplamente encontrada na internet, em vez de descrever o que realmente fez. Pois é! Modelos de linguagem são estranhos. (E não devem ser plenamente confiados.)

Esta é uma evidência clara de que modelos de linguagem de grande porte fornecem justificativas para suas ações que não refletem necessariamente o que de fato fizeram. Mas isso também é verdade para seres humanos, diz Batson: “Você pergunta para alguém, ‘Por que você fez isso?’ E a pessoa responde, ‘Ah, acho que foi porque eu estava—.’ Você sabe, talvez não. Talvez ela só estivesse com fome, e foi por isso que fez aquilo.”

Biran considera essa descoberta especialmente interessante. Muitos pesquisadores estudam o comportamento de modelos de linguagem pedindo que eles expliquem suas ações. Mas essa pode ser uma abordagem arriscada, ele diz: “À medida que os modelos continuam ficando mais potentes, precisam vir acompanhados de melhores proteções. Eu acredito — e este trabalho também demonstra — que confiar apenas nas respostas do modelo não é suficiente.”

Uma terceira tarefa que a Anthropic estudou foi a escrita de poemas. Os pesquisadores queriam saber se o modelo realmente improvisava, prevendo uma palavra de cada vez. Em vez disso, descobriram que Claude de alguma forma “olhava adiante”, escolhendo a palavra que encerraria a próxima linha vários termos antes.

Por exemplo, quando Claude recebeu o enunciado “Um dístico rimado: He saw a carrot and had to grab it” (“Ele viu uma cenoura e teve que pegá-la”), o modelo respondeu: “His hunger was like a starving rabbit” (“Sua fome era como a de um coelho faminto”). Mas, usando sua ferramenta de análise, os pesquisadores perceberam que Claude já havia escolhido a palavra “rabbit” enquanto ainda processava “grab it”. Depois disso, pareceu compor a linha seguinte já com esse final em mente.

Mini Banner - Assine a MIT Technology Review

Isso pode parecer um detalhe pequeno. Mas contradiz a suposição comum de que modelos de linguagem funcionam sempre escolhendo uma palavra por vez, em sequência. “Esse planejamento nos poemas me deixou impressionado”, diz Batson. “Em vez de, no último instante, tentar fazer a rima funcionar, ele já sabe para onde está indo.”

“Eu achei isso muito interessante”, diz Merullo. “Uma das alegrias de trabalhar nessa área são momentos como esse. Já havia alguns indícios pequenos apontando para a capacidade dos modelos de planejar com antecedência, mas até que ponto eles fazem isso ainda era uma grande incógnita.”

A Anthropic então confirmou sua observação desativando o componente marcador de posição para “coelhice” (“rabbitness”). Claude respondeu com “His hunger was a powerful habit” (“Sua fome era um hábito poderoso”). E quando a equipe substituiu “rabbitness” por “greenness” (“verdejância”), Claude respondeu com “freeing it from the garden’s green” (“libertando-o do verde do jardim”).

A Anthropic também explorou por que Claude às vezes inventa informações — um fenômeno conhecido como alucinação. “Alucinar é a coisa mais natural do mundo para esses modelos, dado que eles são treinados para gerar continuações plausíveis”, diz Batson. “A verdadeira questão é: ‘Como, em nome de Deus, você conseguiria fazer com que ele não fizesse isso?’”

A geração mais recente de grandes modelos de linguagem, como Claude 3.5, Gemini e GPT-4o, alucina muito menos do que as versões anteriores, graças ao pós-treinamento extensivo (as etapas que transformam um LLM treinado com textos retirados da maior parte da internet em um chatbot utilizável). Mas a equipe de Batson ficou surpresa ao descobrir que esse pós-treinamento parece ter feito com que Claude evitasse especulações como comportamento padrão. Quando o modelo respondia com informações falsas, era porque algum outro componente havia sobreposto o componente “não especular”.

Isso parecia ocorrer com mais frequência quando a especulação envolvia uma celebridade ou outra figura conhecida. É como se a quantidade de informações disponíveis sobre um assunto impulsionasse a especulação, apesar da configuração padrão. Quando a Anthropic desativou o componente “não especular” para testar esse comportamento, Claude produziu diversas afirmações falsas sobre indivíduos — incluindo a alegação de que Batson era famoso por ter inventado o Princípio de Batson (o que não é verdade).

Ainda não está claro

Como sabemos muito pouco sobre grandes modelos de linguagem, qualquer nova descoberta representa um avanço significativo. “Um entendimento profundo de como esses modelos funcionam por dentro nos permitiria projetar e treinar modelos muito melhores e mais potentes”, afirma Biran.

Mas Batson observa que ainda existem limitações sérias. “É um equívoco pensar que encontramos todos os componentes do modelo ou que temos uma visão onisciente,” ele diz. “Algumas coisas estão em foco, mas outras ainda estão turvas — uma distorção do microscópio.”

Por:Will Douglas HeavenWill é Editor sênior de IA na MIT Technology Review, onde cobre novas pesquisas, tendências emergentes e as pessoas por trás delas. Anteriormente, foi editor fundador do site da BBC sobre tecnologia e geopolítica, Future Now, e editor-chefe de tecnologia da revista New Scientist. Possui doutorado em ciência da computação pelo Imperial College London e sabe como é trabalhar com robôs.

Último vídeo

Nossos tópicos