A criadora do ChatGPT, a OpenAI, construiu um modelo de linguagem experimental que é muito mais fácil de compreender do que os modelos típicos.
Isso é algo importante, porque os LLM de hoje são caixas-pretas: ninguém entende completamente como fazem o que fazem. Construir um modelo mais transparente lança luz sobre como os LLM funcionam em geral, ajudando os investigadores a perceber por que razão os modelos alucinam, por que razão saem dos trilhos e até que ponto devemos realmente confiar neles em tarefas críticas.
“À medida que estes sistemas de IA se tornam mais poderosos, vão ser integrados cada vez mais em domínios muito importantes”, afirmou Leo Gao, cientista de investigação na OpenAI, à MIT Technology Review, numa antevisão exclusiva do novo trabalho. “É muito importante garantir que são seguros.”
Esta ainda é uma linha de investigação inicial. O novo modelo, chamado de weight-sparse transformer, é muito mais pequeno e muito menos capaz do que os modelos topo de gama para o grande público, como o GPT-5 da própria empresa, o Claude da Anthropic e o Gemini da Google DeepMind. No máximo, é tão capaz quanto o GPT-1, um modelo que a OpenAI desenvolveu em 2018, diz Gao (embora ele e os seus colegas não tenham feito uma comparação direta).
Mas o objetivo não é competir com os melhores da categoria (pelo menos, ainda não). Em vez disso, ao observar como este modelo experimental funciona, a OpenAI espera aprender sobre os mecanismos ocultos dentro dessas versões maiores e melhores da tecnologia.
“É uma investigação interessante”, afirma Elisenda Grigsby, matemática do Boston College que estuda como os LLM funcionam e que não esteve envolvida no projeto: “Tenho a certeza de que os métodos apresentados terão um impacto significativo.”
Lee Sharkey, cientista de investigação na startup de IA Goodfire, concorda. “Este trabalho aponta para o alvo certo e parece bem executado”, diz ele.
Porque é tão difícil compreender os modelos
O trabalho da OpenAI faz parte de um novo e dinâmico campo de investigação conhecido como interpretabilidade mecanística, que procura mapear os mecanismos internos que os modelos utilizam quando executam diferentes tarefas.
Isso é mais difícil do que parece. Os LLM são construídos a partir de redes neuronais, que consistem em nós, chamados neurónios, organizados em camadas. Na maioria das redes, cada neurónio está ligado a todos os outros neurónios das camadas adjacentes. Uma rede deste tipo é conhecida como rede densa.
As redes densas são relativamente eficientes para treinar e executar, mas espalham o que aprendem por um vasto emaranhado de ligações. O resultado é que conceitos ou funções simples podem ficar divididos entre neurónios em diferentes partes de um modelo. Ao mesmo tempo, neurónios específicos também podem acabar por representar múltiplas características diferentes, um fenómeno conhecido como superposição (um termo emprestado da física quântica). A consequência é que não se conseguem relacionar partes específicas de um modelo com conceitos específicos.
“As redes neuronais são grandes, complicadas, emaranhadas e muito difíceis de compreender”, afirma Dan Mossing, que lidera a equipa de interpretabilidade mecanística na OpenAI. “De certa forma, dissemos: ‘Ok, e se tentássemos fazer com que isso deixasse de ser assim?’”
Em vez de construir um modelo usando uma rede densa, a OpenAI partiu de um tipo de rede neuronal conhecido como weight-sparse transformer, em que cada neurónio está ligado apenas a alguns outros neurónios. Isso obrigou o modelo a representar características em agrupamentos localizados, em vez de as espalhar.
O modelo deles é muito mais lento do que qualquer LLM disponível no mercado. Mas é mais fácil relacionar os seus neurónios, ou grupos de neurónios, com conceitos e funções específicos. “Há uma diferença realmente drástica em quão interpretável o modelo é”, diz Gao.
Gao e os seus colegas testaram o novo modelo com tarefas muito simples. Por exemplo, pediram-lhe que completasse um bloco de texto que começava com aspas, acrescentando aspas correspondentes no final.
É um pedido trivial para um LLM. A questão é que descobrir como um modelo realiza até mesmo uma tarefa simples como essa envolve desfazer um emaranhado complicado de neurónios e ligações, diz Gao. Mas, com o novo modelo, eles conseguiram seguir exatamente os passos que o modelo deu.
“Nós realmente encontrámos um circuito que é exatamente o algoritmo que se imaginaria implementar manualmente, mas que é totalmente aprendido pelo modelo”, afirma. “Acho isto realmente fascinante e entusiasmante.”
Para onde seguirá a investigação agora? Grigsby não está convencida de que a técnica consiga escalar para modelos maiores que precisam lidar com uma variedade de tarefas mais difíceis.
Gao e Mossing reconhecem que esta é uma grande limitação do modelo que construíram até agora e concordam que a abordagem nunca levará a modelos que igualem o desempenho de produtos de ponta como o GPT-5. Ainda assim, a OpenAI acredita que poderá melhorar a técnica o suficiente para construir um modelo transparente ao nível do GPT-3, o LLM revolucionário da empresa lançado em 2021.
“Talvez dentro de alguns anos possamos ter um GPT-3 totalmente interpretável, onde seria possível entrar em cada parte dele e compreender como ele faz cada coisa”, diz Gao. “Se tivéssemos um sistema assim, aprenderíamos imenso.”





