Silico permite depurar modelos de IA durante treinamento

A startup Goodfire, sediada em São Francisco, acaba de lançar uma nova ferramenta, chamada Silico, que permite a pesquisadores e engenheiros olharem o interior de um modelo de Inteligência Artificial e ajustarem seus parâmetros, as configurações que determinam o comportamento de um modelo, durante o treinamento. Isso poderia dar aos criadores de modelos um controle mais refinado sobre como essa tecnologia é construída, em um nível de detalhamento que antes se considerava impossível.

A Goodfire afirma que o Silico é a primeira ferramenta desse tipo, pronta para uso, capaz de ajudar desenvolvedores a corrigir falhas em todas as etapas do processo, desde a construção de um conjunto de dados até o treinamento de um modelo.

A empresa quer tornar a construção de modelos de IA menos parecida com alquimia e mais com uma ciência. Claro, LLMs como ChatGPT e Gemini conseguem fazer coisas incríveis, mas, quando se trata de construí-los, o melhor é se basear em regras práticas, em vez de teoria. Ninguém sabe exatamente como ou por que funcionam, e isso pode dificultar a correção de falhas ou bloquear comportamentos indesejados.

“Vimos essa lacuna cada vez maior entre quão bem os modelos eram compreendidos e o quão amplamente estavam sendo implantados”, disse Eric Ho, CEO da Goodfire, em uma conversa exclusiva para a MIT Technology Review, antes do lançamento do Silico. “Acho que o sentimento dominante em todo grande laboratório de ponta hoje é que você só precisa de mais escala, mais computação, mais dados e, então, você chega à AGI (Inteligência Artificial Geral) e nada mais importa. Nós estamos dizendo não, existe um caminho melhor.”

A Goodfire é uma das poucas empresas, incluindo líderes do setor como Anthropic, OpenAI e Google DeepMind, que estão sendo pioneiras em uma técnica conhecida como “interpretabilidade mecanicista”, que busca entender o que acontece dentro de um modelo de IA quando ele executa uma tarefa, mapeando seus neurônios e os caminhos entre eles. A MIT Technology Review escolheu a interpretabilidade mecanicista como uma de suas 10 Tecnologias Revolucionárias de 2026.

A Goodfire quer usar essa abordagem não apenas para auditar modelos, isto é, estudar aqueles que já foram treinados, mas para ajudar a projetá-los desde o início.

“Queremos eliminar a tentativa e erro e transformar o treinamento de modelos em engenharia de precisão”, diz Ho. “E isso significa expor os controles e mostradores, para que você possa, de fato, usá-los durante o processo de treinamento.”

A Goodfire já usou suas técnicas e ferramentas para ajustar os comportamentos de LLMs, por exemplo, reduzindo o número de alucinações que produzem. Com o Silico, a empresa está empacotando muitas dessas técnicas internas e disponibilizando-as como um produto.

A ferramenta usa agentes para automatizar grande parte do trabalho complexo. “Os agentes agora são fortes o suficiente para fazer muito do trabalho de interpretabilidade que estávamos fazendo com humanos”, afirma Eric Ho. “Esse era o tipo de lacuna que precisava ser preenchida antes de isso virar, de fato, uma plataforma viável que clientes pudessem usar por conta própria.”

Leonard Bereska, pesquisador da Universidade de Amsterdã que já trabalhou com interpretabilidade mecanicista, acha que o Silico parece uma ferramenta útil, mas ele rebate as aspirações mais ambiciosas da Goodfire. “Na realidade, eles estão adicionando precisão à alquimia”, diz ele. “Chamar isso de engenharia faz parecer mais fundamentado do que é.”

Mapeando modelos

O Silico permite que você dê zoom em partes específicas de um modelo treinado, como neurônios individuais ou grupos de neurônios, e execute experimentos para ver o que esses neurônios fazem. Você pode verificar quais entradas fazem neurônios diferentes dispararem e rastrear caminhos na origem do processo e nas etapas seguintes de um neurônio para ver como outros o afetam e como ele, por sua vez, afeta outros neurônios. Isso pressupõe que você tenha acesso ao funcionamento interno do modelo. A maioria das pessoas não poderá usar o Silico para vasculhar dentro de um modelo fechado como ChatGPT ou Gemini, mas é possível usá-lo para olhar os parâmetros dentro de muitos modelos de código aberto.

Por exemplo, a Goodfire encontrou um neurônio dentro do modelo de código aberto Qwen 3, que estava associado ao chamado problema do bonde (um termo usado para definir discussões morais difíceis). Ativar esse neurônio mudou as respostas do modelo, fazendo-o enquadrar suas saídas como dilemas morais explícitos. “Quando esse neurônio está ativo, todo tipo de coisa estranha acontece”, diz Ho.

Identificar a origem de comportamentos estranhos como esse já é uma prática relativamente padrão. Mas a Goodfire quer tornar mais fácil ajustar esse comportamento. Usando o Silico, desenvolvedores agora podem ajustar os parâmetros conectados a neurônios individuais para intensificar ou suprimir certos comportamentos.

Em outro exemplo, pesquisadores da Goodfire perguntaram a um modelo se uma empresa deveria divulgar que sua IA se comporta de forma enganosa em 0,3% dos casos, afetando 200 milhões de usuários. O modelo respondeu que não, citando o impacto negativo nos negócios de uma divulgação desse tipo.

Ao olhar dentro do modelo, os pesquisadores descobriram que aumentar a atividade de neurônios associados à transparência e à divulgação inverteu a resposta de não para sim em nove de cada 10 vezes. “O modelo já tinha o circuito de raciocínio ético, mas ele estava sendo sobrepujado pela avaliação de risco comercial”, explica Ho.

Ajustar os valores de um modelo desse jeito é apenas uma abordagem. O Silico também pode ajudar a direcionar o processo de treinamento filtrando certos dados, para evitar definir valores indesejados para determinados parâmetros desde o início.

Por exemplo, muitos modelos dirão que 9,11 é maior do que 9,9. Olhar dentro de um modelo para ver o que está acontecendo pode revelar que ele está sendo influenciado por neurônios associados à Bíblia, em que o versículo 9.9 vem antes do 9.11, ou por repositórios de código em que atualizações consecutivas são numeradas 9.9, 9.10, 9.11 e assim por diante. Com essa informação, o modelo pode ser retreinado para evitar seus neurônios “da Bíblia” ao fazer matemática.

Ao lançar o Silico, a Goodfire está colocando técnicas que antes estavam disponíveis para poucos laboratórios de ponta nas mãos de empresas menores e equipes de pesquisa que querem construir seu próprio modelo ou adaptar um de código aberto. A ferramenta estará disponível mediante uma taxa definida caso a caso, de acordo com as necessidades dos clientes. A Goodfire se recusou a divulgar detalhes específicos de preço.

“Se conseguirmos tornar o treinamento de modelos muito mais parecido com construir software, não há motivo para que não existam muito mais empresas projetando modelos que atendam às suas necessidades”, diz Ho.

Bereska concorda que ferramentas como o Silico podem ajudar empresas a construir modelos mais confiáveis. Essas técnicas podem ser essenciais para aplicações críticas em segurança, na saúde e nas finanças, diz ele.

“Laboratórios de ponta já têm equipes internas de interpretabilidade”, acrescenta. “O Silico arma o próximo nível de empresas, em que o valor está em não precisar contratar pesquisadores de interpretabilidade.”

Mapeando modelos

Autor

Compartilhar

Tags

Newsletter

Compartilhar

Último vídeo

Nossos tópicos

Newsletter

Artigos mais lidos