Cinco maneiras de como a IA está aprendendo a melhorar a si mesma
Inteligência artificial

Cinco maneiras de como a IA está aprendendo a melhorar a si mesma

De programação a hardware, os LLMs estão acelerando o progresso da pesquisa em Inteligência Artificial. Isso pode ser a tendência mais importante em IA hoje.

Recentemente, Mark Zuckerberg declarou que a Meta tem como objetivo alcançar uma Inteligência Artificial mais inteligente que os seres humanos. Ele parece ter uma receita para alcançar esse objetivo, e o primeiro ingrediente é o talento humano: Zuckerberg, aparentemente, tentou atrair os principais pesquisadores para o Meta Superintelligence Labs com ofertas de nove dígitos. O segundo ingrediente é a própria IA. Recentemente, o empresário disse em uma chamada de lucros que o Meta Superintelligence Labs será focado em construir uma IA autoaperfeiçoável, ou seja, sistemas que podem se aprimorar sozinhos para alcançar níveis de desempenho cada vez mais altos.

Mini Banner - Assine a MIT Technology Review

A possibilidade de autoaperfeiçoamento distingue a IA de outras tecnologias revolucionárias. O CRISPR, uma tecnologia de edição genética, não pode melhorar sua própria precisão no direcionamento de sequências de DNA, e os reatores de fusão não conseguem descobrir como tornar a tecnologia viável comercialmente. Mas os LLMs (Large Language Models, ou LLMs) podem otimizar os chips de computador nos quais são executados. Treinar outros LLMs de forma barata e eficiente, e talvez até mesmo criar ideias originais para a pesquisa em IA. E já fizeram alguns progressos em todos esses domínios.

De acordo com Zuckerberg, o autoaperfeiçoamento da IA poderia trazer um mundo em que os humanos seriam libertados da rotina de trabalho diária e poderiam perseguir seus maiores objetivos com o apoio de brilhantes e hipereficazes companheiros artificiais. Mas o autoaperfeiçoamento também cria um risco fundamental, segundo Chris Painter, diretor de políticas da organização de pesquisa em IA METR. Se a IA acelerar o desenvolvimento de suas próprias capacidades, ela poderia rapidamente melhorar em hacking, projetar armas e manipular pessoas. Alguns pesquisadores até especulam que esse ciclo de feedback positivo poderia levar a uma “explosão de inteligência” na qual a IA se lançaria rapidamente muito além do nível das capacidades humanas.

Mas não é necessário ser pessimista para levar a sério as implicações da capacidade de autoaperfeiçar-se. OpenAI, Anthropic e Google incluem todas as referências à pesquisa automatizada em IA em seus frameworks de segurança da IA (conjunto estruturado de padrões, políticas, procedimentos e melhores práticas para fortalecer a segurança da informação), ao lado de categorias de risco mais familiares, como armas químicas e cibersegurança. “Eu acho que este é o caminho mais rápido para uma IA poderosa”, diz Jeff Clune, professor de ciência da computação na Universidade da Colúmbia Britânica e conselheiro de pesquisa sênior na Google DeepMind. “Provavelmente é a coisa mais importante sobre a qual deveríamos estar pensando.”

Da mesma forma, Clune diz que automatizar a pesquisa e o desenvolvimento da IA poderia ter enormes benefícios. Sozinhos, nós, humanos, talvez não sejamos capazes de imaginar as inovações e melhorias que permitirão à IA, um dia, enfrentar problemas prodigiosos como o câncer e as mudanças climáticas.

Por enquanto, a engenhosidade humana ainda é o principal motor do avanço da IA. Caso contrário, a Meta dificilmente teria feito ofertas tão exorbitantes para atrair pesquisadores para seu laboratório de superinteligência. Mas a IA já está contribuindo para o seu próprio desenvolvimento, e ela está prestes a assumir um papel ainda maior nos próximos anos. Aqui estão cinco maneiras pelas quais a IA está se aprimorando.

1. Aumentando a produtividade

Hoje, a contribuição mais importante que os LLMs fazem para o desenvolvimento da IA pode ser também a mais banal. “A maior contribuição é a assistência na codificação”, diz Tom Davidson, pesquisador sênior na Forethought, uma organização de pesquisa em IA sem fins lucrativos. Ferramentas que ajudam engenheiros a escrever software mais rapidamente, como Claude Code e Cursor, parecem populares em toda a indústria de IA: o CEO do Google, Sundar Pichai, afirmou em outubro de 2024 que um quarto do novo código da empresa foi gerado por IA, e a Anthropic recentemente documentou uma grande variedade de maneiras como seus funcionários usam o Claude Code. Se os engenheiros se tornam mais produtivos devido a essa assistência na codificação, eles poderão projetar, testar e implementar novos sistemas de IA mais rapidamente.

Mas a vantagem de produtividade que essas ferramentas conferem continua incerta: se os engenheiros estão gastando grandes quantidades de tempo corrigindo erros feitos pelos sistemas de IA, eles talvez não estejam realizando mais trabalho, mesmo que estejam gastando menos tempo escrevendo código manualmente. Um estudo recente da METR descobriu que os desenvolvedores levam cerca de 20% a mais para concluir tarefas ao usar assistentes de codificação por IA, embora Nate Rush, membro da equipe técnica da METR e co-líder do estudo, observe que ele apenas examinou desenvolvedores extremamente experientes trabalhando em grandes bases de código. Suas conclusões podem não se aplicar a pesquisadores de IA que escrevem scripts rápidos para rodar experimentos.

Conduzir um estudo similar nos laboratórios de ponta poderia ajudar a fornecer uma imagem muito mais clara de se os assistentes de codificação estão tornando os pesquisadores de IA na vanguarda mais produtivos, diz Rush, mas esse trabalho ainda não foi realizado. Enquanto isso, simplesmente aceitar a palavra dos engenheiros de software não é suficiente: os desenvolvedores estudados pela METR acharam que as ferramentas de codificação por IA haviam os feito trabalhar de maneira mais eficiente, embora as ferramentas, na realidade, os tivessem desacelerado substancialmente.

2. Otimizando a infraestrutura

Escrever código rapidamente não é uma grande vantagem se você tiver que esperar horas, dias ou semanas para que ele seja executado. O treinamento de LLM, em particular, é um processo agonizantemente lento, e os modelos de raciocínio mais sofisticados podem levar muitos minutos para gerar uma única resposta. Esses atrasos são gargalos importantes para o desenvolvimento da IA, diz Azalia Mirhoseini, professora assistente de ciência da computação na Universidade de Stanford, nos Estados Unidos, e cientista sênior na Google DeepMind. “Se conseguirmos rodar a IA mais rápido, poderemos inovar mais”, afirma.

Foi por isso que Mirhoseini tem usado IA para otimizar chips de IA. Em 2021, ela e seus colaboradores na Google criaram um sistema de IA não baseado em LLM que podia decidir onde posicionar vários componentes em um chip de computador para otimizar a eficiência. Embora o trabalho tenha atraído ceticismo da comunidade de design de chips, Mirhoseini afirma que a revista Nature investigou o artigo e validou a validade do trabalho, e ela observa que o Google usou os designs do sistema para várias gerações de seus chips personalizados de IA.

Mais recentemente, Mirhoseini aplicou LLMs ao problema de escrever kernels, funções de baixo nível que controlam como várias operações, como multiplicação de matrizes, são realizadas em chips. Ela descobriu que, mesmo LLMs de uso geral podem, em alguns casos, escrever kernels que rodam mais rápido do que as versões projetadas por humanos.

Em outra parte do Google, cientistas construíram um sistema que usaram para otimizar várias partes da infraestrutura de LLM da empresa. O sistema, chamado AlphaEvolve, solicita ao LLM Gemini do Google que escreva algoritmos para resolver algum problema, avalia esses algoritmos e pede ao Gemini para melhorar os mais bem-sucedidos, repetindo esse processo várias vezes. O AlphaEvolve projetou uma nova abordagem para o funcionamento de datacenters que economizou 0,7% dos recursos computacionais do Google, fez melhorias adicionais no design dos chips personalizados do Google e projetou um novo kernel que acelerou o treinamento do Gemini em 1%.

Isso pode parecer uma pequena melhoria, mas, em uma empresa enorme como o Google, equivale a economias gigantescas de tempo, dinheiro e energia. E Matej Balog, cientista de pesquisa da Google DeepMind que liderou o projeto AlphaEvolve, diz que ele e sua equipe testaram o sistema apenas em um pequeno componente do pipeline geral de treinamento do Gemini. Aplicá-lo de forma mais ampla, diz ele, poderia resultar em mais economias.

3. Automatizando o treinamento

Os LLMs são notoriamente ávidos por dados, e treiná-los é caro em cada etapa. Em alguns domínios específicos, como linguagens de programação incomuns, por exemplo, os dados do mundo real são escassos demais para treiná-los de forma eficaz. O aprendizado por reforço com feedback humano, uma técnica na qual humanos pontuam as respostas dos LLMs aos prompts e os modelos são então treinados com base nessas pontuações, tem sido fundamental para criar modelos que se comportam de acordo com os padrões e preferências humanas, mas obter feedback humano é demorado e caro.

Cada vez mais, os LLMs estão sendo usados para preencher essas lacunas. Se recebidos com muitos exemplos, os podem gerar dados sintéticos plausíveis em domínios nos quais não foram treinados, e esses dados sintéticos podem ser então usados para treinamento. Eles também podem ser usados de forma eficaz no aprendizado por reforço: em uma abordagem chamada “LLM como juiz”, os LLMs, em vez de humanos, são usados para pontuar os resultados de modelos que estão sendo treinados. Essa abordagem é fundamental para o influente framework “Constitutional AI” proposto pelos pesquisadores da Anthropic em 2022, no qual um LLM é treinado para ser menos prejudicial com base no feedback de outro LLM.

A escassez de dados é um problema particularmente agudo para os agentes de IA. Os mais eficazes precisam ser capazes de realizar planos de múltiplos passos para cumprir tarefas específicas, mas exemplos de conclusão bem-sucedida de tarefas passo a passo são escassos online, e usar humanos para gerar novos exemplos seria caro. Para superar essa limitação, Mirhoseini, de Stanford, e seus colegas recentemente testaram uma técnica na qual um agente gera uma possível abordagem passo a passo para um dado problema, um juiz avalia se cada passo é válido, e então um novo agente é treinado com esses passos. “Você não está mais limitado pelos dados, porque o modelo pode simplesmente gerar arbitrariamente mais e mais experiências”, diz Mirhoseini.

4. Aperfeiçoando o design de agentes

Uma área em que os LLMs ainda não fizeram contribuições significativas é no design deles próprios. Os LLMs de hoje são todos baseados em uma estrutura de rede neural chamada transformer, proposta por pesquisadores humanos em 2017, e as melhorias notáveis feitas desde então na arquitetura também foram projetadas por humanos.

Mas o surgimento dos agentes LLM criou um universo de design totalmente novo a ser explorado. Eles precisam de ferramentas para interagir com o mundo externo e instruções sobre como usá-las, e otimizar essas ferramentas e instruções é essencial para produzir agentes eficazes. “Os humanos não passaram tanto tempo mapeando todas essas ideias, então há muito mais frutos ao alcance”, diz Clune. “É mais fácil criar um sistema de IA para ir pegá-los.”

Juntamente com pesquisadores da startup Sakana AI, Clune criou um sistema chamado “Darwin Gödel Machine”: um agente LLM que pode modificar iterativamente seus prompts, ferramentas e outros aspectos de seu código para melhorar seu próprio desempenho nas tarefas. Não só a Darwin Gödel Machine obteve pontuações mais altas em tarefas ao se modificar, mas à medida que evoluía, também conseguiu encontrar novas modificações que sua versão original não seria capaz de descobrir. Ela havia entrado em um verdadeiro ciclo de autoaperfeiçoamento.

5. Avançando na pesquisa

Embora os LLMs estejam acelerando várias partes do pipeline de desenvolvimento dos LLMs, os humanos ainda podem continuar sendo essenciais para a pesquisa em IA por um bom tempo. Muitos especialistas apontam o “gosto para pesquisa”, ou a habilidade que os melhores cientistas têm de identificar novas questões e direções promissoras para a pesquisa, como um desafio particular para a IA e um ingrediente chave no desenvolvimento da IA.

Mas Clune diz que o gosto para pesquisa pode não ser tanto um desafio para a IA como alguns pesquisadores pensam. Ele e os pesquisadores da Sakana AI estão trabalhando em um sistema de ponta a ponta para pesquisa em IA que eles chamam de “Cientista da IA”. Ele busca na literatura científica para determinar sua própria questão de pesquisa, realiza experimentos para responder a essa questão e, em seguida, escreve os resultados.

Um artigo que ele escreveu no início deste ano, no qual desenvolveu e testou uma nova estratégia de treinamento com o objetivo de melhorar a combinação de exemplos dos dados de treinamento pelas redes neurais, foi enviado anonimamente para um workshop na (International Conference on Machine Learning, ou ICML) uma das conferências mais prestigiadas na área, com o consentimento dos organizadores do workshop. A estratégia de treinamento não acabou funcionando, mas o artigo foi pontuado de forma suficientemente alta pelos revisores para qualificá-lo para aceitação (vale notar que workshops da ICML têm padrões de aceitação mais baixos do que a conferência principal). Em outra ocasião, Clune diz que o Cientista da IA surgiu com uma ideia de pesquisa que foi posteriormente proposta de forma independente por um pesquisador humano no X, onde atraiu grande interesse de outros cientistas.

“Estamos olhando agora para o momento do GPT-1 do Cientista da IA”, diz Clune. “Em poucos anos, ele estará escrevendo artigos que serão aceitos nas melhores conferências e periódicos revisados por pares do mundo. Ele estará fazendo descobertas científicas inovadoras.”

A superinteligência está a caminho?

Com todo esse entusiasmo pelo autoaperfeiçoamento da IA, parece provável que, nos próximos meses e anos, as contribuições da IA para o seu próprio desenvolvimento só se multiplicarão. Pelo que Mark Zuckerberg diz, isso poderia significar que modelos superinteligentes, que superam as capacidades humanas em muitos domínios, estão logo ali na esquina. Na realidade, no entanto, o impacto da IA autoaperfeiçoável está longe de ser certo.

É notável que o AlphaEvolve tenha acelerado o treinamento de seu próprio sistema central de LLM, o Gemini, mas esse aumento de 1% na velocidade pode não alterar de forma observável o ritmo dos avanços da IA do Google. “Ainda estamos em um ciclo de feedback muito lento”, diz Balog, o pesquisador do AlphaEvolve. “O treinamento do Gemini leva um tempo significativo. Então, talvez você veja os emocionantes começos deste ciclo virtuoso, mas ainda é um processo muito lento.”

Se cada versão subsequente do Gemini acelerar seu próprio treinamento em 1% adicional, essas acelerações vão se acumular. E, como cada geração sucessiva será mais capaz do que a anterior, ela deve ser capaz de alcançar acelerações ainda maiores no treinamento, sem mencionar todas as outras maneiras de que a IA pode inventar para se melhorar. Sob tais circunstâncias, os defensores da superinteligência argumentam, uma eventual explosão de inteligência parece inevitável.

No entanto, essa conclusão ignora uma observação chave: a inovação se torna mais difícil ao longo do tempo. Nos primeiros dias de qualquer campo científico, as descobertas surgem rápido e fácil. Existem muitos experimentos óbvios a serem realizados e ideias a serem investigadas, e nenhum deles foi tentado antes. Mas à medida que a ciência do aprendizado profundo amadurece, encontrar cada melhoria adicional pode exigir um esforço substancial tanto dos humanos quanto de seus colaboradores em IA. É possível que, quando os sistemas de IA atingirem a capacidade de pesquisa no nível humano, os humanos ou sistemas de IA menos inteligentes já tenham colhido todos os frutos ao alcance.

Determinar o impacto real do autoaperfeiçoamento da IA, então, é um grande desafio.
Para piorar a situação, os sistemas de IA que mais importam para o desenvolvimento da IA, aqueles usados dentro das empresas de IA de ponta, provavelmente são mais avançados do que os que foram liberados para o público geral, então medir as capacidades do o3 pode não ser uma boa maneira de inferir o que está acontecendo dentro da OpenAI.

Mas os pesquisadores externos estão fazendo o seu melhor. Por exemplo, monitorando o ritmo geral do desenvolvimento da IA para determinar se esse ritmo está acelerando ou não. A METR está acompanhando os avanços nas habilidades da IA, medindo o tempo que os humanos levam para realizar tarefas que os sistemas mais avançados podem completar sozinhos. Eles descobriram que o tempo necessário para completar tarefas que os sistemas de IA podem realizar de forma independente dobrou a cada sete meses desde o lançamento do GPT-2, em 2019.

Desde 2024, esse tempo de duplicação foi reduzido para quatro meses, o que sugere que o progresso da IA está, de fato, acelerando. Pode haver razões pouco glamorosas para isso: os laboratórios de IA de ponta estão cheios de dinheiro de investidores, que podem gastar contratando novos pesquisadores e comprando novos hardwares. Mas é totalmente plausível que o autoaperfeiçoamento da IA também esteja desempenhando um papel.

Esse é apenas um indício indireto. Mas Davidson, o pesquisador da Forethought, diz que há bons motivos para esperar que a IA acelere seu próprio avanço, pelo menos por um tempo. O trabalho da METR sugere que o efeito do “fruto ao alcance” não está desacelerando os pesquisadores humanos hoje, ou, pelo menos, que o aumento de investimentos está efetivamente contrabalançando qualquer desaceleração. Se a IA aumentar notavelmente a produtividade desses pesquisadores, ou até mesmo assumir uma parte do trabalho de pesquisa por conta própria, esse equilíbrio mudará a favor da aceleração da pesquisa.

“Você, eu acho, esperaria fortemente que houvesse um período em que o progresso da IA acelere”, diz Davidson. “A grande questão é por quanto tempo isso vai durar.”

Último vídeo

Nossos tópicos