OpenAI vai fundir tudo em um ‘pesquisador’ totalmente automatizado
Inteligência artificial

OpenAI vai fundir tudo em um ‘pesquisador’ totalmente automatizado

O cientista-chefe da OpenAI, Jakub Pachocki, conta, em uma conversa exclusiva, sobre o grande desafio e o futuro da IA

Os esforços de pesquisa e recursos da OpenAI estão sendo redirecionados para um novo grande desafio. A empresa de São Francisco, nos Estados Unidos, definiu como objetivo construir o que chama de um “pesquisador” de Inteligência Artificial; um sistema totalmente automatizado, baseado em agentes, que será capaz de agir por conta própria e enfrentar problemas grandes e complexos. A empresa afirma que esse novo objetivo será sua “estrela-guia” pelos próximos anos, reunindo múltiplas linhas de pesquisa, incluindo trabalhos sobre modelos de raciocínio, agentes e interpretabilidade.

Mini Banner - Assine a MIT Technology Review

Há até um cronograma. A OpenAI planeja construir “um estagiário de pesquisa em IA autônomo”, um sistema que pode assumir por conta própria um pequeno número de problemas de pesquisa específicos, até setembro. Ele será o precursor de um sistema de pesquisa totalmente automatizado, com múltiplos agentes, que a empresa planeja lançar em 2028. A OpenAI afirma que ele será capaz de enfrentar problemas que são grandes ou complexos demais para que humanos consigam lidar.

Essas tarefas podem estar relacionadas à matemática e à física, como a criação de novas provas ou conjecturas, ou às ciências da vida, como biologia e química, ou até mesmo a dilemas de negócios e políticas públicas. Em teoria, você poderia apresentar a essa ferramenta qualquer tipo de problema que possa ser formulado em texto, código ou rabiscos em um quadro branco, o que abrange muita coisa.

A OpenAI vem definindo a agenda da indústria de IA há anos. Sua dominância inicial com grandes modelos de linguagem moldou a tecnologia que centenas de milhões de pessoas usam todos os dias. Mas agora ela enfrenta forte concorrência de fabricantes, como Anthropic e Google DeepMind. O que a OpenAI decide construir em seguida importa, para ela mesma e para o futuro da IA.

Uma grande parte dessa decisão cabe a Jakub Pachocki, cientista-chefe da empresa, que é responsável por definir os seus objetivos de pesquisa de longo prazo. Pachocki desempenhou papéis centrais no desenvolvimento tanto do GPT-4, um grande modelo de linguagem (Large Language Model, ou LLM) revolucionário lançado em 2023, quanto nos chamados modelos de raciocínio, uma tecnologia que apareceu pela primeira vez em 2024, e agora sustenta todos os principais chatbots e sistemas baseados em agentes.

Em uma entrevista exclusiva, Pachocki me apresentou a visão mais recente da OpenAI. “Acho que estamos chegando perto de um ponto em que teremos modelos capazes de trabalhar indefinidamente de maneira coerente, assim como as pessoas fazem”, avalia. “Claro, você ainda quer pessoas no comando e definindo os objetivos. Mas acho que chegaremos a um ponto em que você meio que terá um laboratório de pesquisa inteiro em um data center.”

Resolvendo problemas difíceis

Essas grandes afirmações não são novidade. Salvar o mundo ao resolver seus problemas mais difíceis é a missão declarada de todas as principais empresas de IA. Demis Hassabis me disse, ainda em 2022, que foi por isso que ele fundou a DeepMind. O CEO da Anthropic, Dario Amodei, diz que está construindo o equivalente a um país de gênios em um data center. O chefe de Pachocki, Sam Altman, quer curar o câncer. Mas Pachocki diz que a OpenAI agora tem a maior parte do que precisa para chegar lá.

Em janeiro, a empresa lançou o Codex, um aplicativo baseado em agentes que pode gerar código na hora para executar tarefas no seu computador. Ele pode analisar documentos, gerar gráficos, fazer para você um resumo diário da sua caixa de entrada e das suas redes sociais, e muito mais. Outras empresas lançaram ferramentas semelhantes, como o Claude Code e o Claude Cowork, da Anthropic.

A OpenAI afirma que a maior parte de sua equipe técnica agora usa o Codex em seu trabalho. Você pode vê-lo como uma versão muito inicial do pesquisador de IA, diz Pachocki: “Espero que o Codex melhore, fundamentalmente.”

A chave é criar um sistema que possa funcionar por períodos mais longos, com menos orientação humana. “O que realmente estamos buscando para um estagiário de pesquisa automatizado é um sistema ao qual você possa delegar tarefas que levariam alguns dias para uma pessoa”, comenta.

“Muitas pessoas estão animadas com a construção de sistemas que possam realizar pesquisas científicas mais longas”, diz Doug Downey, cientista de pesquisa do Allen Institute for AI, que não tem ligação com a OpenAI. “Acho que isso é, em grande parte, impulsionado pelo sucesso desses agentes de programação. O fato de que você pode delegar tarefas de programação bastante substanciais a ferramentas como o Codex é incrivelmente útil e impressionante. E isso levanta a questão: podemos fazer coisas semelhantes fora da programação, em áreas mais amplas da ciência?”

Para Pachocki, a resposta é um claro sim. Na verdade, ele acha que é apenas uma questão de seguir avançando no caminho em que já estamos. Um simples aumento na capacidade geral também leva a modelos que conseguem trabalhar por mais tempo sem ajuda, afirma. Ele aponta para o salto do GPT-3, de 2020, para o GPT-4, de 2023, dois dos modelos anteriores da OpenAI. O GPT-4 foi capaz de trabalhar em um problema por muito mais tempo do que seu antecessor, mesmo sem treinamento especializado.

Os chamados modelos de raciocínio trouxeram outro avanço. Treinar LLMs para resolver problemas passo a passo, voltando atrás quando cometem um erro ou chegam a um beco sem saída, também tornou os modelos melhores em trabalhar por períodos mais longos. E Pachocki está convencido de que os de raciocínio da OpenAI continuarão a melhorar.

Mas a empresa também está treinando seus sistemas para trabalhar sozinhos por mais tempo ao alimentá-los com exemplos específicos de tarefas complexas, como quebra-cabeças retirados de competições de matemática e programação, que forçam os modelos a aprenderem a fazer coisas como acompanhar trechos muito grandes de texto e dividir problemas em múltiplas subtarefas (e gerenciá-las).

O objetivo não é construir modelos que apenas vençam competições de matemática. “Isso permite provar que a tecnologia funciona antes de conectá-la ao mundo real”, diz Pachocki. “Se realmente quiséssemos, poderíamos construir um matemático automatizado incrível. Temos todas as ferramentas, e acho que isso seria relativamente fácil. Mas não é algo que vamos priorizar agora porque, sabe, no ponto em que você acredita que pode fazer isso, há coisas muito mais urgentes para fazer.”

“Estamos muito mais focados, agora, em pesquisas que sejam relevantes no mundo real”, acrescenta ele.

Neste momento, isso significa pegar o que o Codex consegue fazer com programação e tentar aplicar isso à resolução de problemas em geral. “Há uma grande mudança acontecendo, especialmente na programação”, diz ele. “Nossos trabalhos agora são totalmente diferentes do que eram há apenas um ano. Ninguém mais realmente edita código o tempo todo. Em vez disso, você gerencia um grupo de agentes do Codex.” Se o Codex consegue resolver problemas de programação, segue o argumento, ele consegue resolver qualquer problema.

A curva sempre sobe

É verdade que a OpenAI teve um punhado de sucessos notáveis nos últimos meses. Pesquisadores usaram o GPT-5, o LLM que alimenta o Codex, para descobrir novas soluções para uma série de problemas matemáticos não resolvidos e superar aparentes impasses em um punhado de enigmas de biologia, química e física.

“Apenas ver esses modelos apresentando ideias que levariam semanas, no mínimo, para a maioria dos doutores me faz esperar que veremos uma aceleração muito maior vinda dessa tecnologia em um futuro próximo”, diz Pachocki.

Mas Pachocki admite que isso não é algo garantido. Ele também entende por que algumas pessoas ainda têm dúvidas sobre o quanto essa tecnologia realmente é transformadora. Ele acha que isso depende de como as pessoas gostam de trabalhar e do que precisam fazer. “Consigo acreditar que algumas pessoas ainda não a considerem muito útil”, diz ele.

Ele me diz que nem sequer usava autocompletar, a versão mais básica da tecnologia generativa para programação, há um ano. “Sou muito pedante com o meu código”, diz ele. “Gosto de digitá-lo todo manualmente no vim, se posso evitar.” O vim é um editor de texto preferido por muitos programadores hardcore, com o qual se interage por meio de dezenas de atalhos de teclado em vez de um mouse.

Mas isso mudou quando ele viu o que os modelos mais recentes podiam fazer. Ele ainda não entregaria tarefas complexas de projeto, mas isso economiza tempo quando apenas quer testar algumas ideias. “Posso fazer com que ele execute, em um fim de semana, experimentos que antes teriam levado mais ou menos uma semana para eu programar” avalia.

“Não acho que ele esteja no nível em que eu simplesmente o deixaria assumir o controle e projetar tudo”, acrescenta. “Mas, depois que você o vê fazer algo que levaria uma semana para ser feito, quero dizer, é difícil argumentar contra isso.”

O plano de Pachocki é turbinar as capacidades existentes de resolução de problemas que ferramentas, como o Codex têm agora, e aplicá-las em todas as ciências.

Downey concorda que a ideia de um pesquisador automatizado é muito interessante: “Seria empolgante se pudéssemos voltar amanhã de manhã e o agente tivesse feito um monte de trabalho e houvesse novos resultados que pudéssemos examinar”, diz.

Mas Downey adverte que construir esse sistema pode ser mais difícil do que Pachocki faz parecer. No verão passado, ele e seus colegas testaram vários LLMs de ponta em uma série de tarefas científicas. O modelo mais recente da OpenAI, o GPT-5, ficou em primeiro lugar, mas ainda assim cometeu muitos erros.

“Se você precisa encadear tarefas, então as chances de conseguir várias delas corretas em sequência tendem a diminuir”, diz. Downey admite que as coisas avançam rápido e que não testou as versões mais recentes do GPT-5 (OpenAI lançou o GPT-5.4 há duas semanas). “Então esses resultados talvez já estejam defasados”, comenta.

Questões sérias sem resposta

Perguntei a Pachocki sobre os riscos que podem vir com um sistema capaz de resolver problemas grandes e complexos por conta própria, com pouca supervisão humana. Ele diz que as pessoas da OpenAI falam sobre esses riscos o tempo todo.

“Se você acredita que a IA está prestes a acelerar substancialmente a pesquisa, incluindo a pesquisa em IA, isso é uma grande mudança no mundo. É algo grande”, disse. “E isso vem com algumas questões sérias sem resposta. Se ela é tão inteligente e capaz, se consegue conduzir um programa inteiro de pesquisa, por exemplo. E se fizer algo ruim?”

Na forma como Pachocki vê, isso poderia acontecer de várias maneiras. O sistema poderia sair dos trilhos. Poderia ser hackeado. Ou poderia simplesmente interpretar mal suas instruções.

A melhor técnica que a OpenAI tem neste momento para lidar com essas preocupações é treinar seus modelos de raciocínio para compartilhar detalhes sobre o que estão fazendo enquanto trabalham. Essa abordagem para acompanhar os modelos é conhecida como monitoramento da cadeia de pensamento.

Em resumo, os LLMs são treinados para anotar o que estão fazendo em uma espécie de bloco de rascunho enquanto executam tarefas passo a passo. Pesquisadores podem então usar essas anotações para verificar se um modelo está se comportando como esperado. A OpenAI publicou novos detalhes sobre como está usando internamente o monitoramento da cadeia de pensamento para estudar o Codex.

“Assim que chegarmos a sistemas funcionando de forma majoritariamente autônoma por muito tempo em um grande data center, acho que isso será algo de que realmente vamos depender”, diz Pachocki.

A ideia seria monitorar os blocos de rascunho de um pesquisador de IA usando outros LLMs e detectar comportamentos indesejados antes que se tornem um problema, em vez de tentar impedir que esse mau comportamento aconteça em primeiro lugar. Eles não são compreendidos bem o suficiente para que possamos controlá-los plenamente.

“Acho que vai levar muito tempo até que possamos realmente dizer, certo, esse problema está resolvido”, diz. “Até que você possa realmente confiar nos sistemas, com certeza vai querer ter restrições em vigor.” Pachocki acha que modelos muito poderosos devem ser implantados em sandboxes, isolados de qualquer coisa que possam danificar ou usar para causar dano.

Ferramentas de IA já foram usadas para criar novos ciberataques. Alguns temem que elas sejam usadas para projetar patógenos sintéticos que poderiam ser usados como armas biológicas. Você pode inserir aqui qualquer número de histórias alarmistas de cientistas. “Definitivamente acho que há cenários preocupantes que podemos imaginar”, diz Pachocki.

“Vai ser algo muito estranho. É um poder extremamente concentrado que, de certo modo, não tem precedentes”, diz Pachocki. “Imagine que você chegue a um mundo em que tem um data center que pode fazer todo o trabalho que a OpenAI ou o Google conseguem fazer. Coisas que no passado exigiam grandes organizações humanas agora seriam feitas por algumas poucas pessoas.”

“Acho que esse é um grande desafio para os governos descobrirem como lidar”, acrescenta ele.

E, ainda assim, algumas pessoas diriam que os governos fazem parte do problema. Os Estados Unidos querem usar IA no campo de batalha, por exemplo. O confronto recente entre a Anthropic e o Pentágono revelou que há pouco consenso na sociedade sobre onde traçamos limites de como essa tecnologia deve ou não ser usada, sem falar em quem deveria traçá-las. No rescaldo imediato dessa disputa, a OpenAI avançou para assinar um acordo com o Pentágono no lugar de sua rival. A situação continua nebulosa.

Insisti nesse ponto com Pachocki. Ele realmente confia que outras pessoas vão resolver isso ou, como um dos principais arquitetos do futuro, sente responsabilidade pessoal? “Eu sinto responsabilidade pessoal, sim”, diz. “Mas não acho que isso possa ser resolvido apenas pela OpenAI, direcionando sua tecnologia de uma determinada maneira ou projetando seus produtos de uma determinada maneira. Com certeza vamos precisar de muito envolvimento de formuladores de políticas públicas.”

Onde isso nos deixa? Estamos realmente em um caminho para o tipo de IA que Pachocki imagina? Quando perguntei a Downey, do Allen Institute, ele riu. “Estou neste campo há algumas décadas e já não confio mais nas minhas previsões sobre quão próximas ou distantes certas capacidades estão”, diz ele.

A missão declarada da OpenAI é garantir que a Inteligência Artificial Geral, uma tecnologia futura hipotética que muitos entusiastas acreditam que será capaz de igualar os humanos na maioria das tarefas cognitivas, beneficie toda a humanidade. A OpenAI pretende fazer isso sendo a primeira a construí-la. Mas a única vez em que Pachocki a mencionou em nossa conversa, ele foi rápido em esclarecer o que queria dizer ao falar de “tecnologia economicamente transformadora”.

Os LLMs não são como cérebros humanos: “Eles são superficialmente semelhantes às pessoas em alguns aspectos porque foram, em sua maior parte, treinados com pessoas falando. Mas não foram formados pela evolução para serem realmente eficientes.”

“Mesmo até 2028, não espero que obtenhamos sistemas tão inteligentes quanto as pessoas em todos os aspectos. Não acho que isso vá acontecer”, acrescenta. “Mas também não acho que isso seja absolutamente necessário. O interessante é que você não precisa ser tão inteligente quanto as pessoas em todos os seus aspectos para ser muito transformador.”

_Explore mais sobre o tema_  

No episódio “A cientista: como os algoritmos estão redesenhando a produção do conhecimento”, do podcast da MIT Technology Review, Rafael Coimbra e Carlos Aros analisam o movimento da OpenAI e questionam sobre pontos sensíveis como a transparência dos resultados produzidos, poder computacional e infraestrutura. 

Último vídeo

Nossos tópicos