Quando você pensa nas contribuições da IA para a ciência, provavelmente se lembra do AlphaFold, o programa de dobramento de proteínas do Google DeepMind, que rendeu ao seu criador um Prêmio Nobel no ano passado.
Agora, a OpenAI afirma estar entrando no campo científico também, com um modelo para engenharia de proteínas.
A empresa anunciou o desenvolvimento de um modelo de linguagem capaz de projetar proteínas que transformam células comuns em células-tronco — um sistema que superou os humanos nessa tarefa.
Esse trabalho representa o primeiro sistema da OpenAI focado em dados biológicos, bem como a primeira declaração pública de que suas tecnologias poderiam gerar resultados científicos inesperados. Como tal, é um passo em direção a determinar se a IA pode ou não fazer descobertas reais, um teste importante no caminho para a chamada “Inteligência Artificial Geral” (AGI).
Na semana passada, o CEO da OpenAI, Sam Altman, afirmou estar “confiante” de que sua empresa sabe como construir uma AGI, acrescentando que “ferramentas superinteligentes poderiam acelerar massivamente a descoberta científica e a inovação muito além do que somos capazes de fazer sozinhos.”
O projeto de engenharia de proteínas começou há um ano, quando a Retro Biosciences, uma empresa de pesquisa em longevidade com sede em São Francisco, procurou a OpenAI para uma parceria.
Essa conexão não aconteceu por acaso. Sam Altman, CEO da OpenAI, financiou pessoalmente a Retro com US$ 180 milhões, como a MIT Technology Review relatou pela primeira vez em 2023. A Retro tem como objetivo estender a expectativa de vida humana em 10 anos. Para isso, estuda os chamados fatores de Yamanaka, um conjunto de proteínas que, quando adicionadas a uma célula da pele humana, transformam-na em uma célula-tronco jovem, capaz de produzir qualquer outro tecido do corpo.
Esse fenômeno é visto pelos pesquisadores da Retro e de outras empresas bem financiadas, a exemplo da Altos Labs, como o possível ponto de partida para rejuvenescer animais, construir órgãos humanos ou fornecer estoques de células de reposição. Contudo, essa “reprogramação” celular não é muito eficiente. O processo leva várias semanas, e menos de 1% das células tratadas em laboratório completa a jornada de rejuvenescimento.
O novo modelo da OpenAI, chamado GPT-4b micro, foi treinado para sugerir maneiras de reestruturar os fatores proteicos para aumentar sua eficácia. Segundo a OpenAI, os pesquisadores usaram as sugestões do modelo para modificar dois dos fatores de Yamanaka, tornando-os mais de 50 vezes mais eficazes — pelo menos de acordo com algumas medidas preliminares.
“De forma geral, as proteínas parecem melhores do que o que os cientistas conseguiram produzir sozinhos,” afirma John Hallman, pesquisador da OpenAI.
Hallman, Aaron Jaech (também da OpenAI) e Rico Meinl, da Retro, foram os principais desenvolvedores do modelo.
Cientistas externos não poderão, todavia, verificar se os resultados são reais até que sejam publicados, algo que as empresas afirmam estar planejando. O modelo também não está disponível para uso mais amplo — ainda é uma demonstração personalizada, não um lançamento oficial de produto.
“Este projeto tem como objetivo mostrar que estamos comprometidos em contribuir com a ciência,” diz Jaech. “Mas se essas capacidades serão lançadas ao mundo como um modelo separado ou integradas aos nossos modelos principais de raciocínio — isso ainda está por ser decidido.”
Esta tecnologia não funciona da mesma forma que o AlphaFold, do Google, capaz de prever a forma que as proteínas assumirão. Como os fatores de Yamanaka são proteínas incomuns, altamente flexíveis e sem estrutura definida, a OpenAI afirmou que exigiu uma abordagem diferente, aplicadas aos seus grandes modelos de linguagem.
O sistema foi treinado com exemplos de sequências de proteínas de muitas espécies, além de informações sobre quais proteínas tendem a interagir umas com as outras. Embora isso represente muitos dados, é apenas uma fração da quantidade com que os principais chatbots da OpenAI foram treinados. Isso torna o GPT-4b um exemplo de “pequeno modelo de linguagem” que trabalha com um conjunto de dados específico.
Depois que os cientistas da Retro receberam o modelo, eles tentaram orientá-lo a sugerir possíveis redesenhos das proteínas de Yamanaka. A técnica de direcionamento usada é semelhante ao método de “few-shot”, no qual um usuário consulta um chatbot fornecendo uma série de exemplos com respostas, seguidos de um exemplo para o bot responder.
Embora engenheiros genéticos tenham métodos para direcionar a evolução de moléculas em laboratório, eles geralmente conseguem testar apenas um número limitado de possibilidades. E mesmo uma proteína de comprimento típico pode ser alterada de maneiras praticamente infinitas (já que são formadas por centenas de aminoácidos, cada um com 20 possíveis variações).
O modelo da OpenAI, no entanto, frequentemente sugere alterações em até um terço dos aminoácidos nas proteínas.
“Colocamos esse modelo no laboratório imediatamente e obtivemos resultados reais,” afirma o CEO da Retro, Joe Betts-Lacroix. Ele afirma que as ideias do modelo foram excepcionalmente boas, levando a melhorias em relação aos fatores originais de Yamanaka em uma fração substancial dos casos.
Vadim Gladyshev, pesquisador de envelhecimento da Universidade de Harvard e consultor da Retro, afirma que são necessárias melhores maneiras de produzir células-tronco. “Para nós, isso seria extremamente útil. [Células da pele] são fáceis de reprogramar, mas outras células não são”, explica. “E fazer isso em uma nova espécie — geralmente é extremamente diferente, e você termina não obtendo resultados”.
Ainda não está claro como exatamente o GPT-4b opera – esse “mistério” é algo corriqueiro nos modelos de IA. “É como quando o AlphaGo derrotou o melhor humano em Go, mas levou muito tempo para descobrir o motivo”, diz Betts-Lacroix. “Ainda estamos descobrindo o que ele faz e achamos que a forma como aplicamos isso está apenas começando.”
A OpenAI afirma que nenhum dinheiro foi envolvido na colaboração. No entanto, como o trabalho pode beneficiar a Retro — cujo maior investidor é Sam Altman —, o anúncio tem o potencial de aumentar as questões que pairam sobre os projetos paralelos do CEO da OpenAI.
No ano passado, o Wall Street Journal afirmou que os amplos investimentos de Altman em startups de tecnologia privadas constituem um “império de investimentos opaco”, que está “criando uma lista crescente de potenciais conflitos”, já que algumas dessas empresas também fazem negócios com a OpenAI.
No caso da Retro, sua associação à Altman, à OpenAI e à corrida pela inteligência geral artificial (AGI) pode elevar seu perfil e aumentar a capacidade da empresa de contratar funcionários e captar recursos. Betts-Lacroix não respondeu às perguntas sobre se a empresa, que ainda está em estágio inicial, atualmente busca financiamento.
A OpenAI afirma que Altman não esteve diretamente envolvido no trabalho e que nunca toma decisões baseadas em outros investimentos do CEO.