Em 2017, logo após concluir um doutorado em química teórica, John Jumper ouviu rumores de que o Google DeepMind havia deixado de lado a construção de IA que jogava com habilidade sobre-humana e estava iniciando um projeto secreto para prever as estruturas de proteínas. Ele se candidatou a uma vaga.
Apenas três anos depois, Jumper comemorou uma vitória impressionante que poucos tinham visto chegar. Com o CEO Demis Hassabis, ele havia coliderado o desenvolvimento de um sistema de IA chamado AlphaFold 2, que foi capaz de prever as estruturas de proteínas até a largura de um átomo, igualando a precisão de técnicas minuciosas usadas no laboratório e fazendo isso muitas vezes mais rapidamente, retornando resultados em horas, em vez de meses.
O AlphaFold 2 resolveu um grande desafio de 50 anos na biologia. “Este é o motivo pelo qual comecei a DeepMind”, Hassabis me disse, alguns anos atrás. “Na verdade, é por isso que trabalhei minha carreira inteira em IA.” Em 2024, Jumper e Hassabis dividiram um Prêmio Nobel de química.
Foi há cinco anos que a estreia do AlphaFold 2 pegou cientistas de surpresa. Agora que o hype diminuiu, que impacto o AlphaFold realmente teve? Como os cientistas estão usando a ferramenta? E o que vem a seguir? Conversei com Jumper (assim como com alguns outros cientistas) para descobrir.
“Têm sido cinco anos extraordinários”, diz Jumper, rindo: “É difícil lembrar de quando eu ainda não conhecia um número tremendo de jornalistas.”
O AlphaFold 2 foi seguido pelo AlphaFold Multimer, que podia prever estruturas que continham mais de uma proteína, e então pelo AlphaFold 3, a versão mais rápida até agora. O Google DeepMind também soltou o AlphaFold no UniProt, um vasto banco de dados de proteínas usado e atualizado por milhões de pesquisadores ao redor do mundo. Agora ele previu as estruturas de cerca de 200 milhões de proteínas, quase todas as que são conhecidas pela ciência.
Apesar do sucesso, Jumper continua modesto sobre as conquistas do AlphaFold. “Isso não significa que temos certeza de tudo o que está ali”, diz ele. “É um banco de dados de previsões, e ele vem com todas as ressalvas de previsões.”
Um problema difícil
As proteínas são as máquinas biológicas que fazem os seres vivos funcionarem. Elas formam músculos, chifres e penas; carregam oxigênio pelo corpo e transportam mensagens entre células; disparam neurônios, digerem alimentos, alimentam o sistema imunológico; e muito mais. Mas entender exatamente o que uma proteína faz (e qual papel ela pode desempenhar em várias doenças ou tratamentos) envolve descobrir sua estrutura, e isso é difícil.
As proteínas são feitas de sequências de aminoácidos que as forças químicas torcem em nós complexos. Uma sequência não torcida dá poucas pistas sobre a estrutura que ela formará. Em teoria, a maioria das proteínas poderia assumir um número astronômico de formas possíveis. A tarefa é prever a forma correta.
Jumper e sua equipe construíram o AlphaFold 2 usando um tipo de rede neural chamado transformer, a mesma tecnologia que sustenta os grandes modelos de linguagem. Transformers são muito bons em prestar atenção a partes específicas de um quebra-cabeça maior.
Mas Jumper atribui grande parte do sucesso a criar um protótipo que eles pudessem testar rapidamente. “Conseguimos um sistema que dava respostas erradas a uma velocidade incrível”, diz ele. “Isso tornou fácil começar a ser muito aventureiro com as ideias que você tenta.”
Eles rechearam a rede neural com o máximo de informações sobre estruturas de proteínas que puderam, como a forma que proteínas, em certas espécies, evoluíram para formas semelhantes. E funcionou ainda melhor do que eles esperavam. “Tínhamos certeza de que havíamos feito uma descoberta”, diz Jumper. “Tínhamos certeza de que isso era um avanço incrível em ideias.”
O que ele não havia previsto era que pesquisadores baixariam seu software e começariam a usá-lo imediatamente, para tantas coisas diferentes. Normalmente, é a versão algumas iterações à frente que tem o impacto real, depois que os problemas iniciais são resolvidos, ele diz: “Fiquei impressionado com a forma responsável como os cientistas o usaram, tanto na interpretação quanto na aplicação prática, confiando nele na medida exata que considero adequada, nem mais, nem menos.”
Alguns projetos se destacam em particular?
Ciência das abelhas
Jumper cita um grupo de pesquisa que usa o AlphaFold para estudar resistência a doenças em abelhas que produzem mel. “Eles queriam entender essa proteína específica enquanto olhavam para coisas como o colapso das colônias”, diz ele. “Eu nunca teria dito: ‘Sabe, claro que o AlphaFold será usado na ciência das abelhas melíferas’.”
Ele também destaca alguns exemplos do que chama de usos off-label do AlphaFold, “no sentido de que não era garantido que funcionaria”, em que a capacidade de prever estruturas de proteínas abriu novas técnicas de pesquisa. “O primeiro trata, muito obviamente, dos avanços em design de proteínas”, diz ele. “David Baker e outros realmente levaram essa tecnologia adiante.”
Baker, um biólogo computacional da Universidade de Washington, foi um dos vencedores do Nobel de química do ano passado, ao lado de Jumper e Hassabis, por seu trabalho na criação de proteínas sintéticas para realizar tarefas específicas, como tratar doenças ou decompor plásticos, melhor do que as proteínas naturais conseguem.
Baker e seus colegas desenvolveram sua própria ferramenta baseada no AlphaFold, chamada RoseTTAFold. Mas eles também experimentaram o AlphaFold Multimer para prever quais de seus designs de possíveis proteínas sintéticas vão funcionar.
“Basicamente, se o AlphaFold concorda, com confiança, com a estrutura que você estava tentando projetar, então você a faz, e se o AlphaFold diz ‘não sei’, você não a faz. Só isso já foi uma melhoria enorme.” Isso pode tornar o processo de design 10 vezes mais rápido, diz Jumper.
Outro uso off-label que Jumper destaca: transformar o AlphaFold em uma espécie de mecanismo de busca. Ele menciona dois grupos de pesquisa separados que estavam tentando entender exatamente como células de espermatozoides humanos se ligavam a óvulos durante a fertilização. Eles conheciam uma das proteínas envolvidas, mas não a outra, diz ele: “E então eles pegaram uma proteína conhecida do óvulo e rodaram todas as 2.000 proteínas de superfície do espermatozoide, e encontraram uma que o AlphaFold tinha muita certeza de que grudaria no óvulo.” Depois, eles conseguiram confirmar isso no laboratório.
“Essa noção de que você pode usar o AlphaFold para fazer algo que não conseguia fazer antes… você nunca faria 2.000 estruturas procurando uma resposta”, diz ele. “Esse tipo de coisa, eu acho, é realmente extraordinário.”
Cinco anos depois
Quando o AlphaFold 2 saiu, perguntei a alguns dos primeiros adotantes o que achavam dele. As avaliações foram boas, mas a tecnologia era nova demais para saber com certeza qual impacto de longo prazo ela poderia ter. Voltei a falar com uma dessas pessoas para ouvir suas reflexões, cinco anos depois.
Kliment Verba é um biólogo molecular que lidera um laboratório na Universidade da Califórnia, em São Francisco. “É uma tecnologia incrivelmente útil, não há dúvida sobre isso”, ele me diz. “Nós a usamos todos os dias, o tempo todo.”
Mas ela está longe de ser perfeita. Muitos cientistas usam o AlphaFold para estudar patógenos ou desenvolver medicamentos. Isso envolve observar interações entre múltiplas proteínas ou entre proteínas e moléculas ainda menores no corpo. Mas sabe-se que o AlphaFold é menos preciso ao fazer previsões sobre múltiplas proteínas ou sobre a interação delas ao longo do tempo.
Verba diz que ele e seus colegas vêm usando o AlphaFold há tempo suficiente para se acostumar com suas limitações. “Há muitos casos em que você recebe uma previsão e tem que meio que coçar a cabeça”, diz ele. “Isso é real ou não é? Não está totalmente claro, é meio que limítrofe.”
“É meio que a mesma coisa que o ChatGPT”, acrescenta Kliment. “Sabe, ele vai falar besteira para você com a mesma confiança com que daria uma resposta verdadeira.”
Ainda assim, a equipe de Verba usa o AlphaFold (tanto o 2 quanto o 3, porque eles têm pontos fortes diferentes, ele diz) para rodar versões virtuais de seus experimentos antes de executá-los no laboratório. Usando os resultados do AlphaFold, eles podem estreitar o foco de um experimento, ou decidir que não vale a pena fazê-lo.
Ele pode realmente economizar tempo, diz: “Ele não substituiu de fato nenhum experimento, mas os ampliou bastante.”
Nova onda
O AlphaFold foi projetado para ser usado para uma gama de propósitos. Agora, múltiplas startups e laboratórios universitários estão construindo sobre seu sucesso para desenvolver uma nova onda de ferramentas mais direcionadas à descoberta de medicamentos. Neste ano, uma colaboração entre pesquisadores do MIT e a empresa de medicamentos com IA Recursion produziu um modelo chamado Boltz-2, que prevê não apenas a estrutura de proteínas, mas também quão bem moléculas potenciais de medicamentos vão se ligar ao seu alvo.
No mês passado, a startup Genesis Molecular AI lançou outro modelo de previsão de estrutura chamado Pearl, que a empresa afirma ser mais preciso do que o AlphaFold 3, para certas consultas que são importantes para o desenvolvimento de medicamentos. O Pearl é interativo, de modo que desenvolvedores de medicamentos podem fornecer ao modelo quaisquer dados adicionais que tenham para orientar suas previsões.
O AlphaFold foi um grande salto, mas ainda há mais a fazer, diz Evan Feinberg, CEO da Genesis Molecular AI: “Ainda estamos inovando, fundamentalmente, só que com um ponto de partida melhor do que antes.”
A Genesis Molecular AI está reduzindo margens de erro de menos de dois angstroms, o padrão de facto da indústria, estabelecido pelo AlphaFold, para menos de um angstrom, o que equivale a um décimo de milionésimo de um milímetro, ou à largura de um único átomo de hidrogênio.
“Pequenos erros podem ser catastróficos para prever o quão bem um medicamento realmente vai se ligar ao seu alvo”, diz Michael LeVine, vice-presidente de modelagem e simulação da empresa. Isso porque forças químicas que interagem em um angstrom podem deixar de fazê-lo em dois. “Pode passar de ‘Eles nunca vão interagir’ para ‘Eles vão’”, diz ele.
Com tanta atividade nesse espaço, quão cedo devemos esperar que novos tipos de medicamentos cheguem ao mercado? Jumper é pragmático. A previsão da estrutura de proteínas é apenas uma etapa entre muitas, diz ele: “Este não era o único problema na biologia. Não é como se estivéssemos a uma estrutura de proteína de curar quaisquer doenças.”
“Pense assim”, diz ele. Encontrar a estrutura de uma proteína talvez custasse, antes, US$ 100.000 no laboratório: “Se estivéssemos a apenas 100 mil dólares de fazer uma coisa, ela já teria sido feita.”
Ao mesmo tempo, pesquisadores estão buscando maneiras de fazer o máximo que puderem com essa tecnologia, diz Jumper: “Estamos tentando descobrir como fazer a previsão de estrutura ser uma parte ainda maior do problema, porque temos um grande e poderoso martelo para bater nele.”
Em outras palavras, transformar tudo em pregos? “Sim, vamos transformar as coisas em pregos”, ele diz. “Como fazemos essa coisa, que tornamos um milhão de vezes mais rápida, ser uma parte maior do nosso processo?”
O que vem a seguir?
O próximo ato de Jumper? Ele quer fundir o poder profundo, mas estreito, do AlphaFold com o alcance amplo dos LLMs.
“Temos máquinas que conseguem ler ciência. Elas conseguem fazer algum raciocínio científico”, ele diz. “E podemos construir sistemas incríveis, sobre-humanos, para previsão de estrutura de proteínas. Como fazer essas duas tecnologias trabalharem juntas?”
Isso me faz pensar em um sistema chamado AlphaEvolve, que está sendo construído por outra equipe no Google DeepMind. O AlphaEvolve usa um LLM para gerar soluções possíveis para um problema e um segundo modelo para checá-las, filtrando o lixo. Pesquisadores já usaram o AlphaEvolve para fazer um punhado de descobertas práticas em matemática e ciência da computação.
É isso que Jumper tem em mente? “Não vou dizer muito sobre métodos, mas ficarei chocado se não virmos cada vez mais impacto dos LLMs na ciência”, ele diz. “Acho que essa é a questão empolgante em aberto sobre a qual eu vou dizer quase nada. Isso tudo é especulação, claro.”
Jumper tinha 39 anos quando ganhou seu Prêmio Nobel. O que vem a seguir para ele?
“Isso me preocupa”, ele diz. “Eu acredito que sou o mais jovem laureado em química em 75 anos.”
E acrescenta: “Estou mais ou menos no meio da minha carreira. Acho que minha abordagem quanto a isso é tentar fazer coisas menores, ideias pequenas que você vai puxando. A próxima coisa que eu anunciar não precisa ser, sabe, minha segunda tentativa de um Nobel. Eu acho que essa é a armadilha.”



