Um gargalo de dados está atrasando a ciência da IA, diz novo vencedor do Nobel
Inteligência artificial

Um gargalo de dados está atrasando a ciência da IA, diz novo vencedor do Nobel

A utilidade da IA para descobertas científicas será limitada sem dados de alta qualidade.

O que você encontrará neste artigo:

Prêmios Nobel relacionados à IA
O potencial e limitações da IA na ciência
A importância dos dados de alta qualidade

Banner indicando a posição do botão de download do artigo em formato pdf

David Baker está privado de sono, mas feliz. Afinal, ele acabou de ganhar o Prêmio Nobel.
A ligação da Academia Real Sueca de Ciências o acordou no meio da noite. Ou melhor, foi sua esposa quem o acordou. Ela atendeu ao telefone em sua casa em Washington, D.C., e gritou que ele havia ganhado o Prêmio Nobel de Química. O prêmio é o reconhecimento máximo de seu trabalho como bioquímico na Universidade de Washington.

“Eu acordei às duas da manhã e basicamente não dormi o dia inteiro, que foi cheio de festas e outras coisas”, disse ele no dia seguinte ao anúncio. “Estou ansioso para voltar um pouco à normalidade hoje.”

No começo de outubro, houve um grande marco para a IA, com dois Prêmios Nobel concedidos por descobertas relacionadas à Inteligência Artificial.
Baker não foi o único a ganhar o Prêmio Nobel de Química. A Academia Real Sueca de Ciências também o concedeu a Demis Hassabis, cofundador e CEO do Google DeepMind, e John M. Jumper, diretor da mesma empresa. O Google DeepMind foi premiado por sua pesquisa sobre o AlphaFold, uma ferramenta que pode prever a estrutura das proteínas, enquanto Baker foi reconhecido por seu trabalho utilizando IA para projetar novas proteínas.

Enquanto isso, o Prêmio Nobel de Física foi para Geoffrey Hinton, um cientista da computação cujo trabalho pioneiro em aprendizado profundo (deep learning) nas décadas de 1980 e 1990 fundamenta todos os modelos de IA mais poderosos do mundo atualmente, e seu colega cientista da computação John Hopfield, que inventou um tipo de rede neural de correspondência de padrões que pode armazenar e reconstruir dados.

Falando aos repórteres após o anúncio do prêmio, Hassabis disse acreditar que isso abrirá caminho para que mais ferramentas de IA sejam usadas em descobertas científicas significativas.

Mas há um problema. A IA precisa de grandes quantidades de dados de alta qualidade para ser útil na ciência, e bancos de dados que contenham esse tipo de dados são raros, afirma Baker.
O prêmio é um reconhecimento para toda a comunidade de pessoas que trabalham como designers de proteínas. Isso ajudará a mover o design de proteínas de uma área “marginal, que ninguém nunca pensou que seria útil para nada, para o centro do palco”, diz ele.

A IA foi um divisor de águas para bioquímicos como Baker. Ver o que o DeepMind conseguiu com o AlphaFold deixou claro que o aprendizado profundo seria uma ferramenta poderosa para seu trabalho.

Mini Banner - Assine a MIT Technology Review

“Existem todos esses problemas que eram muito difíceis antes, e agora estamos tendo muito mais sucesso graças aos métodos de IA generativa. Podemos fazer coisas muito mais complexas”, diz Baker.
Baker já está ocupado com novos projetos. Ele afirma que sua equipe está se concentrando no design de enzimas, que realizam todas as reações químicas das quais os seres vivos dependem para existir. Sua equipe também está trabalhando em medicamentos que atuam apenas no momento e local certos no corpo.

No entanto, Baker hesita em chamar este momento de um marco para a IA na ciência.
Na IA, há um ditado: “Lixo entra, lixo sai”. Se os dados que alimentam os modelos de IA não forem bons, os resultados também não serão brilhantes.

O poder das ferramentas de IA vencedoras do Nobel de Química reside no Protein Data Bank (PDB), um raro tesouro de dados de alta qualidade, curados e padronizados. Este é exatamente o tipo de dados que a IA precisa para ser útil. Mas a tendência atual no desenvolvimento de IA é treinar modelos cada vez maiores com todo o conteúdo da internet, que está cada vez mais cheia de informações geradas por IA. Essas informações de baixa qualidade acabam sendo incorporadas aos conjuntos de dados e poluem os resultados, gerando vieses e erros. Isso não é suficiente para descobertas científicas rigorosas.

“Se houvesse muitos bancos de dados tão bons quanto o PDB, eu diria, sim, este [prêmio] provavelmente é apenas o primeiro de muitos, mas ele é um banco de dados único na biologia”, diz Baker. “Não são apenas os métodos, são os dados. E não há muitos lugares onde temos esse tipo de dados.”

Último vídeo

Nossos tópicos