Examinar o corpo para encontrar e diagnosticar o câncer tem tudo a ver com a identificação de padrões. Os radiologistas usam raios X e imagens de ressonância magnética para iluminar os tumores. Por sua vez, patologistas examinam tecidos de rins, fígados e outras áreas sob microscópios e procuram padrões que mostram a gravidade do câncer, se determinados tratamentos podem funcionar e onde a malignidade pode se espalhar.
Em teoria, a Inteligência Artificial deveria ser ótima para ajudar. “Nosso trabalho é o reconhecimento de padrões”, diz Andrew Norgan, patologista e diretor médico da plataforma de patologia digital da Mayo Clinic. “Analisamos o slide e reunimos informações comprovadamente importantes.”
A análise visual é algo em que a IA se tornou muito boa desde que os primeiros modelos de reconhecimento de imagem começaram a decolar há quase 15 anos. Mesmo que nenhum modelo seja perfeito, é possível imaginar que, algum dia, um algoritmo poderoso consiga detectar algo que um patologista humano deixou passar ou, pelo menos, acelerar o processo de obtenção de um diagnóstico. Estamos começando a ver muitos esforços novos para criar esse modelo – pelo menos sete tentativas só no ano passado –, mas todos eles permanecem experimentais. O que será necessário para que eles sejam bons o suficiente para serem usados no mundo real?
Detalhes sobre o mais recente esforço para criar esse modelo, liderado pela empresa de saúde de IA Aignostics com a Mayo Clinic, foram publicados no arXiv no início deste mês. O artigo não foi revisado por pares, mas revela muito sobre os desafios de levar essa ferramenta a ambientes clínicos reais.
O modelo, chamado Atlas, foi treinado com 1,2 milhão de amostras de tecido de 490.000 casos. Sua precisão foi testada em relação a seis outros modelos líderes de patologia de IA. Esses modelos competem em testes compartilhados, como classificação de imagens de câncer de mama ou classificação de tumores. Nesses testes as previsões do modelo são comparadas com as respostas corretas dadas por patologistas humanos.
O Atlas superou os modelos rivais em seis dos nove testes. Ele obteve a pontuação mais alta na categorização de tecido colorretal canceroso, chegando à mesma conclusão que os patologistas humanos em 97,1% das vezes. Em outra tarefa, porém, classificando tumores de biópsias de câncer de próstata, o Atlas superou as altas pontuações dos outros modelos com uma pontuação de apenas 70,5%. Sua média em nove benchmarks mostrou que ele obteve as mesmas respostas que os especialistas humanos em 84,6% das vezes.
Vamos pensar no que isso significa. A melhor maneira de saber o que está acontecendo com as células cancerosas nos tecidos é ter uma amostra examinada por um patologista. Portanto, esse é o desempenho em relação ao qual os modelos de IA são medidos. Os melhores modelos estão se aproximando dos humanos em determinadas tarefas de detecção, mas ficando para trás em muitas outras. Então, qual deve ser a qualidade de um sistema para ser clinicamente útil?
“Noventa por cento provavelmente não é bom o suficiente. Você precisa ser ainda melhor”, diz Carlo Bifulco, diretor médico da Providence Genomics e cocriador do GigaPath, um dos outros modelos de patologia de IA examinados no estudo da Mayo Clinic. No entanto, diz Bifulco, os modelos de IA que não apresentam uma pontuação perfeita ainda podem ser úteis a curto prazo, e podem ajudar os patologistas a acelerar seu trabalho e fazer diagnósticos mais rapidamente.
Que obstáculos estão impedindo um melhor desempenho? O problema número um são os dados de treinamento.
“Menos de 10% das práticas de patologia nos EUA são digitalizadas”, diz Norgan. Isso significa que as amostras de tecido são colocadas em lâminas e analisadas em microscópios e, em seguida, armazenadas em registros maciços sem nunca irem para a nuvem. Embora os consultórios europeus tendam a ser mais digitalizados e haja esforços em andamento para criar conjuntos de dados compartilhados de amostras de tecidos para treinamento de modelos de IA, ainda não há muito com o que trabalhar.
Sem diversos conjuntos de dados, os modelos de IA têm dificuldade para identificar a ampla gama de anormalidades que os patologistas humanos aprenderam a interpretar. Isso inclui doenças raras, diz Maximilian Alber, cofundador e CTO da Aignostics. Ao vasculhar os bancos de dados disponíveis publicamente em busca de amostras de tecidos de doenças particularmente raras, “você encontrará 20 amostras em 10 anos”, diz ele.
Por volta de 2022, a Mayo Clinic previu que essa falta de dados de treinamento seria um problema. Ela decidiu digitalizar todas as suas próprias práticas de patologia, juntamente com 12 milhões de lâminas de seus arquivos que datavam de décadas atrás (os pacientes haviam consentido que fossem usadas para pesquisa). Ela contratou uma empresa para construir um robô que começou a tirar fotos de alta resolução dos tecidos, trabalhando com até um milhão de amostras por mês. Com esses esforços, a equipe conseguiu coletar 1,2 milhão de amostras de alta qualidade usadas para treinar o modelo da Mayo.
Isso nos leva ao problema número dois do uso da IA para detectar o câncer. As amostras de tecido das biópsias são minúsculas, geralmente com apenas alguns milímetros de diâmetro, mas são ampliadas a tal ponto que as imagens digitais delas contêm mais de 14 bilhões de pixels. Isso as torna cerca de 287.000 vezes maiores do que as imagens usadas para treinar os melhores modelos de reconhecimento de imagem de IA até o momento.
“Obviamente, isso significa muitos custos de armazenamento e assim por diante”, diz Hoifung Poon, pesquisador de IA da Microsoft que trabalhou com Bifulco para criar o GigaPath, que foi apresentado na Nature no ano passado. Mas isso também força decisões importantes sobre quais partes da imagem são usadas para treinar o modelo de IA e quais células podem ser perdidas no processo. Para criar o Atlas, a Mayo Clinic usou o que é chamado de método de mosaico, essencialmente criando vários instantâneos da mesma amostra para alimentar o modelo de IA. Descobrir como selecionar esses blocos é tanto arte quanto ciência, e ainda não está claro quais maneiras de fazer isso levam aos melhores resultados.
Em terceiro lugar, há a questão de quais benchmarks são mais importantes para um modelo de IA de detecção de câncer ter um bom desempenho. Os pesquisadores do Atlas testaram seu modelo no domínio desafiador de métricas relacionadas a moléculas, o que envolve a tentativa de encontrar pistas em imagens de amostras de tecidos para adivinhar o que está acontecendo em nível molecular. Veja um exemplo: Os genes de reparo de incompatibilidade do seu corpo são uma preocupação especial para o câncer, porque eles detectam erros cometidos quando o DNA é replicado. Se esses erros não forem detectados, eles podem impulsionar o desenvolvimento e a progressão do câncer.
“Alguns patologistas podem lhe dizer que têm uma espécie de pressentimento quando acham que algo é deficiente no reparo de incompatibilidade com base na aparência”, diz Norgan. Mas os patologistas não agem apenas com base nessa intuição. Eles podem fazer testes moleculares para obter uma resposta mais definitiva. E se, em vez disso, diz Norgan, pudermos usar a IA para prever o que está acontecendo em nível molecular? É um experimento: O modelo de IA poderia detectar alterações moleculares subjacentes que os humanos não conseguem ver?
Ao que parece, em geral, não. Ou pelo menos ainda não. A média do Atlas para os testes moleculares foi de 44,9%. Esse é o melhor desempenho da IA até o momento, mas mostra que esse tipo de teste ainda tem um longo caminho a percorrer.
Bifulco diz que o Atlas representa um progresso incremental, mas real. “Meu sentimento, infelizmente, é que todos estão presos em um nível semelhante”, diz ele. “Precisamos de algo diferente em termos de modelos para realmente fazer um progresso dramático, e precisamos de conjuntos de dados maiores.”