Foi preciso uma pandemia para que os EUA finalmente conseguissem centralizar (alguns) dados médicos
Health Innovation por Einstein

Foi preciso uma pandemia para que os EUA finalmente conseguissem centralizar (alguns) dados médicos

A Covid-19 colocou em evidência a realidade fragmentada dos prontuários de saúde dos Estados Unidos. Agora, um movimento para reunir os dados de milhões de pacientes está começando a dar resultados.

Existem atualmente 6,3 milhões de registros não identificados no banco de dados N3C dos Institutos Nacionais da Saúde (NIH, pela sigla em inglês) dos EUA;

Tornou-se um dos maiores conjuntos de prontuários de pacientes com Covid do mundo;

O esquema evita o isolamento de dados e problemas de privacidade que envolvem o sistema de saúde dos EUA;

Durante toda a pandemia, houve um evidente conflito entre aquilo que o público desejava saber e o que os cientistas foram capazes de responder com um certo grau de certeza.

Os cientistas foram capazes de aprender mais sobre a Covid, e mais rápido, do que sobre qualquer outra doença na história. No entanto, ao mesmo tempo, as populações ficaram espantadas quando os médicos não foram capazes de responder a perguntas aparentemente simples: Quais são os sintomas da Covid-19? Como ela é transmitida? Quem é mais suscetível? Qual é o melhor tratamento?

E se há um país onde esse conflito foi especialmente gritante, são os Estados Unidos, que gasta quase um quinto de seu PIB com saúde, mas tem pior desempenho do que qualquer outra nação rica. Encontrar as respostas tem sido complicado não apenas porque fazer ciência é difícil, mas também porque o sistema de saúde americano é construído como uma colcha de retalhos de sistemas incompatíveis e arcaicos.

Em todo o país, as leis de privacidade federais, estaduais e locais se sobrepõem e, às vezes, se contradizem. Os registros médicos são desordenados, fragmentados e isolados pelas instituições que os mantêm, tanto por motivos de privacidade quanto porque a venda de dados médicos não identificados é extremamente lucrativa.

Mas acessar os dados aprisionados nesses silos é a única maneira de obter respostas para as perguntas sobre a Covid-19. É por isso que a maioria das pesquisas relevantes foram feitas no exterior, em países com sistemas nacionais de saúde, a despeito do grande número de pacientes com Covid e de instituições de pesquisa nos EUA. Alguns dos dados mais significativos sobre fatores de risco para mortalidade da Covid e características da síndrome pós-Covid vieram do Reino Unido, por exemplo. Lá, os pesquisadores de saúde pública têm acesso a dados de prontuários médicos de 56 milhões de pacientes do Serviço Nacional de Saúde (NHS, pela sigla em inglês).

No início da pandemia, um grupo de pesquisadores financiado pelo NIH percebeu que muitas perguntas sobre a Covid-19 seriam impossíveis de responder sem quebrar as barreiras do compartilhamento de dados. Dessa forma, eles desenvolveram uma estrutura para reunir prontuários reais de pacientes de diferentes instituições de forma privada e útil.

O resultado foi o National COVID Cohort Collaborative (N3C), que reúne os prontuários de milhões de pacientes em todo o país, os limpa e depois oferece acesso a diferentes grupos que estudam todos os tipos de detalhes, desde quando usar um ventilador pulmonar até como a Covid afeta os ciclos menstruais.

“É chocante que não tivéssemos dados de saúde harmonizados e agregados para pesquisa em face de uma pandemia”, disse Melissa Haendel, professora de Informática de Pesquisa da Universidade do Colorado (EUA) Anschutz Medical Campus e uma das co-líderes do N3C. “Nunca teríamos conseguido que nos dessem esse volume de dados fora do contexto de uma pandemia, mas, agora que se tornou possível, há uma demonstração de que os dados clínicos podem ser harmonizados e compartilhados amplamente de forma segura e transparente”.

O banco de dados é uma das maiores coleções de prontuários de Covid do mundo: ele conta com 6,3 milhões de prontuários de pacientes de 56 instituições, incluindo registros de 2,1 milhões de pacientes com o vírus, e está em constante expansão. A maioria dos prontuários remonta a 2018, e as organizações contribuintes se comprometeram a mantê-los atualizados por cinco anos. Isso torna o N3C não apenas um dos recursos mais úteis para estudar a doença hoje, mas uma das maneiras mais promissoras de estudar a síndrome pós-Covid.

Um sistema em que as instituições enviam prontuários, em massa, para um governo federal centralizado é uma anomalia no sistema de saúde americano. Bem utilizado, ele tem potencial para responder a perguntas detalhadas que serão feitas muito depois da pandemia. E pode até servir como prova de conceito para empreitadas semelhantes no futuro.

Dados de open source

Para contribuir com informações para o banco de dados, os provedores primeiro escolhem dois grupos de pacientes: pessoas que testaram positivo para a Covid-19 e outras que servirão como grupo de controle. Em seguida, eles removem todos os dados de identificação pessoal, exceto o CEP e as datas do serviço, e os enviam com segurança para o N3C. Lá, os técnicos limpam os dados, o que nem sempre é uma tarefa fácil, e os inserem no banco de dados.

Qualquer pessoa pode enviar uma proposta de pesquisa por meio do painel de controle do N3C, independentemente de ser ou não afiliado à instituição solicitante. Até mesmo cidadãos que também são cientistas podem solicitar acesso a uma versão anônima do conjunto de dados.

Um comitê do NIH analisa cada proposta e decide qual versão dos dados os pesquisadores poderão acessar. Existem várias camadas de informações: um conjunto de dados limitado, um segundo nível contendo prontuários reais com CEPs e datas ocultadas e um terceiro, feito de prontuários “sintéticos” gerados por computador, que tentam manter os mesmos atributos dos prontuários reais, sem conter quaisquer dados reais do paciente. Todos precisam passar por um treinamento de segurança de dados antes de obter acesso.

Até agora, 215 projetos de pesquisa foram aprovados, incluindo estudos para rastrear os resultados de pacientes que receberam diferentes vacinas da Covid-19 e para examinar as taxas de complicações de cirurgias eletivas em pacientes que não tiveram Covid durante a pandemia. A primeira publicação desta colaboração foi uma análise de fatores de risco de mortalidade em pacientes com câncer que contraíram SARS CoV2, e vários pré-impressos foram lançados sobre diferentes tópicos, incluindo desdobramentos da Covid-19 em pacientes com doença hepática e pessoas com HIV.

Mais responsabilidade resulta em uma ciência melhor

Dados claros e precisos são vitais para esses estudos, mas tem sido difícil de obtê-los em meio ao caos da pandemia. Em junho passado, duas revistas importantes, a BMJ e The Lancet, removeram publicações feitas com base em “dados” da Surgisphere, uma empresa de dados médicos pouco conhecida, que possui apenas um punhado de funcionários. A empresa alegou ter acesso a prontuários médicos em tempo real de quase 100.000 pacientes com Covid-19 em 700 hospitais ao redor do mundo. Em alguns casos, os números representavam um número maior de pacientes infectados do que o número de diagnosticados em um determinado país.

Antes de serem retratados, os artigos levaram a decisões de interromper ensaios clínicos e alterar práticas médicas. Mas quando os pesquisadores começaram a suspeitar, especialmente considerando que mesmo um único acordo de transferência de dados médicos é demorado e trabalhoso, a empresa se recusou a permitir que alguém auditasse os dados. Na verdade, não há prova de que o banco de dados jamais tenha existido.

O N3C, por outro lado, pode ser auditado e pode prestar contas a milhares de pesquisadores em centenas de instituições participantes, em razão de seu forte enfoque na transparência e reprodutibilidade. Tudo o que os usuários fazem por meio da interface, que usa a plataforma GovCloud da Palantir, é cuidadosamente preservada, para que qualquer pessoa com acesso possa refazer seus passos.

“Isso não é um bicho de sete cabeças, nem algo realmente novo. É apenas trabalhoso. É entediante, tem que ser feito com cuidado e temos que validar cada etapa”, diz Christopher Chute, professor de medicina da Johns Hopkins (EUA) que também co-lidera o N3C. “A pior coisa que poderíamos fazer é transformar metodicamente os dados em lixo, que nos daria todas as respostas erradas”.

Trabalho de força bruta

Haendel ressalta que esses esforços não foram fáceis. “A diversidade de conhecimentos necessários para fazer isso acontecer, a perseverança, a dedicação e, francamente, a força bruta, não têm precedentes”, diz ela.

Essa força bruta veio de muitos campos diferentes para além da medicina.

“Ter todos envolvidos, de todos os aspectos científicos, foi fundamental. Durante a pandemia, as pessoas estavam muito mais dispostas a colaborar”, diz Mary Boland, professora de informática da Universidade da Pensilvânia (EUA). “Havia engenheiros, cientistas da computação, físicos, todas os tipos de pessoas que normalmente não participariam de pesquisas em saúde pública”.

Boland faz parte de um grupo que usa os dados do N3C para verificar se a Covid-19 aumenta o sangramento irregular em mulheres com síndrome do ovário policístico. Normalmente, a maioria dos pesquisadores tem que usar dados de planos de saúde para obter um banco de dados grande o suficiente para análises em nível de população, diz ela.

Os dados de planos de saúde podem responder a algumas perguntas sobre o quão bem os medicamentos funcionam no mundo real, por exemplo. Mas esses bancos de dados estão perdendo uma grande quantidade de informações, incluindo resultados de laboratório, os sintomas que as pessoas estão relatando e até mesmo dados sobre se os pacientes sobrevivem ou não.

Coleta e limpeza

Fora dos bancos de dados de seguro saúde, a maioria dos contribuintes de dados de saúde dos EUA usa um sistema federado. Todos os participantes desses estudos concordam em formatar seus próprios conjuntos de dados em um formato comum e, em seguida, executar consultas, como por exemplo a proporção de casos graves de Covid por faixa etária. Vários coletivos internacionais de pesquisa da Covid-19, incluindo o Observational Health Data Sciences and Informatics (OHDSI), operam dessa forma, evitando problemas jurídicos e políticos com dados de pacientes internacionais.

O OHDSI, fundado em 2014, possui pesquisadores de 30 países e prontuários de 600 milhões de pacientes.

“Isso permite que cada instituição mantenha seus dados atrás de seus próprios firewalls, com suas próprias proteções de dados em vigor. Não requer a troca de dados de nenhum paciente”, diz Boland. “Isso é reconfortante para muitos lugares, especialmente com todos os hackeamentos que estão acontecendo”.

Mas depender de cada instituição para preparar seus próprios dados para tal sistema acarreta muitos riscos.

“Obter os dados em um formato comum é o maior desafio, porque mesmo os nomes dos medicamentos, você pensaria que seriam padronizados nos Estados Unidos, mas na realidade não são”, diz Boland. “As farmácias costumam ter um remédio genérico, que pode ter ingredientes ligeiramente diferentes por causa das leis de patentes. Cada um deles tem seu próprio nome”.

O N3C, por outro lado, pede a todos os participantes que enviem seus prontuários sem tratamento e bagunçados para um local para que a entidade central os limpe e padronize. Embora haja muitos benefícios óbvios, há obstáculos jurídicos e sociais significativos para participar dessa forma, tanto nos Estados Unidos quanto internacionalmente: muitas instituições, por exemplo, não podem contribuir para o N3C por causa das leis de privacidade em seus estados.

É também um desafio tecnológico. Combinar até mesmo dois conjuntos de prontuários médicos eletrônicos é extremamente difícil e trabalhoso; a qualidade dos dados costuma ser baixa e há pouca padronização. Em organizações de saúde com vários locais, até 1 em cada 5 prontuários médicos são arquivos duplicados, principalmente como resultado de erros na inserção de dados durante consultas ou avaliações, de acordo com um documento do Pew de 2018.

Aqueles que defendem os sistemas de banco de dados federados frequentemente afirmam que fazem seu próprio controle de qualidade por meio de seu firewall. Os pesquisadores do N3C, porém, ficaram chocados ao descobrir o quão confusos os dados eram.

“Havia um certo ceticismo, como, ‘Nós realmente não precisamos desse tipo de estrutura de qualidade de dados’ ou ‘já fazemos isso localmente de forma confidencial, por meio do nosso firewall’. Não precisamos de suas ferramentas de harmonização ‘”, diz Haendel. “Mas aprendemos que essas medidas de qualidade são insuficientes quando você olha os dados como um todo”.

Alguns dos problemas de qualidade de dados beiram o absurdo.

“Em alguns casos, as organizações não conseguiram estabelecer unidades de medida. Portanto, havia um peso, mas não havia unidade, como se fosse algo que devíamos saber” diz Chute. Ter um número tão grande de registros deu a eles, contudo, uma vantagem e permitiu que salvassem muitos pontos de dados que, de outra forma, teriam sido descartados.

“Pudemos olhar para as distribuições de dados para as quais tínhamos unidades e ver onde os dados misteriosos se encaixavam”, diz ele. “Olhando para eles, percebemos que, oh, obviamente se tratavam de libras ou quilogramas “.

Um grande peixe em um oceano muito maior

Por mais extenso que seja, o banco de dados do N3C é ofuscado pela escala de dados coletados e mantidos em outras partes do sistema de saúde dos Estados Unidos, de agências governamentais a hospitais, laboratórios de testes, planos de saúde e outros. O Departamento de Saúde e Serviços Humanos rastreia mais de 2.000 conjuntos de dados relacionados à saúde apenas nas agências federais, estaduais e locais.

A utilidade de cada um é limitada por isolamento dos dados: é fundamentalmente impossível para pesquisadores trabalhando por conta própria acessar as demandas do Medicare, registros de vacinação, dados raciais e étnicos estaduais para vacinações ou bancos de dados sobre variantes da Covid-19 sequenciadas de amostras de pacientes em todo o país. Na verdade, transformar registros brutos em informações úteis é tão desafiador que se tornou uma indústria privada próspera: corretores de dados compram registros não identificados em massa, analisam correlações entre variáveis e vendem suas análises, ou os próprios dados, para pesquisadores e governos.

“Estamos dispostos a entregar todos os nossos dados a uma entidade comercial e deixá-los nos vender de volta, mas não estamos dispostos a pagar por uma infraestrutura de saúde pública mais básica”, disse Haendel. “Este esforço voluntário em face de uma pandemia é incrível, mas não é uma solução sustentável de longo prazo para lidar com as próximas, ou simplesmente cuidados médicos gerais”.

O método do N3C evita alguns desses problemas, mas há lacunas significativas em seus dados, principalmente nas informações sobre vacinação. A maioria das vacinas é administrada em locais da comunidade, enquanto os registros do colaborativo são para cuidados primários e hospitalizações, o que significa que apenas 245.000 vacinas Pfizer e 104.000 vacinas Moderna foram registradas. Uma empresa de análises de saúde está construindo uma ferramenta para integrar com segurança os prontuários de pacientes de várias fontes, mas ela não estará disponível por pelo menos alguns meses.

Mesmo com essas lacunas, no entanto, o enorme banco de dados do N3C oferece um dos melhores recursos para pesquisadores que procuram responder às muitas questões não resolvidas sobre a Covid-19.

“É nesse ponto que estamos empacados agora”, diz Haendel. “A verdade é que precisamos de mais especialistas na área em todos os diferentes aspectos do atendimento clínico, e sua ciência, para nos ajudar a encontrar todas as agulhas no palheiro”.

Nota do editor: Uma versão anterior deste artigo identificou incorretamente o comitê que analisa as propostas de uso de dados do N3C. Faz parte do NIH, não da Johns Hopkins.

Este artigo faz parte do Projeto de Tecnologia Pandêmico, apoiado pela Fundação Rockefeller.