Nas últimas duas décadas, houve um primeiro passo claro para qualquer pessoa que começasse a apresentar novos sintomas médicos: procurá-los online. A prática era tão comum que ganhou o apelido pejorativo de “Dr. Google”. Mas os tempos estão mudando, e muitos buscadores de informações médicas agora estão usando grandes modelos de linguagem (Large Language Models, ou LLMs). Segundo a OpenAI, 230 milhões de pessoas fazem perguntas relacionadas à saúde ao ChatGPT, por semana.
Esse é o contexto do lançamento do novo produto ChatGPT Health, da OpenAI, que estreou no começo deste mês. Ele chegou em um momento pouco animador: dois dias antes, o site de notícias SFGate havia revelado a história de Sam Nelson, um adolescente que morreu de overdose, no ano passado, após extensas conversas com o ChatGPT sobre a melhor forma de combinar várias drogas. Após as duas notícias, vários jornalistas questionaram a sensatez de confiar, para aconselhamento médico, em uma ferramenta que poderia causar um dano tão extremo.
Embora o ChatGPT Health fique em uma aba separada na barra lateral, em relação ao restante, ele não é um novo modelo. É mais como uma camada que fornece a um dos modelos pré-existentes da OpenAI orientações e ferramentas que ele pode usar para oferecer aconselhamento de saúde. Algumas permitem que ele acesse os prontuários médicos eletrônicos e os dados de aplicativos de condicionamento físico de um usuário, se for concedida a permissão. Não há dúvida de que o ChatGPT e outros grandes modelos de linguagem podem cometer erros médicos, e a OpenAI enfatiza que o ChatGPT Health se destina a ser um suporte adicional, em vez de um substituto do médico de alguém. Mas, quando médicos não estão disponíveis ou não conseguem ajudar, as pessoas recorrerão a alternativas.
Alguns médicos veem os LLMs como um benefício para a alfabetização médica. O paciente médio pode ter dificuldade em navegar pelo vasto cenário de informações médicas online, e, em particular, em distinguir fontes de alta qualidade de sites mais caprichados, mas factualmente duvidosos. No entanto, os LLMs podem fazer esse trabalho por eles, pelo menos em teoria. Atender pacientes que pesquisaram seus sintomas no Google exigia “muito combate à ansiedade do paciente [e] redução da desinformação”, diz Marc Succi, professor associado da Harvard Medical School e radiologista em atividade. Mas agora, ele diz, “você vê pacientes com ensino superior, ensino médio, fazendo perguntas no nível que um estudante de medicina inicial faria”.
O lançamento do ChatGPT Health e o anúncio subsequente da Anthropic, com as novas integrações de saúde para o Claude, indicam que as gigantes de Inteligência Artificial estão cada vez mais dispostas a reconhecer e incentivar usos relacionados à saúde de seus modelos. Esses usos certamente trazem riscos, dadas as tendências bem documentadas dos LLMs de concordar com os usuários e inventar informações em vez de admitir ignorância.
Mas esses riscos também precisam ser ponderados em relação aos benefícios potenciais. Há uma analogia aqui com veículos autônomos: quando formuladores de políticas consideram se devem permitir a empresa de veículos autônomos Waymo em sua cidade, a métrica-chave não é se os carros dela alguma vez se envolvem em acidentes, mas se eles causam menos dano do que o status quo de depender de motoristas humanos. Se o Dr. ChatGPT for uma melhora em relação ao Dr. Google, e as primeiras evidências sugerem que pode ser, ele poderia, potencialmente, reduzir o enorme peso da desinformação médica e da ansiedade de saúde desnecessária que a internet criou.
Determinar a eficácia de um chatbot como o ChatGPT ou o Claude para saúde do consumidor, porém, é difícil. “É extremamente difícil avaliar um chatbot de resposta aberta”, diz Danielle Bitterman, líder clínica de ciência de dados e IA no sistema de saúde Mass General Brigham. Modelos de linguagem de grande porte têm bom desempenho em exames de licenciamento médico, mas esses exames usam perguntas de múltipla escolha que não refletem como as pessoas usam chatbots para buscar informações médicas.
Sirisha Rambhatla, professora assistente de ciência da gestão e engenharia na University of Waterloo, tentou fechar essa lacuna avaliando como o GPT-4 respondia a questões de exames de licenciamento quando não tinha acesso a uma lista de possíveis respostas. Especialistas médicos que avaliaram as respostas classificaram apenas cerca de metade delas como totalmente corretas. Mas questões de exames de múltipla escolha são elaboradas para serem suficientemente capciosas, de modo que as opções de resposta não as entreguem por completo e ainda são uma aproximação bem distante do tipo de coisa que um usuário digitaria no ChatGPT.
Um estudo diferente, que testou o GPT-4o com prompts mais realistas enviados por voluntários humanos, constatou que ele respondeu corretamente a perguntas médicas em cerca de 85% das vezes. Quando conversei com Amulya Yadav, professor associado na Pennsylvania State University, que dirige o Responsible AI for Social Emancipation Lab e liderou o estudo, ele deixou claro que, pessoalmente, não era fã de LLMs médicos voltados para pacientes. Mas ele admite sem rodeios que, tecnicamente falando, eles parecem dar conta do recado, afinal, ele diz, médicos humanos diagnosticam erroneamente pacientes em 10% a 15% das vezes. “Se eu olhar para isso de forma desapegada, parece que o mundo vai mudar, quer eu goste disso ou não”, ele diz.
Para pessoas que buscam informações médicas online, diz Yadav, os LLMs parecem, sim, ser uma escolha melhor do que o Google. Succi, o radiologista, também concluiu que os LLMs podem ser uma alternativa melhor do que a busca na web quando comparou as respostas do GPT-4 a perguntas sobre condições médicas crônicas comuns com as informações apresentadas no painel de conhecimento do Google, a caixa de informações que às vezes aparece no lado direito dos resultados de busca.
Um LLM que evita alarmismo parece uma melhora clara em relação a sistemas que fazem as pessoas se convencerem de que têm câncer depois de alguns minutos navegando. E, à medida que os modelos de linguagem de grande porte, e os produtos construídos em torno deles, continuarem a se desenvolver, qualquer vantagem que o Dr. ChatGPT tenha sobre o Dr. Google provavelmente crescerá. A introdução do ChatGPT Health é certamente um movimento nessa direção: ao analisar seus prontuários médicos, o ChatGPT pode, potencialmente, obter muito mais contexto sobre a sua situação específica de saúde do que poderia ser incluído em qualquer busca no Google, embora numerosos especialistas tenham alertado contra dar ao ChatGPT esse acesso por motivos de privacidade.
Mesmo que o ChatGPT Health e outras ferramentas novas representem uma melhora significativa em relação às buscas no Google, ainda assim elas poderiam, em tese, ter um efeito negativo sobre a saúde em geral. Assim como veículos autônomos, mesmo que sejam mais seguros do que carros conduzidos por humanos, ainda podem se mostrar um saldo negativo se incentivarem as pessoas a usar menos o transporte público, os LLMs poderiam prejudicar a saúde dos usuários se levarem as pessoas a depender da internet em vez de médicos humanos, mesmo que aumentem a qualidade das informações de saúde disponíveis online.
Lederman diz que esse resultado é plausível. Em sua pesquisa, ela constatou que membros de comunidades online centradas em saúde tendem a depositar sua confiança em usuários que se expressam bem, independentemente da validade das informações que estão compartilhando. Como o ChatGPT se comunica como uma pessoa articulada, algumas pessoas podem confiar demais nele, potencialmente em detrimento do seu médico. Mas os LLMs certamente não substituem um médico humano, ao menos por enquanto.



