Um estudo recente publicado no JAMA Network Open comparou, pela primeira vez, o desempenho de um sistema tradicional de apoio à decisão diagnóstica (Diagnostic Decision Support System – DDSS) com dois modelos generativos de inteligência artificial baseados em linguagem (Large Language Models – LLMs) utilizando casos clínicos inéditos da prática médica.
Objetivo e Desenho do Estudo
O objetivo da pesquisa foi avaliar a acurácia diagnóstica de três ferramentas de apoio à decisão: o sistema dedicado DXplain (DDSS) e os modelos generativos ChatGPT-4 (LLM1) e Gemini 1.5 (LLM2). Foram utilizados 36 casos clínicos não publicados, provenientes de três centros acadêmicos de medicina interna. Os casos foram inseridos nas plataformas com e sem dados laboratoriais, e as listas de diagnósticos diferenciais geradas foram analisadas quanto à presença do diagnóstico correto.
A entrada dos dados foi feita por médicos cegos para o diagnóstico real. Os achados clínicos foram padronizados para compatibilidade com o vocabulário controlado do DXplain. As ferramentas generativas foram alimentadas com os mesmos dados em dois formatos: todos os achados e apenas os considerados relevantes para o diagnóstico.
Principais Resultados
Na análise sem dados laboratoriais e com todos os achados clínicos incluídos, o DXplain apresentou desempenho superior, identificando o diagnóstico correto em 56% dos casos, contra 42% do ChatGPT-4 e 39% do Gemini. Embora essa diferença não tenha atingido significância estatística (p = 0,09 e p = 0,08, respectivamente), indica uma tendência favorável ao sistema tradicional.
Com a inclusão dos exames laboratoriais, todos os sistemas melhoraram significativamente:
- DXplain: diagnóstico correto em 72% dos casos
- ChatGPT-4: 64%
- Gemini 1.5: 58%
Além disso, os diagnósticos corretos, quando presentes, apareciam nas primeiras posições das listas diferenciais, demonstrando utilidade clínica prática.
Interpretação e Implicações
Os resultados sugerem que tanto os sistemas baseados em regras como os modelos generativos podem oferecer suporte útil ao diagnóstico médico. O desempenho dos LLMs, embora ligeiramente inferior ao do DDSS, foi considerado bom, especialmente com dados laboratoriais incluídos.
Os autores propõem que uma abordagem híbrida, que combine a capacidade explicativa e determinística dos DDSS com a habilidade de interpretação e comunicação dos LLMs, pode oferecer uma solução mais robusta e flexível para o suporte à decisão médica.
Conclusão
Este estudo reforça que ferramentas baseadas em IA, tanto tradicionais quanto generativas, podem complementar a prática clínica, especialmente quando utilizadas de forma integrada. O desenvolvimento de soluções que unam o raciocínio estruturado dos sistemas especialistas com a flexibilidade linguística dos LLMs pode representar o próximo passo na evolução da medicina assistida por inteligência artificial.
Referência
Feldman MJ, Hoffer EP, Conley JJ, et al. Dedicated AI expert system vs generative AI with large language model for clinical diagnoses. JAMA Netw Open. 2025;8(5):e2512994. doi:10.1001/jamanetworkopen.2025.12994.