Per affrontare queste sfide, i ricercatori hanno ideato CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine), un framework progettato per simulare interazioni cliniche reali. Questo strumento valuta la capacità degli LLM di:
Testando quattro LLM su 2.000 casi clinici, i risultati hanno mostrato che, sebbene questi modelli siano efficaci nei test accademici, le loro prestazioni calano significativamente in contesti pratici.
Le difficoltà principali riscontrate dagli LLM includono:
Per migliorare l’integrazione dell’AI nella pratica clinica, i ricercatori suggeriscono:
Sebbene l’AI abbia il potenziale per rivoluzionare la sanità, migliorando l’efficienza e riducendo il carico di lavoro dei medici, è evidente che non può ancora sostituire l’interazione umana nel colloquio clinico. La strada da percorrere passa attraverso la creazione di strumenti di valutazione realistici e l’ottimizzazione continua delle tecnologie AI per garantire diagnosi accurate e un’interazione paziente-medico più naturale.