Un articolo del New Scientist, pubblicato il 2 gennaio 2025, analizza l'efficacia dei chatbot IA nel diagnosticare malattie attraverso conversazioni simulate con pazienti.
Quello che emerge è che questi modelli hanno delle performance incoerenti: i modelli avanzati di intelligenza artificiale (IA) mostrano ottime prestazioni negli esami medici scritti (multiple-choice) ma falliscono quando devono diagnosticare malattie basandosi su conversazioni con pazienti simulati. Questo evidenzia una lacuna critica nell'applicazione dell'IA alla pratica clinica.
Per fornire questa valutazione, nell’ottica di un impiego dei chatbot nella pratica clinica, i ricercatori hanno sviluppato un nuovo metodo di valutazione chiamato Craft-Md che simula conversazioni medico-paziente, usando Gpt-4 di OpenAI come paziente simulato e altri modelli IA come “medici” in prova. Questo benchmark è stato creato per testare le capacità dei modelli IA di raccogliere informazioni mediche pertinenti attraverso l'interazione, un aspetto essenziale della pratica clinica.
Quello che ne è emerso è che i modelli di IA faticano significativamente con il “ragionamento diagnostico aperto”, ovvero con l’abilità di fare diagnosi non basate su opzioni predefinite ma attraverso l'interazione dinamica con il paziente e le domande poste. Seguendo quanto riportato dal New Scientist le performance dei modelli IA, incluso Gpt-4, sono diminuite drasticamente durante le interazioni simulate rispetto alle valutazioni basate su riassunti scritti di casi medici. Ad esempio, l'accuratezza di Gpt-4 è scesa dall'82% (basato su riassunti di casi e scelta multipla) al 26% durante conversazioni simulate. Inoltre si sono registrate delle difficoltà nella raccolta di anamnesi completa: i modelli testati non sempre sono riusciti a raccogliere le anamnesi complete dei “pazienti”, anche Gpt-4 ha completato questa fase solo nel 71% delle conversazioni simulate, e anche quando le anamnesi vengono raccolte l’IA non sempre effettua la diagnosi corretta. Le conversazioni simulate sono un metodo più utile per valutare le capacità di ragionamento clinico dell'IA rispetto ai classici esami medici. Tuttavia, seguendo il lavoro dei ricercatori, l'articolo evidenzia che, anche se l'IA dovesse superare con successo questo benchmark, non sarebbe in grado di sostituire i medici perché la pratica medica nel mondo reale è molto più complessa, includendo la gestione di più pazienti, la coordinazione con altri operatori sanitari, esami fisici e la comprensione di «fattori sociali e sistemici complessi». Lo studio ha comparato le performance di vari modelli e Gpt-4 risulta il modello con le performance migliori, seguito da Gpt-3.5 e poi Mistral, mentre Llama ha mostrato risultati inferiori.
Ci sembra interessante sottolineare come, con lo sviluppo di nuove capacità delle IA, sempre più medici e ricercatori stiano sviluppando nuovi metodi, come il benchmark Craft-Md, per offrire un nuovo standard di valutazione più preciso per determinare le reali capacità dei chatbot IA in ambito medico. Di fatto, ponendoci in una prospettiva algoretica, dobbiamo riconoscere che mentre l'IA può diventare un potente strumento di supporto al lavoro clinico, la capacità di ragionamento e l'esperienza dei medici umani restano insostituibili per una valutazione olistica del paziente.
© riproduzione riservata