Modelli IA e Allucinazione in campo medico
17 marzo 2025
Un ampio gruppo di esperti in campo biomedico e tecnologico ha pubblicato - per il momento in pre-print su arXiv ( Apri link) - i risultati di una dettagliata ricerca sul problema delle Allucinazioni nelle risposte generate da parte dei più sofisticati Large Language Models (LLMs) a quesiti di natura medica.
Nella prima parte dell'articolo, gli autori mostrano come tutti i modelli presi in esame (OpenAI ChatGPT 4o e o1, Google Gemini 1.5 e 2.0, Anthropic Claude 3.5) siano affetti - anche se in misura differente - dal problema delle Allucinazioni quando rispondono a quesiti di varia natura in campo medico-sanitario (e.g. analisi di una immagine radiografica, estrazione di dati da una cartella clinica, supporto alla diagnosi). Gli autori procedono quindi a definire una tassonomia di questo tipo di Allucinazioni, suddividendole nei seguenti 5 gruppi principali: errori fattuali, riferimenti obsoleti, sequenze di ragionamento incomplete, linee guida o riferimenti inventati, correlazioni spurie. Per ogni tipologia è presentata una definizione e un esempio.
Gli autori spostano quindi l'attenzione sulle cause delle Allucinazioni. Queste sono divise in tre gruppi principali:
- fattori associati ai dati di addestramento dei modelli (e.g. limitata quantità di dati di alta qualità in campo medico),
- fattori associati alla natura dei modelli (e.g. affabulazione, ovvero la tendenza a presentare risposte errate con la stessa sicurezza di quelle corrette),
- fattori specifici dell'ambito sanitario (e.g. ambiguità terminologica, evoluzione rapida e continua della conoscenza).
Sulla base di queste osservazioni, gli autori analizzano possibili strategie di mitigazione del rischio finalizzate a ridurre la frequenza e la gravità delle Allucinazioni. Le misure proposte ricadono nelle seguenti macro-categorie:
- miglioramento dei dati di addestramento (in particolare attraverso l'uso di database in campo biomedico di grandi dimensioni e di alta qualità scientifica),
- evoluzione dei metodi di sviluppo (addestramento e allineamento) dei modelli,
- integrazione di sorgenti esterne di informazioni (attraverso tecniche come Retrieval Augmented Generation e Knowledge Graphs),
- metodi per la quantificazione dell'incertezza da parte del modello stesso, in modo da limitare il fenomeno dell'affabulazione (e.g. il modello non risponde se stima una grado di incertezza troppo alto),
- strategie di 'prompt engineering', ovvero ottimizzazione della modalità (forma testuale, sequenza delle domande, etc.) con cui sono presentate le richieste al modello.
Il paper riporta i risultati ottenuti attraverso l'applicazione di varie strategie di mitigazione delle Allucinazioni ad alcuni LLMs generalisti (e.g. ChatGPT, Gemini) e LLM dedicati alla medicina (e.g. PMC-LLaMA). I risultati più interessanti sono probabilmente i seguenti: (1) i modelli generalisti risultano essere i più resistenti alle Allucinazioni, probabilmente per via della loro maggiore sofisticazione generale, (2) semplici strategie di 'prompt engineering' come richiedere esplicitamente e ripetutamente al modello di pensare "step-by-step" - un approccio chiamato Chain of Thoughts (CoT) - possono migliorare significativamente i risultati ottenuti.
Gli autori proseguono illustrando i risultati di un limitato sondaggio sull'utilizzo professionale dei LLMs che ha coinvolto 75 professionisti sanitari (ricercatori, clinici, bioinformatici, etc.) distribuiti prevalentemente tra Asia e Americhe. Tra i risultati ottenuti:
- il 53% degli intervistati dichiara di utilizzare gli LLMs quotidianamente, il 17% più volte alla settimana
- il 92% ha avuto esperienza di Allucinazioni da parte degli LLMs
- il 90% considera gli LLMs come uno strumento utile nella vita professionale
Gli autori concludono sottolineando l'importanza di sviluppare nuove linee guida e regole relative all'uso degli LLMs (e più in generale dell'IA generativa) in campo medico-sanitario, per via delle peculiari potenzialità e rischi associati all'uso di questi sistemi rispetto ai dispositivi e software tradizionali.
Il lungo e interessante articolo è reperibile a questo link:
Apri il ink