TY  -  JOUR
AU  -  Signorini, Manuel
AU  -  Fontani, Silvia
AU  -  Minichetti, Paola
AU  -  Teggi, Silvia
AU  -  Barusco, Alessandra
AU  -  Favat, Massimo
T1  -  Valutazione dell’accuratezza di modelli linguistici di grandi dimensioni nel rispondere a domande sullo screening mammografico in italiano e inglese: 
uno studio basato sulle linee guida Eusobi
PY  -  2025
Y1  -  2025-03-01
DO  -  10.1701/4460.44556
JO  -  Recenti Progressi in Medicina
JA  -  Recenti Prog Med
VL  -  116
IS  -  3
SP  -  162
EP  -  167
PB  -  Il Pensiero Scientifico Editore
SN  -  2038-1840
Y2  -  2026/06/26
UR  -  http://dx.doi.org/10.1701/4460.44556
N2  -  Introduzione. L’intelligenza artificiale (IA) sta trasformando diversi ambiti della vita quotidiana, incluso quello medico sanitario, grazie all’uso di modelli linguistici di grandi dimensioni (Llm) come ChatGPT, Gemini e Copilot. Questi sistemi sono sempre più utilizzati per rispondere a quesiti in materia scientifica, consentendo anche ai pazienti di accedere a spiegazioni mediche semplificate. Questo studio ha l’obiettivo di confrontare le risposte a domande relative all’imaging senologico formulate in italiano e in inglese, basate sulle linee guida Eusobi, verificando la capacità dei modelli Llm di fornire risposte accurate e complete su concetti di screening mammografico. Materiali e metodi. Cinque radiologi senologi hanno formulato nove domande riguardanti lo screening del tumore al seno in base alle raccomandazioni Eusobi che sono state sottoposte ai modelli ChatGPT 4.0, Gemini e Copilot sia in italiano che in inglese. Le risposte ottenute sono state valutate da due radiologi senologi esperti utilizzando una scala Likert (da 1 a 5) ed è stata eseguita un’analisi statistica per confrontare l’accuratezza, la lunghezza media delle risposte, l’uso di fonti radiologiche attendibili e la concordanza tra gli esaminatori. Risultati. I punteggi medi delle risposte sono stati simili in entrambe le lingue, con valori di 3,6-4 su 5. Le domande su concetti generali dell’imaging applicato allo screening mammografico hanno ottenuto risposte più accurate, mentre le domande più specifiche, basate sulle ultime linee guida, hanno mostrato inesattezze, in particolare nel definire il seno “denso”. Le fonti utilizzate, soprattutto in italiano, non sempre erano di enti scientifici accreditati, evidenziando un limite dei Llm nel fornire risposte mediche approfondite e aggiornate. Conclusioni. Lo studio dimostra che i Llm sono strumenti utili per la divulgazione scientifica, ma presentano limiti nell’accuratezza delle risposte su argomenti medici ultraspecialistici. Per migliorare la qualità delle informazioni, è necessaria una collaborazione tra esperti di IA e professionisti sanitari, soprattutto nel campo della prevenzione e dello screening del tumore al seno.
ER  -