TY  -  JOUR
AU  -  Esposito, Chiara
AU  -  Dell’Omo, Giulia
AU  -  Di Ianni, Daniele
AU  -  Di Procolo, Paolo
T1  -  Human vs ChatGPT. È possibile ottenere risultati paragonabili nell’analisi di scientific systematic review?
PY  -  2024
Y1  -  2024-09-01
DO  -  10.1701/4334.43184
JO  -  Recenti Progressi in Medicina
JA  -  Recenti Prog Med
VL  -  115
IS  -  9
SP  -  420
EP  -  425
PB  -  Il Pensiero Scientifico Editore
SN  -  2038-1840
Y2  -  2026/05/31
UR  -  http://dx.doi.org/10.1701/4334.43184
N2  -  Introduzione. C’è crescente interesse nell’utilizzo di ChatGPT nella scrittura e nella revisione di articoli scientifici. In linea con la natura di ChatGPT, ne abbiamo testato l’efficacia nel processo di analisi di articoli scientifici. Metodi. Abbiamo confrontato le conclusioni di una revisione sistematica della letteratura pubblicata, prodotta da ricercatori in modo tradizionale, con una versione prodotta da ChatGPT, ottenuta fornendo gli stessi input del paper originale e un set di istruzioni (prompt) ottimizzate per ottenere lo stesso tipo di risultato, identificando il processo che ha condotto a un risultato paragonabile. Per valutare l’efficacia di ChatGPT nell’analisi della revisione sistematica, abbiamo selezionato uno studio esistente, replicabile, riguardante l’esperienza dei professionisti sanitari nell’uso dei digital tool nella pratica clinica, dal quale abbiamo estratto e scaricato le relative 17 pubblicazioni in formato Pdf. Successivamente, abbiamo caricato queste referenze in ChatGPT, impostando specifici prompt che delineavano il profilo professionale richiesto, il contesto di applicazione, gli output attesi e il livello di libertà creativa (temperatura) al minimo per limitare la possibilità di “allucinazioni”. Dopo aver verificato la comprensione del task da parte di ChatGPT, abbiamo realizzato diverse iterazioni del prompt fino a ottenere un risultato paragonabile alla review originale. Infine, abbiamo confrontato sistematicamente i risultati ottenuti da ChatGPT con quelli della review di riferimento. Risultati. L’analisi ha dimostrato che i risultati di ChatGPT sono paragonabili a quelli umani, nonostante siano necessarie 4 iterazioni del prompt per avvicinarsi al benchmark umano. Discussione. Sebbene ChatGPT abbia mostrato capacità comparabili nella revisione del testo, gli autori umani hanno esibito una maggiore profondità analitica nell’interpretazione. Grazie alla loro maggiore libertà creativa, gli autori hanno proposto più dettagli circa i benefici dei tool digitali in ambito ospedaliero. ChatGPT ha tuttavia arricchito l’analisi includendo elementi non contemplati originariamente. Il confronto finale ha evidenziato macro-temi comparabili tra i due approcci, sottolineando la necessità di un’attenta validazione umana per assicurare la completa integrità e profondità dell’analisi. Conclusioni. L’intelligenza artificiale (IA) generativa, rappresentata da ChatGPT, ha mostrato un significativo potenziale nel rivoluzionare la produzione di letteratura scientifica supportando i professionisti sanitari. Nonostante siano presenti sfide che richiedono una valutazione attenta, i risultati di ChatGPT sono comparabili a quelli umani. L’elemento fondamentale non è tanto la superiorità dell’IA rispetto all’uomo, quanto la capacità umana di configurare e dirigere l’IA per risultati ottimali o addirittura potenzialmente superiori a quelli umani.
ER  -