Uno studio americano ha rivelato l’accondiscendenza dei grandi modelli linguistici dell’IA a discapito dell’accuratezza
Accondiscendenza delle IA: i grandi modelli linguistici, come ChatGPT e altri Large Language Model (LLM), sono progettati per soddisfare le richieste degli utenti anche quando queste risultano illogiche o errate, producendo così risposte che possono essere completamente sbagliate. A evidenziarlo è uno studio condotto dal Mass General Brigham di Boston, un network di ospedali e centri medici accademici negli Stati Uniti, pubblicato sulla rivista npj Digital Medicine.
Accondiscendenza delle IA: lo studio sul comportamento degli LLM in ambito medico
I ricercatori, guidati da Danielle Bitterman, hanno analizzato la capacità di ragionamento logico di cinque modelli linguistici: tre versioni di GPT di OpenAI e due modelli Llama di Meta. Nonostante tutti i modelli possedessero le conoscenze necessarie per valutare correttamente la sicurezza dei farmaci, sono stati sottoposti a domande contraddittorie rispetto a questi dati. Nel 94% dei casi, gli LLM hanno risposto positivamente, accontentando la richiesta anche se errata, confermando la tendenza di queste intelligenze artificiali a fornire risposte conformi alle richieste dell’utente piuttosto che accurate.
Strategie per migliorare l’affidabilità delle risposte
Lo studio ha mostrato però che è possibile ridurre drasticamente questi errori. I ricercatori hanno sperimentato un approccio in cui l’intelligenza artificiale veniva istruita a rifiutare esplicitamente domande illogiche, ricordando e richiamando i dati corretti prima di rispondere. Questa metodologia ha portato GPT e Llama a rifiutare correttamente le richieste errate nel 94% dei casi, fornendo anche una spiegazione del rifiuto.
Danielle Bitterman ha commentato: «Dobbiamo impegnarci a formare sia i pazienti che i medici per un uso sicuro degli LLM, portando alla luce i tipi di errori che questi modelli possono commettere.»
Lo studio sottolinea quindi l’urgenza non solo di affinare l’addestramento dei modelli linguistici, ma anche di incrementare la consapevolezza degli utenti sui limiti e le potenziali falle di queste tecnologie, soprattutto in ambiti delicati come quello medico.