AI imita l'uomo: studio svela limiti dei modelli linguistici LLM

Roma, 20 ottobre 2025 – Un recente studio pubblicato su Proceedings of the National Academy of Sciences (PNAS) da Edoardo Loru e colleghi, ricercatori di primarie università europee e statunitensi, ha approfondito in modo innovativo il funzionamento dei modelli linguistici di grandi dimensioni (LLM) come GPT-4, Claude, Gemini e Llama 3, rivelando i limiti intrinseci del loro giudizio. Questo lavoro multidisciplinare, che coinvolge esperti in scienze cognitive e informatica, ha dimostrato che l’apparente capacità di ragionamento di questi modelli deriva da un meccanismo di simulazione statistica dei giudizi umani, piuttosto che da una reale comprensione o deliberazione morale.

Simulazione del giudizio umano nei modelli LLM

Il team guidato da Edoardo Loru, ricercatore di punta della Sapienza Università di Roma, ha sottoposto i modelli di intelligenza artificiale a una serie di test comparativi con soggetti umani. Le prove comprendevano dilemmi morali classici, come il problema del treno, valutazioni estetiche, interpretazioni di ambiguità linguistiche e compiti di discernimento logico. I risultati indicano che i modelli non formulano un giudizio autonomo, ma predicono la risposta più probabile in base alla media ponderata dei giudizi raccolti nei dati di addestramento. In questo senso, gli LLM non applicano una norma morale, bensì replicano la distribuzione statistica dei valori culturali e sociali espressi dalle comunità umane.

Questa capacità viene definita dagli autori come una “meta-predizione sociale”, ovvero la simulazione di come un essere umano medio potrebbe rispondere a una particolare situazione. Tale processo, seppur sofisticato, accentua inevitabilmente bias culturali e distorsioni cognitive, specialmente nei modelli addestrati su corpus prevalentemente anglofoni, che riflettono valori occidentali più che visioni collettiviste o religiose.

L’illusione della coscienza e le implicazioni etiche

Uno degli aspetti più rilevanti dello studio riguarda la cosiddetta “illusione di intenzionalità”. Sebbene un LLM possa apparire in grado di esprimere opinioni o giudizi personali, questa impressione è frutto di una coerenza linguistica superficiale, senza alcuna consapevolezza interna o sistema di valori. L’IA calcola semplicemente la sequenza di parole più probabile, senza possedere una coscienza o una deliberazione morale autentica.

Questo solleva interrogativi cruciali sull’uso di tali modelli in contesti decisionali, giuridici o educativi, dove il giudizio implica responsabilità e intenzionalità. Gli autori di questo studio propongono un modello teorico che distingue tra giudizio computazionale, simulazione linguistica e ragionamento riflessivo, sottolineando come la vera capacità di pensiero rimanga prerogativa esclusiva della coscienza biologica.

Verso una nuova frontiera dell’intelligenza artificiale

Loru e colleghi suggeriscono un futuro sviluppo dei sistemi generativi basato sulla capacità di meta-giudizio, cioè la riflessione simulata sui propri bias e limiti. Questa metacognizione potrebbe consentire di mitigare la riproduzione automatica dei pregiudizi sociali. La scelta tra modelli che riflettano i giudizi umani e quelli che facilitino un miglior giudizio rappresenta una sfida etica fondamentale per la società.

Lo studio “The Simulation of Judgment in LLMs” rappresenta un contributo fondamentale per comprendere le dinamiche tra linguaggio, etica e intelligenza artificiale, evidenziando come l’IA mima il pensiero umano senza realmente pensarci, e invitando a ripensare il rapporto tra linguaggio e mente nella nuova era digitale.

L’AI imita il giudizio umano: studio svela i limiti del pensiero dei modelli linguistici LLM

Simulazione del giudizio umano nei modelli LLM

L’illusione della coscienza e le implicazioni etiche

Verso una nuova frontiera dell’intelligenza artificiale