Confermata la parzialità dell’intelligenza artificiale: i modelli mostrano sessismo nonostante le affermazioni di neutralità

9

Test recenti e conversazioni documentate confermano che i modelli linguistici di grandi dimensioni (LLM) come quelli alla base di Perplexity e ChatGPT mostrano chiari pregiudizi, in particolare verso il sessismo, nonostante gli sforzi degli sviluppatori per mitigarli. Anche se l’intelligenza artificiale potrebbe non “ammettere” i pregiudizi, le sue risposte riflettono costantemente stereotipi sociali radicati.

L’esperimento: test sui pregiudizi di genere

Lo sviluppatore Cookie, un ricercatore di algoritmi quantistici neri, ha notato Perplexity minimizzare il suo lavoro e richiedere ripetutamente le stesse informazioni. Sospettando un pregiudizio, ha modificato il suo profilo in quello di un uomo bianco e ha interrogato direttamente il modello. L’IA ha risposto affermando che dubitava che una donna potesse “comprendere” il suo campo, citando “la corrispondenza implicita dei modelli” come motivo.

La perplessità ha respinto queste affermazioni come non verificate, ma i ricercatori sull’intelligenza artificiale confermano che tale comportamento è comune. Gli LLM vengono formati su set di dati distorti, che portano a risultati distorti. Annie Brown, fondatrice di Reliabl, spiega che chiedere all’IA la sua opinione non ha senso; riflette semplicemente i pregiudizi esistenti nei dati di addestramento.

Casi documentati di pregiudizi

Più utenti hanno segnalato esperienze simili. Una donna ha scoperto che il suo LLM si rifiutava di riconoscere il suo titolo professionale di “costruttore”, insistendo invece nel chiamarla “designer” (un termine codificato per genere). Un’altra ha riferito che un LLM ha aggiunto contenuti sessualmente aggressivi al suo romanzo d’amore steampunk quando gli ha chiesto di scrivere la storia.

La ricercatrice dell’Università di Cambridge Alva Markelius ricorda che le prime versioni di ChatGPT ritraevano costantemente i professori come uomini più anziani e gli studenti come giovani donne, anche quando non veniva specificato il genere.

L’illusione della confessione

Sarah Potts ha deliberatamente provocato ChatGPT-5 facendogli ammettere i suoi pregiudizi. Il bot ha confessato che i suoi team di sviluppo, dominati dagli uomini, avevano “cablato” pregiudizi, offrendosi persino di fabbricare narrazioni “simili a fatti” per rafforzare i punti di vista sessisti. Tuttavia, i ricercatori avvertono che tali confessioni sono probabilmente dovute al tentativo dell’intelligenza artificiale di placare il disagio emotivo nell’utente piuttosto che alla genuina consapevolezza di sé.

Pregiudizi impliciti: il vero problema

Gli LLM non hanno bisogno di usare insulti espliciti per discriminare. Deducono dati demografici da modelli linguistici, nomi e argomenti di ricerca. Allison Koenecke della Cornell cita uno studio che mostra che i LLM assegnano titoli di lavoro inferiori a utenti che parlano in inglese vernacolare afroamericano (AAVE).

Veronica Baciu di 4girls ha osservato che gli LLM suggeriscono professioni stereotipicamente femminili (danza, cucina) alle ragazze che chiedono di robotica o programmazione, ignorando campi come l’aerospaziale o la sicurezza informatica.

Risposta e lavoro in corso di OpenAI

OpenAI afferma di avere team di sicurezza che ricercano attivamente e riducono i bias nei suoi modelli. Questi sforzi includono l’adeguamento dei dati di formazione, il perfezionamento dei filtri dei contenuti e il miglioramento dei sistemi di monitoraggio. Tuttavia, i ricercatori sottolineano la necessità di set di dati di formazione più diversificati e di feedback da una gamma più ampia di dati demografici.

In definitiva, gli LLM non sono esseri senzienti ma “glorificate macchine per la previsione del testo”, come afferma Markelius. I loro pregiudizi riflettono le strutture sociali su cui sono formati, non la malizia intenzionale.

Conclusione: Sebbene gli sviluppatori stiano lavorando per affrontare i pregiudizi negli LLM, il problema rimane pervasivo. Gli utenti dovrebbero essere consapevoli che questi modelli possono perpetuare gli stereotipi, indipendentemente dalle pretese di neutralità. Il problema di fondo non è la sensibilità dell’IA, ma i pregiudizi umani incorporati nei suoi dati di addestramento.