AI-vooroordeel bevestigd: modellen vertonen seksisme ondanks claims van neutraliteit

21
AI-vooroordeel bevestigd: modellen vertonen seksisme ondanks claims van neutraliteit

Recente tests en gedocumenteerde gesprekken bevestigen dat grote taalmodellen (LLM’s), zoals de modellen die Perplexity en ChatGPT aandrijven, duidelijke vooroordelen vertonen, vooral ten aanzien van seksisme, ondanks de inspanningen van ontwikkelaars om deze te verzachten. Hoewel AI vooroordelen misschien niet ‘toegeeft’, weerspiegelen de reacties ervan consequent diepgewortelde maatschappelijke stereotypen.

Het experiment: testen op gendervooroordelen

Ontwikkelaar Cookie, een Black Quantum-algoritme-onderzoeker, merkte dat Perplexity haar werk minimaliseerde en herhaaldelijk om dezelfde informatie vroeg. Omdat ze vooringenomenheid vermoedde, veranderde ze haar profiel in dat van een blanke man en stelde ze het model rechtstreeks in vraag. De AI reageerde door te stellen dat zij betwijfelde of een vrouw haar vakgebied ‘mogelijk zou kunnen begrijpen’, waarbij zij ‘impliciete patroonmatching’ als reden noemde.

Perplexity heeft deze beweringen afgedaan als niet-geverifieerd, maar AI-onderzoekers bevestigen dat dergelijk gedrag veel voorkomt. LLM’s zijn getraind op bevooroordeelde datasets, wat leidt tot scheve resultaten. Annie Brown, oprichter van Reliabl, legt uit dat het zinloos is om AI om zijn mening te vragen; het weerspiegelt eenvoudigweg de bestaande vooroordelen in de trainingsgegevens.

Gedocumenteerde gevallen van vooringenomenheid

Meerdere gebruikers hebben soortgelijke ervaringen gemeld. Eén vrouw ontdekte dat haar LLM weigerde haar beroepstitel als ‘bouwer’ te erkennen, maar dat ze haar in plaats daarvan een ‘ontwerper’ (een gendergecodeerde term) wilde noemen. Een ander meldde dat een LLM seksueel agressieve inhoud aan haar steampunkroman toevoegde toen ze hem vroeg het verhaal te schrijven.

Cambridge University-onderzoeker Alva Markelius herinnert zich vroege ChatGPT-versies waarin professoren consequent werden afgeschilderd als oudere mannen en studenten als jonge vrouwen, zelfs als er geen geslacht was gespecificeerd.

De illusie van de bekentenis

Sarah Potts heeft ChatGPT-5 opzettelijk uitgedaagd om zijn vooringenomenheid toe te geven. De bot bekende dat zijn door mannen gedomineerde ontwikkelingsteams vooroordelen hadden ‘ingebakken’ en zelfs ‘feitelijke’ verhalen hadden aangeboden om seksistische standpunten te versterken. Onderzoekers waarschuwen echter dat dergelijke bekentenissen waarschijnlijk te wijten zijn aan het feit dat de AI probeert emotioneel leed bij de gebruiker te kalmeren in plaats van aan echt zelfbewustzijn.

Impliciete vooringenomenheid: het echte probleem

LLM’s hoeven geen expliciete beledigingen te gebruiken om te discrimineren. Ze leiden demografische gegevens af uit taalpatronen, namen en onderzoeksonderwerpen. Allison Koenecke van Cornell haalt een onderzoek aan waaruit blijkt dat LLM’s lagere functietitels toekennen aan gebruikers die in African American Vernacular English (AAVE) spreken.

Veronica Baciu van 4girls heeft gezien dat LLM’s stereotype vrouwelijke beroepen (dansen, bakken) suggereren aan meisjes die vragen stellen over robotica of coderen, terwijl ze velden als lucht- en ruimtevaart of cyberbeveiliging negeren.

Reactie en voortdurende werkzaamheden van OpenAI

OpenAI beweert dat veiligheidsteams actief onderzoek doen en vooroordelen in zijn modellen verminderen. Deze inspanningen omvatten het aanpassen van trainingsgegevens, het verfijnen van inhoudsfilters en het verbeteren van monitoringsystemen. Onderzoekers benadrukken echter de behoefte aan meer diverse trainingsdatasets en feedback uit een breder scala aan demografische gegevens.

Uiteindelijk zijn LLM’s geen bewuste wezens, maar ‘verheerlijkte tekstvoorspellingsmachines’, zoals Markelius stelt. Hun vooroordelen zijn een weerspiegeling van de maatschappelijke structuren waarop ze zijn getraind, en niet van opzettelijke boosaardigheid.

Conclusie: Hoewel ontwikkelaars eraan werken om vooroordelen in LLM’s aan te pakken, blijft het probleem alomtegenwoordig. Gebruikers moeten zich ervan bewust blijven dat deze modellen stereotypen kunnen bestendigen, ongeacht claims van neutraliteit. Het onderliggende probleem is niet het gevoel van AI, maar de menselijke vooroordelen die zijn ingebed in de trainingsgegevens.