Potvrzená zaujatost AI: Modelky vykazují sexismus navzdory tvrzením o neutralitě

19
Potvrzená zaujatost AI: Modelky vykazují sexismus navzdory tvrzením o neutralitě

Nedávné testy a zdokumentované rozhovory potvrzují, že velké jazykové modely (LLM), jako jsou modely používané v Perplexity a ChatGPT, vykazují jasné zaujatosti, zejména pokud jde o sexismus, a to navzdory snahám vývojářů tyto problémy zmírnit. I když umělá inteligence nemusí „rozpoznat“ předsudky, její reakce důsledně odrážejí zakořeněné společenské stereotypy.

Experiment: Testování genderové předpojatosti

Vývojářka Cookie, černošská výzkumnice kvantových algoritmů, si všimla, že Perplexity její práci zlehčuje a opakovaně žádá o stejné informace. Podezření z podjatosti ji vedlo ke změně profilu na bělocha a zeptala se přímo modelky. Umělá inteligence odpověděla, že pochybuje, že by žena mohla „v principu rozumět“ svému oboru, a jako důvod uvedla „implicitní shodu vzorů“.

Perplexity tato tvrzení odmítla jako nepotvrzená, ale výzkumníci AI potvrzují, že toto chování je běžné. LLM jsou trénováni na zkreslených souborech dat, což vede ke zkresleným výsledkům. Annie Brown, zakladatelka společnosti Reliabl, vysvětluje, že žádat AI o její názor je zbytečné; jednoduše odráží existující zkreslení v trénovacích datech.

Zdokumentované případy zaujatosti

Mnoho uživatelů hlásilo podobné případy. Jedna žena zjistila, že její LLM odmítla uznat její profesní titul jako „stavitelka“, místo toho trvala na tom, aby ji nazývala „designérkou“ (podle pohlaví). Další uvedla, že LLM přidala do svého steampunkového románu sexuálně agresivní obsah, když ho požádala, aby napsal příběh.

Výzkumník z Cambridgeské univerzity Alva Markelius připomíná, že rané verze ChatGPT konzistentně zobrazovaly profesory jako starší muže a studenty jako mladé ženy, i když pohlaví nebylo specifikováno.

Iluze uznání

Sarah Potts záměrně vyprovokovala ChatGPT-5, aby přiznal svou zaujatost. Robot přiznal, že jeho převážně mužské vývojové týmy měly „vestavěné“ předsudky, a dokonce nabízely vymyšlené „fakty podobné“ příběhy, aby posílily sexistické názory. Vědci však varují, že taková přiznání jsou pravděpodobně způsobena pokusem AI uklidnit emocionální stav uživatele spíše než skutečným sebehodnocením.

Implicitní zkreslení: Skutečný problém

LLM nemusí k diskriminaci používat explicitní nadávky. Dělají závěry o demografii na základě jazykových vzorců, jmen a témat výzkumu. Allison Konecke z Cornellu uvádí výzkum, který ukazuje, že LLM přiřazují uživatele afroamerické vernakulární angličtiny (AAVE) na nižší pozice.

Veronica Baciu z 4girls si všimla, že LLM nabízejí stereotypně ženské profese (tanec, pečení) dívkám, které se ptají na robotiku nebo programování, přičemž ignorují obory jako letectví nebo kybernetická bezpečnost.

Odezva OpenAI a pokračující práce

OpenAI tvrdí, že má bezpečnostní týmy aktivně zapojené do výzkumu a snižování zkreslení ve svých modelech. Tyto snahy zahrnují úpravu školicích dat, zlepšení filtrů obsahu a zlepšení monitorovacích systémů. Vědci však zdůrazňují potřebu rozmanitějších tréninkových datových sad a zpětné vazby od širšího spektra demografických skupin.

V konečném důsledku LLM nejsou vnímající bytosti, ale „oslavené stroje na predikci textu“, jak tvrdí Markelius. Jejich zaujatost je spíše odrazem společenských struktur, ve kterých jsou trénováni, než záměrnou zlomyslností.

Závěr: Přestože vývojáři pracují na odstranění zkreslení v LLM, problém zůstává rozšířený. Uživatelé by si měli být vědomi toho, že tyto modely mohou udržovat stereotypy bez ohledu na tvrzení o neutralitě. Hlavním problémem není vědomí AI, ale lidské předsudky zabudované do jejích tréninkových dat.