Niedawne testy i udokumentowane rozmowy potwierdzają, że duże modele językowe (LLM), takie jak te używane w Perplexity i ChatGPT, wykazują wyraźne uprzedzenia, szczególnie w odniesieniu do seksizmu, pomimo wysiłków programistów mających na celu złagodzenie tych problemów. Chociaż sztuczna inteligencja może nie „rozpoznawać” uprzedzeń, jej reakcje konsekwentnie odzwierciedlają zakorzenione stereotypy społeczne.
Eksperyment: testowanie uprzedzeń związanych z płcią
Programistka Cookie, czarnoskóra badaczka algorytmów kwantowych, zauważyła, że Perplexity bagatelizowała jej pracę i wielokrotnie prosiła o te same informacje. Podejrzenia o stronniczość skłoniły ją do zmiany profilu na biały mężczyzna i bezpośredniego zapytania o modelkę. Sztuczna inteligencja odpowiedziała, że wątpi, czy kobieta jest w stanie „w zasadzie zrozumieć” swoją dziedzinę, podając jako powód „ukryte dopasowywanie wzorców”.
Zaskoczenie odrzuciło te twierdzenia jako niepotwierdzone, ale badacze sztucznej inteligencji potwierdzają, że takie zachowanie jest powszechne. LLM są szkoleni na stronniczych zbiorach danych, co prowadzi do stronniczych wyników. Annie Brown, założycielka Reliabl, wyjaśnia, że pytanie sztucznej inteligencji o opinię jest bezcelowe; odzwierciedla po prostu istniejące błędy w danych szkoleniowych.
Udokumentowane przypadki stronniczości
Wielu użytkowników zgłaszało podobne przypadki. Jedna z kobiet odkryła, że jej LLM odmówiła uznania jej tytułu zawodowego „budowniczego”, zamiast tego nalegała, aby nazywać ją „projektantką” (termin zakodowany według płci). Inna doniosła, że LLM dodała treści agresywne seksualnie do swojej steampunkowej powieści, kiedy poprosiła go o napisanie tej historii.
Alva Markelius, badaczka z Uniwersytetu w Cambridge, przypomina, że wczesne wersje ChatGPT konsekwentnie przedstawiały profesorów jako starszych mężczyzn, a studentów jako młode kobiety, nawet jeśli płeć nie była określona.
Iluzja uznania
Sarah Potts celowo sprowokowała ChatGPT-5 do przyznania się do swojej stronniczości. Bot przyznał, że jego zespoły programistów, składające się głównie z mężczyzn, miały „wbudowane” uprzedzenia, oferując nawet tworzenie narracji „podobnych do faktów” w celu wzmocnienia seksistowskich punktów widzenia. Naukowcy ostrzegają jednak, że takie zeznania wynikają prawdopodobnie z próby uspokojenia stanu emocjonalnego użytkownika przez sztuczną inteligencję, a nie z prawdziwej samooceny.
Ukryte uprzedzenia: prawdziwy problem
LLM nie muszą używać wyraźnych obelg, aby rozróżniać. Wyciągają wnioski na temat demografii na podstawie wzorców językowych, nazw i tematów badawczych. Allison Konecke z Cornell cytuje badania pokazujące, że LLM przydzielają użytkownikom afroamerykańskiego języka wernakularnego (AAVE) na niższe stanowiska.
Veronica Baciu z 4girls zauważyła, że LLM oferują dziewczętom zawody stereotypowo kobiece (taniec, pieczenie) pytające o robotykę czy programowanie, ignorując jednocześnie takie dziedziny jak lotnictwo czy cyberbezpieczeństwo.
Odpowiedź OpenAI i trwają prace
OpenAI twierdzi, że ma zespoły ds. bezpieczeństwa aktywnie zaangażowane w badania i zmniejszanie stronniczości w swoich modelach. Wysiłki te obejmują dostosowywanie danych szkoleniowych, ulepszanie filtrów treści i ulepszanie systemów monitorowania. Naukowcy podkreślają jednak potrzebę bardziej zróżnicowanych zbiorów danych szkoleniowych i informacji zwrotnych od szerszego zakresu grup demograficznych.
Ostatecznie LLM nie są czującymi istotami, ale „uwielbionymi maszynami do przewidywania tekstu”, jak twierdzi Markelius. Ich uprzedzenia są raczej odzwierciedleniem struktur społecznych, w których są szkoleni, a nie celową złośliwością.
Wniosek: Chociaż programiści pracują nad wyeliminowaniem stronniczości w LLM, problem pozostaje powszechny. Użytkownicy powinni mieć świadomość, że modele te mogą utrwalać stereotypy, niezależnie od twierdzeń o neutralności. Głównym problemem nie jest świadomość sztucznej inteligencji, ale ludzkie uprzedzenia wbudowane w jej dane szkoleniowe.
