Недавні тести та задокументовані розмови підтверджують, що великі мовні моделі (LLM), такі як ті, що використовуються в Perplexity та ChatGPT, демонструють явні упередження, особливо щодо сексизму, незважаючи на зусилля розробників пом’якшити ці проблеми. Хоча штучний інтелект може не «розпізнавати» упередження, його реакції постійно відображають укорінені суспільні стереотипи.
Експеримент: перевірка гендерних упереджень
Розробник Cookie, дослідниця чорного квантового алгоритму, помітила, що Perplexity применшувала її роботу та неодноразово запитувала ту саму інформацію. Підозри в упередженості змусили її змінити свій профіль на профіль білого чоловіка та запитати про це безпосередньо в моделі. ШІ відповів, що сумнівається, що жінка «в принципі може зрозуміти» свою сферу, посилаючись на «неявну відповідність шаблону» як причину.
Perplexity відкидає ці заяви як непідтверджені, але дослідники ШІ підтверджують, що така поведінка поширена. LLM навчаються на необ’єктивних наборах даних, що призводить до необ’єктивних результатів. Енні Браун, засновниця Reliabl, пояснює, що запитувати думку ШІ безглуздо; він просто відображає існуючі упередження в навчальних даних.
Задокументовані випадки упередженості
Багато користувачів повідомляли про подібні випадки. Одна жінка виявила, що її магістр права відмовився визнати її професійне звання «будівельник», натомість наполягаючи на тому, щоб називати її «дизайнером» (термін, визначений статтю). Інший повідомив, що LLM додала сексуально агресивний контент до свого стімпанк-роману, коли попросила його написати історію.
Дослідник Кембриджського університету Алва Маркеліус згадує, що ранні версії ChatGPT постійно зображували професорів літніми чоловіками, а студентів молодими жінками, навіть якщо стать не вказувалася.
Ілюзія впізнання
Сара Поттс навмисно спровокувала ChatGPT-5 визнати свою упередженість. Бот визнав, що його переважно чоловічі команди розробників мали «вбудовані» упередження, навіть пропонуючи фабрикувати «схожі на факти» розповіді, щоб посилити сексистські точки зору. Однак дослідники попереджають, що такі зізнання, швидше за все, викликані спробою штучного інтелекту заспокоїти емоційний стан користувача, а не справжньою самооцінкою.
Неявне упередження: справжня проблема
Магістрам права не потрібно використовувати явні образи для розрізнення. Вони роблять висновки про демографічні показники на основі мовних моделей, імен і тем дослідження. Еллісон Конеке з Корнелла цитує дослідження, які показують, що магістри права призначають користувачів афроамериканської народної англійської мови (AAVE) на нижчі посади.
Вероніка Бачіу з 4girls помітила, що магістри пропонують стереотипно жіночі професії (танці, випічка) дівчатам, які запитують про робототехніку чи програмування, ігноруючи такі сфери, як аерокосмічна сфера чи кібербезпека.
Відповідь OpenAI і триваюча робота
OpenAI стверджує, що у них є групи безпеки, які активно беруть участь у дослідженнях і зменшенні упередженості в їхніх моделях. Ці зусилля включають коригування навчальних даних, покращення фільтрів вмісту та вдосконалення систем моніторингу. Проте дослідники наголошують на необхідності більш різноманітних навчальних наборів даних і зворотного зв’язку від більш широкого кола демографічних груп.
Зрештою, LLM — це не розумні істоти, а «прославлені машини для передбачення тексту», як стверджує Маркеліус. Їхня упередженість є відображенням соціальних структур, у яких вони навчаються, а не навмисної злоби.
Висновок: Хоча розробники працюють над усуненням упередженості в LLM, проблема залишається широко поширеною. Користувачі повинні знати, що ці моделі можуть увічнити стереотипи, незважаючи на заяви про нейтральність. Основна проблема полягає не в свідомості штучного інтелекту, а в людських упередженнях, закладених у його навчальні дані.
