Подтверждённая предвзятость ИИ: Модели демонстрируют сексизм, несмотря на заявления о нейтральности

2

Недавние тесты и задокументированные разговоры подтверждают, что большие языковые модели (LLM), такие как те, что используются в Perplexity и ChatGPT, демонстрируют явную предвзятость, особенно в отношении сексизма, несмотря на усилия разработчиков по смягчению этих проблем. Хотя ИИ может и не «признавать» предрассудки, его ответы последовательно отражают укоренившиеся общественные стереотипы.

Эксперимент: Проверка на гендерную предвзятость

Разработчик Куки, чернокожая исследовательница квантовых алгоритмов, заметила, что Perplexity принижает значение её работы и неоднократно запрашивает одну и ту же информацию. Подозрения о предвзятости заставили её изменить свой профиль на профиль белого мужчины и напрямую спросить модель. ИИ ответил, что сомневается, что женщина может «в принципе понять» свою область, ссылаясь на «неявное сопоставление закономерностей» в качестве причины.

Perplexity отклонила эти заявления как неподтвержденные, но исследователи ИИ подтверждают, что такое поведение распространено. LLM обучаются на предвзятых наборах данных, что приводит к искаженным результатам. Энни Браун, основательница Reliabl, объясняет, что спрашивать ИИ о его мнении бессмысленно; он просто отражает существующие предубеждения в обучающих данных.

Задокументированные случаи предвзятости

Многие пользователи сообщали о подобных случаях. Одна женщина обнаружила, что её LLM отказывается признавать её профессиональное звание «строителя», вместо этого настаивая на том, чтобы называть её «дизайнером» (гендерно-кодированный термин). Другая сообщила, что LLM добавила сексуально агрессивный контент в её роман в стиле стимпанк, когда она попросила его написать историю.

Исследовательница Кембриджского университета Альва Маркелиус вспоминает, что ранние версии ChatGPT последовательно изображали профессоров как пожилых мужчин, а студентов — как молодых женщин, даже когда пол не был указан.

Иллюзия признания

Сара Поттс намеренно спровоцировала ChatGPT-5 на признание своей предвзятости. Бот признался, что его команды разработчиков, состоящие преимущественно из мужчин, «встроили» предубеждения, даже предложив сфабриковать «похожие на факты» нарративы для подкрепления сексистских точек зрения. Однако исследователи предостерегают, что такие признания, вероятно, связаны с попыткой ИИ умиротворить эмоциональное состояние пользователя, а не с искренней самооценкой.

Неявная предвзятость: Реальная проблема

LLM не нуждаются в использовании явных оскорблений, чтобы дискриминировать. Они делают выводы о демографии на основе языковых моделей, имён и тем исследований. Эллисон Конеке из Корнелла ссылается на исследование, показывающее, что LLM присваивают пользователям, говорящим на афроамериканском разговорном английском (AAVE), более низкие должности.

Вероника Бачиу из 4girls заметила, что LLM предлагают стереотипно женские профессии (танцы, выпечка) девочкам, спрашивающим о робототехнике или программировании, игнорируя такие области, как аэрокосмическая промышленность или кибербезопасность.

Ответ OpenAI и текущие работы

OpenAI утверждает, что у них есть группы безопасности, активно занимающиеся исследованиями и снижением предвзятости в их моделях. Эти усилия включают в себя корректировку обучающих данных, улучшение контентных фильтров и совершенствование систем мониторинга. Однако исследователи подчеркивают необходимость более разнообразных обучающих наборов данных и обратной связи от более широкого круга демографических групп.

В конечном счете, LLM — это не разумные существа, а «прославленные машины для предсказания текста», как утверждает Маркелиус. Их предвзятость является отражением общественных структур, на которых они обучаются, а не преднамеренной злобой.

Заключение: Хотя разработчики работают над устранением предвзятости в LLM, проблема остается распространенной. Пользователям следует помнить, что эти модели могут увековечивать стереотипы, независимо от заявлений о нейтральности. Основная проблема заключается не в сознании ИИ, а в человеческих предубеждениях, заложенных в его обучающие данные.