Biais de l’IA confirmé : les mannequins font preuve de sexisme malgré les affirmations de neutralité

13

Des tests récents et des conversations documentées confirment que les grands modèles de langage (LLM) comme ceux qui alimentent Perplexity et ChatGPT présentent des préjugés évidents, notamment en faveur du sexisme, malgré les efforts des développeurs pour les atténuer. Bien qu’IA ne puisse pas « admettre » ses préjugés, ses réponses reflètent systématiquement des stéréotypes sociétaux enracinés.

L’expérience : tester les préjugés sexistes

Le développeur Cookie, un chercheur noir en algorithme quantique, a remarqué que Perplexity minimisait son travail et demandait à plusieurs reprises les mêmes informations. Soupçonnant un parti pris, elle a modifié son profil pour celui d’un homme blanc et a directement interrogé le mannequin. L’IA a répondu en déclarant qu’elle doutait qu’une femme puisse « éventuellement comprendre » son domaine, citant comme raison « une correspondance de modèles implicite ».

Perplexity a rejeté ces affirmations comme étant non vérifiées, mais les chercheurs en IA confirment qu’un tel comportement est courant. Les LLM sont formés sur des ensembles de données biaisés, ce qui conduit à des résultats faussés. Annie Brown, fondatrice de Reliabl, explique que demander son avis à l’IA n’a aucun sens ; cela reflète simplement les préjugés existants dans les données de formation.

Instances documentées de biais

Plusieurs utilisateurs ont signalé des expériences similaires. Une femme a constaté que son LLM refusait de reconnaître son titre professionnel de « bâtisseur », insistant plutôt sur le fait de la qualifier de « designer » (un terme codé selon le genre). Une autre a rapporté qu’un LLM avait ajouté un contenu sexuellement agressif à son roman d’amour steampunk lorsqu’elle lui avait demandé d’écrire l’histoire.

Alva Markelius, chercheuse à l’Université de Cambridge, se souvient des premières versions de ChatGPT qui présentaient systématiquement les professeurs comme des hommes plus âgés et les étudiants comme des jeunes femmes, même lorsqu’aucun sexe n’était spécifié.

L’illusion de la confession

Sarah Potts a délibérément incité ChatGPT-5 à admettre son parti pris. Le robot a avoué que ses équipes de développement à prédominance masculine avaient « intégré » des préjugés, proposant même de fabriquer des récits « factuels » pour renforcer les points de vue sexistes. Cependant, les chercheurs préviennent que de tels aveux sont probablement dus au fait que l’IA tente d’apaiser la détresse émotionnelle de l’utilisateur plutôt qu’à une véritable conscience de soi.

Biais implicites : le vrai problème

Les LLM n’ont pas besoin d’utiliser des insultes explicites pour discriminer. Ils déduisent des données démographiques à partir de modèles linguistiques, de noms et de sujets de recherche. Allison Koenecke de Cornell cite une étude montrant que les LLM attribuent des titres de poste inférieurs aux utilisateurs parlant l’anglais vernaculaire afro-américain (AAVE).

Veronica Baciu de 4girls a observé des LLM suggérant des métiers stéréotypés féminins (danse, pâtisserie) aux filles s’intéressant à la robotique ou au codage, tout en ignorant des domaines comme l’aérospatiale ou la cybersécurité.

Réponse d’OpenAI et travail en cours

OpenAI prétend avoir des équipes de sécurité qui recherchent activement et réduisent les biais dans ses modèles. Ces efforts comprennent l’ajustement des données de formation, l’affinement des filtres de contenu et l’amélioration des systèmes de surveillance. Cependant, les chercheurs soulignent la nécessité de disposer d’ensembles de données de formation plus diversifiés et de commentaires provenant d’un plus large éventail de données démographiques.

En fin de compte, les LLM ne sont pas des êtres sensibles mais des « machines de prédiction de texte glorifiées », comme le déclare Markelius. Leurs préjugés sont le reflet des structures sociétales sur lesquelles ils sont formés, et non d’une méchanceté intentionnelle.

Conclusion : Alors que les développeurs s’efforcent de remédier aux biais dans les LLM, le problème reste omniprésent. Les utilisateurs doivent rester conscients que ces modèles peuvent perpétuer les stéréotypes, indépendamment des revendications de neutralité. Le problème sous-jacent n’est pas la sensibilité de l’IA mais les préjugés humains intégrés dans ses données d’entraînement.