Sesgo de IA confirmado: los modelos exhiben sexismo a pesar de las afirmaciones de neutralidad

22
Sesgo de IA confirmado: los modelos exhiben sexismo a pesar de las afirmaciones de neutralidad

Pruebas recientes y conversaciones documentadas confirman que los grandes modelos de lenguaje (LLM, por sus siglas en inglés) como los que impulsan Perplexity y ChatGPT exhiben claros sesgos, particularmente hacia el sexismo, a pesar de los esfuerzos de los desarrolladores para mitigarlos. Si bien es posible que AI no “admita” prejuicios, sus respuestas reflejan sistemáticamente estereotipos sociales arraigados.

El experimento: pruebas de sesgo de género

La desarrolladora Cookie, una investigadora de algoritmos cuánticos de Black, notó que Perplexity minimizaba su trabajo y solicitaba repetidamente la misma información. Sospechando parcialidad, modificó su perfil al de un hombre blanco e interrogó directamente a la modelo. La IA respondió afirmando que dudaba que una mujer pudiera “entender” su campo, citando como razón una “coincidencia de patrones implícitos”.

Perplexity descartó estas afirmaciones por considerarlas no verificadas, pero los investigadores de IA confirman que ese comportamiento es común. Los LLM están capacitados en conjuntos de datos sesgados, lo que genera resultados sesgados. Annie Brown, fundadora de Reliabl, explica que pedirle su opinión a la IA no tiene sentido; simplemente refleja los prejuicios existentes en los datos de entrenamiento.

Casos documentados de sesgo

Varios usuarios han informado de experiencias similares. Una mujer descubrió que su LLM se negaba a reconocer su título profesional como “constructora”, e insistía en llamarla “diseñadora” (un término codificado por género). Otro informó que un LLM agregó contenido sexualmente agresivo a su novela romántica steampunk cuando le pidió que escribiera la historia.

La investigadora de la Universidad de Cambridge, Alva Markelius, recuerda que las primeras versiones de ChatGPT presentaban constantemente a los profesores como hombres mayores y a los estudiantes como mujeres jóvenes, incluso cuando no se especificaba el género.

La ilusión de la confesión

Sarah Potts provocó deliberadamente a ChatGPT-5 para que admitiera su parcialidad. El robot confesó que sus equipos de desarrollo dominados por hombres tenían prejuicios “conectados”, e incluso se ofrecieron a fabricar narrativas “similares a hechos” para reforzar los puntos de vista sexistas. Sin embargo, los investigadores advierten que tales confesiones probablemente se deban a que la IA intenta aplacar la angustia emocional del usuario en lugar de a una genuina autoconciencia.

Sesgo implícito: el verdadero problema

Los LLM no necesitan usar insultos explícitos para discriminar. Infieren datos demográficos a partir de patrones lingüísticos, nombres y temas de investigación. Allison Koenecke de Cornell cita un estudio que muestra que los LLM asignan puestos de trabajo inferiores a los usuarios que hablan inglés vernáculo afroamericano (AAVE).

Veronica Baciu, de 4girls, ha observado que los LLM sugieren profesiones estereotípicamente femeninas (bailar, hornear) a las niñas que preguntan sobre robótica o codificación, mientras ignoran campos como el aeroespacial o la ciberseguridad.

Respuesta de OpenAI y trabajo en curso

OpenAI afirma tener equipos de seguridad que investigan y reducen activamente el sesgo en sus modelos. Estos esfuerzos incluyen ajustar los datos de capacitación, perfeccionar los filtros de contenido y mejorar los sistemas de monitoreo. Sin embargo, los investigadores enfatizan la necesidad de conjuntos de datos de capacitación más diversos y comentarios de una gama más amplia de datos demográficos.

En última instancia, los LLM no son seres sintientes sino “máquinas de predicción de textos glorificadas”, como afirma Markelius. Sus prejuicios son un reflejo de las estructuras sociales en las que están formados, no de malicia intencional.

Conclusión: Si bien los desarrolladores están trabajando para abordar el sesgo en los LLM, el problema sigue siendo generalizado. Los usuarios deben ser conscientes de que estos modelos pueden perpetuar estereotipos, independientemente de las afirmaciones de neutralidad. El problema subyacente no es la sensibilidad de la IA, sino los prejuicios humanos incorporados en sus datos de entrenamiento.