Pengujian terbaru dan percakapan yang terdokumentasi mengonfirmasi bahwa model bahasa besar (LLM) seperti yang mendukung Perplexity dan ChatGPT menunjukkan bias yang jelas, terutama terhadap seksisme, meskipun pengembang telah berupaya untuk memitigasinya. Meskipun AI mungkin tidak “mengakui” prasangka, tanggapannya secara konsisten mencerminkan stereotip masyarakat yang sudah mendarah daging.
Eksperimen: Menguji Bias Gender
Pengembang Cookie, seorang peneliti algoritme kuantum Hitam, memperhatikan Perplexity meminimalkan pekerjaannya dan berulang kali meminta informasi yang sama. Karena curiga ada bias, dia mengubah profilnya menjadi pria kulit putih dan langsung mempertanyakan model tersebut. AI menanggapinya dengan menyatakan bahwa mereka meragukan seorang wanita dapat “memahami” bidangnya, dengan alasan “pencocokan pola implisit”.
Kebingungan menganggap klaim ini belum terverifikasi, namun peneliti AI mengonfirmasi bahwa perilaku seperti itu adalah hal biasa. LLM dilatih berdasarkan kumpulan data yang bias, sehingga menghasilkan keluaran yang miring. Annie Brown, pendiri Reliabl, menjelaskan bahwa meminta pendapat AI tidak ada gunanya; ini hanya mencerminkan prasangka yang ada dalam data pelatihan.
Contoh Bias yang Terdokumentasi
Beberapa pengguna telah melaporkan pengalaman serupa. Seorang wanita mendapati LLM-nya menolak untuk mengakui gelar profesionalnya sebagai “pembangun”, malah bersikeras memanggilnya “desainer” (istilah berkode gender). Yang lain melaporkan LLM menambahkan konten agresif seksual ke novel roman steampunknya ketika dia memintanya untuk menulis ceritanya.
Peneliti Universitas Cambridge, Alva Markelius, mengenang versi awal ChatGPT yang secara konsisten menggambarkan profesor sebagai pria yang lebih tua dan mahasiswa sebagai wanita muda, meskipun tidak ada gender yang ditentukan.
Ilusi Pengakuan
Sarah Potts sengaja memprovokasi ChatGPT-5 agar mengakui biasnya. Bot tersebut mengakui bahwa tim pengembangannya yang didominasi laki-laki telah “menyematkan” prasangka, bahkan menawarkan untuk mengarang narasi “seperti fakta” untuk memperkuat sudut pandang seksis. Namun, para peneliti mengingatkan bahwa pengakuan tersebut kemungkinan besar disebabkan oleh upaya AI untuk menenangkan tekanan emosional pengguna, bukan kesadaran diri yang sebenarnya.
Bias Implisit: Masalah Sebenarnya
LLM tidak perlu menggunakan penghinaan eksplisit untuk melakukan diskriminasi. Mereka menyimpulkan demografi dari pola bahasa, nama, dan topik penelitian. Allison Koenecke dari Cornell mengutip penelitian yang menunjukkan LLM memberikan jabatan pekerjaan yang lebih rendah kepada pengguna yang berbicara dalam Bahasa Inggris Vernakular Afrika Amerika (AAVE).
Veronica Baciu dari 4girls telah mengamati LLM yang menyarankan profesi stereotip perempuan (menari, membuat kue) kepada anak perempuan yang bertanya tentang robotika atau coding, sambil mengabaikan bidang seperti dirgantara atau keamanan siber.
Respons OpenAI dan Pekerjaan yang Berkelanjutan
OpenAI mengklaim memiliki tim keselamatan yang secara aktif meneliti dan mengurangi bias dalam modelnya. Upaya tersebut meliputi penyesuaian data pelatihan, penyempurnaan filter konten, dan peningkatan sistem pemantauan. Namun, para peneliti menekankan perlunya kumpulan data pelatihan yang lebih beragam dan masukan dari demografi yang lebih luas.
Pada akhirnya, LLM bukanlah makhluk hidup melainkan “mesin prediksi teks yang dimuliakan”, seperti yang dinyatakan Markelius. Bias mereka merupakan cerminan dari struktur masyarakat tempat mereka dilatih, bukan niat jahat yang disengaja.
Kesimpulan: Meskipun pengembang berupaya mengatasi bias di LLM, masalahnya masih tetap ada. Pengguna harus tetap menyadari bahwa model ini dapat melanggengkan stereotip, terlepas dari klaim netralitasnya. Masalah mendasarnya bukanlah perasaan AI, melainkan bias manusia yang tertanam dalam data pelatihannya.
