Papan Peringkat AI Arab Baru Bertujuan untuk Transparansi dalam Evaluasi Model

8

Tolok ukur baru, HELM Arab, yang dikembangkan oleh Center for Research on Foundation Models (CRFM) Universitas Stanford bekerja sama dengan AI Arab, memberikan transparansi yang lebih besar pada evaluasi model bahasa besar (LLM) untuk bahasa Arab. Inisiatif ini mengatasi kesenjangan penting: meskipun digunakan oleh lebih dari 400 juta orang, bahasa Arab secara historis kurang terlayani oleh alat penilaian AI yang canggih – sehingga tertinggal dibandingkan bahasa Inggris dan bahasa-bahasa utama lainnya.

Menutup Kesenjangan Evaluasi

Proyek ini memperluas kerangka kerja HELM Stanford yang sudah ada, sebuah platform sumber terbuka untuk menilai kemampuan model dasar, ke dalam bahasa Arab. Artinya, peneliti dan pengembang kini memiliki metode yang dapat diakses publik dan dapat direproduksi untuk membandingkan performa model. Saat ini, model LLM-X Arabian.AI (juga dikenal sebagai Pronoia) memimpin di tujuh tolok ukur utama: AlGhafa, EXAMS, MadinahQA, AraTrust, ALRAGE, dan Translated MMLU.

Ikhtisar Kinerja

Meskipun model Arab.AI saat ini berada di puncak papan peringkat, model multibahasa dengan bobot terbuka juga memiliki kinerja yang baik. Khususnya, Qwen3 235B menempati peringkat model bobot terbuka dengan performa tertinggi dengan skor rata-rata 0,786. Model-model lama yang berpusat pada bahasa Arab, seperti AceGPT-v2 dan JAIS, memiliki kinerja yang lebih buruk jika dibandingkan. Namun, penting untuk dicatat bahwa banyak dari model-model ini berusia lebih dari satu tahun, dengan rilis terbaru sejak Oktober 2024.

Metodologi Pembandingan

HELM Bahasa Arab menggunakan tujuh tolok ukur yang banyak digunakan dalam komunitas riset, termasuk tes untuk penalaran pilihan ganda, kinerja ujian, tata bahasa, keamanan, dan menjawab pertanyaan. Metodologinya meliputi penggunaan huruf Arab dalam pilihan pilihan ganda, zero-shot prompting, dan random sampling untuk memastikan evaluasi seimbang.

Tren yang Lebih Luas dalam Evaluasi AI Arab

Papan peringkat ini merupakan bagian dari upaya yang lebih besar untuk meningkatkan penilaian AI Arab. Abu Dhabi berperan penting dalam upaya ini, dengan institusi seperti Institut Inovasi Teknologi yang merilis 3LM pada bulan Agustus 2025 (sebuah tolok ukur untuk STEM dan pembuatan kode) dan Inception/MBZUAI yang meluncurkan Ruang Papan Peringkat Arab di Hugging Face. Perkembangan ini menandakan semakin besarnya komitmen terhadap evaluasi ketat di bidang AI berbahasa Arab.

Tolok ukur baru ini adalah salah satu dari sejumlah inisiatif yang bertujuan untuk menutup kesenjangan dalam infrastruktur evaluasi AI untuk LLM Arab. Dengan menyediakan metodologi evaluasi yang transparan dan dapat direproduksi, sebanding dengan kerangka kerja yang digunakan untuk bahasa Inggris dan bahasa-bahasa utama lainnya, HELM Arab memungkinkan perbandingan kinerja model yang obyektif.

Papan peringkat HELM Arab kini tersedia sebagai sumber daya bagi komunitas pemrosesan bahasa alami Arab, menawarkan transparansi penuh terhadap permintaan dan respons model.