додому Останні новини та статті Новий рейтинг арабських моделей ШІ спрямований на підвищення прозорості оцінювання

Новий рейтинг арабських моделей ШІ спрямований на підвищення прозорості оцінювання

Новий тест, HELM Arabic, розроблений Центром дослідження фундаментальних моделей Стенфордського університету (CRFM) у співпраці з Arabic AI, спрямований на підвищення прозорості в оцінці великих мовних моделей (LLM) для арабської мови. Ця ініціатива усуває критичну прогалину: незважаючи на те, що нею розмовляють понад 400 мільйонів людей, історично арабська мова недостатньо підтримувалася надійними інструментами оцінки ШІ, що відстає від англійської та інших основних мов.

Усунення розриву в оцінці

Проект розширює існуючу структуру Стенфордського університету HELM, платформу з відкритим кодом для оцінки можливостей фундаментальних моделей, на арабську мову. Це означає, що дослідники та розробники тепер мають загальнодоступний відтворюваний метод для порівняння продуктивності моделі. Наразі модель Arabic.AI LLM-X (також відома як Pronoia) лідирує за семи ключовими показниками: AlGhafa, EXAMS, MadinahQA, AraTrust, ALRAGE та Translated MMLU.

Ключові показники ефективності

Хоча модель Arabic.AI наразі лідирує в рейтингу, відкриті моделі, які підтримують кілька мов, також працюють добре. Зокрема, Qwen3 235B займає перше місце серед моделей відкритої ваги із середнім балом 0,786. Старіші моделі, орієнтовані на арабську мову, такі як AceGPT-v2 і JAIS, показали гірші результати, проте важливо зазначити, що багатьом із цих моделей понад рік, а останні випуски датуються жовтнем 2024 року.

Методологія бенчмаркінгу

HELM Arabic використовує сім усталених тестів, які широко використовуються в науковому співтоваристві, включаючи тести з множинним вибором аргументів, ефективність іспитів, граматику, безпеку та відповіді на запитання. Методологія передбачає використання арабських літер у варіантах із множинним вибором, відкритих запитах і випадковій вибірці для забезпечення збалансованого оцінювання.

Більш широкі тенденції в арабській оцінці ШІ

Цей рейтинг є частиною більшого руху з покращення оцінки арабського ШІ. Абу-Дабі відіграє центральну роль у цих зусиллях: такі установи, як Інститут технологічних інновацій, випустив 3LM у серпні 2025 року (еталон для STEM і генерації коду), а Inception/MBZUAI запустив Arabic Leaderboards Space on Hugging Face. Ці події свідчать про зростання прихильності до ретельної оцінки в області арабського штучного інтелекту.

Новий контрольний показник є однією з ініціатив, спрямованих на усунення прогалини в інфраструктурі оцінки ШІ для арабських LLM. Забезпечуючи прозору, відтворювану методологію оцінювання, яку можна порівняти з методологією, яка використовується для англійської та інших основних мов, HELM Arabic дозволяє об’єктивно порівнювати продуктивність моделі.

Оцінка HELM Arabic тепер доступна як ресурс для спільноти обробки природної арабської мови, що забезпечує повну прозорість запитів і відповідей моделі.

Exit mobile version