додому Последние новости и статьи Новый рейтинг арабских ИИ-моделей направлен на повышение прозрачности оценки

Новый рейтинг арабских ИИ-моделей направлен на повышение прозрачности оценки

Новый бенчмарк, HELM Arabic, разработанный Центром исследований фундаментальных моделей (CRFM) Стэнфордского университета в сотрудничестве с Arabic AI, призван повысить прозрачность оценки больших языковых моделей (LLM) для арабского языка. Эта инициатива устраняет критический пробел: несмотря на то, что на арабском языке говорят более 400 миллионов человек, он исторически недостаточно поддерживается надежными инструментами оценки ИИ, что отстает от английского и других основных языков.

Закрытие пробела в оценке

Проект расширяет существующую структуру HELM Стэнфорда, платформу с открытым исходным кодом для оценки возможностей фундаментальных моделей, на арабский язык. Это означает, что исследователи и разработчики теперь имеют публично доступный, воспроизводимый метод сравнения производительности моделей. В настоящее время модель LLM-X от Arabic.AI (также известная как Pronoia) лидирует по семи ключевым показателям: AlGhafa, EXAMS, MadinahQA, AraTrust, ALRAGE и Translated MMLU.

Ключевые показатели производительности

Хотя модель Arabic.AI в настоящее время возглавляет рейтинг, модели с открытым весом, поддерживающие несколько языков, также показывают хорошие результаты. Особенно примечательно, что Qwen3 235B занимает первое место среди моделей с открытым весом, имея средний балл 0,786. Более старые модели, ориентированные на арабский язык, такие как AceGPT-v2 и JAIS, показали более низкие результаты, однако важно отметить, что многие из этих моделей старше года, а последние выпуски датируются октябрем 2024 года.

Методология бенчмаркинга

HELM Arabic использует семь установленных бенчмарков, широко используемых в научном сообществе, включая тесты на логическое мышление с множественным выбором, успеваемость на экзаменах, грамматику, безопасность и ответы на вопросы. Методология включает использование арабских букв в вариантах множественного выбора, запросы без предварительной подготовки и случайную выборку, чтобы обеспечить сбалансированную оценку.

Более широкие тенденции в оценке арабского ИИ

Этот рейтинг является частью более масштабного движения по улучшению оценки арабского ИИ. Абу-Даби играет центральную роль в этом усилии: такие учреждения, как Technology Innovation Institute, выпустили 3LM в августе 2025 года (бенчмарк для STEM и генерации кода), а Inception/MBZUAI запустили Arabic Leaderboards Space на Hugging Face. Эти разработки сигнализируют о растущей приверженности строгой оценке в области арабского ИИ.

Новый бенчмарк – одна из инициатив, направленных на устранение пробела в инфраструктуре оценки ИИ для арабских LLM. Предоставляя прозрачную, воспроизводимую методологию оценки, сопоставимую с используемыми для английского и других основных языков, HELM Arabic позволяет объективно сравнивать производительность моделей.

Рейтинг HELM Arabic теперь доступен как ресурс для сообщества обработки естественного языка на арабском языке, обеспечивая полную прозрачность запросов и ответов модели.

Exit mobile version