Nova tabela de classificação de IA árabe visa transparência na avaliação de modelos

16

Um novo benchmark, HELM Arabic, desenvolvido pelo Centro de Pesquisa em Modelos Básicos (CRFM) da Universidade de Stanford em colaboração com a Arabic AI, está trazendo maior transparência à avaliação de grandes modelos de linguagem (LLMs) para a língua árabe. Esta iniciativa aborda uma lacuna crítica: apesar de ser falado por mais de 400 milhões de pessoas, o árabe tem sido historicamente mal servido por ferramentas robustas de avaliação de IA – deixando o campo atrás do inglês e de outras línguas importantes.

Fechando a lacuna de avaliação

O projeto estende a estrutura HELM existente de Stanford, uma plataforma de código aberto para avaliar as capacidades do modelo básico, para o idioma árabe. Isso significa que pesquisadores e desenvolvedores agora têm um método reproduzível e acessível ao público para comparar o desempenho do modelo. Atualmente, o modelo LLM-X da Arabic.AI (também conhecido como Pronoia) lidera em sete benchmarks principais: AlGhafa, EXAMS, MadinahQA, AraTrust, ALRAGE e Translated MMLU.

Destaques de desempenho

Embora o modelo da Arabic.AI atualmente esteja no topo da tabela de classificação, os modelos multilíngues de peso aberto também apresentam bom desempenho. Notavelmente, Qwen3 235B é classificado como o modelo de pesos abertos de maior desempenho, com uma pontuação média de 0,786. Modelos mais antigos centrados no árabe, como AceGPT-v2 e JAIS, tiveram desempenho inferior em comparação, no entanto, é importante observar que muitos desses modelos têm mais de um ano, com os lançamentos mais recentes datando de outubro de 2024.

Metodologia de Benchmarking

O HELM Árabe utiliza sete benchmarks estabelecidos amplamente utilizados na comunidade de pesquisa, incluindo testes de raciocínio de múltipla escolha, desempenho em exames, gramática, segurança e resposta a perguntas. A metodologia inclui o uso de letras árabes em opções de múltipla escolha, solicitação zero-shot e amostragem aleatória para garantir uma avaliação equilibrada.

Tendências mais amplas na avaliação de IA em árabe

Esta tabela de classificação faz parte de um esforço maior para melhorar a avaliação da IA árabe. Abu Dhabi tem sido central neste esforço, com instituições como o Instituto de Inovação Tecnológica a lançar o 3LM em Agosto de 2025 (uma referência para STEM e geração de código) e a Inception/MBZUAI a lançar o Espaço de Tabelas de Líderes Árabes no Hugging Face. Estes desenvolvimentos sinalizam um compromisso crescente com uma avaliação rigorosa no espaço de IA da língua árabe.

O novo benchmark é uma de uma série de iniciativas que visam colmatar a lacuna na infraestrutura de avaliação de IA para LLMs árabes. Ao fornecer uma metodologia de avaliação transparente e reproduzível, comparável às estruturas utilizadas para o inglês e outros idiomas importantes, o HELM Árabe permite uma comparação objetiva do desempenho do modelo.

A tabela de classificação HELM em árabe está agora disponível como um recurso para a comunidade de processamento de linguagem natural árabe, oferecendo total transparência nas solicitações e respostas modelo.