Amazon prioriza IA prática em vez de pontuações de benchmark

3

O chefe de IA da Amazon argumenta que buscar classificações na tabela de classificação para grandes modelos de linguagem (LLMs) é uma distração do objetivo real: criar IA que resolva problemas de negócios específicos. Rohit Prasad, vice-presidente sênior de AGI da Amazon, acredita que os benchmarks atuais não são confiáveis ​​e não refletem a verdadeira utilidade de um modelo. Ele diz que o foco deve mudar do desempenho teórico para resultados demonstráveis ​​no mundo real.

O problema com benchmarks de IA

A indústria da IA tornou-se obcecada por pontuações de benchmark, mas estas métricas são falhas. Os modelos são treinados em diferentes conjuntos de dados e as avaliações são frequentemente tendenciosas ou inconsistentes. Isso torna as comparações diretas sem sentido. Prasad argumenta que a única comparação justa exigiria que todos os modelos fossem treinados com dados idênticos, o que é impraticável. A verdadeira questão é que os benchmarks não medem o valor da IA ​​em aplicações práticas.

Apresentando Nova Forge: IA personalizada em escala

A resposta da Amazon é o Nova Forge, um novo serviço que permite às empresas treinar modelos de IA personalizados sem os enormes custos habituais. O Forge dá às empresas acesso aos pontos de verificação do modelo Nova da Amazon em vários estágios de treinamento. Isso permite que eles injetem seus próprios dados proprietários no início do processo, quando o modelo está mais receptivo ao aprendizado. Essa abordagem evita as armadilhas do ajuste fino de modelos fechados ou do retreinamento de modelos abertos, pois ambos podem degradar o desempenho.

Forge democratiza essencialmente o desenvolvimento avançado de IA, oferecendo acesso a ferramentas anteriormente disponíveis apenas para grandes empresas de tecnologia. A Amazon construiu o Forge internamente porque suas equipes precisavam desse recurso. O padrão da empresa sempre foi resolver primeiro os próprios problemas antes de transformar as soluções em negócio.

Sucesso inicial do Reddit com Forge

Reddit é uma das primeiras empresas a usar o Forge para construir modelos de segurança personalizados, treinados em 23 anos de dados de moderação da comunidade. O CTO do Reddit, Chris Slowe, diz que a ferramenta é “revolucionária”, permitindo-lhes criar um modelo que compreende as nuances da cultura única de sua plataforma. O seu objetivo é substituir vários sistemas de segurança existentes por um modelo único e altamente especializado que possa aplicar melhor as regras comunitárias.

Slowe admite que Nova não é um modelo de primeira linha, mas isso não importa. O que importa é a capacidade do modelo de desempenhar a função pretendida – neste caso, entender o que constitui um comportamento “idiota” no Reddit.

O futuro da IA: especialização em inteligência geral

A Amazon está apostando que a corrida pela IA mais inteligente é menos importante do que a capacidade de construir uma IA útil. A empresa está se posicionando como uma plataforma para empresas que precisam de soluções personalizadas, em vez de competir diretamente com OpenAI e Anthropic em pura capacidade de modelo. Essa estratégia está alinhada com a filosofia central da AWS: fornecer infraestrutura e ferramentas que capacitem outros a inovar.

A Amazon está apostando que a corrida dos modelos se tornou uma commodity e que pode ter sucesso sendo o lugar onde as empresas podem construir IA especializada para problemas de negócios específicos.

Em última análise, o sucesso desta abordagem dependerá da adoção pelo desenvolvedor. Mas se a Amazon estiver certa, o futuro da IA ​​não depende de quem tem a pontuação de benchmark mais alta – mas de quem pode agregar valor no mundo real.