Berita dan Artikel Terbaru

Amazon Memprioritaskan AI Praktis Dibanding Skor Tolok Ukur

03.12.2025

Kepala AI Amazon berpendapat bahwa mengejar peringkat papan peringkat untuk model bahasa besar (LLM) adalah gangguan dari tujuan sebenarnya: menciptakan AI yang memecahkan masalah bisnis tertentu. Rohit Prasad, SVP AGI Amazon, percaya bahwa tolok ukur yang ada saat ini tidak dapat diandalkan dan tidak mencerminkan kegunaan model yang sebenarnya. Ia mengatakan fokusnya harus beralih dari kinerja teoretis ke hasil nyata yang dapat dibuktikan.

Masalah dengan Tolok Ukur AI

Industri AI terobsesi dengan skor benchmark, namun metrik ini memiliki kelemahan. Model-model tersebut dilatih pada kumpulan data yang berbeda, dan evaluasi sering kali bias atau tidak konsisten. Hal ini membuat perbandingan langsung menjadi tidak berarti. Prasad berpendapat bahwa satu-satunya perbandingan yang adil akan mengharuskan semua model dilatih pada data yang identik, dan hal ini tidak praktis. Masalah sebenarnya adalah tolok ukur tidak mengukur nilai AI dalam aplikasi praktis.

Memperkenalkan Nova Forge: AI Khusus dalam Skala Besar

Tanggapan Amazon adalah Nova Forge, sebuah layanan baru yang memungkinkan perusahaan untuk melatih model AI khusus tanpa biaya besar seperti biasanya. Forge memberi bisnis akses ke pos pemeriksaan model Nova Amazon di berbagai tahap pelatihan. Hal ini memungkinkan mereka memasukkan data miliknya sendiri di awal proses, saat model paling mudah menerima pembelajaran. Pendekatan ini menghindari kesalahan dalam menyempurnakan model tertutup atau melatih ulang model bobot terbuka, yang keduanya dapat menurunkan performa.

Forge pada dasarnya mendemokratisasi pengembangan AI tingkat lanjut dengan menawarkan akses ke alat yang sebelumnya hanya tersedia bagi perusahaan teknologi besar. Amazon membangun Forge secara internal karena timnya memerlukan kemampuan ini. Pola perusahaan selalu memecahkan permasalahannya sendiri terlebih dahulu sebelum mengubah solusi tersebut menjadi sebuah bisnis.

Kesuksesan Awal Reddit dengan Forge

Reddit adalah salah satu perusahaan pertama yang menggunakan Forge untuk membangun model keselamatan khusus yang dilatih berdasarkan data moderasi komunitas selama 23 tahun. CTO Reddit, Chris Slowe, mengatakan alat ini “revolusioner”, memungkinkan mereka membuat model yang memahami nuansa budaya unik platform mereka. Tujuan mereka adalah mengganti beberapa sistem keselamatan yang ada dengan satu model yang sangat terspesialisasi yang dapat menegakkan peraturan masyarakat dengan lebih baik.

Slowe mengakui Nova bukanlah model peringkat atas, tapi itu tidak masalah. Yang penting adalah kemampuan model untuk menjalankan fungsi yang diharapkan—dalam hal ini, memahami apa yang dimaksud dengan perilaku “brengsek” di Reddit.

Masa Depan AI: Spesialisasi Atas Kecerdasan Umum

Amazon bertaruh bahwa perlombaan untuk mendapatkan AI yang paling cerdas tidak kalah pentingnya dengan kemampuan untuk membangun AI yang berguna. Perusahaan ini memposisikan dirinya sebagai platform untuk bisnis yang membutuhkan solusi khusus, dibandingkan bersaing langsung dengan OpenAI dan Anthropic dalam hal kemampuan model murni. Strategi ini selaras dengan filosofi inti AWS: menyediakan infrastruktur dan alat yang memberdayakan pihak lain untuk berinovasi.

Amazon bertaruh bahwa perlombaan model telah menjadi komoditas dan dapat berhasil dengan menjadi tempat di mana perusahaan dapat membangun AI khusus untuk masalah bisnis tertentu.

Pada akhirnya, keberhasilan pendekatan ini akan bergantung pada adopsi pengembang. Namun jika Amazon benar, masa depan AI bukanlah tentang siapa yang memiliki skor benchmark tertinggi—tetapi tentang siapa yang dapat memberikan nilai nyata.