Het hoofd AI van Amazon betoogt dat het najagen van ranglijsten voor grote taalmodellen (LLM’s) een afleiding is van het echte doel: het creëren van AI die specifieke bedrijfsproblemen oplost. Rohit Prasad, Amazon’s SVP van AGI, is van mening dat de huidige benchmarks onbetrouwbaar zijn en niet het werkelijke nut van een model weerspiegelen. Hij zegt dat de focus moet verschuiven van theoretische prestaties naar aantoonbare resultaten uit de praktijk.
Het probleem met AI-benchmarks
De AI-industrie is geobsedeerd geraakt door benchmarkscores, maar deze statistieken zijn gebrekkig. De modellen zijn getraind op verschillende datasets en de evaluaties zijn vaak bevooroordeeld of inconsistent. Dit maakt directe vergelijkingen zinloos. Prasad stelt dat de enige eerlijke vergelijking zou vereisen dat alle modellen op identieke gegevens worden getraind, wat onpraktisch is. Het echte probleem is dat benchmarks de waarde van AI in praktische toepassingen niet meten.
Maak kennis met Nova Forge: aangepaste AI op schaal
Het antwoord van Amazon is Nova Forge, een nieuwe dienst waarmee bedrijven aangepaste AI-modellen kunnen trainen zonder de gebruikelijke enorme kosten. Forge geeft bedrijven toegang tot de Nova-modelcontrolepunten van Amazon in verschillende trainingsfasen. Hierdoor kunnen ze hun eigen bedrijfseigen gegevens al vroeg in het proces injecteren, wanneer het model het meest ontvankelijk is voor leren. Deze aanpak vermijdt de valkuilen van het verfijnen van gesloten modellen of het herscholen van modellen met open gewicht, die beide de prestaties kunnen verslechteren.
Forge democratiseert in wezen de geavanceerde AI-ontwikkeling door toegang te bieden tot tools die voorheen alleen beschikbaar waren voor grote technologiebedrijven. Amazon heeft Forge intern gebouwd omdat zijn teams deze mogelijkheid nodig hadden. Het bedrijfspatroon is altijd geweest om eerst zijn eigen problemen op te lossen voordat deze oplossingen in een bedrijf worden omgezet.
Reddit’s vroege succes met Forge
Reddit is een van de eerste bedrijven die Forge gebruikt om aangepaste veiligheidsmodellen te bouwen die zijn getraind op basis van 23 jaar community-moderatiegegevens. De CTO van Reddit, Chris Slowe, zegt dat de tool ‘revolutionair’ is, waardoor ze een model kunnen creëren dat de nuances van de unieke cultuur van hun platform begrijpt. Hun doel is om meerdere bestaande veiligheidssystemen te vervangen door één enkel, zeer gespecialiseerd model dat gemeenschapsregels beter kan afdwingen.
Slowe geeft toe dat Nova geen topmodel is, maar dat maakt niet uit. Waar het om gaat is het vermogen van het model om de beoogde functie uit te voeren – in dit geval het begrijpen van wat ‘schokkend’ gedrag op Reddit inhoudt.
De toekomst van AI: specialisatie boven algemene intelligentie
Amazon gokt erop dat de race om de meest intelligente AI minder belangrijk is dan het vermogen om nuttige AI te bouwen. Het bedrijf positioneert zichzelf als het platform voor bedrijven die oplossingen op maat nodig hebben, in plaats van rechtstreeks te concurreren met OpenAI en Anthropic op het gebied van pure modelmogelijkheden. Deze strategie sluit aan bij de kernfilosofie van AWS: het bieden van infrastructuur en tools die anderen in staat stellen te innoveren.
Amazon gokt erop dat de modelrace gecommoditiseerd is geworden en dat deze kan slagen door de plek te zijn waar bedrijven gespecialiseerde AI kunnen bouwen voor specifieke zakelijke problemen.
Uiteindelijk zal het succes van deze aanpak afhangen van de adoptie door ontwikkelaars. Maar als Amazon gelijk heeft, gaat de toekomst van AI niet over wie de hoogste benchmarkscore heeft, maar over wie waarde in de echte wereld kan leveren.




























