Er heeft zich een zorgwekkende ontwikkeling voorgedaan met betrekking tot de manier waarop AI-bedrijven trainingsgegevens voor hun modellen verzamelen: de Common Crawl Foundation, een non-profitorganisatie die een openbaar toegankelijk archief van het internet opbouwt, zou hen in staat stellen toegang te krijgen tot inhoud van grote nieuwsuitgevers en deze te gebruiken. Deze praktijk heeft geleid tot een debat over auteursrecht, eerlijk gebruik en de toekomst van de journalistieke sector.
Wat is algemene crawl en waarom is het relevant?
De belangrijkste missie van Common Crawl is het creëren van een enorm, openbaar beschikbaar archief van internet. Het werkt door het internet te ‘scrapen’ en automatisch gegevens van openbaar toegankelijke websites te verzamelen. Deze gegevens, die meerdere petabytes beslaan, worden vervolgens beschikbaar gesteld aan onderzoekers, academici en, zoals recente rapporten suggereren, AI-bedrijven zoals Google, Anthropic, OpenAI en Meta. De website van de stichting beweert dat haar gegevens uitsluitend worden verzameld van vrij beschikbare webpagina’s, maar deze bewering wordt nu onder de loep genomen.
De beschuldigingen: een achterdeur voor AI-gegevensverzameling
Volgens een onderzoeksrapport in The Atlantic zijn verschillende grote AI-bedrijven stilletjes een partnerschap aangegaan met Common Crawl, waardoor in feite een achterdeur is gecreëerd voor toegang tot inhoud achter een betaalmuur. Verslaggever Alex Reisner legt uit hoe het archief van Common Crawl AI-bedrijven in staat stelt hun modellen te trainen op basis van materiaal van nieuwsorganisaties als The New York Times, Wired en The Washington Post – publicaties die voor hun inkomsten afhankelijk zijn van abonnementen en betaalmuren. De uitvoerend directeur van de stichting, Richard Skrenta, is van mening dat AI-modellen toegang moeten hebben tot alles op internet, een standpunt dat in strijd is met de auteursrechtelijke bescherming die aan uitgevers wordt geboden.
Impact op de journalistieke sector: de “Verkeersapocalyps”
De opkomst van AI-chatbots zoals ChatGPT en Google Gemini heeft al voor een crisis in de journalistieke sector gezorgd. Deze chatbots kunnen informatie van uitgevers verzamelen en deze rechtstreeks aan gebruikers presenteren, waardoor verkeer en potentiële inkomsten worden weggeleid van nieuwswebsites. Dit fenomeen, ook wel de ‘verkeersapocalyps’ of ‘AI armageddon’ genoemd, vormt een aanzienlijke bedreiging voor de financiële stabiliteit van nieuwsorganisaties. Het moederbedrijf van Mashable, Ziff Davis, heeft zelfs een rechtszaak aangespannen tegen OpenAI wegens inbreuk op het auteursrecht, wat de groeiende juridische uitdagingen benadrukt.
Pogingen van uitgevers om inhoud te verwijderen en de reactie van de algemene crawl
Verschillende nieuwsuitgevers zijn zich bewust geworden van de activiteiten van Common Crawl en hebben verzocht om verwijdering van hun inhoud uit het archief. Het verwijderingsproces is echter langzaam en complex gebleken. Hoewel Common Crawl beweert aan deze verzoeken te voldoen, blijkt uit de rapportage van Atlantic dat veel van deze verwijderingsverzoeken niet zijn ingewilligd. De organisatie heeft ook toegegeven dat het bestandsformaat is ontworpen om ‘onveranderlijk’ te zijn, wat betekent dat inhoud moeilijk te verwijderen is zodra deze is toegevoegd. Bovendien retourneert de openbare zoekfunctie van Common Crawl misleidende resultaten voor bepaalde domeinen, waardoor de reikwijdte van de verzamelde gegevens wordt gemaskeerd.
Verdediging van gewone crawls en potentiële belangenconflicten
Common Crawl heeft de beschuldigingen van misleidende uitgevers krachtig ontkend. In een blogpost stelt Richard Skrenta dat de webcrawler van de organisatie de betaalmuren niet omzeilt en dat Common Crawl “het vuile werk van AI niet opknapt.” De stichting heeft echter donaties ontvangen van op AI gerichte bedrijven als OpenAI en Anthropic en noemt NVIDIA een ‘medewerker’, wat vragen oproept over mogelijke belangenconflicten. Naast het simpelweg verzamelen van onbewerkte tekst, helpt Common Crawl ook bij het samenstellen en distribueren van AI-trainingsdatasets, en soms zelfs bij het hosten ervan voor breder gebruik.
Het grotere plaatje: auteursrecht en de toekomst van AI-training
De controverse rond Common Crawl benadrukt een groter debat over hoe de AI-industrie auteursrechtelijk beschermd materiaal gebruikt. Grote uitgevers, waaronder The New York Times en Ziff Davis, zijn al verwikkeld in rechtszaken tegen AI-bedrijven. De juridische en ethische implicaties zijn aanzienlijk, en de strijd om auteursrecht en eerlijk gebruik is nog lang niet voorbij, wat een cruciaal moment vertegenwoordigt voor zowel de AI-industrie als de toekomst van digitaal publiceren.
