È emerso uno sviluppo preoccupante riguardo al modo in cui le società di intelligenza artificiale ottengono dati di formazione per i loro modelli: la Common Crawl Foundation, un’organizzazione senza scopo di lucro che crea un archivio Internet accessibile al pubblico, sta presumibilmente consentendo loro di accedere e utilizzare contenuti protetti da paywall dei principali editori di notizie. Questa pratica ha acceso un dibattito sul copyright, sul fair use e sul futuro dell’industria del giornalismo.
Cos’è la scansione comune e perché è rilevante?
La missione principale di Common Crawl è creare un enorme archivio Internet disponibile al pubblico. Funziona “raschiando” il web, raccogliendo automaticamente dati da siti web accessibili al pubblico. Questi dati, che si estendono su più petabyte, vengono quindi resi disponibili a ricercatori, accademici e, come suggeriscono recenti rapporti, aziende di intelligenza artificiale come Google, Anthropic, OpenAI e Meta. Il sito web della fondazione afferma che i suoi dati vengono raccolti esclusivamente da pagine web liberamente disponibili, ma questa affermazione è ora sotto esame.
Le accuse: una backdoor per l’acquisizione di dati tramite intelligenza artificiale
Secondo un rapporto investigativo pubblicato su The Atlantic, diverse importanti società di intelligenza artificiale hanno collaborato silenziosamente con Common Crawl, creando di fatto una backdoor per accedere ai contenuti protetti da paywall. Il giornalista Alex Reisner spiega in dettaglio come l’archivio di Common Crawl consente alle aziende di intelligenza artificiale di addestrare i propri modelli su materiale proveniente da testate giornalistiche come The New York Times, Wired e The Washington Post, pubblicazioni che si basano su abbonamenti e paywall per le entrate. Il direttore esecutivo della fondazione, Richard Skrenta, ritiene che i modelli di intelligenza artificiale dovrebbero avere accesso a tutto su Internet, una posizione che si scontra con la protezione del copyright concessa agli editori.
Impatto sull’industria del giornalismo: l’”apocalisse del traffico”
L’ascesa dei chatbot basati sull’intelligenza artificiale come ChatGPT e Google Gemini ha già creato una crisi per l’industria del giornalismo. Questi chatbot possono raccogliere informazioni dagli editori e presentarle direttamente agli utenti, deviando il traffico e le potenziali entrate dai siti Web di notizie. Questo fenomeno, a volte definito “apocalisse del traffico” o “armageddon dell’intelligenza artificiale”, rappresenta una minaccia significativa per la stabilità finanziaria delle testate giornalistiche. La società madre di Mashable, Ziff Davis, ha persino intentato una causa contro OpenAI per violazione del copyright, evidenziando le crescenti sfide legali.
Sforzi degli editori per rimuovere contenuti e risposta comune alla scansione
Diversi editori di notizie sono venuti a conoscenza delle attività di Common Crawl e hanno richiesto che i loro contenuti fossero rimossi dall’archivio. Tuttavia, il processo di rimozione si è rivelato lento e complesso. Sebbene Common Crawl affermi di rispettare queste richieste, i rapporti di Atlantic suggeriscono che molte di queste richieste di rimozione non sono state soddisfatte. L’organizzazione ha anche ammesso che il formato del suo file è progettato per essere “immutabile”, il che significa che il contenuto è difficile da eliminare una volta aggiunto. Inoltre, lo strumento di ricerca pubblico di Common Crawl restituisce risultati fuorvianti per determinati domini, mascherando la portata dei dati sottratti.
Difesa comune del crawling e potenziali conflitti di interessi
Common Crawl ha negato fermamente le accuse di aver ingannato gli editori. In un post sul blog, Richard Skrenta ha affermato che il web crawler dell’organizzazione non aggira i paywall e che Common Crawl “non sta facendo il lavoro sporco dell’intelligenza artificiale”. Tuttavia, la fondazione ha ricevuto donazioni da aziende focalizzate sull’intelligenza artificiale come OpenAI e Anthropic e elenca NVIDIA come “collaboratore”, sollevando dubbi su potenziali conflitti di interessi. Oltre alla semplice raccolta di testo non elaborato, Common Crawl aiuta anche ad assemblare e distribuire set di dati di addestramento sull’intelligenza artificiale, a volte persino ospitandoli per un uso più ampio.
Il quadro più ampio: copyright e futuro della formazione sull’intelligenza artificiale
La controversia che circonda Common Crawl evidenzia un dibattito più ampio su come l’industria dell’intelligenza artificiale utilizza materiale protetto da copyright. I principali editori, tra cui The New York Times e Ziff Davis, sono già impegnati in azioni legali contro le società di intelligenza artificiale. Le implicazioni legali ed etiche sono significative e la battaglia sul copyright e sul fair use è lungi dall’essere finita, rappresentando un momento cruciale sia per l’industria dell’intelligenza artificiale che per il futuro dell’editoria digitale.























