додому Без рубрики Entreprises d’IA accusées d’exploiter les archives Web publiques pour les données de...

Entreprises d’IA accusées d’exploiter les archives Web publiques pour les données de formation

Entreprises d’IA accusées d’exploiter les archives Web publiques pour les données de formation

Un développement inquiétant est apparu concernant la façon dont les sociétés d’IA s’approvisionnent en données de formation pour leurs modèles : la Common Crawl Foundation, une organisation à but non lucratif qui crée des archives Internet accessibles au public, leur permettrait d’accéder et d’utiliser le contenu payant des principaux éditeurs de presse. Cette pratique a déclenché un débat sur le droit d’auteur, l’utilisation équitable et l’avenir de l’industrie du journalisme.

Qu’est-ce que Common Crawl et pourquoi est-il pertinent ?

La mission principale de Common Crawl est de créer une archive massive et publique d’Internet. Il fonctionne en « grattant » le Web, en collectant automatiquement des données à partir de sites Web accessibles au public. Ces données, couvrant plusieurs pétaoctets, sont ensuite mises à la disposition des chercheurs, des universitaires et, comme le suggèrent des rapports récents, des sociétés d’IA comme Google, Anthropic, OpenAI et Meta. Le site Web de la fondation affirme que ses données sont uniquement collectées à partir de pages Web disponibles gratuitement, mais cette affirmation est actuellement examinée.

Les allégations : une porte dérobée pour l’acquisition de données IA

Selon un rapport d’enquête paru dans The Atlantic, plusieurs grandes sociétés d’IA se sont discrètement associées à Common Crawl, créant ainsi une porte dérobée pour accéder au contenu payant. Le journaliste Alex Reisner explique comment les archives de Common Crawl permettent aux sociétés d’IA de former leurs modèles sur du matériel provenant d’organismes de presse comme The New York Times, Wired et The Washington Post – des publications qui dépendent des abonnements et des paywalls pour leurs revenus. Le directeur exécutif de la fondation, Richard Skrenta, estime que les modèles d’IA devraient avoir accès à tout sur Internet, une position qui entre en contradiction avec la protection des droits d’auteur accordée aux éditeurs.

Impact sur l’industrie du journalisme : “l’apocalypse du trafic”

La montée en puissance des chatbots IA comme ChatGPT et Google Gemini a déjà créé une crise pour l’industrie du journalisme. Ces chatbots peuvent récupérer des informations auprès des éditeurs et les présenter directement aux utilisateurs, détournant ainsi le trafic et les revenus potentiels des sites d’information. Ce phénomène, parfois appelé « apocalypse du trafic » ou « armageddon de l’IA », constitue une menace importante pour la stabilité financière des agences de presse. La société mère de Mashable, Ziff Davis, a même intenté une action en justice contre OpenAI pour violation du droit d’auteur, soulignant les défis juridiques croissants.

Efforts des éditeurs pour supprimer du contenu et réponse de Common Crawl

Plusieurs éditeurs de presse ont pris connaissance des activités de Common Crawl et ont demandé que leur contenu soit supprimé des archives. Cependant, le processus de suppression s’est avéré lent et complexe. Bien que Common Crawl prétende se conformer à ces demandes, les rapports d’Atlantic suggèrent que bon nombre de ces demandes de retrait n’ont pas été satisfaites. L’organisation a également admis que son format de fichier est conçu pour être « immuable », ce qui signifie que le contenu est difficile à supprimer une fois ajouté. De plus, l’outil de recherche public de Common Crawl renvoie des résultats trompeurs pour certains domaines, masquant la portée des données récupérées.

Défense de Common Crawl et conflits d’intérêts potentiels

Common Crawl a fermement nié les accusations d’éditeurs trompeurs. Dans un article de blog, Richard Skrenta a déclaré que le robot d’exploration Web de l’organisation ne contourne pas les paywalls et que Common Crawl « ne fait pas le sale boulot de l’IA ». Cependant, la fondation a reçu des dons d’entreprises axées sur l’IA comme OpenAI et Anthropic et classe NVIDIA parmi ses « collaborateurs », ce qui soulève des questions sur d’éventuels conflits d’intérêts. Au-delà de la simple collecte de texte brut, Common Crawl aide également à assembler et à distribuer des ensembles de données de formation à l’IA, parfois même à les héberger pour une utilisation plus large.

Vue d’ensemble : droits d’auteur et avenir de la formation en IA

La controverse autour de Common Crawl met en lumière un débat plus large sur la manière dont l’industrie de l’IA utilise le matériel protégé par le droit d’auteur. De grands éditeurs, dont The New York Times et Ziff Davis, sont déjà engagés dans des poursuites contre des sociétés d’IA. Les implications juridiques et éthiques sont importantes, et la bataille sur le droit d’auteur et l’utilisation équitable est loin d’être terminée, représentant un moment crucial à la fois pour l’industrie de l’IA et pour l’avenir de l’édition numérique.

Exit mobile version