додому Без рубрики KI-Unternehmen werden beschuldigt, öffentliche Webarchive für Trainingsdaten ausgenutzt zu haben

KI-Unternehmen werden beschuldigt, öffentliche Webarchive für Trainingsdaten ausgenutzt zu haben

KI-Unternehmen werden beschuldigt, öffentliche Webarchive für Trainingsdaten ausgenutzt zu haben

Es gibt eine besorgniserregende Entwicklung hinsichtlich der Art und Weise, wie KI-Unternehmen Trainingsdaten für ihre Modelle beschaffen: Die Common Crawl Foundation, eine gemeinnützige Organisation, die ein öffentlich zugängliches Archiv des Internets aufbaut, ermöglicht ihnen angeblich den Zugriff und die Nutzung von Paywall-Inhalten großer Nachrichtenverlage. Diese Praxis hat eine Debatte über Urheberrecht, faire Nutzung und die Zukunft der Journalismusbranche entfacht.

Was ist Common Crawl und warum ist es relevant?

Die Hauptaufgabe von Common Crawl besteht darin, ein riesiges, öffentlich zugängliches Archiv des Internets zu erstellen. Es funktioniert durch „Scraping“ des Webs und sammelt automatisch Daten von öffentlich zugänglichen Websites. Diese Daten, die mehrere Petabyte umfassen, werden dann Forschern, Akademikern und, wie aktuelle Berichte nahelegen, KI-Unternehmen wie Google, Anthropic, OpenAI und Meta zur Verfügung gestellt. Auf der Website der Stiftung wird behauptet, dass ihre Daten ausschließlich von frei verfügbaren Webseiten gesammelt würden. Diese Behauptung wird jedoch derzeit überprüft.

Die Vorwürfe: Eine Hintertür für die KI-Datenerfassung

Laut einem Untersuchungsbericht in The Atlantic haben mehrere große KI-Unternehmen stillschweigend eine Partnerschaft mit Common Crawl geschlossen und so effektiv eine Hintertür für den Zugriff auf Paywall-Inhalte geschaffen. Der Reporter Alex Reisner erläutert, wie das Archiv von Common Crawl es KI-Unternehmen ermöglicht, ihre Modelle anhand von Material von Nachrichtenorganisationen wie The New York Times, Wired und The Washington Post zu trainieren – Publikationen, deren Einnahmen auf Abonnements und Paywalls basieren. Der geschäftsführende Direktor der Stiftung, Richard Skrenta, ist der Ansicht, dass KI-Modelle Zugriff auf alles im Internet haben sollten, eine Haltung, die im Widerspruch zum Urheberrechtsschutz steht, der Verlagen gewährt wird.

Auswirkungen auf die Journalismusbranche: Die „Verkehrsapokalypse“

Der Aufstieg von KI-Chatbots wie ChatGPT und Google Gemini hat bereits eine Krise für die Journalismusbranche ausgelöst. Diese Chatbots können Informationen von Herausgebern sammeln und sie den Benutzern direkt präsentieren, wodurch der Datenverkehr und potenzielle Einnahmen von Nachrichten-Websites weggeleitet werden. Dieses Phänomen, das manchmal als „Verkehrsapokalypse“ oder „KI-Armageddon“ bezeichnet wird, stellt eine erhebliche Bedrohung für die finanzielle Stabilität von Nachrichtenorganisationen dar. Die Muttergesellschaft von Mashable, Ziff Davis, hat sogar eine Klage gegen OpenAI wegen Urheberrechtsverletzung eingereicht und verdeutlicht damit die wachsenden rechtlichen Herausforderungen.

Bemühungen der Herausgeber, Inhalte zu entfernen und Antwort von Common Crawl

Mehrere Nachrichtenverleger sind auf die Aktivitäten von Common Crawl aufmerksam geworden und haben beantragt, dass ihre Inhalte aus dem Archiv entfernt werden. Der Entfernungsprozess hat sich jedoch als langsam und komplex erwiesen. Während Common Crawl behauptet, diesen Anfragen nachzukommen, deuten die Berichte von Atlantic darauf hin, dass viele dieser Deaktivierungsanfragen nicht erfüllt wurden. Die Organisation hat außerdem zugegeben, dass ihr Dateiformat „unveränderlich“ ist, was bedeutet, dass Inhalte nach dem Hinzufügen schwer zu löschen sind. Darüber hinaus liefert das öffentliche Suchtool von Common Crawl für bestimmte Domains irreführende Ergebnisse und verschleiert so den Umfang der gescrapten Daten.

Common Crawls Verteidigung und potenzielle Interessenkonflikte

Common Crawl hat die Vorwürfe der Irreführung der Herausgeber entschieden zurückgewiesen. In einem Blogbeitrag erklärte Richard Skrenta, dass der Webcrawler der Organisation Paywalls nicht umgeht und dass Common Crawl „nicht die Drecksarbeit der KI erledigt“. Allerdings hat die Stiftung Spenden von KI-fokussierten Unternehmen wie OpenAI und Anthropic erhalten und führt NVIDIA als „Kollaborateur“ auf – was Fragen zu möglichen Interessenkonflikten aufwirft. Common Crawl sammelt nicht nur Rohtext, sondern hilft auch beim Zusammenstellen und Verteilen von KI-Trainingsdatensätzen und hostet diese manchmal sogar für eine breitere Nutzung.

Das große Ganze: Urheberrecht und die Zukunft des KI-Trainings

Die Kontroverse um Common Crawl unterstreicht eine größere Debatte darüber, wie die KI-Branche urheberrechtlich geschütztes Material nutzt. Große Verlage, darunter The New York Times und Ziff Davis, führen bereits Klagen gegen KI-Unternehmen. Die rechtlichen und ethischen Auswirkungen sind erheblich, und der Kampf um Urheberrecht und faire Nutzung ist noch lange nicht vorbei und stellt einen entscheidenden Moment sowohl für die KI-Branche als auch für die Zukunft des digitalen Publizierens dar.

Exit mobile version