Istnieje niepokojąca tendencja w sposobie, w jaki firmy zajmujące się sztuczną inteligencją uzyskują dane w celu szkolenia swoich modeli: Common Crawl Foundation, organizacja non-profit, która tworzy publiczne archiwum Internetu, rzekomo pomaga im uzyskać dostęp do treści chronionych subskrypcją i korzystać z nich w głównych serwisach informacyjnych. Praktyka ta wywołała debatę na temat praw autorskich, dozwolonego użytku i przyszłości branży dziennikarskiej.
Co to jest wspólne indeksowanie i dlaczego jest ważne?
Podstawową misją Common Crawl jest stworzenie ogromnego publicznego archiwum Internetu. Działa poprzez „skrobanie” sieci – automatyczne zbieranie danych z publicznie dostępnych stron internetowych. Te wielopetabajtowe dane są następnie udostępniane badaczom, naukowcom i, jak pokazują najnowsze raporty, firmom zajmującym się sztuczną inteligencją, takim jak Google, Anthropic, OpenAI i Meta. Strona fundacji twierdzi, że dane są zbierane wyłącznie z ogólnodostępnych stron internetowych, jednak twierdzenie to jest obecnie kwestionowane.
Zarzuty: dostęp AI do danych zza kulis
Według dochodzenia opublikowanego w The Atlantic kilka dużych firm zajmujących się sztuczną inteligencją potajemnie współpracowało z Common Crawl, zapewniając w ten sposób zakulisowy dostęp do treści chronionych płatnymi subskrypcjami. Dziennikarz Alex Reisner szczegółowo opisuje, w jaki sposób archiwum Common Crawl umożliwia firmom zajmującym się sztuczną inteligencją trenowanie swoich modeli na podstawie treści z serwisów informacyjnych, takich jak The New York Times, Wired i The Washington Post — publikacji, których przychody opierają się na subskrypcjach i paywallach. Dyrektor wykonawczy fundacji, Richard Skrenta, uważa, że modele sztucznej inteligencji powinny mieć dostęp do „wszystkiego” w Internecie, co jest sprzeczne z prawną ochroną praw autorskich zapewnianą wydawcom.
Wpływ na branżę dziennikarską: „Apokalipsa ruchu drogowego”
Pojawienie się chatbotów AI, takich jak ChatGPT i Google Gemini, spowodowało już kryzys w branży dziennikarskiej. Te chatboty mogą zbierać informacje ze stron internetowych publikacji i prezentować je bezpośrednio użytkownikom, przekierowując ruch i potencjalne przychody z witryn informacyjnych. Zjawisko to, nazywane czasem „apokalipsą ruchu” lub „Armageddonem AI”, stwarza poważne zagrożenie dla stabilności finansowej organizacji informacyjnych. Firma-matka Mashable, Ziff Davis, pozwała nawet OpenAI za naruszenie praw autorskich, podkreślając rosnące wyzwania prawne.
Próby usunięcia przez wydawcę i typowa reakcja na indeksowanie
Kilku wydawców dowiedziało się o działalności Common Crawl i zażądało usunięcia ich treści z archiwum. Jednak proces usuwania okazał się powolny i trudny. Chociaż Common Crawl twierdzi, że spełnia te żądania, raporty The Atlantic pokazują, że wiele z tych żądań usunięcia nie zostało spełnionych. Organizacja przyznała również, że format jej pliku jest zaprojektowany w taki sposób, że po dodaniu treści trudno jest ją usunąć. Dodatkowo, ogólnodostępna wyszukiwarka Common Crawl dla niektórych domen podaje mylące wyniki, ukrywając zakres zbieranych danych.
Ochrona wspólnego indeksowania i potencjalnych konfliktów interesów
Common Crawl stanowczo zaprzecza oskarżeniom o dezinformację wydawcy. W poście na blogu Richard Skrenta stwierdził, że robot sieciowy tej organizacji nie omija zapór płatniczych i że Common Crawl „nie wykonuje brudnej roboty sztucznej inteligencji”. Fundacja otrzymała jednak datki od firm zajmujących się sztuczną inteligencją, takich jak OpenAI i Anthropic, i nazywa firmę NVIDIA „partnerem”, co rodzi pytania dotyczące potencjalnego konfliktu interesów. Oprócz zwykłego zbierania nieprzetworzonego tekstu Common Crawl pomaga także gromadzić i rozpowszechniać zbiory danych na potrzeby szkolenia AI, a czasem nawet udostępnia je w celu szerszego wykorzystania.
Ogólny obraz: prawa autorskie i przyszłość uczenia się AI
Kontrowersje związane z Common Crawl podkreślają szerszą debatę na temat sposobu, w jaki branża sztucznej inteligencji wykorzystuje materiały chronione prawem autorskim. Główni wydawcy, w tym The New York Times i Ziff Davis, są już zaangażowani w procesy sądowe przeciwko firmom zajmującym się sztuczną inteligencją. Konsekwencje prawne i etyczne są znaczące, a walka o prawa autorskie i dozwolony użytek jeszcze się nie skończyła, co stanowi decydujący moment zarówno dla branży sztucznej inteligencji, jak i przyszłości publikacji cyfrowych.
