додому Без рубрики AI společnosti obviněné z používání veřejného internetového archivu k trénování modelů

Без рубрики

AI společnosti obviněné z používání veřejného internetového archivu k trénování modelů

08.11.2025

19

<br>

Existuje znepokojivý trend v tom, jak společnosti s umělou inteligencí získávají data pro trénování svých modelů: Common Crawl Foundation, nezisková organizace, která vytváří veřejný archiv internetu, jim údajně pomáhá přistupovat a používat obsah chráněný předplatným z hlavních zpravodajských serverů. Praxe vyvolala debatu o autorských právech, fair use a budoucnosti žurnalistického průmyslu.

Co je Common Crawl a proč je důležité?

Hlavním posláním Common Crawl je vytvořit rozsáhlý veřejný archiv internetu. Funguje to webovým „scrapingem“ – automatickým sběrem dat z veřejně přístupných webů. Tato data o mnoha petabajtech jsou pak zpřístupněna výzkumníkům, vědcům a, jak ukazují nedávné zprávy, společnostem s umělou inteligencí, jako jsou Google, Anthropic, OpenAI a Meta. Web nadace tvrdí, že data jsou sbírána pouze z volně přístupných webových stránek, ale toto tvrzení je nyní zpochybňováno.

Obvinění: Zákulisní přístup k datům pro AI

Podle vyšetřování zveřejněného v The Atlantic několik velkých společností s umělou inteligencí tajně spolupracovalo s Common Crawl, čímž vytvořilo zákulisní přístup k obsahu chráněnému placeným předplatným. Novinář Alex Reisner podrobně popisuje, jak archiv Common Crawl umožňuje společnostem s umělou inteligencí trénovat své modely na obsahu ze zpravodajských kanálů, jako jsou The New York Times, Wired a The Washington Post – publikace, které při generování příjmů spoléhají na předplatné a paywally. Výkonný ředitel nadace Richard Skrenta se domnívá, že modely umělé inteligence by měly mít přístup ke všemu na internetu, což je v rozporu se zákonnou ochranou autorských práv poskytovanou vydavatelům.

Dopad na novinářský průmysl: „Dopravní apokalypsa“

Vzestup chatbotů s umělou inteligencí, jako jsou ChatGPT a Google Gemini, již způsobil krizi v žurnalistickém průmyslu. Tito chatboti mohou shromažďovat informace z publikačních webů a prezentovat je přímo uživatelům, čímž odvádějí provoz a potenciální příjmy ze zpravodajských webů. Tento fenomén, někdy nazývaný „dopravní apokalypsa“ nebo „AI Armagedon“, představuje vážnou hrozbu pro finanční stabilitu zpravodajských organizací. Mateřská společnost Mashable, Ziff Davis, dokonce zažalovala OpenAI za porušení autorských práv, čímž upozornila na rostoucí právní problémy.

Úsilí o odstranění vydavatele a běžná odezva při procházení

Několik vydavatelů se dozvědělo o aktivitách Common Crawl a požádalo o odstranění jejich obsahu z archivu. Proces odstraňování se však ukázal být pomalý a obtížný. Ačkoli Common Crawl tvrdí, že těmto žádostem vyhovuje, zprávy z The Atlantic ukazují, že mnoho z těchto žádostí o zastavení šíření nebylo splněno. Organizace také připustila, že její formát souborů je navržen tak, že obsah je po přidání obtížné odstranit. Veřejně dostupný vyhledávací nástroj Common Crawl navíc poskytuje zavádějící výsledky pro určité domény a skrývá rozsah shromážděných dat.

Ochrana běžného procházení a potenciálních střetů zájmů

Common Crawl obvinění z dezinformací vydavatelů důrazně odmítl. V příspěvku na blogu Richard Skrenta uvedl, že webový prohledávač organizace neobchází paywally a že Common Crawl „nedělá špinavou práci AI“. Nadace však obdržela dary od společností zaměřených na umělou inteligenci, jako je OpenAI a Anthropic, a nazývá NVIDIA „partnerem“, což vyvolává otázky ohledně potenciálního střetu zájmů. Kromě pouhého shromažďování nezpracovaného textu pomáhá Common Crawl také shromažďovat a distribuovat datové sady pro školení AI a někdy je dokonce hostuje pro širší použití.

Velký obrázek: Autorská práva a budoucnost učení AI

Kontroverze Common Crawl podtrhuje širší debatu o tom, jak průmysl AI používá materiál chráněný autorským právem. Velcí vydavatelé, včetně The New York Times a Ziff Davis, jsou již zapojeni do soudních sporů proti společnostem AI. Právní a etické důsledky jsou významné a bitva o autorská práva a fair use ještě zdaleka neskončila, což představuje určující okamžik jak pro průmysl AI, tak pro budoucnost digitálního publikování.