додому Без рубрики Компанії зі штучним інтелектом звинувачують у використанні загальнодоступного інтернет-архіву для навчання моделей

Без рубрики

Компанії зі штучним інтелектом звинувачують у використанні загальнодоступного інтернет-архіву для навчання моделей

08.11.2025

Компанії зі штучним інтелектом звинувачують у використанні загальнодоступного інтернет-архіву для навчання моделей

Існує тривожна тенденція в тому, як компанії зі штучним інтелектом отримують дані для навчання своїх моделей: The Common Crawl Foundation, некомерційна організація, яка створює загальнодоступний архів Інтернету, нібито допомагає їм отримувати доступ і використовувати захищений за підпискою вміст із головних новин. Ця практика викликала дискусію про авторське право, добросовісне використання та майбутнє журналістської галузі.

Що таке Common Crawl і чому це важливо?

Основна місія Common Crawl — створити величезний загальнодоступний архів Інтернету. Він працює за допомогою веб-скрейпінгу — автоматичного збору даних із загальнодоступних веб-сайтів. Потім ці багатопетабайтні дані стають доступними дослідникам, науковцям і, як показують останні звіти, таким компаніям штучного інтелекту, як Google, Anthropic, OpenAI і Meta. На веб-сайті фонду стверджується, що дані збираються лише з веб-сторінок у вільному доступі, але зараз це твердження ставиться під сумнів.

Звинувачення: доступ до даних за кадром для ШІ

Згідно з розслідуванням, опублікованим у The Atlantic, кілька великих компаній ШІ таємно співпрацювали з Common Crawl, створюючи таким чином негласний доступ до контенту, захищеного платними підписками. Журналіст Алекс Рейснер детально розповідає про те, як архів Common Crawl дозволяє компаніям зі штучним інтелектом навчати свої моделі на вмісті таких новинних видань, як The New York Times, Wired і The Washington Post — видань, які покладаються на підписки та систему оплати для отримання прибутку. Виконавчий директор фонду Річард Скрента вважає, що моделі штучного інтелекту повинні мати доступ до всього в Інтернеті, що суперечить правовому захисту авторських прав, наданому видавцям.

Вплив на індустрію журналістики: «Трафіковий апокаліпсис»

Розвиток чат-ботів ШІ, таких як ChatGPT і Google Gemini, вже спричинив кризу для журналістської індустрії. Ці чат-боти можуть збирати інформацію з веб-сайтів публікацій і надавати її безпосередньо користувачам, перенаправляючи трафік і потенційний дохід від сайтів новин. Це явище, яке іноді називають «дорожнім апокаліпсисом» або «ШІ Армагеддоном», становить серйозну загрозу для фінансової стабільності інформаційних організацій. Материнська компанія Mashable, Зіфф Девіс, навіть подала до суду на OpenAI за порушення авторських прав, підкреслюючи зростаючі юридичні проблеми.

Зусилля видалення видавця та загальна реакція сканування

Кілька видавців дізналися про діяльність Common Crawl і попросили видалити їх вміст з архіву. Однак процес видалення виявився повільним і складним. Хоча Common Crawl стверджує, що виконує ці запити, звіти The Atlantic показують, що багато з цих запитів на видалення не було виконано. Організація також визнала, що її формат файлу розроблений таким чином, що після додавання вміст важко видалити. Крім того, загальнодоступний інструмент пошуку Common Crawl надає оманливі результати для певних доменів, приховуючи обсяг зібраних даних.

Захист Common Crawl і потенційних конфліктів інтересів

Common Crawl рішуче заперечує звинувачення видавця в дезінформації. У дописі в блозі Річард Скрента сказав, що веб-сканер організації не обходить платні екрани і що Common Crawl «не виконує брудну роботу ШІ». Однак фонд отримав пожертви від компаній, орієнтованих на штучний інтелект, таких як OpenAI і Anthropic, і називає NVIDIA «партнером», що викликає питання про потенційний конфлікт інтересів. Окрім простого збору необробленого тексту, Common Crawl також допомагає збирати та поширювати набори даних для навчання ШІ, а іноді навіть розміщувати їх для більш широкого використання.

Загальна картина: авторське право та майбутнє навчання ШІ

Суперечка щодо Common Crawl підкреслює ширшу дискусію щодо того, як індустрія ШІ використовує матеріали, захищені авторським правом. Великі видавці, включаючи The New York Times і Зіффа Девіса, вже залучені до судових процесів проти компаній ШІ. Юридичні та етичні наслідки значні, а боротьба за авторське право та добросовісне використання далека від завершення, що є визначальним моментом як для індустрії ШІ, так і для майбутнього цифрового видання.

Exit mobile version