Наблюдается тревожная тенденция в отношении того, как AI-компании получают данные для обучения своих моделей: Common Crawl Foundation, некоммерческая организация, создающая общедоступный архив Интернета, предположительно помогает им получать доступ и использовать контент, защищенный платными подписками, от крупных новостных изданий. Эта практика вызвала дебаты о авторском праве, добросовестном использовании и будущем индустрии журналистики.
Что такое Common Crawl и почему это важно?
Основная миссия Common Crawl — создать огромный общедоступный архив Интернета. Он работает путем «сбора» веб-страниц — автоматического сбора данных с общедоступных веб-сайтов. Эти данные, занимающие несколько петабайт, затем становятся доступными для исследователей, ученых и, как показывают последние отчеты, AI-компаний, таких как Google, Anthropic, OpenAI и Meta. На сайте фонда утверждается, что данные собираются только со свободно доступных веб-страниц, но это утверждение сейчас подвергается сомнению.
Обвинения: «Закулисный» доступ к данным для AI
Согласно результатам расследования, опубликованному в The Atlantic, несколько крупных AI-компаний тайно сотрудничали с Common Crawl, создавая, таким образом, «закулисный» доступ к контенту, защищенному платными подписками. Журналист Алекс Рейснер подробно описывает, как архив Common Crawl позволяет AI-компаниям обучать свои модели на материалах из новостных изданий, таких как The New York Times, Wired и The Washington Post — изданий, которые полагаются на подписки и платные стены для получения дохода. Исполнительный директор фонда Ричард Скрента считает, что AI-модели должны иметь доступ ко всему в Интернете, позиция, которая противоречит правовой защите авторских прав, предоставляемой издателям.
Влияние на индустрию журналистики: «Апокалипсис трафика»
Рост AI-чатботов, таких как ChatGPT и Google Gemini, уже создал кризис для индустрии журналистики. Эти чатботы могут собирать информацию с сайтов издательств и представлять ее пользователям напрямую, перенаправляя трафик и потенциальный доход от новостных сайтов. Это явление, иногда называемое «апокалипсисом трафика» или «AI-армагеддоном», представляет собой серьезную угрозу финансовой стабильности новостных организаций. Mashable’s родительская компания, Ziff Davis, даже подала в суд на OpenAI из-за нарушения авторских прав, что подчеркивает растущие юридические проблемы.
Усилия издателей по удалению контента и ответ Common Crawl
Несколько издательств стали осведомлены о деятельности Common Crawl и запросили удаление своего контента из архива. Однако процесс удаления оказался медленным и сложным. Хотя Common Crawl заявляет о соблюдении этих запросов, отчеты The Atlantic показывают, что многие из этих запросов на удаление не были выполнены. Организация также признала, что ее формат файлов разработан таким образом, что контент трудно удалить после добавления. Кроме того, общедоступный инструмент поиска Common Crawl предоставляет вводящие в заблуждение результаты для определенных доменов, скрывая масштаб собранных данных.
Защита Common Crawl и потенциальные конфликты интересов
Common Crawl решительно опроверг обвинения в дезинформации издателей. В публикации в блоге Ричард Скрента заявил, что веб-краулер организации не обходит платные стены и что Common Crawl «не выполняет грязную работу AI». Однако фонд получил пожертвования от AI-ориентированных компаний, таких как OpenAI и Anthropic, и называет NVIDIA «партнером» — что вызывает вопросы о потенциальных конфликтах интересов. Помимо простого сбора необработанного текста, Common Crawl также помогает собирать и распространять наборы данных для обучения AI, а иногда даже размещает их для более широкого использования.
Большая картина: авторское право и будущее обучения AI
Споры вокруг Common Crawl подчеркивают более широкий дебат о том, как индустрия AI использует материалы, защищенные авторским правом. Крупные издатели, в том числе The New York Times и Ziff Davis, уже участвуют в судебных процессах против AI-компаний. Юридические и этические последствия значительны, и борьба за авторское право и добросовестное использование далека от завершения, представляя собой решающий момент как для индустрии AI, так и для будущего цифрового издательства.
