Surgiu um desenvolvimento preocupante relativamente à forma como as empresas de IA estão a obter dados de formação para os seus modelos: a Common Crawl Foundation, uma organização sem fins lucrativos que constrói um arquivo da Internet acessível ao público, está alegadamente a permitir-lhes aceder e utilizar conteúdo com acesso pago dos principais editores de notícias. Esta prática gerou um debate sobre direitos autorais, uso justo e o futuro da indústria do jornalismo.
O que é rastreamento comum e por que é relevante?
A principal missão do Common Crawl é criar um arquivo enorme e publicamente disponível da Internet. Ele opera “raspando” a web – coletando automaticamente dados de sites acessíveis ao público. Esses dados, abrangendo vários petabytes, são então disponibilizados para pesquisadores, acadêmicos e, como sugerem relatórios recentes, empresas de IA como Google, Anthropic, OpenAI e Meta. O site da fundação afirma que seus dados são coletados exclusivamente de páginas da web disponíveis gratuitamente, mas esta afirmação está agora sob escrutínio.
As alegações: um backdoor para aquisição de dados de IA
De acordo com um relatório investigativo do The Atlantic, várias grandes empresas de IA fizeram parceria discreta com o Common Crawl, criando efetivamente uma porta dos fundos para acessar conteúdo com acesso pago. O repórter Alex Reisner detalha como o arquivo do Common Crawl permite que empresas de IA treinem seus modelos em material de organizações de notícias como The New York Times, Wired e The Washington Post — publicações que dependem de assinaturas e acesso pago para obter receita. O diretor executivo da fundação, Richard Skrenta, acredita que os modelos de IA deveriam ter acesso a tudo na Internet, uma postura que entra em conflito com as proteções de direitos autorais concedidas aos editores.
Impacto na indústria do jornalismo: o “Apocalipse do trânsito”
A ascensão de chatbots de IA como ChatGPT e Google Gemini já criou uma crise para a indústria do jornalismo. Esses chatbots podem coletar informações dos editores e apresentá-las diretamente aos usuários, desviando o tráfego e a receita potencial dos sites de notícias. Este fenómeno, por vezes referido como “apocalipse do trânsito” ou “armagedão da IA”, representa uma ameaça significativa à estabilidade financeira das organizações noticiosas. A controladora do Mashable, Ziff Davis, até entrou com uma ação judicial contra a OpenAI por violação de direitos autorais, destacando os crescentes desafios legais.
Esforços dos editores para remover conteúdo e resposta ao rastreamento comum
Vários editores de notícias tomaram conhecimento das atividades do Common Crawl e solicitaram que seu conteúdo fosse removido do arquivo. No entanto, o processo de remoção provou ser lento e complexo. Embora o Common Crawl alegue estar atendendo a essas solicitações, os relatórios da Atlantic sugerem que muitas dessas solicitações de remoção não foram atendidas. A organização também admitiu que seu formato de arquivo foi projetado para ser “imutável”, o que significa que o conteúdo é difícil de excluir depois de adicionado. Além disso, a ferramenta de pesquisa pública do Common Crawl está retornando resultados enganosos para determinados domínios, mascarando o escopo dos dados extraídos.
Defesa do rastreamento comum e possíveis conflitos de interesse
O Common Crawl negou veementemente as acusações de editores enganosos. Em uma postagem no blog, Richard Skrenta afirmou que o rastreador da web da organização não ignora os acessos pagos e que o Common Crawl “não está fazendo o trabalho sujo da IA”. No entanto, a fundação recebeu doações de empresas focadas em IA, como OpenAI e Anthropic, e lista a NVIDIA como “colaboradora” – levantando questões sobre potenciais conflitos de interesse. Além de simplesmente coletar texto bruto, o Common Crawl também auxilia na montagem e distribuição de conjuntos de dados de treinamento de IA, às vezes até hospedando-os para uso mais amplo.
Visão geral: direitos autorais e o futuro do treinamento em IA
A controvérsia em torno do Common Crawl destaca um debate mais amplo sobre como a indústria de IA utiliza material protegido por direitos autorais. Grandes editoras, incluindo o The New York Times e Ziff Davis, já estão envolvidas em ações judiciais contra empresas de IA. As implicações legais e éticas são significativas e a batalha pelos direitos de autor e pela utilização justa está longe de terminar, representando um momento crucial tanto para a indústria da IA como para o futuro da publicação digital.





























