додому Без рубрики Empresas de inteligencia artificial acusadas de explotar archivos web públicos para obtener...

Без рубрики

Empresas de inteligencia artificial acusadas de explotar archivos web públicos para obtener datos de capacitación

08.11.2025

Empresas de inteligencia artificial acusadas de explotar archivos web públicos para obtener datos de capacitación

Ha surgido un hecho preocupante con respecto a cómo las empresas de inteligencia artificial obtienen datos de entrenamiento para sus modelos: la Common Crawl Foundation, una organización sin fines de lucro que crea un archivo de Internet de acceso público, supuestamente les permite acceder y utilizar contenido de pago de los principales editores de noticias. Esta práctica ha provocado un debate sobre los derechos de autor, el uso legítimo y el futuro de la industria del periodismo.

¿Qué es el rastreo común y por qué es relevante?

La misión principal de Common Crawl es crear un archivo masivo de Internet disponible públicamente. Opera “raspando” la web, recopilando automáticamente datos de sitios web de acceso público. Estos datos, que abarcan varios petabytes, se ponen a disposición de investigadores, académicos y, como sugieren informes recientes, empresas de inteligencia artificial como Google, Anthropic, OpenAI y Meta. El sitio web de la fundación afirma que sus datos se recopilan únicamente de páginas web disponibles gratuitamente, pero esta afirmación está ahora bajo escrutinio.

Las acusaciones: una puerta trasera para la adquisición de datos de IA

Según un informe de investigación en The Atlantic, varias empresas importantes de inteligencia artificial se han asociado silenciosamente con Common Crawl, creando efectivamente una puerta trasera para acceder a contenido de pago. El reportero Alex Reisner detalla cómo el archivo de Common Crawl permite a las empresas de inteligencia artificial entrenar sus modelos con material de organizaciones de noticias como The New York Times, Wired y The Washington Post, publicaciones que dependen de suscripciones y muros de pago para obtener ingresos. El director ejecutivo de la fundación, Richard Skrenta, cree que los modelos de IA deberían tener acceso a todo en Internet, una postura que choca con las protecciones de derechos de autor otorgadas a los editores.

Impacto en la industria del periodismo: el “Apocalipsis del tráfico”

El auge de los chatbots de inteligencia artificial como ChatGPT y Google Gemini ya ha creado una crisis para la industria del periodismo. Estos chatbots pueden extraer información de los editores y presentarla directamente a los usuarios, desviando el tráfico y los posibles ingresos de los sitios web de noticias. Este fenómeno, a veces denominado “apocalipsis del tráfico” o “armagedón de la IA”, plantea una amenaza significativa para la estabilidad financiera de las organizaciones de noticias. La empresa matriz de Mashable, Ziff Davis, incluso ha presentado una demanda contra OpenAI por infracción de derechos de autor, destacando los crecientes desafíos legales.

Esfuerzos de los editores para eliminar contenido y respuesta del rastreo común

Varios editores de noticias se han enterado de las actividades de Common Crawl y han solicitado que su contenido sea eliminado del archivo. Sin embargo, el proceso de eliminación ha demostrado ser lento y complejo. Si bien Common Crawl afirma estar cumpliendo con estas solicitudes, los informes de Atlantic sugieren que muchas de estas solicitudes de eliminación no se han cumplido. La organización también admitió que su formato de archivo está diseñado para ser “inmutable”, lo que significa que el contenido es difícil de eliminar una vez agregado. Además, la herramienta de búsqueda pública de Common Crawl arroja resultados engañosos para ciertos dominios, enmascarando el alcance de los datos extraídos.

Defensa del rastreo común y posibles conflictos de intereses

Common Crawl ha negado rotundamente las acusaciones de engañar a los editores. En una publicación de blog, Richard Skrenta afirmó que el rastreador web de la organización no pasa por alto los muros de pago y que Common Crawl “no está haciendo el trabajo sucio de la IA”. Sin embargo, la fundación ha recibido donaciones de empresas centradas en la IA como OpenAI y Anthropic y enumera a NVIDIA como “colaborador”, lo que genera dudas sobre posibles conflictos de intereses. Más allá de simplemente recopilar texto sin formato, Common Crawl también ayuda a ensamblar y distribuir conjuntos de datos de entrenamiento de IA, a veces incluso alojándolos para un uso más amplio.

El panorama general: los derechos de autor y el futuro de la formación en IA

La controversia en torno al Common Crawl pone de relieve un debate más amplio sobre cómo la industria de la IA utiliza material protegido por derechos de autor. Los principales editores, incluidos The New York Times y Ziff Davis, ya están entablando demandas contra empresas de inteligencia artificial. Las implicaciones legales y éticas son significativas, y la batalla por los derechos de autor y el uso legítimo está lejos de terminar, lo que representa un momento crucial tanto para la industria de la IA como para el futuro de las publicaciones digitales.

Exit mobile version