додому Без рубрики Perusahaan AI Dituduh Memanfaatkan Arsip Web Publik untuk Data Pelatihan

Perusahaan AI Dituduh Memanfaatkan Arsip Web Publik untuk Data Pelatihan

Perusahaan AI Dituduh Memanfaatkan Arsip Web Publik untuk Data Pelatihan

Perkembangan yang memprihatinkan telah muncul mengenai cara perusahaan AI mendapatkan data pelatihan untuk model mereka: Common Crawl Foundation, sebuah organisasi nirlaba yang membuat arsip internet yang dapat diakses publik, diduga memungkinkan mereka mengakses dan memanfaatkan konten berbayar dari penerbit berita besar. Praktik ini memicu perdebatan tentang hak cipta, penggunaan wajar, dan masa depan industri jurnalisme.

Apa itu Perayapan Umum dan Mengapa Relevan?

Misi utama Common Crawl adalah membuat arsip internet yang masif dan tersedia untuk umum. Ia beroperasi dengan “mengikis” web—secara otomatis mengumpulkan data dari situs web yang dapat diakses publik. Data ini, yang mencakup beberapa petabyte, kemudian tersedia bagi para peneliti, akademisi, dan, seperti yang dilaporkan dalam laporan terbaru, perusahaan AI seperti Google, Anthropic, OpenAI, dan Meta. Situs web yayasan tersebut mengklaim bahwa datanya hanya dikumpulkan dari halaman web yang tersedia secara gratis, namun klaim ini kini sedang dalam pengawasan.

Tuduhan: Pintu Belakang untuk Akuisisi Data AI

Menurut laporan investigasi di The Atlantic, beberapa perusahaan AI besar diam-diam telah bermitra dengan Common Crawl, yang secara efektif menciptakan pintu belakang untuk mengakses konten berbayar. Reporter Alex Reisner merinci bagaimana arsip Common Crawl memungkinkan perusahaan AI untuk melatih model mereka berdasarkan materi dari organisasi berita seperti The New York Times, Wired, dan The Washington Post — publikasi yang mengandalkan langganan dan paywall untuk mendapatkan pendapatan. Direktur eksekutif yayasan tersebut, Richard Skrenta, percaya bahwa model AI harus memiliki akses ke segala sesuatu di internet, sebuah pendirian yang bertentangan dengan perlindungan hak cipta yang diberikan kepada penerbit.

Dampak pada Industri Jurnalisme: “Kiamat Lalu Lintas”

Munculnya chatbot AI seperti ChatGPT dan Google Gemini telah menciptakan krisis bagi industri jurnalisme. Chatbot ini dapat mengambil informasi dari penerbit dan menyajikannya langsung kepada pengguna, sehingga mengalihkan lalu lintas dan potensi pendapatan dari situs berita. Fenomena ini, terkadang disebut sebagai “kiamat lalu lintas” atau “armageddon AI”, merupakan ancaman signifikan terhadap stabilitas keuangan organisasi berita. Perusahaan induk Mashable, Ziff Davis, bahkan telah mengajukan gugatan terhadap OpenAI atas pelanggaran hak cipta, menyoroti tantangan hukum yang semakin meningkat.

Upaya Penerbit untuk Menghapus Konten dan Respons Perayapan Umum

Beberapa penerbit berita telah mengetahui aktivitas Common Crawl dan meminta agar konten mereka dihapus dari arsip. Namun, proses penghapusannya terbukti lambat dan rumit. Meskipun Common Crawl mengklaim mematuhi permintaan ini, laporan Atlantic menunjukkan bahwa banyak dari permintaan penghapusan ini belum dipenuhi. Organisasi tersebut juga mengakui bahwa format filenya dirancang agar “tidak dapat diubah”, artinya konten sulit dihapus setelah ditambahkan. Selain itu, alat penelusuran publik Common Crawl memberikan hasil yang menyesatkan untuk domain tertentu, sehingga menutupi cakupan data yang diambil.

Pertahanan Common Crawl dan Potensi Konflik Kepentingan

Common Crawl membantah keras tuduhan penerbit yang menyesatkan. Dalam postingan blognya, Richard Skrenta menyatakan bahwa perayap web organisasi tidak melewati penghalang berbayar dan Perayapan Umum “tidak melakukan pekerjaan kotor AI.” Namun, yayasan tersebut telah menerima donasi dari perusahaan yang berfokus pada AI seperti OpenAI dan Anthropic dan mencantumkan NVIDIA sebagai “kolaborator”— sehingga menimbulkan pertanyaan tentang potensi konflik kepentingan. Selain mengumpulkan teks mentah, Common Crawl juga membantu mengumpulkan dan mendistribusikan kumpulan data pelatihan AI, bahkan terkadang menghostingnya untuk penggunaan yang lebih luas.

Gambaran Lebih Besar: Hak Cipta dan Masa Depan Pelatihan AI

Kontroversi seputar Common Crawl menyoroti perdebatan yang lebih besar tentang bagaimana industri AI memanfaatkan materi berhak cipta. Penerbit besar, termasuk The New York Times dan Ziff Davis, sudah terlibat dalam tuntutan hukum terhadap perusahaan AI. Implikasi hukum dan etikanya sangat besar, dan pertarungan mengenai hak cipta dan penggunaan wajar masih jauh dari selesai, hal ini menunjukkan momen penting bagi industri AI dan masa depan penerbitan digital.

Exit mobile version