Wikipedia tengah menghadapi tantangan besar dari kehadiran bot scraper, crawler otomatis yang secara masif mengambil konten teks dan multimedia dari ensiklopedia daring ini untuk melatih model kecerdasan buatan (AI) generatif. Aktivitas tersebut tak hanya membebani server Wikimedia Foundation, tetapi juga menyebabkan peningkatan biaya operasional dan menurunnya kecepatan akses bagi pengguna manusia.
Sebagai solusi proaktif, Wikimedia Foundation kini menyediakan dataset resmi yang bisa digunakan secara bebas oleh pengembang AI, dengan harapan dapat mengurangi ketergantungan bot terhadap situs Wikipedia langsung. Langkah ini dilakukan melalui kolaborasi dengan Kaggle, platform data science milik Google, yang kini menawarkan versi beta dari dataset terstruktur berbahasa Inggris dan Prancis.
Menurut keterangan dari Wikimedia Enterprise, dataset ini mencakup berbagai elemen penting seperti abstrak artikel, deskripsi singkat, data berbentuk infobox (key-value), tautan gambar, serta struktur artikel yang sudah dipisah dengan jelas. Namun, elemen non-prosa seperti referensi atau cuplikan video tidak disertakan, sehingga aspek atribusi bisa menjadi sedikit kabur.
Meski begitu, semua konten dalam dataset ini tetap tersedia secara bebas dibawah lisensi terbuka seperti Creative Commons dan domain publik, karena seluruh informasinya bersumber langsung dari Wikipedia. Dengan menyediakan akses yang lebih efisien dan ramah pengembang, Wikimedia berharap para pelatih model AI akan beralih menggunakan dataset resmi ini ketimbang terus mengandalkan scraping situs secara langsung, yang hanya akan memperburuk beban infrastruktur.
Langkah ini menjadi contoh konkret bagaimana penyedia konten publik beradaptasi menghadapi lonjakan kebutuhan data di era AI, sekaligus menjaga integritas dan performa platform bagi jutaan pengguna global.