SHARE
Cyber Life

Wikipedia tengah menghadapi tantangan besar dari kehadiran bot scraper, crawler otomatis yang secara masif mengambil konten teks dan multimedia dari ensiklopedia daring ini untuk melatih model kecerdasan buatan (AI) generatif. Aktivitas tersebut tak hanya membebani server Wikimedia Foundation, tetapi juga menyebabkan peningkatan biaya operasional dan menurunnya kecepatan akses bagi pengguna manusia.

 

Sebagai solusi proaktif, Wikimedia Foundation kini menyediakan dataset resmi yang bisa digunakan secara bebas oleh pengembang AI, dengan harapan dapat mengurangi ketergantungan bot terhadap situs Wikipedia langsung. Langkah ini dilakukan melalui kolaborasi dengan Kaggle, platform data science milik Google, yang kini menawarkan versi beta dari dataset terstruktur berbahasa Inggris dan Prancis.

 

Menurut keterangan dari Wikimedia Enterprise, dataset ini mencakup berbagai elemen penting seperti abstrak artikel, deskripsi singkat, data berbentuk infobox (key-value), tautan gambar, serta struktur artikel yang sudah dipisah dengan jelas. Namun, elemen non-prosa seperti referensi atau cuplikan video tidak disertakan, sehingga aspek atribusi bisa menjadi sedikit kabur.

 

Meski begitu, semua konten dalam dataset ini tetap tersedia secara bebas dibawah lisensi terbuka seperti Creative Commons dan domain publik, karena seluruh informasinya bersumber langsung dari Wikipedia. Dengan menyediakan akses yang lebih efisien dan ramah pengembang, Wikimedia berharap para pelatih model AI akan beralih menggunakan dataset resmi ini ketimbang terus mengandalkan scraping situs secara langsung, yang hanya akan memperburuk beban infrastruktur.

 

Langkah ini menjadi contoh konkret bagaimana penyedia konten publik beradaptasi menghadapi lonjakan kebutuhan data di era AI, sekaligus menjaga integritas dan performa platform bagi jutaan pengguna global.

LAINNYA DARI MASTEKNO
Games
Highguard Tembus Hampir 100 Ribu Pemain Bersamaan di Steam Saat Perilisan

Highguard, game multiplayer shooter free-to-play terbaru dari Wildlight Entertainment, mencatat pencapaian besar dengan hampir 100.000...

Cyber Life
Yahoo Tambahkan AI Generatif ke Mesin Pencarian Lewat Yahoo Scout

Yahoo resmi menghadirkan fitur baru berbasis kecerdasan buatan generatif ke mesin pencariannya melalui peluncuran “answer...

Cyber Life
Google Tambahkan Gemini Di Google Maps

Bayangkan sedang memacu sepeda di tengah rute baru yang asing atau berjalan kaki di trotoar...

Cyber Life
Google Menilai Meta Lalai! Keamanan WhatsApp Dipertanyakan

Tenggat waktu 90 hari yang diberikan tim Google Project Zero akhirnya terlewati tanpa solusi tuntas...

Hardware
Bukan Kaleng-Kaleng! GMKtec Bawa Lunar Lake ke Mini PC Murah

Dunia mini PC kembali meriah dengan langkah terbaru GMKtec yang merilis NucBox K13. Kali ini,...

Cyber Life
YouTube Siap Tantang OpenAI Sora, Hadirkan Shorts AI Pakai Wajah Kreator

YouTube mengungkapkan rencana besar untuk platform dan para kreatornya pada 2026 dengan memperdalam integrasi kecerdasan...

Games
Petualangan Baru Dimulai! Sekuel Super Mario Movie Meluncur April Mendatang

Ada kabar baik bagi para penggemar si tukang ledeng ikonik asal Jepang. Nintendo dan Illumination...

Handphone
Qualcomm Akan Hadirkan Kecepatan Desktop pada Smartphone

Industri semikonduktor global tengah bersiap menyaksikan lompatan teknis yang mungkin akan mengubah wajah perangkat genggam...

Hardware
Chipset NVIDIA N1 Muncul di Jejak Digital Lenovo, Pertanda Apa?

Jejak digital jarang sekali bisa benar-benar dihapus, terutama di dunia perangkat keras PC yang kompetitif....