SHARE
Cyber Life

Wikipedia tengah menghadapi tantangan besar dari kehadiran bot scraper, crawler otomatis yang secara masif mengambil konten teks dan multimedia dari ensiklopedia daring ini untuk melatih model kecerdasan buatan (AI) generatif. Aktivitas tersebut tak hanya membebani server Wikimedia Foundation, tetapi juga menyebabkan peningkatan biaya operasional dan menurunnya kecepatan akses bagi pengguna manusia.

 

Sebagai solusi proaktif, Wikimedia Foundation kini menyediakan dataset resmi yang bisa digunakan secara bebas oleh pengembang AI, dengan harapan dapat mengurangi ketergantungan bot terhadap situs Wikipedia langsung. Langkah ini dilakukan melalui kolaborasi dengan Kaggle, platform data science milik Google, yang kini menawarkan versi beta dari dataset terstruktur berbahasa Inggris dan Prancis.

 

Menurut keterangan dari Wikimedia Enterprise, dataset ini mencakup berbagai elemen penting seperti abstrak artikel, deskripsi singkat, data berbentuk infobox (key-value), tautan gambar, serta struktur artikel yang sudah dipisah dengan jelas. Namun, elemen non-prosa seperti referensi atau cuplikan video tidak disertakan, sehingga aspek atribusi bisa menjadi sedikit kabur.

 

Meski begitu, semua konten dalam dataset ini tetap tersedia secara bebas dibawah lisensi terbuka seperti Creative Commons dan domain publik, karena seluruh informasinya bersumber langsung dari Wikipedia. Dengan menyediakan akses yang lebih efisien dan ramah pengembang, Wikimedia berharap para pelatih model AI akan beralih menggunakan dataset resmi ini ketimbang terus mengandalkan scraping situs secara langsung, yang hanya akan memperburuk beban infrastruktur.

 

Langkah ini menjadi contoh konkret bagaimana penyedia konten publik beradaptasi menghadapi lonjakan kebutuhan data di era AI, sekaligus menjaga integritas dan performa platform bagi jutaan pengguna global.

LAINNYA DARI MASTEKNO
Software
Ada Penghargaan Eksklusif Nih! Instagram Akan Mulai Memberikan Penghargaan Khusus untuk Kreator Terpilih

Instagram tengah bersiap meluncurkan program penghargaan eksklusif bagi kreator terpilih, sebagaimana dilaporkan oleh The Hollywood...

Games
Assassin’s Creed Mirage Hadirkan DLC Gratis “Valley of Memory” pada 18 November 2025

Ubisoft resmi mengumumkan bahwa DLC gratis berjudul Valley of Memory untuk Assassin’s Creed Mirage akan...

Gadget
Valve Hadirkan Menu Baru di Steam Store agar Lebih Mudah Menemukan Game

  Valve resmi meluncurkan menu baru di Steam Store setelah melalui masa uji coba sejak...

Cyber Life
Naik Level! Microsoft Tambahkan Model Claude ke Copilot 365

Prediksi beberapa minggu lalu terbukti benar. Microsoft resmi mengumumkan bahwa Copilot 365 kini menambahkan model...

Software
Hampir 15 tahun sejak diluncurkan, Instagram Tembus 3 Miliar Pengguna Aktif Bulanan

Seperti yang diumumkan Mark Zuckerberg melalui Threads. Angka ini naik signifikan dari 2 miliar pengguna...

Hardware
ASRock Bawa Opsi VRAM Lebih Besar dengan Radeon RX 7700 Challenger 16 GB

Di tengah persaingan ketat pasar kartu grafis, ASRock membuat gebrakan yang menarik dengan meluncurkan Radeon...

Handphone
Xiaomi Konfirmasikan Perilisan Smartphone Flagship Terbarunya Dengan Snapdragon 8 Elite Gen 5

Xiaomi bersiap untuk membuat kejutan besar di dunia teknologi. Perusahaan asal Tiongkok tersebut akan meluncurkan...

Cyber Life
Lenovo Batalkan Sebagian Pre-Order Legion Go Gen 2 Akibat Permintaan Yang Melonjak

Rencana peluncuran konsol gaming portable Legion Go Gen 2 oleh Lenovo menemui hambatan tak terduga,...