SHARE
Cyber Life

Wikipedia tengah menghadapi tantangan besar dari kehadiran bot scraper, crawler otomatis yang secara masif mengambil konten teks dan multimedia dari ensiklopedia daring ini untuk melatih model kecerdasan buatan (AI) generatif. Aktivitas tersebut tak hanya membebani server Wikimedia Foundation, tetapi juga menyebabkan peningkatan biaya operasional dan menurunnya kecepatan akses bagi pengguna manusia.

 

Sebagai solusi proaktif, Wikimedia Foundation kini menyediakan dataset resmi yang bisa digunakan secara bebas oleh pengembang AI, dengan harapan dapat mengurangi ketergantungan bot terhadap situs Wikipedia langsung. Langkah ini dilakukan melalui kolaborasi dengan Kaggle, platform data science milik Google, yang kini menawarkan versi beta dari dataset terstruktur berbahasa Inggris dan Prancis.

 

Menurut keterangan dari Wikimedia Enterprise, dataset ini mencakup berbagai elemen penting seperti abstrak artikel, deskripsi singkat, data berbentuk infobox (key-value), tautan gambar, serta struktur artikel yang sudah dipisah dengan jelas. Namun, elemen non-prosa seperti referensi atau cuplikan video tidak disertakan, sehingga aspek atribusi bisa menjadi sedikit kabur.

 

Meski begitu, semua konten dalam dataset ini tetap tersedia secara bebas dibawah lisensi terbuka seperti Creative Commons dan domain publik, karena seluruh informasinya bersumber langsung dari Wikipedia. Dengan menyediakan akses yang lebih efisien dan ramah pengembang, Wikimedia berharap para pelatih model AI akan beralih menggunakan dataset resmi ini ketimbang terus mengandalkan scraping situs secara langsung, yang hanya akan memperburuk beban infrastruktur.

 

Langkah ini menjadi contoh konkret bagaimana penyedia konten publik beradaptasi menghadapi lonjakan kebutuhan data di era AI, sekaligus menjaga integritas dan performa platform bagi jutaan pengguna global.

LAINNYA DARI MASTEKNO
Games
Siap Mengguncang! Pixelity Akan Gelar Playtest Game XR Evangelion

Penggemar Neon Genesis Evangelion kini berkesempatan merasakan langsung pengalaman dunia animenya. Pixelity, pengembang trilogi game...

Software
Spotify Wrapped 2025 Hadir dengan Fitur Party Mode untuk Kompetisi Statistik Secara Langsung

Spotify mulai meluncurkan Wrapped 2025, rangkuman pengalaman mendengarkan yang telah menjadi tradisi sejak 2019 setiap...

Cyber Life
Netflix Akuisisi Warner Bros Discovery US$ 72 Miliar, Peta Hollywood Resmi Bergeser

Industri hiburan global baru saja mengalami kejutan. Netflix, raksasa layanan streaming, akhirnya memenangkan pertempuran sengit...

Software
YouTube Luncurkan Recap 2025 dengan Kartu Personal dan Insight Kebiasaan Menonton

YouTube resmi menghadirkan fitur Recap 2025 pertama kalinya di platform utama, memberikan rangkuman personal tentang...

Handphone
Baterai Besar & Layar Lebar! Nubia Fold Hadir Bareng Nubia Flip 3

ZTE melalui lini Nubia resmi meluncurkan dua smartphone lipat terbaru di Jepang, menghadirkan opsi model...

Cyber Life
AWS Perkenalkan Frontier AI Agents untuk Perusahaan, Mampu Beroperasi Mandiri Selama Berhari-Hari

Amazon Web Services (AWS) resmi meluncurkan frontier agents, kelas baru agen kecerdasan buatan (AI) otonom...

Hardware
Samsung Kembangkan Memori Kencang GDDR7 40 Gbps

Samsung Electronics kembali mengukuhkan posisinya dalam peta persaingan semikonduktor global. Di tengah gelaran Korea Tech...

Games
Suda51 Percepat Perilisan ‘Romeo is a Dead Man’, Sindir Penundaan GTA 6

Teka-teki mengenai proyek ambisius Grasshopper Manufacture akhirnya terjawab. Studio yang identik dengan gaya punk-rock dalam...

Cyber Life
Kejar Ketertinggalan AI, Meta Pangkas Anggaran Metaverse

Ambisi Mark Zuckerberg membangun dunia virtual tampaknya harus berhadapan dengan realita pahit pasar. Laporan terbaru...