Sebuah masalah serius telah mengguncang dunia teknologi. Kartu grafis andalan NVIDIA, GeForce RTX 5090 dan RTX 6000 PRO, dilaporkan memiliki bug virtualisasi yang parah. Masalah ini ditemukan oleh CloudRift, penyedia layanan komputasi awan yang berfokus pada AI, di mana GPU terbaru ini mendadak tidak responsif setelah digunakan dalam waktu lama di lingkungan mesin virtual (VM).
Bug ini menunjukkan gejala unik yang memprihatinkan. Setelah berhari-hari atau berminggu-minggu beroperasi di VM, GPU tiba-tiba membeku tanpa peringatan. Hal ini menyebabkan VM dan sistem host menjadi tidak dapat dioperasikan hingga harus dilakukan reboot total. Kejanggalan ini hanya terjadi pada seri “Blackwell” terbaru, sementara kartu grafis lainnya seperti NVIDIA B200 dan RTX 4090 yang lebih lawas, tetap berfungsi normal. Temuan ini mengindikasikan bahwa masalah tersebut terkait erat dengan arsitektur baru.
Jantung permasalahan ini terletak pada proses PCIe function-level reset (FLR), sebuah mekanisme penting dalam konfigurasi GPU passthrough. FLR seharusnya mengembalikan GPU ke kondisi awal saat VM dihentikan atau perangkat dialihkan. Namun, pada kartu grafis yang bermasalah ini, proses reset gagal total. Hal ini ditunjukkan oleh pesan kesalahan kernel yang muncul, seperti “not ready 65535ms after FLR; giving up,” yang secara efektif membuat perangkat tidak bisa digunakan. Hingga kini, satu-satunya jalan keluar adalah dengan mematikan dan menyalakan ulang seluruh sistem.
Isu ini telah menjadi perbincangan hangat di berbagai forum teknis, termasuk Level1Techs dan Proxmox, di mana banyak pengguna melaporkan hang pada sistem host mereka. NVIDIA sendiri telah mengakui adanya bug ini. Perusahaan itu menyarankan solusi sementara dengan memperbarui kernel Proxmox ke versi yang memperkenalkan dukungan parsial untuk arsitektur “Blackwell”, tetapi ini bukan perbaikan permanen.
Bug ini menjadi tantangan serius bagi penyedia layanan komputasi awan dan para pengembang yang sangat bergantung pada stabilitas GPU passthrough. Setiap kali GPU macet, tidak hanya alur kerja yang terganggu, tetapi stabilitas sistem host juga terancam. Sebagai bentuk inisiatif, CloudRift bahkan menawarkan hadiah sebesar $1,000 kepada siapa pun yang dapat menemukan solusi definitif.
Dengan potensi performa yang luar biasa, namun terhambat oleh masalah stabilitas ini, para pengguna dan pengembang harus menunggu pembaruan perangkat lunak atau firmware resmi dari NVIDIA. Sambil menanti, mereka harus mencari cara untuk memitigasi risiko.