Google memperkenalkan model kecerdasan buatan (AI) terbarunya, Lumiere, pekan lalu. Model AI baru ini adalah alat generasi video multimodal yang dapat membuat video berdurasi 5 detik. Ini mendukung generasi teks-ke-video dan gambar-ke-video, bergabung dengan model AI yang sudah ada seperti Runway Gen-2 dan Pika 1.0. Menurut Google, Lumiere menggunakan arsitektur Space-Time U-Net (STUNet) yang menginovasi cara pergerakan terjadi dalam video AI, membuatnya terlihat realistis. Platform ini belum tersedia untuk publik saat ini.
Dalam tulisan, tim peneliti di balik Lumiere menjelaskan bahwa inovasi utama dalam gerakan berasal dari membuat video dalam satu proses daripada menyusun bingkai diam. Karena itu, baik aspek spasial, objek dalam video maupun temporal, bagaimana objek bergerak dalam video, dari generasi video diciptakan secara simultan. Bagi orang awam, hal ini menghasilkan persepsi gerakan sebagaimana terjadi dalam alam. Untuk mencapai ini, Lumiere menghasilkan sejumlah 80 bingkai daripada 25 bingkai dari Stable Diffusion.
“Dengan mendeploy down- dan up-sampling spasial dan temporal dan memanfaatkan model difusi teks-ke-gambar yang telah dilatih sebelumnya, model kami belajar untuk langsung menghasilkan video resolusi penuh, tingkat bingkai penuh dengan memprosesnya dalam beberapa skala ruang-waktu,” tambah tulisan tersebut.
Meskipun Google Lumiere tidak dapat diuji pada saat ini, situs webnya aktif dan penggemar dapat melihat berbagai video yang dibuat menggunakan model AI ini serta teks prompt dan gambar input yang digunakan untuk membuat output.
Alat generasi video AI terbaru dari Google bersaing dengan model AI yang sudah ada seperti Runway Gen-2, yang diluncurkan pada Maret 2023, dan Pika Lab’s Pika 1.0, keduanya dapat diakses oleh publik. Sementara Pika dapat membuat video berdurasi 3 detik, Runway dapat menghasilkan video selama 4 detik. Kedua model ini multimodal dan memungkinkan pengeditan video juga.