OpenAI mengumumkan Sora, sebuah model baru yang menghasilkan video definisi tinggi hingga satu menit dari teks. Sora, yang berarti “langit” dalam bahasa Jepang, tidak akan segera tersedia untuk masyarakat umum. Sebagai gantinya, OpenAI membuatnya tersedia untuk sekelompok kecil akademisi dan peneliti yang akan mengevaluasi kerugian dan potensi penyalahgunaannya.
“Sora mampu menghasilkan adegan kompleks dengan beberapa karakter, jenis gerakan tertentu, dan detail yang akurat tentang subjek dan latar belakang,” kata perusahaan itu di situs webnya. “Model ini tidak hanya memahami apa yang diminta pengguna dalam prompt, tetapi juga bagaimana hal-hal tersebut ada dalam dunia fisik.”
Salah satu video yang dihasilkan oleh Sora yang dibagikan oleh OpenAI di situs webnya menunjukkan sepasang kekasih berjalan-jalan di kota Tokyo yang bersalju sambil kelopak bunga sakura dan bintang salju berterbangan di sekeliling mereka.
Yang lain menunjukkan mammoth berbulu yang terlihat realistis berjalan melintasi padang rumput bersalju dengan latar belakang pegunungan bersalju.
OpenAI mengatakan bahwa model ini bekerja berkat pemahaman mendalam tentang bahasa, yang memungkinkannya menginterpretasikan teks dengan akurat. Namun, seperti hampir semua pembuat gambar dan video AI yang pernah kita lihat, Sora tidak sempurna. Dalam salah satu contoh, permintaan yang meminta video tentang seekor Dalmatian yang melihat melalui jendela dan orang-orang berjalan dan bersepeda di sepanjang jalan kanal, tidak memuat orang-orang dan jalan di video sama sekali. OpenAI juga memperingatkan bahwa model ini bisa kesulitan memahami sebab dan akibat, ia bisa menghasilkan video seseorang yang makan kue, misalnya, tetapi kuenya mungkin tidak memiliki gigitan.
Sora bukanlah model teks ke video pertama yang ada. Perusahaan lain termasuk Meta, Google, dan Runway, telah memperlihatkan alat teks ke video atau membuatnya tersedia untuk publik. Namun, tidak ada alat lain yang saat ini mampu menghasilkan video selama 60 detik. Sora juga menghasilkan video secara utuh sekaligus, daripada menyusunnya frame demi frame seperti model lain, yang memastikan bahwa subjek dalam video tetap sama meskipun mereka keluar dari pandangan sesaat.