Stability AI telah merilis model kecerdasan buatan (AI) open-source yang disebut Stable Audio Open. Pengguna dapat memanfaatkan model ini untuk menghasilkan sampel dan efek suara hingga 47 detik. Model ini memungkinkan pengguna untuk menciptakan sampel alat musik atau suara ambient. Selain itu, pengguna dapat menghasilkan variasi dan gaya berbeda dari sampel yang telah dihasilkan sebelumnya. Model open-source ini terpisah dari platform Stable Audio milik perusahaan AI yang memungkinkan pengguna untuk membuat trek sepanjang tiga menit dan hanya tersedia sebagai bagian dari langganan.
Stable Audio Open bekerja mirip dengan banyak model AI yang ada di pasar. Pengguna dapat menulis prompt teks untuk sampel atau efek suara dan model ini akan menghasilkan audio hingga 47 detik. Stability AI menyebutkan dalam postingan newsroom bahwa model AI ini dirilis secara open-source untuk memberdayakan desainer suara, musisi, dan komunitas kreatif.
Namun, penggunaan Stable Audio Open dibatasi untuk penelitian dan penggunaan non-komersial. Untuk mendapatkan hak komersial, pengguna harus membeli keanggotaan Stability AI.
Dalam hal fitur, model ini dapat menghasilkan beat drum, riff instrumen, suara ambient, rekaman foley, dan sampel audio lainnya. Selain itu, pengguna juga dapat menyempurnakan model ini dengan data audio kustom mereka.
Untuk melatih Stable Audio Open, perusahaan menggunakan dataset sebanyak 4,86,492 rekaman audio yang bersumber dari FreeSound dan Free Music Archive. Mereka menambahkan, “Kami melakukan analisis mendalam untuk memastikan tidak ada musik berhak cipta yang tidak sah dalam data pelatihan kami sebelum memulai pelatihan.”
Namun, Stability AI juga mengatakan bahwa dataset tersebut kurang beragam dan tidak semua budaya terwakili secara merata. Akibatnya, sampel yang dihasilkan akan mencerminkan bias dari data pelatihan. Untuk mengakses model AI ini, pengguna dapat mengunjungi listing Hugging Face milik perusahaan, dimana bobot model open-source saat ini dihosting.