Kyutai Labs Luncurkan Moshi AI Chatbot dengan Fitur Suara Real-Time Sebagai Pesaing GPT-4o

Eveline

Kyutai Labs meluncurkan Moshi AI, chatbot kecerdasan buatan (AI) yang merespons secara verbal dalam waktu nyata. Perusahaan AI asal Prancis ini mengumumkan bahwa seluruh model bahasa audio Moshi dikembangkan secara internal. Moshi juga mampu memodulasi suara untuk mengekspresikan emosi dan merespons dalam berbagai gaya bicara. Model AI ini dapat diakses publik secara gratis. Saat ini, model AI ini membatasi percakapan hingga lima menit. Menariknya, OpenAI juga mengumumkan fitur suara serupa dengan peluncuran GPT-4o, namun belum dirilis.

Perusahaan menyatakan bahwa model AI ini dikembangkan dalam enam bulan oleh tim yang terdiri dari delapan orang. Saat memperkenalkan model AI ini dalam sebuah acara di Paris, Kyutai Labs menyebutkan bahwa Moshi bukanlah asisten AI, melainkan prototipe yang dapat digunakan untuk mengembangkan alat bagi berbagai kasus penggunaan. Chatbot ini telah tersedia secara publik di sini. Pengguna dapat memasukkan email mereka dan bergabung dalam antrean.

Antarmuka platform ini cukup minimalis. Terdapat desain AI yang disederhanakan dimana pengguna dapat memeriksa kekerasan suara mereka saat berbicara. Ada kotak teks di mana hanya respons AI yang muncul. Kotak lain di dekat bagian atas menampilkan detail teknis seperti durasi audio, latensi, dan audio yang terlewat.

Di bagian paling atas, terdapat tombol untuk memutuskan panggilan. Saat ini, durasi panggilan maksimal adalah lima menit. Halaman deskripsi menyoroti bahwa Moshi dapat berpikir, berbicara, dan mendengarkan secara bersamaan untuk memaksimalkan alur percakapan.

Kyutai Labs menyatakan bahwa model AI ini akan bersifat open-source. Namun, perusahaan AI ini belum meng-hosting bobot model dan kode di portal. Setelah tersedia, pengguna akan dapat mengunduh dan menginstalnya secara lokal, serta menjalankannya di perangkat yang tidak terhubung.