Hume, perusahaan kecerdasan buatan (AI) berbasis di New York, meluncurkan fitur baru bernama Voice Control pada hari Senin. Fitur ini memungkinkan pengguna untuk menyesuaikan suara AI dengan lebih mendalam. Dirancang untuk mendukung pengembang dalam mengintegrasikan suara AI ke chatbot dan aplikasi berbasis AI lainnya, Voice Control menawarkan kontrol granular terhadap 10 dimensi suara, memberikan fleksibilitas tinggi dalam menciptakan suara unik yang sesuai kebutuhan aplikasi.
Dalam sebuah blog resmi, Hume menjelaskan bahwa fitur ini hadir untuk membantu perusahaan menemukan suara AI yang selaras dengan identitas merek mereka. Pengguna dapat mengatur berbagai aspek suara, seperti kesan yang ditampilkan, untuk menghasilkan suara AI yang lebih tegas, santai, atau ceria.
Voice Control saat ini tersedia dalam versi beta dan dapat diakses oleh siapa saja yang terdaftar di platform Hume. Ada 10 dimensi suara yang dapat disesuaikan oleh pengembang, antara lain gender, assertiveness (ketegasan), buoyancy (keceriaan), confidence (kepercayaan diri), enthusiasm (antusiasme), nasality (resonansi hidung), relaxedness (tingkat santai), smoothness (kelembutan), tepidity (kehangatan), dan tightness (kekencangan suara)
Alih-alih menggunakan sistem berbasis teks, Hume mengadopsi antarmuka slider dengan rentang -100 hingga +100 untuk setiap dimensi. Pendekatan ini dipilih untuk menghindari ambiguitas deskripsi tekstual dan memberikan kontrol lebih rinci atas karakteristik suara dalam berbagai bahasa.
Dalam pengujian awal, mengubah salah satu dari 10 dimensi menghasilkan perbedaan nyata pada suara AI. Alat ini juga berhasil memisahkan setiap dimensi tanpa mengganggu karakteristik dasar suara. Hume mengklaim keberhasilan ini dicapai melalui pendekatan baru berbasis “unsupervised learning,” yang mampu mempertahankan sebagian besar karakteristik suara utama meskipun parameter diubah secara ekstrem.
Meski begitu, Hume tidak merinci sumber data suara yang digunakan untuk mengembangkan fitur ini.
Setelah suara AI berhasil dibuat, pengembang perlu mengintegrasikannya ke aplikasi dengan mengonfigurasi model AI Empathic Voice Interface (EVI). Untuk versi eksperimental ini, kemungkinan besar Hume menggunakan model EVI-2.
Ke depan, Hume berencana untuk menambah variasi suara dasar, memperkenalkan dimensi suara baru untuk kustomisasi lebih lanjut, meningkatkan kemampuan pelestarian karakteristik suara dalam modifikasi ekstrem, dan mengembangkan alat canggih untuk menganalisis dan memvisualisasikan karakteristik suara.
Fitur Voice Control dari Hume memberikan inovasi menarik bagi pengembang yang ingin menciptakan suara AI yang benar-benar unik dan sesuai kebutuhan. Dengan kemampuan kustomisasi tingkat tinggi dan rencana pengembangan berkelanjutan, Hume siap menjadi pemain penting dalam dunia teknologi suara AI.