OpenAI resmi memperkenalkan GPT-Realtime, model kecerdasan buatan terbaru yang berfokus pada speech generation dengan kemampuan menghasilkan audio asli berlatensi rendah. Teknologi ini dirancang khusus untuk kebutuhan enterprise dan memungkinkan percakapan suara dua arah secara real-time. Dibandingkan model suara sebelumnya, GPT-Realtime menawarkan kualitas output lebih tinggi, waktu pemrosesan lebih cepat, serta fitur tambahan seperti tool calling, dukungan server MCP (Model Context Protocol) jarak jauh, input gambar, hingga kemampuan mendeteksi urutan alfanumerik dalam beberapa bahasa non-Inggris.
Berbeda dengan asisten suara tradisional yang mengandalkan kombinasi sistem text-to-speech dan speech-to-text, GPT-Realtime mampu memproses input suara secara langsung dan menghasilkan output suara secara native. Hal ini membuat waktu respons jauh lebih singkat dan interaksi terasa lebih natural.
Model terbaru ini juga membawa peningkatan signifikan pada kualitas suara. Seperti Advanced Voice Mode, GPT-Realtime dapat menghasilkan suara ekspresif dan alami yang bisa disesuaikan melalui instruksi berbasis teks. OpenAI juga menghadirkan dua suara baru, Cedar (laki-laki) dan Marin (perempuan), serta memperbarui delapan suara yang sudah ada.
Dari sisi performa, GPT-Realtime mampu menangkap isyarat non-verbal seperti tawa dan meresponsnya secara kontekstual. Model ini juga dapat berpindah bahasa di tengah kalimat dan menyesuaikan intonasi dengan gaya bicara pengguna. Dalam pengujian internal, GPT-Realtime menunjukkan akurasi lebih tinggi dalam mengenali urutan alfanumerik pada bahasa seperti Mandarin, Prancis, Jepang, dan Spanyol.
Berdasarkan benchmark Big Bench Audio, model ini meraih skor 82,8 persen, jauh di atas pendahulunya yang hanya mencapai 65,6 persen pada Desember 2024. Selain itu, GPT-Realtime juga memiliki kepatuhan instruksi yang lebih baik, mendukung function & tool calling, serta kompatibel dengan server MCP jarak jauh. Fitur analisis gambar juga memungkinkan pengguna mengunggah visual sebagai konteks tambahan dalam percakapan.
OpenAI menegaskan bahwa GPT-Realtime merupakan produk berbasis Realtime API, yang kini telah tersedia secara umum untuk para developer setelah sebelumnya diperkenalkan sebagai public beta pada Oktober 2024.
Untuk biaya penggunaan, GPT-Realtime dibanderol $32 per satu juta input token dan $64 per satu juta output token, sementara token input yang di-cache hanya dikenakan tarif $0,40 per juta.