Meta, perusahaan induk Facebook mengumumkan peluncuran serangkaian model AI baru dari divisi penelitiannya, termasuk Self-Taught Evaluator yang menawarkan potensi untuk mengurangi keterlibatan manusia dalam proses pengembangan AI.
Peluncuran ini mengikuti pengenalan alat tersebut dalam makalah yang diterbitkan Meta pada Agustus lalu. Makalah itu menjelaskan bagaimana model ini mengandalkan teknik “chain of thought,” yang juga digunakan oleh model terbaru OpenAI, untuk membuat penilaian yang lebih andal terhadap respons model AI lainnya.
Teknik ini melibatkan pemecahan masalah kompleks menjadi langkah-langkah logis yang lebih kecil, sehingga meningkatkan akurasi respons dalam menghadapi tantangan di berbagai bidang seperti sains, pemrograman, dan matematika.
Para peneliti Meta menggunakan data yang sepenuhnya dihasilkan oleh AI untuk melatih model evaluator ini, menghilangkan kebutuhan akan input manusia pada tahap pelatihan tersebut.
Kemampuan AI untuk mengevaluasi AI lainnya dengan andal memberikan gambaran tentang masa depan di mana agen AI otonom dapat belajar dari kesalahan mereka sendiri. Dua peneliti Meta yang terlibat dalam proyek ini mengatakan kepada Reuters bahwa hal ini membuka jalan menuju pengembangan agen AI yang mampu melakukan berbagai tugas tanpa intervensi manusia.
Banyak pakar AI membayangkan agen AI semacam ini sebagai asisten digital yang cerdas dan dapat menjalankan berbagai tugas secara mandiri.
Model AI yang mampu memperbaiki diri sendiri dapat mengurangi kebutuhan akan proses yang mahal dan kurang efisien yang saat ini dikenal sebagai Reinforcement Learning from Human Feedback (RLHF), yang memerlukan input dari annotator manusia dengan keahlian khusus untuk melabeli data dengan akurat dan memverifikasi jawaban atas masalah matematika atau penulisan yang kompleks.
“Kami berharap seiring AI menjadi semakin superhuman, ia akan semakin baik dalam memeriksa hasil kerjanya sendiri, sehingga AI dapat lebih unggul dibandingkan rata-rata manusia,” kata Jason Weston, salah satu peneliti Meta.
“Ide tentang pembelajaran mandiri dan kemampuan untuk mengevaluasi diri sendiri sangat penting untuk mencapai level AI yang superhuman,” tambahnya.
Perusahaan lain seperti Google dan Anthropic juga telah menerbitkan penelitian tentang konsep RLAIF, atau Reinforcement Learning from AI Feedback. Namun, tidak seperti Meta, perusahaan-perusahaan tersebut cenderung tidak merilis model mereka untuk digunakan oleh publik.
Selain itu, Meta juga meluncurkan alat AI lainnya, termasuk pembaruan pada model identifikasi gambar Segment Anything, alat yang mempercepat waktu respons LLM, serta dataset yang dapat digunakan untuk membantu penemuan material anorganik baru.