Google DeepMind mengumumkan kemajuan baru dalam bidang robotika dan model bahasa visual (VLMs). Divisi penelitian kecerdasan buatan (AI) dari raksasa teknologi ini telah bekerja dengan model visual canggih untuk mengembangkan kemampuan baru pada robot. Dalam studi terbaru, DeepMind menyoroti bahwa dengan menggunakan Gemini 1.5 Pro dan jendela konteks panjangnya, divisi ini berhasil menciptakan terobosan dalam navigasi dan pemahaman dunia nyata oleh robot-robotnya. Awal tahun ini, Nvidia juga memperkenalkan teknologi AI baru yang mendukung kemampuan canggih pada robot humanoid.
Dalam sebuah postingan di X, Google DeepMind mengungkapkan bahwa mereka telah melatih robot-robotnya menggunakan jendela konteks 2 juta token dari Gemini 1.5 Pro. Jendela konteks dapat dipahami sebagai jendela pengetahuan yang terlihat oleh model AI, yang digunakan untuk memproses informasi seputar topik yang ditanyakan.
DeepMind memanfaatkan jendela konteks panjang ini untuk melatih robot-robotnya di lingkungan dunia nyata. Divisi ini bertujuan untuk melihat apakah robot dapat mengingat detail suatu lingkungan dan membantu pengguna ketika diminta informasi tentang lingkungan tersebut dengan istilah kontekstual atau tidak jelas. Dalam sebuah video yang dibagikan di Instagram, divisi AI ini menunjukkan bahwa sebuah robot dapat membimbing seorang pengguna ke papan tulis ketika diminta tempat untuk menggambar.
“Ditenagai oleh panjang konteks 1 juta token dari 1.5 Pro, robot kami dapat menggunakan instruksi manusia, tur video, dan penalaran nalar umum untuk berhasil menemukan jalan di sekitar suatu ruang,” ujar Google DeepMind dalam sebuah postingan.
Dalam sebuah studi yang dipublikasikan di arXiv, DeepMind menjelaskan teknologi di balik terobosan ini. Selain Gemini, mereka juga menggunakan model Robotic Transformer 2 (RT-2) mereka sendiri. Ini adalah model vision-language-action (VLA) yang belajar dari data web dan robotika.