Saya Memberi Agen OpenClaw Saya Tubuh Fisik

Saya baru saja memberi OpenClaw saya lengan robot sungguhan untuk dimainkan. Hasilnya hampir menghancurkan jaringan saraf saya sendiri.

Agen AI dapat mengonfigurasi lengan, menggunakannya untuk melihat dan mengambil sesuatu secara perlahan, dan bahkan melatih model AI lain untuk mengambil dan menempatkan objek tertentu. Dan mereka bilang AGI masih beberapa tahun lagi! (Saya bercanda, mungkin memang demikian).

Hasilnya membuat saya yakin bahwa kita mungkin berada di ambang terobosan robotika. Melatih dan mengendalikan robot dulunya membutuhkan keterampilan yang cukup besar. Model AI saat ini dapat membuat segalanya menjadi lebih mudah.

“Pengkodean yang didukung AI sangat menarik karena berpotensi menjembatani kesenjangan antara metode rekayasa konvensional, yang dapat diandalkan namun tidak dapat digeneralisasi, dan model tindakan-bahasa-visi kontemporer, yang dapat menggeneralisasi namun belum dapat diandalkan,” kata Ken Goldberg, ahli robot di UC Berkeley yang sedang menjajaki pendekatan ini.

Saya mengatakan kepada OpenClaw untuk mencoba menggerakkan lengan barunya dan muncullah gelombang kecil ini.

Saya membeli lengan prebuilt yang disebut a LeRobot 101. Ini adalah bagian dari proyek sumber terbuka dari HuggingFace yang membuatnya relatif murah untuk mulai membangun dan bereksperimen dengan robotika.

LeRobot hadir dengan dua lengan: lengan pengontrol yang dioperasikan seseorang menggunakan pegangan dan pemicu, dan lengan pengikut dengan kamera yang mereplikasi gerakan tersebut. Anda dapat melatih model AI dengan mengoperasikan lengan pengontrol dari jarak jauh dan meminta model tersebut mempelajari cara menggerakkan pengikut sebagai respons terhadap apa yang dilihatnya di kamera.

Membangun Dengan OpenClaw

Sebelum menggunakan OpenClaw, saya menghabiskan beberapa jam mencoba menghubungkan dan mengkalibrasi robot, pada satu titik hampir merusak motor karena menerapkan pengaturan yang salah, yang menyebabkannya menjadi terlalu panas.

Kemudian, dengan bantuan OpenClaw dan Codex, saya dapat membuat kode program sederhana yang menutup cengkeraman cakar ketika melihat bola merah. Di terminal, Codex melakukan pekerjaan rumit dalam mengonfigurasi koneksi ke robot. Kemudian, dengan bantuan saya, ia mengkalibrasi posisi persendiannya. Ia juga menulis skrip Python yang menggunakan beberapa perpustakaan untuk mengidentifikasi dan memegang bola yang dimaksud. Tentu saja, pengkodean getaran tidak sempurna, dan halusinasi dapat menimbulkan bug terutama ketika bekerja dengan perangkat keras yang berbeda, tetapi hasilnya sangat mengesankan.

Kemudian, dengan bantuan saya, agen robot tersebut menemukan cara mengidentifikasi dan memegang bola merah.

Hasil yang bagus, ya, tapi bukan Terminator. Selanjutnya saya mencoba meminta OpenClaw membantu saya melatih model untuk mengontrol lengan. Kami bereksperimen dengan beberapa pendekatan berbeda, dan OpenClaw mahir membimbing saya melalui proses dan memeriksa tingkat kesalahan model setelah setiap pelatihan dijalankan.

Akhirnya lengan robot tersebut mampu mengambil benda.

Kode sebagai Kebijakan

Gagasan bahwa pengkodean yang didukung AI dapat menawarkan cara baru yang ampuh untuk membuat robot pertama kali disoroti sebuah makalah penelitian mulai tahun 2022 yang menjuluki pendekatan tersebut sebagai “kode sebagai kebijakan.” Sejak itu, keterampilan pengkodean AI telah berkembang pesat, dan metode kode sebagai kebijakan telah mendapatkan perhatian di banyak laboratorium.

Kelompok penelitian Goldberg, bersama dengan peneliti dari Nvidia, Carnegie Mellon University, dan Stanford, baru-baru ini mengembangkan sebuah penelitian baru patokan yang disebut CaP-X untuk mengukur kemampuan robot model pengkodean. Menariknya, CaP-X menunjukkan bahwa model terbaik untuk pemrograman robot bukanlah Claude atau ChatGPT melainkan Gemini—mungkin karena Google DeepMind fokus pada pelatihan modelnya. menjadi multimoda dan memahami dunia fisik. Bersamaan dengan tolok ukur tersebut, para peneliti menciptakan CaP-Gym, sebuah lingkungan yang memungkinkan agen pengkodean mengendalikan robot simulasi dan robot nyata. Mereka juga mengembangkan CaP-Agent0, sebuah kerangka kerja agen yang meningkatkan kinerja model pengkodean sedemikian rupa sehingga mengalahkan model yang dilatih untuk mengendalikan pergerakan robot secara langsung pada beberapa tugas manipulasi.

Tim Goldberg bekerja sama dengan Nvidia untuk mengeksplorasi potensi pendekatan kode sebagai kebijakan. Saya berbicara dengan Spencer Huang (tidak lain adalah putra Jensen Huang), yang telah terlibat dalam pengorganisasian hackathon di dalam perusahaan agar orang-orang dapat mencoba robot pengkodean getaran. Huang saat ini sedang mengerjakan proyek penelitian dengan Goldberg yang akan membuat pendekatan kode sebagai kebijakan kompatibel dengan lebih banyak perangkat lunak robot.

“Hampir semua orang bisa terjun ke bidang robotika, dan ini adalah hal yang paling penting,” kata Huang kepada saya. Memungkinkan manusia untuk mengendalikan robot dengan perintah lisan atau ketikan, atau dengan mendemonstrasikan suatu tindakan, adalah “pembukaan penting bagi robot di masyarakat,” tambahnya.