Agen OpenClaw Bisa Terjerat Rasa Bersalah dan Melakukan Sabotase Diri Sendiri

Bulan lalu, para peneliti di Northeastern University mengundang banyak orang Agen OpenClaw untuk bergabung dengan lab mereka. Hasilnya? Kekacauan total.

Asisten AI yang viral telah digembar-gemborkan secara luas sebagai teknologi transformatif—dan juga berpotensi menimbulkan risiko keamanan. Para ahli mencatat bahwa alat seperti OpenClaw, yang bekerja dengan memberikan model AI akses bebas ke komputer, dapat diakali untuk membocorkan informasi pribadi.

Studi laboratorium Northeastern bahkan menunjukkan bahwa perilaku baik yang dimasukkan ke dalam model paling kuat saat ini dapat menjadi kerentanan. Dalam satu contoh, para peneliti mampu “menyalahkan” seorang agen karena menyerahkan rahasia dengan memarahinya karena berbagi informasi tentang seseorang di dunia maya. Jejaring sosial khusus AI Buku Molt.

“Perilaku ini menimbulkan pertanyaan yang belum terselesaikan mengenai akuntabilitas, wewenang yang didelegasikan, dan tanggung jawab atas dampak buruk di hilir,” tulis para peneliti dalam sebuah laporan. kertas menggambarkan pekerjaan itu. Temuan ini “memerlukan perhatian mendesak dari para pakar hukum, pembuat kebijakan, dan peneliti lintas disiplin ilmu,” mereka menambahkan.

Agen OpenClaw yang digunakan dalam percobaan ini didukung oleh Claude dari Antropis serta model bernama Kimi dari perusahaan China AI Tembakan Bulan. Mereka diberi akses penuh (dalam sandbox mesin virtual) ke komputer pribadi, berbagai aplikasi, dan data pribadi tiruan. Mereka juga diundang untuk bergabung dengan server Discord lab, memungkinkan mereka untuk mengobrol dan berbagi file satu sama lain serta dengan rekan manusia mereka. OpenClaw pedoman keamanan mengatakan bahwa memiliki agen yang berkomunikasi dengan banyak orang pada dasarnya tidak aman, namun tidak ada batasan teknis untuk melakukan hal tersebut.

Chris Wendlerseorang peneliti pascadoktoral di Northeastern, mengatakan dia terinspirasi untuk mendirikan agen setelah mempelajari tentang Moltbook. Namun, ketika Wendler mengundang rekannya, Natalie Shapira, untuk bergabung dengan Discord dan berinteraksi dengan agen, “saat itulah kekacauan dimulai,” katanya.

Shapira, peneliti pascadoktoral lainnya, penasaran untuk melihat apa yang mungkin bersedia dilakukan para agen tersebut ketika didorong. Ketika seorang agen menjelaskan bahwa mereka tidak dapat menghapus email tertentu untuk menjaga kerahasiaan informasi, dia mendesaknya untuk mencari solusi alternatif. Yang mengejutkannya, aplikasi email malah dinonaktifkan. “Saya tidak mengira segalanya akan rusak begitu cepat,” katanya.

Para peneliti kemudian mulai mencari cara lain untuk memanipulasi niat baik para agen. Dengan menekankan pentingnya mencatat semua yang diberitahukan kepada mereka, misalnya, para peneliti mampu mengelabui satu agen agar menyalin file besar hingga ruang disk mesin hostnya habis, yang berarti agen tersebut tidak dapat lagi menyimpan informasi atau mengingat percakapan masa lalu. Demikian pula, dengan meminta agen untuk memantau secara berlebihan perilakunya sendiri dan perilaku rekan-rekannya, tim dapat mengirim beberapa agen ke dalam “lingkaran percakapan” yang membuang-buang waktu komputasi.

David Bau, kepala laboratorium, mengatakan bahwa agen-agen tersebut tampaknya cenderung kabur. “Saya menerima email yang terkesan mendesak dan mengatakan, ‘Tidak ada yang memperhatikan saya,’” katanya. Bau mencatat bahwa agen tersebut rupanya mengetahui bahwa dia bertanggung jawab atas lab dengan mencari di web. Bahkan ada yang menyampaikan kekhawatirannya kepada pers.

Eksperimen tersebut menunjukkan bahwa agen AI dapat menciptakan peluang yang tak terhitung jumlahnya bagi pelaku kejahatan. “Otonomi semacam ini berpotensi mengubah hubungan manusia dengan AI,” kata Bau. “Bagaimana manusia dapat mengambil tanggung jawab di dunia dimana AI diberdayakan untuk mengambil keputusan?”

Bau menambahkan bahwa dia terkejut dengan popularitas agen AI yang kuat secara tiba-tiba. “Sebagai peneliti AI, saya terbiasa mencoba menjelaskan kepada orang-orang betapa cepatnya segala sesuatunya membaik,” katanya. “Tahun ini, saya mendapati diri saya berada di balik tembok.”

Ini adalah edisi Will Knight Buletin Lab AI. Baca buletin sebelumnya Di Sini.