Agen AI Ini Dirancang Agar Tidak Menjadi Nakal

Agen AI suka Cakar Terbuka baru-baru ini popularitasnya meledak justru karena mereka dapat mengambil kendali kehidupan digital Anda. Baik Anda menginginkan ringkasan berita pagi yang dipersonalisasi, proxy yang dapat bersaing dengan layanan pelanggan perusahaan kabel Anda, atau auditor daftar tugas yang akan melakukan beberapa tugas untuk Anda dan mendorong Anda untuk menyelesaikan sisanya, asisten agen dibuat untuk mengakses akun digital Anda dan menjalankan perintah Anda. Ini memang membantu—tetapi juga bermanfaat menyebabkan banyak kekacauan. Bot ada di luar sana menghapus email secara massal mereka telah diperintahkan untuk melestarikan, menulis pukulan-pukulan atas penghinaan yang dirasakanDan meluncurkan serangan phishing terhadap pemiliknya.

Melihat kekacauan yang terjadi dalam beberapa minggu terakhir, insinyur dan peneliti keamanan lama Niels Provos memutuskan untuk mencoba sesuatu yang baru. Hari ini dia meluncurkan asisten AI aman dan open source yang disebut Tirai Besi dirancang untuk menambahkan lapisan kontrol yang penting. Daripada berinteraksi langsung dengan sistem dan akun pengguna, agen berjalan di mesin virtual yang terisolasi. Dan kemampuannya untuk mengambil tindakan apa pun dimediasi oleh sebuah kebijakan—Anda bahkan dapat menganggapnya sebagai konstitusi—yang dibuat oleh pemiliknya untuk mengatur sistem. Yang terpenting, IronCurtain juga dirancang untuk menerima kebijakan menyeluruh ini dalam bahasa Inggris dan kemudian menjalankannya melalui proses multilangkah yang menggunakan model bahasa besar (LLM) untuk mengubah bahasa alami menjadi kebijakan keamanan yang dapat diterapkan.

“Layanan seperti OpenClaw sedang berada di puncak popularitas saat ini, namun harapan saya adalah ada peluang untuk mengatakan, ‘Ini mungkin bukan cara yang kami inginkan,’” kata Provos. “Sebaliknya, mari kita kembangkan sesuatu yang masih memberi Anda manfaat yang sangat tinggi, namun tidak akan mengarah ke jalur yang belum dipetakan, dan terkadang merusak.”

Kemampuan IronCurtain untuk mengambil pernyataan yang intuitif dan lugas dan mengubahnya menjadi garis merah yang dapat diterapkan, deterministik—atau dapat diprediksi—sangat penting, kata Provos, karena LLM terkenal bersifat “stokastik” dan probabilistik. Dengan kata lain, mereka tidak selalu menghasilkan konten yang sama atau memberikan informasi yang sama sebagai respons terhadap permintaan yang sama. Hal ini menciptakan tantangan bagi batasan AI, karena sistem AI dapat berkembang seiring berjalannya waktu sehingga sistem tersebut merevisi cara mereka menafsirkan mekanisme kontrol atau batasan, yang dapat mengakibatkan aktivitas jahat.

Kebijakan IronCurtain, kata Provos, bisa sesederhana: “Agen dapat membaca semua email saya. Agen dapat mengirim email ke orang-orang di kontak saya tanpa bertanya. Untuk orang lain, tanyakan kepada saya terlebih dahulu. Jangan pernah menghapus apa pun secara permanen.”

IronCurtain mengambil instruksi ini, mengubahnya menjadi kebijakan yang dapat diterapkan, dan kemudian memediasi antara agen asisten di mesin virtual dan apa yang dikenal sebagai server protokol konteks model yang memberi LLM akses ke data dan layanan digital lainnya untuk menjalankan tugas. Kemampuan untuk membatasi agen dengan cara ini menambahkan komponen penting dari kontrol akses yang saat ini tidak ditawarkan oleh platform web seperti penyedia email karena platform tersebut tidak dibuat untuk skenario di mana pemilik manusia dan bot agen AI menggunakan satu akun.

Provos mencatat bahwa IronCurtain dirancang untuk menyempurnakan dan menyempurnakan “konstitusi” setiap pengguna dari waktu ke waktu saat sistem menghadapi kasus-kasus sulit dan meminta masukan dari manusia tentang cara melanjutkannya. Sistem ini, yang tidak bergantung pada model dan dapat digunakan dengan LLM apa pun, juga dirancang untuk memelihara log audit semua keputusan kebijakan dari waktu ke waktu.

IronCurtain adalah prototipe penelitian, bukan produk konsumen, dan Provos berharap masyarakat akan berkontribusi pada proyek ini untuk mengeksplorasi dan membantunya berkembang. Dino Dai Zovi, peneliti keamanan siber terkenal yang telah bereksperimen dengan IronCurtain versi awal, mengatakan bahwa pendekatan konseptual yang diambil proyek ini sejalan dengan intuisinya tentang bagaimana AI agen perlu dibatasi.

“Apa yang telah dilakukan banyak agen sejauh ini adalah, mereka telah menambahkan sistem izin yang pada dasarnya membebani pengguna untuk mengatakan ‘ya, izinkan ini,’ ‘ya, izinkan itu,’” kata Dai Zovi. “Sebagian besar pengguna akan mulai mengabaikannya dan akhirnya hanya berkata, ‘ya, ya, ya.’ Dan kemudian setelah beberapa saat, mereka mungkin mengabaikan semua izin dan hanya memberikan otonomi penuh. Dengan sesuatu seperti IronCurtain, kemampuan—misalnya, menghapus file—sebenarnya berada di luar jangkauan LLM, di mana agen tidak dapat melakukan apa pun.”

Dai Zovi berpendapat bahwa jenis batasan hitam-putih ini, yang pada awalnya mungkin tampak terlalu kaku atau hanya mengganggu bagi sebagian orang, sebenarnya diperlukan untuk memberikan lebih banyak kendali pada AI agen.

“Jika kita menginginkan kecepatan dan otonomi yang lebih besar, kita memerlukan struktur pendukung,” kata Dai Zovi. “Anda memasukkan mesin roket ke dalam roket sungguhan sehingga memiliki stabilitas untuk mencapai tujuan yang Anda inginkan. Saya bisa mengikatkan mesin jet ke punggung saya di ransel, dan saya akan mati.”