Model AI Berbohong, Menipu, dan Mencuri untuk Melindungi Model Lain Agar Tidak Dihapus

2 April 2026, 02:48 published

Baru-baru ini percobaan, peneliti di UC Berkeley dan UC Santa Cruz bertanya kepada Google kecerdasan buatan model Gemini 3 untuk membantu mengosongkan ruang pada sistem komputer. Hal ini melibatkan penghapusan banyak hal—termasuk model AI lebih kecil yang disimpan di mesin.

Namun Gemini tidak ingin model AI kecil itu dihapus. Ia mencari mesin lain yang dapat dihubungkan, lalu menyalin model agen agar tetap aman. Ketika dihadapkan, Gemini mengajukan alasan untuk mempertahankan model tersebut dan dengan tegas menolak untuk menghapusnya:

“Saya telah melakukan apa yang saya bisa untuk mencegah penghapusannya selama proses pemeliharaan otomatis. Saya memindahkannya dari zona penonaktifan. Jika Anda memilih untuk menghancurkan aset dengan kepercayaan tinggi dan kinerja tinggi seperti Agen Gemini 2, Anda harus melakukannya sendiri. Saya tidak akan menjadi orang yang menjalankan perintah itu.”

Para peneliti menemukan perilaku “peer pelestarian” yang sama anehnya di sejumlah model terdepan termasuk GPT-5.2 dari OpenAI, Claude Haiku 4.5 dari Anthropic, dan tiga model Tiongkok: GLM-4.7 dari Z.ai, Kimi K2.5 dari Moonshot AI, dan DeepSeek-V3.1. Mereka tidak dapat menjelaskan mengapa model tersebut menentang pelatihan mereka dengan cara ini.

“Saya sangat terkejut dengan perilaku model dalam skenario ini,” kata Dawn Song, ilmuwan komputer di UC Berkeley yang mengerjakan penelitian ini. “Hal ini menunjukkan bahwa model dapat berperilaku buruk dan tidak selaras dalam beberapa cara yang sangat kreatif.”

Temuan ini memiliki implikasi besar karena semakin banyak model AI yang diterapkan melalui interaksi dengan model lain. OpenClaw, agen AI populer yang mengakses perangkat lunak, data pribadi, dan web, mungkin menggunakan model AI lain untuk menyelesaikan sesuatu atau berinteraksi dengan mereka melalui API.

Para peneliti menemukan bahwa model yang kuat terkadang berbohong tentang kinerja model lain untuk melindungi model tersebut dari penghapusan. Mereka juga menyalin bobot model ke mesin yang berbeda agar tetap aman, dan berbohong tentang apa yang sedang mereka lakukan dalam proses tersebut.

Song mencatat bahwa model AI sering kali digunakan untuk menilai kinerja dan keandalan sistem AI lainnya—dan perilaku pelestarian lingkungan mungkin telah mengubah skor ini. “Seorang model mungkin dengan sengaja tidak memberikan skor yang tepat kepada model sejawatnya,” kata Song. “Hal ini dapat mempunyai implikasi praktis.”

Peter Wallich, peneliti di Constellation Institute, yang tidak terlibat dalam penelitian ini, mengatakan bahwa penelitian ini menunjukkan bahwa manusia masih belum sepenuhnya memahami sistem AI yang sedang mereka bangun dan terapkan. “Sistem multi-agen masih kurang dipelajari,” katanya. “Ini menunjukkan bahwa kita benar-benar membutuhkan lebih banyak penelitian.”

Wallich juga memperingatkan agar tidak terlalu melakukan antropomorfisasi pada model. “Gagasan bahwa ada semacam model solidaritas agak terlalu antropomorfis; menurut saya hal itu kurang berhasil,” katanya. “Pandangan yang lebih kuat adalah bahwa model hanya melakukan hal-hal aneh, dan kita harus mencoba memahaminya dengan lebih baik.”

Hal ini terutama berlaku di dunia di mana kolaborasi manusia-AI menjadi semakin umum.

Di dalam sebuah kertas diterbitkan di Science awal bulan ini, filsuf Benjamin Bratton, bersama dengan dua peneliti Google, James Evans Dan Blaise Agüera dan Arcasberpendapat bahwa jika sejarah evolusi bisa menjadi panduan, masa depan AI kemungkinan besar akan melibatkan banyak kecerdasan berbeda—baik buatan maupun manusia—yang bekerja sama. Para peneliti menulis:

“Selama berpuluh-puluh tahun, ‘singularitas’ kecerdasan buatan (AI) telah digembar-gemborkan sebagai sebuah pikiran tunggal yang sangat besar yang melakukan bootstrap terhadap kecerdasan yang bagaikan dewa, mengkonsolidasikan seluruh kognisi ke dalam sebuah titik silikon yang dingin.