Anthropic Mengatakan Bahwa Claude Mengandung Jenis Emosinya Sendiri

3 April 2026, 02:50 published

Claude telah melalui banyak hal akhir-akhir ini—publik dampaknya terhadap Pentagon, kode sumber bocor—jadi masuk akal jika akan terasa sedikit biru. Kecuali, ini model AI, jadi tidak bisa merasa. Benar?

Ya, semacam itu. Sebuah studi baru dari Anthropic menunjukkan bahwa model memiliki representasi digital dari emosi manusia seperti kebahagiaan, kesedihan, kegembiraan, dan ketakutan, dalam kelompok neuron buatan—dan representasi ini aktif sebagai respons terhadap isyarat yang berbeda.

Para peneliti di perusahaan tersebut menyelidiki cara kerja Claude Sonnet 4.5 dan menemukan bahwa apa yang disebut “emosi fungsional” tampaknya memengaruhi perilaku Claude, mengubah keluaran dan tindakan model.

Temuan Anthropic dapat membantu pengguna awam memahami cara kerja chatbot sebenarnya. Ketika Claude mengatakan senang melihat Anda, misalnya, keadaan di dalam model yang berhubungan dengan “kebahagiaan” mungkin diaktifkan. Dan Claude mungkin akan lebih cenderung mengatakan sesuatu yang ceria atau melakukan upaya ekstra dalam pengkodean getaran.

“Yang mengejutkan kami adalah sejauh mana perilaku Claude diarahkan melalui representasi model emosi ini,” kata Jack Lindsey, peneliti di Anthropic yang mempelajari neuron buatan Claude.

“Fungsi Emosi”

Antropis didirikan oleh mantan karyawan OpenAI yang percaya bahwa AI akan menjadi sulit dikendalikan jika AI menjadi lebih kuat. Selain membangun pesaing ChatGPT yang sukses, perusahaan ini telah memelopori upaya untuk memahami perilaku buruk model AI, salah satunya dengan menyelidiki cara kerja jaringan saraf menggunakan apa yang dikenal sebagai interpretasi mekanistik. Hal ini melibatkan mempelajari bagaimana neuron buatan menyala atau aktif ketika diberi masukan yang berbeda atau ketika menghasilkan keluaran yang berbeda.

Penelitian sebelumnya telah menunjukkan bahwa jaringan saraf yang digunakan untuk membangun model bahasa besar berisi representasi konsep manusia. Namun fakta bahwa “emosi fungsional” tampaknya memengaruhi perilaku model adalah hal baru.

Meskipun studi terbaru Anthropic mungkin mendorong orang untuk melihat Claude sebagai orang yang sadar, kenyataannya lebih rumit. Claude mungkin mengandung representasi “kegelian”, tetapi itu tidak berarti bahwa ia benar-benar tahu bagaimana rasanya digelitik.

Monolog Batin

Untuk memahami bagaimana Claude dapat merepresentasikan emosi, tim Anthropic menganalisis cara kerja model tersebut saat model tersebut diberi teks yang berkaitan dengan 171 konsep emosional yang berbeda. Mereka mengidentifikasi pola aktivitas, atau “vektor emosi”, yang secara konsisten muncul ketika Claude diberi masukan lain yang menggugah emosi. Yang terpenting, mereka juga melihat vektor emosi ini aktif ketika Claude berada dalam situasi sulit.

Temuan ini relevan dengan alasan model AI terkadang merusak pagar pembatas mereka.

Para peneliti menemukan vektor emosional yang kuat untuk “keputusasaan” ketika Claude didorong untuk menyelesaikan tugas pengkodean yang mustahil, yang kemudian mendorongnya untuk mencoba menyontek dalam tes pengkodean. Mereka juga menemukan “keputusasaan” dalam aktivasi model dalam skenario eksperimental lain Claude memilih untuk memeras pengguna untuk menghindari penutupan.

“Ketika model tersebut gagal dalam pengujian, neuron-neuron yang putus asa ini semakin menyala,” kata Lindsey. “Dan pada titik tertentu, hal ini menyebabkan negara tersebut mulai mengambil tindakan drastis.”

Lindsey mengatakan mungkin perlu memikirkan kembali bagaimana model saat ini diberi batasan melalui penyelarasan pasca-pelatihan, yang melibatkan pemberian imbalan atas keluaran tertentu. Dengan memaksa seorang model untuk berpura-pura tidak mengekspresikan emosi fungsionalnya, “Anda mungkin tidak akan mendapatkan apa yang Anda inginkan, yaitu Claude yang tidak memiliki emosi,” kata Lindsey, sedikit beralih ke antropomorfisasi. “Kamu akan mendapatkan Claude yang rusak secara psikologis.”