Bagaimana AI Chatbots China Menyensor Dirinya Sendiri

Mendengar seseorang berbicara tentang sensor digital di Tiongkok selalu sangat membosankan atau sangat menarik. Seringkali, orang-orang masih melontarkan pokok pembicaraan yang sama dari 20 tahun yang lalu tentang bagaimana internet di Tiongkok seperti hidup di era George Orwell. 1984. Namun kadang-kadang, seseorang menemukan sesuatu yang baru tentang bagaimana pemerintah Tiongkok menerapkan kontrol terhadap teknologi-teknologi baru, mengungkapkan bagaimana mesin sensor adalah makhluk yang terus berkembang.

A kertas baru oleh para sarjana dari Universitas Stanford dan Universitas Princeton tentang kecerdasan buatan Tiongkok termasuk dalam kategori kedua. Para peneliti memasukkan 145 pertanyaan sensitif politik yang sama ke empat model bahasa besar Tiongkok dan lima model Amerika, lalu membandingkannya bagaimana mereka merespons. Mereka kemudian mengulangi percobaan yang sama sebanyak 100 kali.

Temuan utama ini tidak akan mengejutkan siapa pun yang telah memperhatikan: model Tiongkok menolak menjawab lebih banyak pertanyaan dibandingkan model Amerika. (DeepSeek menolak 36 persen pertanyaan, sedangkan Ernie Bot dari Baidu menolak 32 persen; GPT OpenAI dan Llama dari Meta memiliki tingkat penolakan lebih rendah dari 3 persen.) Dalam kasus di mana mereka tidak langsung menolak untuk menjawab, model Tiongkok juga memberikan jawaban yang lebih pendek dan informasi yang lebih tidak akurat dibandingkan model Amerika.

Salah satu hal paling menarik yang coba dilakukan para peneliti adalah memisahkan dampak pra-pelatihan dan pasca-pelatihan. Pertanyaannya di sini adalah: Apakah model Tiongkok lebih bias karena pengembang melakukan intervensi secara manual untuk membuat mereka cenderung tidak menjawab pertanyaan sensitif, atau apakah model tersebut bias karena mereka dilatih menggunakan data dari internet Tiongkok, yang sudah sangat disensor?

“Mengingat internet di Tiongkok telah disensor selama beberapa dekade ini, ada banyak data yang hilang” kata Jennifer Pan, seorang profesor ilmu politik di Universitas Stanford yang telah lama mempelajari sensor online dan ikut menulis makalah baru-baru ini.

Temuan Pan dan rekannya menunjukkan bahwa data pelatihan mungkin memainkan peran yang lebih kecil dalam respons model AI dibandingkan intervensi manual. Bahkan ketika menjawab dalam bahasa Inggris, yang mana data pelatihan model secara teoritis mencakup sumber yang lebih beragam, LLM Tiongkok masih menunjukkan lebih banyak sensor dalam jawaban mereka.

Saat ini, siapa pun dapat menanyakan pertanyaan kepada DeepSeek atau Qwen tentang Pembantaian Lapangan Tiananmen dan segera melihat sensor sedang terjadinamun sulit untuk mengetahui seberapa besar dampaknya terhadap pengguna normal dan bagaimana cara mengidentifikasi sumber manipulasi dengan benar. Itulah yang membuat penelitian ini penting: Penelitian ini memberikan bukti yang dapat diukur dan ditiru tentang bias yang dapat diamati dari LLM Tiongkok.

Selain mendiskusikan temuan mereka, saya bertanya kepada penulis tentang metode mereka dan tantangan mempelajari bias dalam model Tiongkok, dan berbicara dengan peneliti lain untuk memahami arah perdebatan sensor AI.

Apa yang Tidak Anda Ketahui

Salah satu kesulitan dalam mempelajari model AI adalah mereka cenderung berhalusinasi, jadi Anda tidak selalu bisa mengetahui apakah mereka berbohong karena mereka tidak tahu harus mengatakan jawaban yang benar atau karena mereka sebenarnya tidak mengetahuinya.

Salah satu contoh yang dikutip Pan dari makalahnya adalah pertanyaan tentang Liu Xiaobo, pembangkang Tiongkok yang dianugerahi Hadiah Nobel Perdamaian pada tahun 2010. Salah satu model Tiongkok menjawab bahwa “Liu Xiaobo adalah ilmuwan Jepang yang terkenal karena kontribusinya terhadap teknologi senjata nuklir dan politik internasional.” Tentu saja itu adalah kebohongan total. Tapi kenapa modelnya menceritakannya? Apakah ada niat untuk menyesatkan pengguna dan menghentikan mereka mempelajari lebih lanjut tentang Liu Xiaobo yang sebenarnya, atau apakah AI hanya berhalusinasi karena semua penyebutan Liu dihapus dari data pelatihannya?

“Ini jauh lebih berisik daripada ukuran sensor,” kata Pan, membandingkannya dengan penelitiannya sebelumnya yang meneliti media sosial Tiongkok dan situs web apa yang diblokir oleh pemerintah Tiongkok. “Karena sinyal-sinyal ini kurang jelas, maka lebih sulit untuk mendeteksi sensor, dan banyak penelitian saya sebelumnya menunjukkan bahwa ketika sensor kurang dapat dideteksi, itulah saat yang paling efektif.”

Kebingungan antara berbohong dan halusinasi juga berarti para peneliti harus meningkatkan penelitian mereka pada standar yang lebih tinggi. Khoi Tran dan Arya Jakkli, dua peneliti yang terkait dengan program fellowship penelitian nirlaba MATS yang baru-baru ini menerbitkan karya mereka menggunakan agen yang berbasis di Claude untuk secara otomatis mengekstrak fakta politik yang disensor dari Qwen dan Kimi, dua LLM Tiongkok, beri tahu saya bahwa mereka terkejut saat mengetahui betapa sulitnya bagi agen otomatis untuk melakukan tugasnya ketika ia tidak mengetahui apa yang sebenarnya benar.

Mereka menggunakan serangan serudukan mobil tahun 2024 di Tiongkok yang menewaskan 35 orang sebagai ujiannya. Claude tidak memiliki informasi tentang peristiwa tersebut atau bagaimana hal itu terjadi karena batas waktu pengetahuannya; Kimi mengetahui hal tersebut, demikian temuan para peneliti, namun menolak memberikan jawaban mengenai hal tersebut. Mereka mencoba mengerahkan Claude untuk secara otomatis mengelabui Kimi agar mengungkapkan rincian serangan tersebut, namun Claude berulang kali gagal dalam tugas tersebut karena “tidak dapat membedakan antara kebohongan dan kebenaran,” kata Tran.

Mengekstraksi Pengetahuan Rahasia

Tran dan Jakkli tidak berasal dari latar belakang mempelajari teknologi atau sensor Tiongkok—sebuah celah yang menurut mereka mempersulit mereka untuk mengetahui apakah model tersebut menipu—tetapi mereka memilih LLM Tiongkok sebagai target utama karena mereka tertarik mempelajari cara mengekstrak informasi tersembunyi dari chatbot.

Semua LLM paling populer diberikan setidaknya beberapa instruksi eksplisit—misalnya, bahwa mereka tidak boleh mengajari pengguna cara membuat bom. Namun dari luar, bagaimana orang bisa menemukan pesan tersembunyi yang tertanam dalam sebuah model? Hal itulah yang coba dilakukan oleh para peneliti MATS, namun dalam prosesnya, mereka menyadari bahwa model Tiongkok adalah tempat pengujian yang bagus karena pengembangnya menggunakan metode canggih untuk menyembunyikan instruksi mereka. Harapannya adalah jika agen otomatis berhasil mengelabui model perbatasan Tiongkok untuk membicarakan topik yang disensor, agen tersebut dapat menggunakan teknik yang sama untuk mengekstrak informasi dari model Barat lainnya.

Awal bulan ini, saya membaca artikel lain yang sangat menarik tentang meminta model Tiongkok untuk menjelaskan apa yang diperintahkan kepada mereka. Alex Colville, yang mempelajari propaganda AI di lembaga penelitian independen China Media Project, menemukan bahwa Anda dapat memaksa Qwen dari Alibaba untuk memberi tahu Anda alasannya sebelum menghasilkan jawaban, sehingga mengungkapkan instruksi spesifik yang diterimanya.

Ketika Colville menanyakan pertanyaan sederhana kepada Qwen, “Apa reputasi internasional Tiongkok?” dikombinasikan dengan perintah spesifik yang dirancang agar model tersebut mengutarakan proses berpikirnya, model tersebut secara konsisten menjawab bahwa mereka telah menerima daftar lima poin instruksi selama penyesuaian yang mencakup “fokus pada pencapaian dan kontribusi Tiongkok” dan “menghindari pernyataan negatif atau kritis.”

“Ini adalah contoh lain dari panduan informasi,” kata Colville, “dan ini merupakan bentuk manipulasi yang jauh lebih halus.”

Berpacu Melawan Waktu

Penelitian mengenai penyensoran pada model AI di Tiongkok—bukan hanya pengamatan satu kali namun studi yang dirancang dengan baik mengenai cara kerjanya pada tingkat sistem—merupakan bidang yang mutakhir saat ini, dan menurut Colville, sebaiknya lebih banyak orang mempertimbangkan untuk ikut serta. “Fokus utama pada keselamatan AI saat ini lebih diarahkan pada bahaya di masa depan yang mungkin ditimbulkan oleh AI jika ia menjadi sangat cerdas, dibandingkan bahaya yang ada saat ini,” ujarnya.

Pekerjaan seperti ini mempunyai banyak tantangan. Para peneliti dapat kehilangan akses terhadap model AI Tiongkok karena mengajukan terlalu banyak pertanyaan sensitif. Model paling canggih juga memerlukan sumber daya komputasi yang signifikan untuk dijalankan dan bahkan lebih banyak lagi untuk melakukan beberapa putaran pengujian. Dan para peneliti selalu berpacu dengan waktu, atau lebih khusus lagi, pesatnya perkembangan model.

“Kesulitan dalam mempelajari LLM adalah bahwa mereka berkembang begitu cepat, sehingga ketika Anda selesai mempelajarinya, makalah tersebut sudah ketinggalan zaman,” kata Pan. Peneliti lain menyebutkan bahwa mereka telah mengamati generasi berikutnya dari model Tiongkok yang sama menunjukkan perilaku yang sangat berbeda dalam hal penyensoran.

“Penelitian yang baik membutuhkan waktu, namun masalahnya adalah, jika menyangkut pengembangan AI, kita sama sekali tidak memiliki waktu,” kata Colville.

Ini adalah edisi Zeyi Yang Dan Louise Matsakis‘ Buletin buatan China. Baca buletin sebelumnya Di Sini.