Anthropic Berpikir Kesuksesannya Adalah Kunci Membuat AI Aman

Antropis telah menghabiskan lima tahun terakhir memperingatkan dunia tentang bagaimana kecerdasan buatan yang canggih dapat menyebabkan kehancuran massal, menggoyahkan masyarakat, dan menyebabkan banyak dampak buruk lainnya. Namun secara bersamaan, hal ini telah menjadi salah satu kekuatan paling kuat yang mendorong kemampuan AI ke depan. Perusahaan ini kini menjadi salah satu pengembang dan distributor terkemuka model AI mutakhir dan memikat pelanggan seperti militer AS. Baru-baru ini dihargai hampir $1 triliun.

Pada pandangan pertama, pesan Anthropic yang jelas dan tindakannya tampak bertentangan secara mendasar.

Namun di dalam perusahaan, banyak orang tidak melihat adanya kontradiksi. Untuk memahami alasannya, pertama-tama Anda harus memahami bahwa Anthropic beroperasi berdasarkan dua keyakinan inti. Yang pertama adalah bahwa kecerdasan buatan adalah teknologi paling transformatif dalam sejarah manusia, dan kehadirannya tidak bisa dihindari. Satu-satunya pertanyaan sebenarnya adalah apakah hal ini akan membawa bencana atau kemakmuran yang luar biasa.

Kedua, Anthropic yakin dunia akan menjadi lebih baik jika tetap menjadi yang terdepan dalam perlombaan AI, menurut beberapa mantan karyawan yang berbicara kepada WIRED tanpa menyebut nama. Secara internal, para pemimpin dan karyawan di perusahaan sering menyebut diri mereka sebagai “orang baik”, yang berarti mereka yang bertanggung jawab dalam mengelola teknologi AI, kata dua sumber tersebut. Perusahaan melihat akumulasi kekuasaan—baik dalam bentuk modal, komputasi, bakat penelitian, atau pengaruh politik—bukan sebagai tujuan akhir, namun sebagai harga untuk memenuhi kebutuhannya. misi: “untuk memastikan dunia melakukan transisi dengan aman melalui AI transformatif.”

Helen Toner, direktur eksekutif Pusat Keamanan dan Teknologi Berkembang Georgetown dan mantan anggota dewan OpenAI, menggunakan analogi untuk menggambarkan pandangan dunia Anthropic. Dia membandingkan AI yang kuat dengan hutan yang dipenuhi harta magis dan monster berbahaya. Semua penduduk desa di dekatnya bergegas masuk, terpikat oleh harta karun itu. Dalam ceritanya, Anthropic ingin menjelajah lebih jauh ke dalam hutan dibandingkan orang lain sambil berinvestasi besar dalam menjinakkan monster—yakni, memanfaatkan AI sambil menahan risiko bencana.

“Yang membedakan Anthropic adalah, ‘Orang-orang tetap pergi ke hutan, kita harus melakukannya dulu.’ Hal ini secara eksplisit merupakan strategi mereka: membangun AI mutakhir agar menjadi pemain serius yang dapat mendiskusikan seperti apa sistem AI mutakhir, risiko apa yang ditimbulkannya, dan mendorong upaya perlindungan yang wajar,” kata Toner kepada saya. “Mereka sangat berterus terang mengenai hal ini. Ini hanya sebuah strategi yang cukup aneh sehingga orang sulit mendengarnya.”

CEO Anthropic Dario Amodei menguraikan pendekatan ini dengan jelas dalam a percakapan dengan salah satu pendirinya diposting di halaman karir perusahaan: “Anda harus menemukan cara untuk benar-benar menjadi kompetitif, untuk benar-benar memimpin industri dalam beberapa kasus, namun tetap berhasil melakukan segala sesuatunya dengan aman,” katanya. “Jika Anda bisa melakukan itu, tarikan gravitasi yang Anda keluarkan akan sangat besar.”

Antropik adalah didirikan pada tahun 2021 oleh sekelompok mantan karyawan OpenAI yang membelot setelah kehilangan kepercayaan terhadap kemampuan pimpinan perusahaan—khususnya CEO Sam Altman—untuk menghadirkan transformasi AI ke dunia dengan aman. Sentimen tersebut masih membentuk perusahaan hingga saat ini. Dua mantan karyawan yang saya ajak bicara mengatakan bahwa, dalam diskusi internal, para eksekutif Anthropic sering menggambarkan Altman dan OpenAI—dan, pada tingkat lebih rendah, xAI Meta dan Elon Musk—sebagai contoh peringatan yang membantu mendefinisikan rasa tanggung jawab Anthropic sendiri.

Dalam banyak hal, Anthropic sama seperti perusahaan Silicon Valley lainnya. Banyak startup yang memasarkan diri mereka sebagai David yang melawan para raksasa industri yang ingin mereka ganggu. Google, Facebook, dan Apple semuanya didirikan berdasarkan prinsip-prinsip idealis, yang kemudian menjadi kabur atau ditinggalkan sama sekali ketika mereka menjadi lebih kaya, lebih besar, dan lebih berpengaruh.

Namun mantan karyawannya mengatakan bahwa Anthropic tidak biasa dalam hal betapa mereka sangat percaya pada misinya, dan betapa eksplisitnya mereka memberi tahu karyawan bahwa kekuatan teknologi dan komersial adalah sarana untuk mencapainya. Seorang mantan karyawan mengatakan bahwa dalam wawancara kerja, Anthropic menekankan kepada pelamar bahwa ini bukanlah perusahaan biasa yang dibentuk oleh kekuatan pasar: Perusahaan ini diatur oleh struktur kepentingan publik yang memungkinkannya memprioritaskan “keuntungan jangka panjang bagi umat manusia” di atas keuntungan. Namun perusahaan melihat kesuksesan finansial dan membangun model AI yang paling kuat adalah hal yang bisa dicapai dalam pelayanan tujuan tersebut—sebuah prasyarat bagi kewajibannya untuk memimpin industri dalam bidang keselamatan.

“Tak satu pun dari kami ingin mendirikan perusahaan, kami hanya merasa itu adalah tugas kami,” kata Sam McCandlish, salah satu pendiri dan kepala arsitek Anthropic, dalam percakapan yang sama di halaman karier perusahaan. “Kita harus melakukan hal ini. Ini adalah cara kita membuat segalanya menjadi lebih baik dengan AI.”

Anthropic menolak berkomentar untuk cerita ini.

Masalah Orang Baik

Calo antropis di dalamnya situs web bahwa ini adalah “organisasi dengan kepercayaan tinggi dan ego rendah,” tanpa banyak campur tangan dalam politik internal, sebuah karakterisasi yang menurut mantan karyawan saya sebagian besar akurat. Mereka mengatakan bahwa dibandingkan dengan para pemimpin di laboratorium AI lainnya, karyawan Anthropic umumnya percaya pada Amodei yang memberi tahu mereka kebenaran tentang kemajuan teknologi perusahaan, interaksinya dengan pejabat pemerintah, dan pandangan mengenai geopolitik.

Namun keberagaman pemikiran bisa berdampak baik bagi akuntabilitas. Shazeda Ahmed, seorang sarjana postdoctoral di UCLA yang telah mempelajari asal usul ideologi gerakan keselamatan AI, mengatakan bahwa organisasi seperti Anthropic cenderung berjuang dengan kurangnya pluralisme. Dia riset di bidang ini telah ditemukan bahwa gerakan keselamatan AI—yang berakar pada subkultur seperti altruisme efektif, di antara komunitas lain—mengalami homogenitas pemikiran, dan cenderung condong ke arah tata kelola mandiri.

“Anda tidak akan tertantang dengan ide-ide ini ketika Anda dikelilingi oleh orang-orang yang memercayainya,” kata Ahmed. “Dan ketika ukuran kesuksesan Anda adalah, ‘Sejauh mana saya bertindak berdasarkan keyakinan ideologis ini?’ mereka tidak benar-benar memikirkannya, ini bisa menjadi salah jika kita bukan orang yang tepat untuk memiliki kekuasaan sebesar ini—mereka tidak selalu memeriksa titik buta mereka sendiri.”

Salah satu mantan karyawan yang saya ajak bicara mengatakan ada budaya perdebatan internal yang hidup di Anthropic, dan kritik dari staf sering kali memicu tanggapan panjang lebar dari pimpinan.

Namun mantan karyawan lainnya menggambarkan gambaran yang lebih suram, di mana kritik yang lebih jujur hanya terbatas pada obrolan grup pribadi dan jarang berkembang menjadi tantangan langsung terhadap keputusan Amodei. Mereka menggambarkan pertemuan rutin perusahaan dengan Amodei, yang mereka sebut Dario Vision Quests, mirip dengan “pergi ke khotbah untuk mendengarkan seorang pendeta.”

Salah satu kontroversi internal terbesar di Anthropic terjadi pada musim gugur tahun 2024, ketika Anthropic menjadi laboratorium AI pertama yang bermitra dengan Palantir untuk menyediakan layanan AI kepada badan intelijen dan pertahanan AS. Beberapa mantan karyawan yang saya ajak bicara mengatakan bahwa pertanyaan mengenai kesepakatan tersebut diajukan secara internal, namun perdebatan tersebut tidak menghasilkan perubahan pada kebijakan perusahaan.

Dalam postingan di forum online LessWrong saat itu, karyawan Anthropic Evan Hubinger menulis bahwa perusahaan tersebut “sangat berterus terang” mengenai kesepakatan Palantir dengan stafnya, dan meskipun mungkin ada beberapa batasan yang tidak boleh dilanggar tanpa pertimbangan yang matang, secara keseluruhan hal ini merupakan perkembangan yang positif. “Jika Anda menganggap serius risiko bencana akibat AI, pemerintah AS adalah aktor yang sangat penting untuk dilibatkan, dan mencoba menghalangi pemerintah AS menggunakan AI bukanlah strategi yang tepat,” tulisnya.

Kurang dari dua tahun kemudian, Pentagon dilaporkan mulai menggunakan Claude untuk melakukan hal-hal seperti itu mengidentifikasi target serangan dalam perang Israel-Iran. Ketika ditanya dalam wawancara baru-baru ini dengan Bloomberg apakah model Anthropic digunakan dalam serangan terhadap sebuah sekolah dasar Iran yang menewaskan lebih dari 120 orang, Amodei mengatakan dia tidak tahunamun hal tersebut akan menjadi penggunaan teknologi perusahaan yang disetujui selama masih ada manusia yang melakukan keputusan terakhir. Ini adalah contoh nyata bagaimana visi Anthropic untuk AI yang bertanggung jawab mungkin tidak selalu sejalan dengan visi masyarakat luas.

Pandangan kuat Anthropic tentang bagaimana Claude harus dan tidak boleh digunakan juga muncul dalam konteks lain.

Awal bulan ini, Anthropic merilis model AI mutakhir, Claude Fabel 5dengan perlindungan unik yang tidak bersahabat: Jika para peneliti mencoba menggunakannya untuk pengembangan AI terdepan, yang akan melanggar persyaratan layanan perusahaan, Anthropic akan secara diam-diam menyabot pekerjaan mereka. Langkah ini segera dikritik oleh para peneliti di industri AI dan Anthropic berjalan kembali beberapa hari kemudian, mengatakan hal itu akan membuat pengamanan terlihat. Dalam sebuah pernyataan pada saat itu, Anthropic mengatakan mereka tidak mendapatkan keseimbangan yang tepat, dan niat mereka adalah untuk menggagalkan musuh asing AS.

Perebutan Kekuasaan

Amodei sendiri telah secara terbuka mengakui bahayanya membiarkan terlalu banyak kekuasaan atas AI terkonsentrasi di tangan beberapa laboratorium, termasuk laboratoriumnya sendiri. “Agak canggung untuk mengatakan hal ini sebagai CEO sebuah perusahaan AI, tapi menurut saya tingkat risiko berikutnya sebenarnya adalah perusahaan AI itu sendiri,” tulisnya dalam sebuah pernyataan. karangan awal tahun ini. Namun solusi yang ia usulkan—yaitu agar perusahaan-perusahaan AI “diperhatikan secara hati-hati” dan mungkin membuat komitmen publik untuk “tidak mengambil tindakan tertentu”—tidak akan banyak membantu mendistribusikan kembali kekuasaan tersebut secara mendasar.

Di bagian esai yang lebih panjang, Amodei merenungkan besarnya pengaruhnya sendiri dan tanggung jawab yang menyertainya. Namun ia tidak membingkai hal-hal tersebut dalam sudut pandang pribadi, dan malah memposisikannya sebagai masalah yang mencakup seluruh spesies: “Umat manusia akan diberikan kekuasaan yang hampir tak terbayangkan, dan masih belum jelas apakah sistem sosial, politik, dan teknologi kita memiliki kematangan untuk menggunakan hal tersebut,” tulisnya. Ia melanjutkan dengan mengatakan bahwa adalah tanggung jawab “orang-orang yang paling dekat dengan teknologi untuk menyampaikan kebenaran tentang situasi yang dihadapi umat manusia, dan hal ini selalu saya coba lakukan.”

Kritik umum terhadap posisi Anthropic adalah bahwa perusahaan tersebut berpikir bahwa mereka mengetahui “kebenaran tentang situasi yang dihadapi umat manusia” lebih baik daripada yang lain. Mereka memandang AI sebagai sesuatu yang sangat kuat namun pada akhirnya dapat diatur, asalkan orang yang tepat memimpin pengembangannya. Namun faktanya adalah tidak ada seorang pun yang mengetahui secara pasti bagaimana AI akan mengubah dunia—ada orang yang mempunyai lebih banyak pendapat dibandingkan orang lain.

Ini adalah edisi milik Maxwell Zeff Buletin Perilaku Model. Baca buletin sebelumnya Di Sini.