Kebijakan Anthropic Walk Back yang Dapat 'Menyabotase' Peneliti AI yang Menggunakan Claude

Antropis mengalami kemunduran pada kebijakan yang secara diam-diam akan membatasi pesaing untuk menggunakan model AI barunya, Claude Fabel 5untuk mengembangkan model AI lainnya. Perusahaan mengubah arah setelah langkah tersebut mendapat reaksi keras dari Komunitas riset AI.

“Kami mengubah perlindungan Fable 5 untuk pengembangan LLM perbatasan agar dapat terlihat,” kata Anthropic dalam sebuah pernyataan kepada WIRED. “Kami melakukan trade-off yang salah dan kami meminta maaf karena tidak menyeimbangkannya dengan benar.”

Anthropic merilis Claude Fable 5, versi model AI terbaru dengan pagar pengaman tambahan yang dirancang untuk mencegah penyalahgunaan, awal pekan ini. Beberapa perlindungan yang diputuskan oleh Anthropic tidak mengejutkan: Perusahaan mengatakan akan mengalihkan pengguna yang mengajukan pertanyaan tentang keamanan siber, biologi, atau kimia ke model AI yang kurang mumpuni untuk mengurangi kemungkinan seseorang menggunakan AI canggih untuk melakukan serangan siber atau membuat senjata biologis.

Namun bagi para peneliti yang mencoba menggunakan Claude Fable 5 untuk pengembangan AI terdepan, Anthropic menguraikan pendekatan yang berbeda. Perusahaan tersebut dengan sengaja menurunkan kinerja model dengan cara yang tidak terlihat oleh pengguna. Langkah ini akan secara efektif menyabotase peneliti yang mencoba menggunakan Claude untuk melatih model AI yang bersaing, yang secara eksplisit dilarang oleh Anthropic persyaratan layanan.

Anthropic sekarang mengatakan bahwa mereka sedang mengubah arah, dan perlindungan Claude Fable 5 untuk pengembangan AI akan terlihat oleh pengguna. Jika perusahaan mencurigai pengguna mencoba menggunakan Claude untuk membangun AI berkemampuan tinggi, perusahaan akan memperingatkan mereka bahwa perusahaan tersebut menolak permintaan tersebut atau mengalihkan pengguna ke model yang kurang berkemampuan.

Anthropic membatalkan kebijakan tersebut setelah mendapat reaksi keras dari komunitas riset AI. Anthropic telah mengambil langkah untuk mengatasi hal tersebut batasi kompetitor untuk menggunakan Claude untuk membangun model AI sumber tertutup dan sumber terbuka, namun para kritikus mengatakan bahwa secara diam-diam menurunkan kinerja model untuk pengguna tertentu sudah merupakan tindakan yang terlalu jauh. Agen pengkodean Claude telah menjadi alat favorit di kalangan pengembang, termasuk mereka yang mengerjakan proyek penelitian AI sumber terbuka, dan para peneliti mengatakan kepada WIRED bahwa kebijakan terbaru perusahaan tersebut dapat menyebabkan masa depan yang sulit karena hanya segelintir laboratorium AI terkemuka yang dapat melakukan penelitian AI tingkat lanjut.

Dean Ball, peneliti senior di Foundation for American Innovation dan mantan penasihat Gedung Putih bidang AI, menulis dalam a pos di X bahwa “menurunkan kinerja pada penelitian ML *tanpa memberi tahu pengguna* sangatlah tidak bersahabat dan terlihat buruk.” Dia melanjutkan di yang lain pos bahwa kebijakan “sabotase rahasia” melemahkan pendirian Anthropic secara keseluruhan, karena kebijakan tersebut membatasi peneliti AI untuk berkolaborasi dalam keamanan AI.

“Rasanya seperti Anthropic yang mengatakan kepada publik, ‘Kami tidak mempercayai orang lain untuk melakukan penelitian AI. Hanya kami yang harus melakukan penelitian AI,” kata Will Brown, pemimpin penelitian di startup AI sumber terbuka, Prime Intellect. “Rasanya seperti mereka mulai menarik tangga di belakang mereka.”

Brown mengatakan kebijakan tersebut juga akan membuat pengembang tidak mengetahui apakah mereka melanggar peraturan Anthropic, karena perusahaan tidak akan memberi tahu mereka ketika tindakan pengamanannya dipicu. Dia menambahkan bahwa pembatasan tersebut bisa berdampak luas. Misalnya, ia menunjuk pada berkembangnya ekosistem perusahaan evaluasi pihak ketiga yang menguji model terdepan dalam hal keselamatan, kinerja, dan keandalan—pekerjaan yang dapat terhambat jika Anthropic secara diam-diam menurunkan modelnya.

Anthropic mengatakan pihaknya menerapkan langkah-langkah tersebut karena Claude menjadi semakin efektif dalam mempercepat penelitian AI. Baru-baru ini postingan blogperusahaan tersebut menyatakan kekhawatirannya bahwa AI dapat meningkatkan kemampuannya lebih cepat daripada kemampuan masyarakat beradaptasi terhadapnya. Anthropic berargumen bahwa “akan lebih baik jika dunia mempunyai pilihan untuk memperlambat atau menghentikan sementara pengembangan AI terdepan agar struktur masyarakat dan penelitian yang selaras dapat mengimbanginya.”

“Perlindungan ini mencegah musuh asing menggunakan model kami yang paling mumpuni dengan cara yang menimbulkan risiko keamanan yang parah. AS dan sekutunya memiliki keunggulan dalam chip terdepan dan perangkat lunak yang sangat optimal untuk menjalankannya dengan potensi penuh,” kata perusahaan itu dalam sebuah pernyataan kepada WIRED. “Pengamanan ini memastikan bahwa Claude tidak terbiasa mengikis keunggulan tersebut—dengan mengoptimalkan chip yang dikembangkan oleh musuh-musuh tersebut, misalnya… Dalam memutuskan apakah akan membuat mereka terlihat atau tidak, kami dihadapkan pada sebuah pilihan. Pengamanan tersembunyi lebih sulit untuk diselidiki dan diatasi. Ini berarti pengamanan dapat ditargetkan secara lebih sempit.”

Anthropic mengatakan bahwa karena upaya perlindungan terhadap pengembangan AI kini sudah terlihat, maka mereka perlu memberikan jaring yang lebih luas, yang berarti permintaan yang lebih ramah dapat memicu upaya perlindungan tersebut. Perusahaan mengatakan mereka berupaya membuat pengklasifikasiannya lebih tepat secepat mungkin.