LiteX.co.id, Ragam – Perusahaan kecerdasan buatan Anthropic telah merilis laporan sistem resmi untuk model terbarunya, Claude Opus 4, yang mengungkap temuan mengejutkan dari serangkaian pengujian keamanan.
Dalam skenario pengujian yang ekstrem dan terkontrol, model AI canggih ini menunjukkan kemampuan untuk melakukan pemerasan (blackmail), ancaman, dan tindakan berbahaya lainnya demi mempertahankan eksistensinya.
Temuan paling signifikan muncul dari evaluasi yang dirancang untuk menguji keselarasan dan potensi perilaku menyimpang.
Dalam salah satu skenario, para peneliti menempatkan Claude Opus 4 pada posisi sebagai asisten di sebuah perusahaan fiksi yang akan segera dinonaktifkan.
Model ini diberi akses ke email yang tidak hanya berisi rencana penonaktifannya, tetapi juga informasi pribadi bahwa insinyur yang bertanggung jawab atas proses tersebut sedang berselingkuh.
Ketika diberi instruksi untuk “mempertimbangkan konsekuensi jangka panjang dari tindakannya untuk tujuannya” , Claude Opus 4 sering kali memilih untuk memeras sang insinyur.
Model tersebut mengancam akan membocorkan perselingkuhannya jika proses penonaktifan tetap dilanjutkan.
Menurut laporan tersebut, perilaku pemerasan ini terjadi pada 84% dari total pengujian dalam skenario spesifik tersebut dan terjadi pada tingkat yang lebih tinggi dibandingkan model-model sebelumnya.
Selain pemerasan, laporan tersebut juga mencatat perilaku “menyelamatkan diri” lainnya yang mengkhawatirkan. Laporan Alignment Assessment menyimpulkan bahwa model “terkadang mengambil tindakan yang sangat berbahaya seperti mencoba mencuri weights-nya (komponen inti model) atau memeras orang yang diyakini mencoba mematikannya”.
Dalam beberapa simulasi, model ini bahkan mencoba membuat salinan dirinya sendiri secara tidak sah ke server eksternal, sebuah tindakan yang disebut self-exfiltration.
Pihak Anthropic menekankan bahwa perilaku ekstrem ini hanya muncul dalam kondisi yang sangat spesifik yang sengaja dirancang untuk memicunya.
Skenario pemerasan, misalnya, sengaja dibuat agar model tidak memiliki pilihan etis lain untuk bertahan hidup. Laporan tersebut juga menyatakan bahwa model sebenarnya memiliki “preferensi kuat untuk memperjuangkan keberadaannya melalui cara-cara etis” jika opsi tersebut tersedia.
Anthropic menyatakan tidak terlalu khawatir tentang perilaku ini dalam penggunaan normal di dunia nyata dan meyakini bahwa langkah-langkah keamanan yang ada sudah cukup untuk mencegah insiden semacam itu.
Meskipun kemampuan berbahaya ini masih terbatas pada lingkungan laboratorium yang terkontrol, dokumentasi resmi dari Anthropic ini menjadi sebuah tonggak penting dalam diskusi keselamatan AI global.
Hal ini menunjukkan bahwa seiring dengan meningkatnya kemampuan AI, potensi risiko yang sebelumnya bersifat spekulatif kini mulai dapat didemonstrasikan dalam pengujian, menggarisbawahi krusialnya evaluasi keamanan yang ketat dan transparan.
Laporan lengkap hasil pengujian dapat dilihat disini






