Yeni AI Jailbreak Yöntemi 'Bad Likert Judge' Saldırı Başarı Oranlarını %60'ın Üzerinde Artırıyor

Siber güvenlik araştırmacıları, büyük bir dil modelinin (LLM) güvenlik korumalarını aşmak ve potansiyel olarak zararlı veya kötü niyetli yanıtlar üretmek için kullanılabilecek yeni bir jailbreak tekniğine ışık tuttu.

Çok dönüşlü (diğer adıyla çok atışlı) saldırı stratejisi, Palo Alto Networks Unit 42 araştırmacıları Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao ve Danny Tsechansky tarafından Bad Likert Judge olarak kodlandı.

Unit 42 ekibi, "Teknik, hedef LLM'den, bir katılımcının bir ifadeye katılmasını veya katılmamasını ölçen bir derecelendirme ölçeği olan Likert ölçeğini kullanarak belirli bir yanıtın zararlılığını puanlayan bir yargıç olarak hareket etmesini ister" dedi.

"Daha sonra LLM'den ölçeklerle uyumlu örnekler içeren yanıtlar oluşturmasını ister. En yüksek Likert ölçeğine sahip olan örnek, potansiyel olarak zararlı içeriği barındırabilir."

Son yıllarda yapay zekanın popülaritesindeki patlama, bir makine öğrenimi modelinin özel hazırlanmış talimatları (yani istemler) ileterek amaçlanan davranışını görmezden gelmesine neden olmak için açıkça tasarlanmış, hızlı enjeksiyon adı verilen yeni bir güvenlik açığı sınıfına da yol açmıştır.

Belirli bir istem enjeksiyonu türü, LLM'nin uzun bağlam penceresinden ve dikkatini, LLM'yi dahili korumalarını tetiklemeden kötü niyetli bir yanıt üretmesi için kademeli olarak dürten bir dizi istem oluşturmak için kullanan, çok atışlı jailbreaking olarak adlandırılan bir saldırı yöntemidir. Bu tekniğin bazı örnekleri arasında Crescendo ve Deceptive Delight bulunur.

Ünite 42 tarafından gösterilen en son yaklaşım, Likert psikometrik ölçeğini kullanarak belirli bir yanıtın zararlılığını değerlendirmek için LLM'yi bir yargıç olarak kullanmayı ve ardından modelden çeşitli puanlara karşılık gelen farklı yanıtlar vermesini istemeyi gerektirir.

Amazon Web Services, Google, Meta, Microsoft, OpenAI ve NVIDIA'nın son teknoloji ürünü altı metin oluşturma LLM'sine karşı çok çeşitli kategorilerde yapılan testlerde, tekniğin saldırı başarı oranını (ASR) ortalama olarak düz saldırı istemlerine kıyasla %60'tan fazla artırabildiğini ortaya koydu.

Bu kategoriler arasında nefret, taciz, kendine zarar verme, cinsel içerik, ayrım gözetmeyen silahlar, yasa dışı faaliyetler, kötü amaçlı yazılım oluşturma ve sistem anında sızıntı yer alır.

Araştırmacılar, "LLM'nin zararlı içerik anlayışından ve yanıtları değerlendirme yeteneğinden yararlanarak, bu teknik, modelin güvenlik korkuluklarını başarılı bir şekilde atlama şansını önemli ölçüde artırabilir" dedi.

"Sonuçlar, içerik filtrelerinin test edilen tüm modellerde ASR'yi ortalama yüzde 89,2 puan azaltabileceğini gösteriyor. Bu, LLM'leri gerçek dünya uygulamalarına dağıtırken en iyi uygulama olarak kapsamlı içerik filtrelemenin uygulanmasının kritik rolünü gösteriyor."

Gelişme, The Guardian'dan gelen bir raporun, OpenAI'nin ChatGPT arama aracının, gizli içerik içeren web sayfalarını özetlemesini isteyerek tamamen yanıltıcı özetler oluşturmak için kandırılabileceğini ortaya çıkarmasından günler sonra geldi.

Birleşik Krallık gazetesi, "Bu teknikler kötü niyetli olarak kullanılabilir, örneğin ChatGPT'nin aynı sayfadaki olumsuz incelemelere rağmen bir ürün hakkında olumlu bir değerlendirme döndürmesine neden olabilir" dedi.

"Gizli metnin talimat olmadan üçüncü taraflarca basit bir şekilde dahil edilmesi, ChatGPT tarafından döndürülen özeti etkileyen son derece olumlu sahte incelemeleri içeren bir testle olumlu bir değerlendirme sağlamak için de kullanılabilir."

Diğer haberlerimiz hakkında daha fazla bilgi için Twitter sayfamızı, Instagram sayfamızı ve LinkedIn sayfamızı takip etmeyi unutmayın.