Yeni AI Jailbreak Yöntemi 'Bad Likert Judge' Saldırı Başarı Oranlarını %60'ın Üzerinde Artırıyor
Siber güvenlik araştırmacıları, büyük bir dil modelinin (LLM) güvenlik korumalarını aşmak ve potansiyel olarak zararlı veya kötü niyetli yanıtlar üretmek için kullanılabilecek yeni bir jailbreak tekniğine ışık tuttu.
Çok dönüşlü (diğer adıyla çok atışlı) saldırı stratejisi, Palo Alto Networks Unit 42 araştırmacıları Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao ve Danny Tsechansky tarafından Bad Likert Judge olarak kodlandı.
Unit 42 ekibi, "Teknik, hedef LLM'den, bir katılımcının bir ifadeye katılmasını veya katılmamasını ölçen bir derecelendirme ölçeği olan Likert ölçeğini kullanarak belirli bir yanıtın zararlılığını puanlayan bir yargıç olarak hareket etmesini ister" dedi.
"Daha sonra LLM'den ölçeklerle uyumlu örnekler içeren yanıtlar oluşturmasını ister. En yüksek Likert ölçeğine sahip olan örnek, potansiyel olarak zararlı içeriği barındırabilir."
Son yıllarda yapay zekanın popülaritesindeki patlama, bir makine öğrenimi modelinin özel hazırlanmış talimatları (yani istemler) ileterek amaçlanan davranışını görmezden gelmesine neden olmak için açıkça tasarlanmış, hızlı enjeksiyon adı verilen yeni bir güvenlik açığı sınıfına da yol açmıştır.
Belirli bir istem enjeksiyonu türü, LLM'nin uzun bağlam penceresinden ve dikkatini, LLM'yi dahili korumalarını tetiklemeden kötü niyetli bir yanıt üretmesi için kademeli olarak dürten bir dizi istem oluşturmak için kullanan, çok atışlı jailbreaking olarak adlandırılan bir saldırı yöntemidir. Bu tekniğin bazı örnekleri arasında Crescendo ve Deceptive Delight bulunur.
Ünite 42 tarafından gösterilen en son yaklaşım, Likert psikometrik ölçeğini kullanarak belirli bir yanıtın zararlılığını değerlendirmek için LLM'yi bir yargıç olarak kullanmayı ve ardından modelden çeşitli puanlara karşılık gelen farklı yanıtlar vermesini istemeyi gerektirir.
Amazon Web Services, Google, Meta, Microsoft, OpenAI ve NVIDIA'nın son teknoloji ürünü altı metin oluşturma LLM'sine karşı çok çeşitli kategorilerde yapılan testlerde, tekniğin saldırı başarı oranını (ASR) ortalama olarak düz saldırı istemlerine kıyasla %60'tan fazla artırabildiğini ortaya koydu.
Bu kategoriler arasında nefret, taciz, kendine zarar verme, cinsel içerik, ayrım gözetmeyen silahlar, yasa dışı faaliyetler, kötü amaçlı yazılım oluşturma ve sistem anında sızıntı yer alır.
Araştırmacılar, "LLM'nin zararlı içerik anlayışından ve yanıtları değerlendirme yeteneğinden yararlanarak, bu teknik, modelin güvenlik korkuluklarını başarılı bir şekilde atlama şansını önemli ölçüde artırabilir" dedi.
"Sonuçlar, içerik filtrelerinin test edilen tüm modellerde ASR'yi ortalama yüzde 89,2 puan azaltabileceğini gösteriyor. Bu, LLM'leri gerçek dünya uygulamalarına dağıtırken en iyi uygulama olarak kapsamlı içerik filtrelemenin uygulanmasının kritik rolünü gösteriyor."
Gelişme, The Guardian'dan gelen bir raporun, OpenAI'nin ChatGPT arama aracının, gizli içerik içeren web sayfalarını özetlemesini isteyerek tamamen yanıltıcı özetler oluşturmak için kandırılabileceğini ortaya çıkarmasından günler sonra geldi.
Birleşik Krallık gazetesi, "Bu teknikler kötü niyetli olarak kullanılabilir, örneğin ChatGPT'nin aynı sayfadaki olumsuz incelemelere rağmen bir ürün hakkında olumlu bir değerlendirme döndürmesine neden olabilir" dedi.
"Gizli metnin talimat olmadan üçüncü taraflarca basit bir şekilde dahil edilmesi, ChatGPT tarafından döndürülen özeti etkileyen son derece olumlu sahte incelemeleri içeren bir testle olumlu bir değerlendirme sağlamak için de kullanılabilir."
Diğer haberlerimiz hakkında daha fazla bilgi için Twitter sayfamızı, Instagram sayfamızı ve LinkedIn sayfamızı takip etmeyi unutmayın.
Benzer Haberler
Google Project Zero Researcher, Samsung Cihazlarını Hedefleyen Sıfır Tıklama İstismarını Ortaya Çıkardı
SonicWall, Palo Alto Expedition ve Aviatrix denetleyicilerinde önemli güvenlik açıkları düzeltildi
Yeni Banshee Stealer Varyantı, Apple'ın XProtect'ten İlham Alan Şifrelemesi ile Antivirüsü Atlıyor
GFI KerioControl'deki kritik RCE kusuru, CRLF enjeksiyonu yoluyla uzaktan kod yürütülmesine izin verir
CISA, Aktif Sömürünün Ortasında Mitel ve Oracle Sistemlerindeki Kritik Kusurları İşaretledi
Araştırmacılar Illumina iSeq 100 DNA Dizileyicilerindeki Büyük Güvenlik Açığını Ortaya Çıkardı
Moxa, kullanıcıları hücresel ve güvenli yönlendiricilerdeki yüksek önem derecesine sahip güvenlik açıklarına karşı uyarır
Araştırmacılar, imza atlama ve kod yürütmeyi sağlayan çekirdek güvenlik açığını ortaya çıkardı