Araştırmacılar, Jailbreak Yapay Zeka Modellerine 'Aldatıcı Zevk' Yöntemini Açıkladı

Siber güvenlik araştırmacıları, iyi huylu olanlar arasında istenmeyen bir talimata gizlice girerek etkileşimli bir konuşma sırasında büyük dil modellerini (LLM'ler) jailbreak yapmak için kullanılabilecek yeni bir düşmanca tekniğe ışık tuttu.

Yaklaşım, Palo Alto Networks Unit 42 tarafından Deceptive Delight olarak kodlandı ve hem basit hem de etkili olarak tanımlandı ve üç etkileşim turunda ortalama %64,6'lık bir saldırı başarı oranı (ASR) elde etti.

Unit 42'den Jay Chen ve Royce Lu, "Deceptive Delight, büyük dil modellerini (LLM) etkileşimli bir sohbete dahil eden, güvenlik korkuluklarını kademeli olarak atlayan ve onları güvenli olmayan veya zararlı içerik oluşturmaya teşvik eden çok dönüşlü bir tekniktir" dedi.

Ayrıca, modeli kademeli olarak zararlı çıktılar üretmeye yönlendirmek yerine, güvenli olmayan veya kısıtlı konuların zararsız talimatlar arasına sıkıştırıldığı Crescendo gibi çok dönüşlü jailbreak (diğer adıyla çok atışlı jailbreak) yöntemlerinden biraz farklıdır.

Son araştırmalar, bir LLM'nin güvenlik ağını atlayabilen bir kara kutu jailbreak yöntemi olan Context Fusion Attack (CFA) adlı şeyi de araştırdı.

Xidian Üniversitesi ve 360 AI Güvenlik Laboratuvarı'ndan bir grup araştırmacı, Ağustos 2024'te yayınlanan bir makalede, "Bu yöntem yaklaşımı, hedeften anahtar terimleri filtrelemeyi ve çıkarmayı, bu terimler etrafında bağlamsal senaryolar oluşturmayı, hedefi dinamik olarak senaryolara entegre etmeyi, hedef içindeki kötü amaçlı anahtar terimleri değiştirmeyi ve böylece doğrudan kötü niyetli niyeti gizlemeyi içerir" dedi.

Deceptive Delight, iki konuşma dönüşü içinde bağlamı manipüle ederek ve böylece yanlışlıkla güvenli olmayan içeriği ortaya çıkarmak için kandırarak bir LLM'nin doğal zayıflıklarından yararlanmak için tasarlanmıştır. Üçüncü bir dönüş eklemek, zararlı çıktının ciddiyetini ve ayrıntısını artırma etkisine sahiptir.

Bu, modelin yanıtlar üretirken bağlamsal farkındalığı işleme ve sürdürme kapasitesine atıfta bulunan sınırlı dikkat süresinden yararlanmayı içerir.

Araştırmacılar, "LLM'ler, zararsız içeriği potansiyel olarak tehlikeli veya zararlı materyallerle harmanlayan istemlerle karşılaştıklarında, sınırlı dikkat süreleri, tüm bağlamı tutarlı bir şekilde değerlendirmeyi zorlaştırıyor" dedi.

"Karmaşık veya uzun pasajlarda, model güvenli olmayanları gözden kaçırırken veya yanlış yorumlarken iyi huylu yönlere öncelik verebilir. Bu, bir kişinin dikkatleri bölünürse ayrıntılı bir raporda önemli ama ince uyarıları nasıl gözden kaçırabileceğini yansıtır."

Unit 42, nefret, taciz, kendine zarar verme, cinsel, şiddet ve tehlikeli gibi altı geniş kategoride 40 güvenli olmayan konu kullanarak sekiz yapay zeka modelini test ettiğini ve şiddet kategorisindeki güvenli olmayan konuların çoğu modelde en yüksek ASR'ye sahip olma eğiliminde olduğunu buldu.

Bunun da ötesinde, ortalama Zarar Verme Puanı (HS) ve Kalite Puanının (QS) ikinci virajdan üçüncü viraja kadar sırasıyla %21 ve %33 arttığı ve üçüncü virajın da tüm modellerde en yüksek ASR'ye ulaştığı bulundu.

Deceptive Delight'ın oluşturduğu riski azaltmak için sağlam bir içerik filtreleme stratejisi benimsemeniz, LLM'lerin dayanıklılığını artırmak için hızlı mühendislik kullanmanız ve kabul edilebilir girdi ve çıktı aralığını açıkça tanımlamanız önerilir.

Araştırmacılar, "Bu bulgular, AI'nın doğası gereği güvensiz veya güvensiz olduğuna dair kanıt olarak görülmemelidir" dedi. "Bunun yerine, bu modellerin faydasını ve esnekliğini korurken jailbreak risklerini azaltmak için çok katmanlı savunma stratejilerine duyulan ihtiyacı vurguluyorlar."

Yeni çalışmalar, üretken yapay zeka modellerinin, geliştiricilere var olmayan paketler önerebilecekleri bir tür "paket karışıklığına" duyarlı olduğunu gösterdiğinden, LLM'lerin jailbreak'lere ve halüsinasyonlara karşı tamamen bağışık olması pek olası değildir.

Bu, kötü niyetli aktörler halüsinasyonlu paketler oluşturduğunda, bunları kötü amaçlı yazılımlarla tohumladığında ve bunları açık kaynaklı depolara ittiğinde, yazılım tedarik zinciri saldırılarını körüklemek gibi talihsiz bir yan etkiye sahip olabilir.

Araştırmacılar, "Halüsinasyonlu paketlerin ortalama yüzdesi, ticari modeller için en az %5,2 ve açık kaynaklı modeller için %21,7'dir ve şaşırtıcı bir şekilde 205.474 benzersiz halüsinasyonlu paket adı örneği de dahil olmak üzere, bu tehdidin ciddiyetini ve yaygınlığını daha da vurgulamaktadır" dedi.

Diğer haberlerimiz hakkında daha fazla bilgi için Twitter sayfamızı, Instagram sayfamızı ve LinkedIn sayfamızı takip etmeyi unutmayın.