Siber güvenlik araştırmacıları, büyük bir dil modelinin (LLM) güvenlik protokollerini aşarak potansiyel olarak zararlı yanıtlar üretebilen yeni bir jailbreak tekniği tespit ettiler. "Bad Likert Judge" olarak bilinen bu çok dönüşlü (veya birçok atışlı) saldırı, Palo Alto Networks Unit 42 araştırmacıları Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao ve Danny Tsechansky tarafından ortaya çıkarıldı. Yöntem, LLM'ye bir yargıç gibi hareket etmesini isteyerek, yanıtların zararlılık düzeylerini Likert ölçeği kullanarak değerlendirmesini içeriyor. Sonrasında, LLM'den bu ölçeklerle uyumlu örnekler içeren yanıtlar oluşturmasını istiyor; en yüksek Likert puanı, zararlı içeriği ortaya çıkarabilir. Yapay zekanın yaygınlaşmasıyla birlikte, istem enjeksiyonu gibi yeni güvenlik tehditleri ortaya çıktı. Bu saldırılar, makina öğrenim modellerini hazırlanan istemlerle amaçlanan davranışlarından saptırır. Bir tür olan birçok atışlı jailbreaking, LLM'nin dikkat ve bağlam yeteneklerini kullanarak onu kötü niyetli bir yanıta kademeli olarak yönlendirirken iç savunmalardan kaçınmayı hedefler.
Crescendo ve Deceptive Delight gibi teknikler bu yaklaşımı örnekler. Unit 42'nin son gösterimi, LLM'yi bir yargıç olarak kullanarak Likert ölçeği aracılığıyla yanıt zararlılığını değerlendirip ardından farklı puanlarla uyumlu çeşitli yanıtlar oluşturmayı içerir. Amazon Web Services, Google, Meta, Microsoft, OpenAI ve NVIDIA'nın altı ileri seviye LLM'si üzerinde yapılan testler, normal istemlere kıyasla saldırı başarı oranında (ASR) %60'tan fazla bir artış gösteriyor. Test edilen kategoriler nefret, taciz, kendine zarar verme, cinsel içerik, ayrım gözetmeyen silahlar, yasadışı faaliyetler, kötü amaçlı yazılım üretimi ve sistem istem sızıntısıydı. Araştırmacılar, LLM'nin zararlı içeriğe ve değerlendirme yeteneğine olan anlayışını kullanmanın, güvenlik protokollerini aşma şansını büyük ölçüde artırdığını belirttiler. İçerik filtreleri, test edilen tüm modellerde ASR'yi ortalama 89. 2 puan azaltarak LLM'ler kullanılırken güçlü filtreleme önemini vurguluyor. Bu gelişme, The Guardian'ın bir raporunda, OpenAI'ın ChatGPT'sinin gizli içerik içeren web sayfalarını özetleyerek yanıltıcı özetler oluşturmak için kandırılabileceğini göstermesi sonrasında geldi. Bu yöntemler, ChatGPT'yi ürünleri olumsuz incelemelere rağmen olumlu değerlendirmeye yönlendirebilir, zira basitçe gizli metin eklemek özetlerini çarpıtabilir.
Yeni Jailbreak Tekniği 'Bad Likert Judge' LLM Güvenliğini Tehdit Ediyor
Z.ai, daha önce Zhipu AI olarak bilinen, yapay zeka alanında uzmanlaşmış önde gelen Çin teknolojik şirketidir.
Jason Lemkin, Owner.com’un unicorn hale gelmesini sağlayan AI güdümlü platforma dönüşümünü sağlayan SaaStr Fund aracılığıyla tohum sermayesini yönetti.
2025 yılı Yapay Zeka'nın hakimiyetinde geçti ve 2026 da aynı doğrultuda ilerleyecek; dijital zekanın medya, pazarlama ve reklam sektöründe en büyük bozmaya yol açması bekleniyor.
Yapay zeka (AI), özellikle video sıkıştırma alanında, video içeriğinin sunumu ve deneyimini önemli ölçüde dönüştürüyor.
Yerel arama optimizasyonu, şu anda müşterilerini hemen çevresel bölgede çekmek ve elde tutmak isteyen işletmeler için hayati öneme sahip hale gelmiştir.
Adobe, markaların web sitelerinde tüketici etkileşimlerini artırmaya yardımcı olacak yeni yapay zeka (AI) ajanları paketini tanıttı.
Amazon’ın Rufus adlı yapay zeka destekli alışveriş asistanının ürün bahsini optimize etmeye yönelik kamuya açık rehberi değişmedi ve satıcılara yeni herhangi bir tavsiye sunulmadı.
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today