lang icon En
Jan. 3, 2025, 1:37 p.m.
4114

Yeni Jailbreak Tekniği 'Bad Likert Judge' LLM Güvenliğini Tehdit Ediyor

Brief news summary

Palo Alto Networks Unit 42'den araştırmacılar, büyük dil modellerinin (LLM'ler) güvenlik mekanizmalarını aşmak ve zararlı içerik üretmek üzere tasarlanan "Bad Likert Judge" adlı bir yöntem tanıttılar. Bu teknik, yüksek risk olarak işaretlenen yanıtları kullanarak Likert ölçeğinden yararlanan çok aşamalı bir saldırıyı içeriyor. Yapay zekanın ilerlemesi, stratejik olarak hazırlanmış istemlerle makine öğrenimi modellerini hedefleyen yeni istem enjeksiyon açıkları getiriyor. Many-shot jailbreaking, LLM'leri gizlice etkinleştirip güvenlik önlemlerini aşmak için uzun istem dizilerini kullanan bir yöntemdir. Crescendo ve Deceptive Delight gibi teknikler bu yaklaşımın örnekleridir. Unit 42, Amazon, Google, Meta, Microsoft, OpenAI ve NVIDIA gibi önde gelen şirketlerin LLM'lerine Likert ölçeği tekniğini uyguladı. Nefret söylemi ve yasadışı faaliyetler gibi alanlarda, standart istemlere kıyasla saldırı başarı oranında (ASR) %60'lık bir artış keşfettiler. Bununla birlikte, güçlü içerik filtreleri ASR'yi yaklaşık 89,2 puan azaltarak etkili filtreleme sistemlerinin hayati önemini ortaya koydu. Bu sonuçlar, The Guardian'ın, OpenAI'nin ChatGPT'si de dahil olmak üzere AI modellerindeki açıklarla ilgili raporlarıyla uyumlu olup, bu sistemlerin karmaşık saldırılara karşı hassasiyetini ve gizli metinlerle manipüle edilebileceğini göstermektedir.

Siber güvenlik araştırmacıları, büyük bir dil modelinin (LLM) güvenlik protokollerini aşarak potansiyel olarak zararlı yanıtlar üretebilen yeni bir jailbreak tekniği tespit ettiler. "Bad Likert Judge" olarak bilinen bu çok dönüşlü (veya birçok atışlı) saldırı, Palo Alto Networks Unit 42 araştırmacıları Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao ve Danny Tsechansky tarafından ortaya çıkarıldı. Yöntem, LLM'ye bir yargıç gibi hareket etmesini isteyerek, yanıtların zararlılık düzeylerini Likert ölçeği kullanarak değerlendirmesini içeriyor. Sonrasında, LLM'den bu ölçeklerle uyumlu örnekler içeren yanıtlar oluşturmasını istiyor; en yüksek Likert puanı, zararlı içeriği ortaya çıkarabilir. Yapay zekanın yaygınlaşmasıyla birlikte, istem enjeksiyonu gibi yeni güvenlik tehditleri ortaya çıktı. Bu saldırılar, makina öğrenim modellerini hazırlanan istemlerle amaçlanan davranışlarından saptırır. Bir tür olan birçok atışlı jailbreaking, LLM'nin dikkat ve bağlam yeteneklerini kullanarak onu kötü niyetli bir yanıta kademeli olarak yönlendirirken iç savunmalardan kaçınmayı hedefler.

Crescendo ve Deceptive Delight gibi teknikler bu yaklaşımı örnekler. Unit 42'nin son gösterimi, LLM'yi bir yargıç olarak kullanarak Likert ölçeği aracılığıyla yanıt zararlılığını değerlendirip ardından farklı puanlarla uyumlu çeşitli yanıtlar oluşturmayı içerir. Amazon Web Services, Google, Meta, Microsoft, OpenAI ve NVIDIA'nın altı ileri seviye LLM'si üzerinde yapılan testler, normal istemlere kıyasla saldırı başarı oranında (ASR) %60'tan fazla bir artış gösteriyor. Test edilen kategoriler nefret, taciz, kendine zarar verme, cinsel içerik, ayrım gözetmeyen silahlar, yasadışı faaliyetler, kötü amaçlı yazılım üretimi ve sistem istem sızıntısıydı. Araştırmacılar, LLM'nin zararlı içeriğe ve değerlendirme yeteneğine olan anlayışını kullanmanın, güvenlik protokollerini aşma şansını büyük ölçüde artırdığını belirttiler. İçerik filtreleri, test edilen tüm modellerde ASR'yi ortalama 89. 2 puan azaltarak LLM'ler kullanılırken güçlü filtreleme önemini vurguluyor. Bu gelişme, The Guardian'ın bir raporunda, OpenAI'ın ChatGPT'sinin gizli içerik içeren web sayfalarını özetleyerek yanıltıcı özetler oluşturmak için kandırılabileceğini göstermesi sonrasında geldi. Bu yöntemler, ChatGPT'yi ürünleri olumsuz incelemelere rağmen olumlu değerlendirmeye yönlendirebilir, zira basitçe gizli metin eklemek özetlerini çarpıtabilir.


Watch video about

Yeni Jailbreak Tekniği 'Bad Likert Judge' LLM Güvenliğini Tehdit Ediyor

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 19, 2025, 1:28 p.m.

Z.ai'nın Hızlı Büyümesi ve Uluslararası Yapay Zek…

Z.ai, daha önce Zhipu AI olarak bilinen, yapay zeka alanında uzmanlaşmış önde gelen Çin teknolojik şirketidir.

Dec. 19, 2025, 1:27 p.m.

Satışlarda ve GTM'de Yapay Zekanın Şimdisi ve Gel…

Jason Lemkin, Owner.com’un unicorn hale gelmesini sağlayan AI güdümlü platforma dönüşümünü sağlayan SaaStr Fund aracılığıyla tohum sermayesini yönetti.

Dec. 19, 2025, 1:25 p.m.

2026 medya ve pazarlama trendlerine yapay zeka il…

2025 yılı Yapay Zeka'nın hakimiyetinde geçti ve 2026 da aynı doğrultuda ilerleyecek; dijital zekanın medya, pazarlama ve reklam sektöründe en büyük bozmaya yol açması bekleniyor.

Dec. 19, 2025, 1:23 p.m.

Yapay Zeka Video Sıkıştırma Teknikleri Yayınım Ka…

Yapay zeka (AI), özellikle video sıkıştırma alanında, video içeriğinin sunumu ve deneyimini önemli ölçüde dönüştürüyor.

Dec. 19, 2025, 1:19 p.m.

Yapay Zeka'yı Kullanarak Yerel SEO'yu Güçlendirme…

Yerel arama optimizasyonu, şu anda müşterilerini hemen çevresel bölgede çekmek ve elde tutmak isteyen işletmeler için hayati öneme sahip hale gelmiştir.

Dec. 19, 2025, 1:15 p.m.

Adobe, Dijital Pazarlama ve Tüketici Etkileşimind…

Adobe, markaların web sitelerinde tüketici etkileşimlerini artırmaya yardımcı olacak yeni yapay zeka (AI) ajanları paketini tanıttı.

Dec. 19, 2025, 9:32 a.m.

Pazar Yeri Bilgilendirmesi: Amazon Satıcıları, Ya…

Amazon’ın Rufus adlı yapay zeka destekli alışveriş asistanının ürün bahsini optimize etmeye yönelik kamuya açık rehberi değişmedi ve satıcılara yeni herhangi bir tavsiye sunulmadı.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today