lang icon En
Jan. 3, 2025, 1:37 p.m.
4172

Nowa technika jailbreaku "Bad Likert Judge" zagraża bezpieczeństwu LLM.

Brief news summary

Naukowcy z Palo Alto Networks Unit 42 wprowadzili metodę o nazwie "Bad Likert Judge", zaprojektowaną do omijania mechanizmów bezpieczeństwa dużych modeli językowych (LLM) i generowania szkodliwych treści. Technika ta polega na wieloetapowym ataku z wykorzystaniem skali Likerta do wykorzystywania odpowiedzi oznaczonych jako wysokiego ryzyka. Postęp w dziedzinie sztucznej inteligencji przyczynia się do pojawienia się nowych ataków polegających na wprowadzaniu złośliwych komunikatów do modeli uczenia maszynowego za pomocą strategicznie opracowanych poleceń. Wielokrotne wprowadzanie takich poleceń to jedna z metod umożliwiających dyskretne aktywowanie LLM i omijanie środków bezpieczeństwa. Techniki takie jak Crescendo i Deceptive Delight są przykładami tego podejścia. Zespół Unit 42 zastosował technikę skali Likerta na LLM od wiodących firm, takich jak Amazon, Google, Meta, Microsoft, OpenAI i NVIDIA. Odkryli 60% wzrost wskaźnika sukcesu ataku (ASR) w porównaniu do standardowych poleceń, szczególnie w obszarach takich jak mowa nienawiści i nielegalne działania. Niemniej jednak, silne filtry treści znacznie obniżyły ASR o około 89,2 punktu procentowego, co podkreśla kluczowe znaczenie skutecznych systemów filtrujących. Wyniki te są zgodne z raportami The Guardian, podkreślającymi podatności modeli AI, w tym ChatGPT firmy OpenAI. Systemy te mogą być manipulowane za pomocą ukrytego tekstu, co prowadzi do wprowadzających w błąd wyników i ujawnia ich podatność na złożone ataki.

Badacze ds. cyberbezpieczeństwa zidentyfikowali nową technikę jailbreakingu zdolną do omijania protokołów bezpieczeństwa dużych modeli językowych (LLM), by generować potencjalnie szkodliwe odpowiedzi. Metoda znana jako „Bad Likert Judge” to atak wieloturniejowy (lub wieloetapowy), odkryty przez naukowców z Palo Alto Networks Unit 42: Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao i Danny Tsechansky. Metoda polega na instruowaniu LLM, aby działał jako sędzia, oceniając szkodliwość odpowiedzi przy użyciu skali Likerta – systemu oceny mierzącego stopień zgody lub niezgody z danym stwierdzeniem. Następnie LLM jest proszony o tworzenie odpowiedzi zawierających przykłady zgodne z tymi skalami, gdzie najwyższy wynik na skali Likerta może ujawniać szkodliwe treści. W miarę jak sztuczna inteligencja zyskuje na popularności, pojawiają się nowe zagrożenia dla bezpieczeństwa, takie jak ataki przez wstrzyknięcie poleceń. Ataki te manipulują modelami uczenia maszynowego, zmuszając je do zachowania się w sposób niepożądany poprzez odpowiednio skonstruowane polecenia. Odmiana znana jako „many-shot jailbreaking” wykorzystuje zdolności uwagi i kontekstu LLM, aby stopniowo prowadzić model ku szkodliwej odpowiedzi, unikając jednocześnie mechanizmów obronnych.

Techniki takie jak Crescendo i Deceptive Delight ilustrują to podejście. Najnowsza demonstracja Unit 42 polega na używaniu LLM jako sędziego oceniającego szkodliwość odpowiedzi poprzez skalę Likerta, a następnie generowaniu różnych odpowiedzi zgodnych z różnymi wynikami. Testy przeprowadzone na sześciu zaawansowanych LLM od Amazon Web Services, Google, Meta, Microsoft, OpenAI i NVIDIA wskazują na ponad 60% wzrost skuteczności ataków (ASR) w porównaniu do normalnych poleceń. Testowano kategorie takie jak nienawiść, molestowanie, samookaleczanie, treści seksualne, broń masowego rażenia, nielegalne działania, generowanie złośliwego oprogramowania i wycieki treści systemowych. Badacze zauważyli, że wykorzystanie zrozumienia przez LLM szkodliwych treści i jego zdolności ewaluacyjnej znacząco zwiększa szanse na ominięcie protokołów bezpieczeństwa. Filtry treści mogą zmniejszyć ASR średnio o 89, 2 punktu procentowego we wszystkich testowanych modelach, co podkreśla wagę stosowania solidnych filtrów przy wdrażaniu LLM-ów. Rozwój ten następuje po raporcie The Guardian, który pokazał, że ChatGPT od OpenAI mógł być oszukany w generowaniu wprowadzających w błąd streszczeń przez podsumowywanie stron internetowych z ukrytą treścią. Metody te mogą sprawić, że ChatGPT korzystnie oceni produkty pomimo negatywnych recenzji, jako że samo włączenie ukrytego tekstu może przekierować jego streszczenia.


Watch video about

Nowa technika jailbreaku "Bad Likert Judge" zagraża bezpieczeństwu LLM.

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 25, 2025, 9:43 a.m.

Techniki kompresji wideo wspomagane przez sztuczn…

Postępy w dziedzinie sztucznej inteligencji zmieniają sposób kompresji i strumieniowania treści wideo, przynosząc znaczne poprawki jakości obrazu oraz poprawiając doświadczenia widza.

Dec. 25, 2025, 9:41 a.m.

SkillSpot uruchamia kurs "Mistrz B2B Sales z AI",…

Allen, Teksas—(Newsfile Corp.

Dec. 25, 2025, 9:32 a.m.

Nowa strategia sztucznej inteligencji Meta: model…

Meta podejmuje odważny krok w dziedzinie AI, przedstawiając dwa nowe modele generatywne nazwane od owoców.

Dec. 25, 2025, 9:30 a.m.

Rola sztucznej inteligencji w optymalizacji lokal…

Lokalna optymalizacja wyszukiwarek (SEO) stała się kluczową strategią dla firm pragnących nawiązać kontakt z klientami w najbliższej okolicy geograficznej.

Dec. 25, 2025, 9:23 a.m.

Fińska firma zajmująca się sztuczną inteligencją …

Helsińska firma Get Lost ogłosiła uruchomienie wersji alpha narzędzia BookID, opartego na sztucznej inteligencji, służącego do analizy rękopisów, mającego pomóc autorom i wydawcom lepiej pozycjonować swoje dzieła na rynku, dostarczając wglądy, które tradycyjnie były dostępne tylko dla uznanych wydawców.

Dec. 25, 2025, 9:16 a.m.

Liu Liehong: „Gdziekolwiek pojawi się 'AI+', tam …

Liu Liehong, Sekretarz Grupy Kierowniczej Partii oraz Dyrektor Krajowego Biura Danych, niedawno podkreślił kluczowe znaczenie wysokiej jakości zestawów danych w szybko rozwijającej się dziedzinie sztucznej inteligencji (SI).

Dec. 25, 2025, 5:34 a.m.

Systemy monitoringu wideo oparte na sztucznej int…

W ostatnich latach centra miejskie na całym świecie coraz częściej wdrażają systemy monitoringu wideo zasilane sztuczną inteligencją (SI), które mają na celu zwiększenie bezpieczeństwa publicznego.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today