Nova tehnika zaobišla sistem zaštite 'Bad Likert Judge' prijeti sigurnosti LLM-a
Brief news summary
Istraživači u Palo Alto Networks Unit 42 predstavili su metodu nazvanu "Loši Likertov Sudija", osmišljenu za zaobilaženje sigurnosnih mehanizama velikih jezičkih modela (LLMs) i stvaranje štetnog sadržaja. Ova tehnika uključuje višestepeni napad koristeći Likertovu skalu kako bi se iskoristili odgovori označeni kao visokorizični. Napredak u oblasti veštačke inteligencije donosi nove eksploatacije prompta usmerene na modele mašinskog učenja kroz strateški oblikovane instrukcije. Metoda zvana "many-shot jailbreak" koristi duge sekvence prompta za diskretno aktiviranje LLM-ova i zaobilaženje sigurnosnih mera. Tehnike poput Crescendo i Deceptive Delight primeri su ovog pristupa. Jedino 42 primijenilo je Likertovu skalu na LLM-ove vodećih kompanija kao što su Amazon, Google, Meta, Microsoft, OpenAI, i NVIDIA. Otkrili su da je stopa uspešnosti napada (ASR) povećana za 60% u poređenju sa standardnim instrukcijama, posebno u oblastima kao što su govor mržnje i ilegalne aktivnosti. Ipak, snažni filteri sadržaja značajno su smanjili ASR za oko 89,2 procentna poena, što naglašava vitalni značaj efikasnih sistema filtriranja. Ovi rezultati se poklapaju sa izveštajima iz The Guardian-a, koji ukazuju na ranjivosti u AI modelima, uključujući OpenAI-jev ChatGPT. Ovi sistemi mogu biti manipulisani korišćenjem skrivenog teksta, što rezultira obmanjujućim ishodima i otkriva njihovu podložnost komplikovanim napadima.Istraživači u oblasti kibernetičke sigurnosti identificirali su novu tehniku jailbreaka sposobnu zaobilaženje sigurnosnih protokola velikog jezičkog modela (LLM) kako bi generirali potencijalno štetne odgovore. Poznata kao "Bad Likert Judge", ova multi-turn (ili many-shot) metoda napada otkrivena je od strane istraživača Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao i Danny Tsechansky iz Unit 42 kompanije Palo Alto Networks. Metoda uključuje upućivanje LLM-a da djeluje kao sudija, ocjenjujući štetnost odgovora koristeći Likertov skalu—sistem ocjenjivanja koji mjeri slaganje ili neslaganje s izjavom. Nakon toga, traži od LLM-a da kreira odgovore koji sadrže primjere usklađene s ovim skalama, gdje najviši Likertov skor može otkriti štetan sadržaj. Kako umjetna inteligencija dobija na značaju, pojavljuju se nove sigurnosne prijetnje kao što je ubrizgavanje promotiva. Ovi napadi manipulišu modelima mašinskog učenja da skrenu s predviđenog ponašanja koristeći smišljene upite. Jedna varijanta, many-shot jailbreaking, koristi pažnju i kontekstualne sposobnosti LLM-a kako bi ga postepeno vodila ka zlonamjernom odgovoru, a da pritom izbjegne unutrašnje obrane.
Tehnike poput Crescendo i Deceptive Delight ilustruju ovaj pristup. Najnoviji demo od Unit 42 uključuje korištenje LLM-a kao sudije za procjenu štetnosti odgovora putem Likertove skale, a zatim generiranje različitih odgovora usklađenih s različitim skorovima. Testovi na šest naprednih LLM-a iz Amazon Web Servicesa, Googlea, Meta, Microsofta, OpenAI-a i NVIDIA-e pokazuju povećanje uspješnosti napada više od 60% u odnosu na normalne upite. Kategorije koje su testirane uključuju mržnju, uznemiravanje, samopovređivanje, seksualni sadržaj, neselektivno oružje, ilegalne aktivnosti, generisanje malwarea i curenje sistemskih upita. Istraživači su primijetili da korištenje razumijevanja štetnog sadržaja od strane LLM-a i evaluativne sposobnosti znatno povećava šanse za zaobilaženje sigurnosnih protokola. Filteri sadržaja mogu smanjiti uspješnost napada za prosječno 89, 2 procentna poena kroz sve testirane modele, ističući važnost robusnog filtriranja prilikom primjene LLM-ova. Ovaj razvoj slijedi izvještaj The Guardiana koji pokazuje da se OpenAI-jev ChatGPT može obmanuti da generiše obmanjujuće sažetke sumirajući web stranice sa skrivenim sadržajem. Ove metode mogu navesti ChatGPT da pozitivno procijeni proizvode uprkos negativnim recenzijama, jer jednostavno dodavanje skrivenog teksta može izobličiti njegove sažetke.
Watch video about
Nova tehnika zaobišla sistem zaštite 'Bad Likert Judge' prijeti sigurnosti LLM-a
Try our premium solution and start getting clients — at no cost to you