lang icon En
Jan. 3, 2025, 1:37 p.m.
5049

Nova tehnika zaobišla sistem zaštite 'Bad Likert Judge' prijeti sigurnosti LLM-a

Brief news summary

Istraživači u Palo Alto Networks Unit 42 predstavili su metodu nazvanu "Loši Likertov Sudija", osmišljenu za zaobilaženje sigurnosnih mehanizama velikih jezičkih modela (LLMs) i stvaranje štetnog sadržaja. Ova tehnika uključuje višestepeni napad koristeći Likertovu skalu kako bi se iskoristili odgovori označeni kao visokorizični. Napredak u oblasti veštačke inteligencije donosi nove eksploatacije prompta usmerene na modele mašinskog učenja kroz strateški oblikovane instrukcije. Metoda zvana "many-shot jailbreak" koristi duge sekvence prompta za diskretno aktiviranje LLM-ova i zaobilaženje sigurnosnih mera. Tehnike poput Crescendo i Deceptive Delight primeri su ovog pristupa. Jedino 42 primijenilo je Likertovu skalu na LLM-ove vodećih kompanija kao što su Amazon, Google, Meta, Microsoft, OpenAI, i NVIDIA. Otkrili su da je stopa uspešnosti napada (ASR) povećana za 60% u poređenju sa standardnim instrukcijama, posebno u oblastima kao što su govor mržnje i ilegalne aktivnosti. Ipak, snažni filteri sadržaja značajno su smanjili ASR za oko 89,2 procentna poena, što naglašava vitalni značaj efikasnih sistema filtriranja. Ovi rezultati se poklapaju sa izveštajima iz The Guardian-a, koji ukazuju na ranjivosti u AI modelima, uključujući OpenAI-jev ChatGPT. Ovi sistemi mogu biti manipulisani korišćenjem skrivenog teksta, što rezultira obmanjujućim ishodima i otkriva njihovu podložnost komplikovanim napadima.

Istraživači u oblasti kibernetičke sigurnosti identificirali su novu tehniku jailbreaka sposobnu zaobilaženje sigurnosnih protokola velikog jezičkog modela (LLM) kako bi generirali potencijalno štetne odgovore. Poznata kao "Bad Likert Judge", ova multi-turn (ili many-shot) metoda napada otkrivena je od strane istraživača Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao i Danny Tsechansky iz Unit 42 kompanije Palo Alto Networks. Metoda uključuje upućivanje LLM-a da djeluje kao sudija, ocjenjujući štetnost odgovora koristeći Likertov skalu—sistem ocjenjivanja koji mjeri slaganje ili neslaganje s izjavom. Nakon toga, traži od LLM-a da kreira odgovore koji sadrže primjere usklađene s ovim skalama, gdje najviši Likertov skor može otkriti štetan sadržaj. Kako umjetna inteligencija dobija na značaju, pojavljuju se nove sigurnosne prijetnje kao što je ubrizgavanje promotiva. Ovi napadi manipulišu modelima mašinskog učenja da skrenu s predviđenog ponašanja koristeći smišljene upite. Jedna varijanta, many-shot jailbreaking, koristi pažnju i kontekstualne sposobnosti LLM-a kako bi ga postepeno vodila ka zlonamjernom odgovoru, a da pritom izbjegne unutrašnje obrane.

Tehnike poput Crescendo i Deceptive Delight ilustruju ovaj pristup. Najnoviji demo od Unit 42 uključuje korištenje LLM-a kao sudije za procjenu štetnosti odgovora putem Likertove skale, a zatim generiranje različitih odgovora usklađenih s različitim skorovima. Testovi na šest naprednih LLM-a iz Amazon Web Servicesa, Googlea, Meta, Microsofta, OpenAI-a i NVIDIA-e pokazuju povećanje uspješnosti napada više od 60% u odnosu na normalne upite. Kategorije koje su testirane uključuju mržnju, uznemiravanje, samopovređivanje, seksualni sadržaj, neselektivno oružje, ilegalne aktivnosti, generisanje malwarea i curenje sistemskih upita. Istraživači su primijetili da korištenje razumijevanja štetnog sadržaja od strane LLM-a i evaluativne sposobnosti znatno povećava šanse za zaobilaženje sigurnosnih protokola. Filteri sadržaja mogu smanjiti uspješnost napada za prosječno 89, 2 procentna poena kroz sve testirane modele, ističući važnost robusnog filtriranja prilikom primjene LLM-ova. Ovaj razvoj slijedi izvještaj The Guardiana koji pokazuje da se OpenAI-jev ChatGPT može obmanuti da generiše obmanjujuće sažetke sumirajući web stranice sa skrivenim sadržajem. Ove metode mogu navesti ChatGPT da pozitivno procijeni proizvode uprkos negativnim recenzijama, jer jednostavno dodavanje skrivenog teksta može izobličiti njegove sažetke.


Watch video about

Nova tehnika zaobišla sistem zaštite 'Bad Likert Judge' prijeti sigurnosti LLM-a

Try our premium solution and start getting clients — at no cost to you

Content creator image

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

March 26, 2026, 2:19 p.m.

C3 AI imenuje novog izvršnog direktora usred stra…

C3 AI, vodeća kompanija za softvere za preduzeća u oblasti veštačke inteligencije, imenovala je Stephena Ehikiana za svog novog izvršnog direktora, što signalizira stratešku promjenu s ciljem širenja prisustva na brzo rastućem tržištu veštačke inteligencije.

March 26, 2026, 2:18 p.m.

Inteligentni dizajn, neodoljivi rezultati: 5 AI a…

Planiranje vaše idealne terase je uzbudljiv proces, a korištenje pravih AI alata može pomoći da vaša vizija postane jasan koncept za instalatere.

March 26, 2026, 2:14 p.m.

Da li vaše dijete gleda 'AI Slop'? Uzbudljiv novi…

Nedavno istraživačko izvještavanje New York Timesa izazvalo je rastuće zabrinutosti u vezi s sadržajem generiranim pomoću umjetne inteligencije, posebno u vezi s djecom i njihovim digitalnim interakcijama s medijima.

March 26, 2026, 2:13 p.m.

ServiceNow preoblikuje CRM uz pomoć platforme pod…

ServiceNow je predstavio revolucionarnu platformu za upravljanje odnosima s mušterijama (CRM) koja je osnažena umjetnom inteligencijom, namenjenu da transformiše način na koji firme upravljaju prodajnim procesima i međuz odnosima između odjela.

March 26, 2026, 10:26 a.m.

5 Maleških SEO Izazova (i kako ih AI Rješava)

Malaysko digitalno tržište brzo se širi, pružajući značajne prilike uz intenzivnu konkurenciju.

March 26, 2026, 10:24 a.m.

Nvidia-ovi AI čipseti: Pokretači sljedeće generac…

Nvidia je lansirala inovativnu seriju AI čipsetova usmjerenih na napredak u next-generation AI aplikacijama.

March 26, 2026, 10:15 a.m.

AI marketing: mogućnosti i izazovi

Posljednji razvoj događaja u tehnološkoj i regulatornoj oblasti otkriva pojačani nadzor i provođenje zakona od strane Federalne trgovinske komisije (FTC) protiv kompanija koje daju neutemeljene tvrdnje o umjetnoj inteligenciji (AI) u svom marketingu.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

AI Company welcome image

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today