lang icon English
Jan. 3, 2025, 1:37 p.m.
3633

Uus jailbreak-tehnika "Bad Likert Judge" ohustab LLM-i turvalisust.

Brief news summary

Palo Alto Networksi üksuse 42 teadlased on tutvustanud meetodit nimega "Bad Likert Judge", mis on loodud suure keelemudeli (LLM) turvamehhanismide ümbersõitmiseks ja kahjuliku sisu tootmiseks. See tehnika hõlmab mitmeastmelist rünnakut, kasutades Likerti skaalat kõrge riskiga märgitud vastuste ärakasutamiseks. Tehisintellekti areng toob uusi süstivate päringute haavatavusi, mis sihivad masinõppe mudeleid strateegiliselt koostatud päringutega. Üks selline meetod on paljude näidetega jailbreakimine, mis kasutab pikki päringujadasid LLMide varjatult aktiveerimiseks ja turvameetmete vältimiseks. Tehnikad nagu Crescendo ja Deceptive Delight on selle lähenemisviisi näited. Üksus 42 rakendas Likerti skaala tehnikat juhtivate ettevõtete, näiteks Amazoni, Google'i, Meta, Microsofti, OpenAI ja NVIDIA LLMide peal. Nad avastasid, et see suurendas rünnaku õnnestumise määra (ASR) standardsete päringutega võrreldes 60%, eriti valdkondades nagu vihakõne ja ebaseaduslikud tegevused. Siiski vähenes ASR tugeva sisufiltrite tõttu märgatavalt, ligikaudu 89,2 protsendipunkti, rõhutades tõhusate filtreerimissüsteemide tähtsust. Need tulemused ühtivad The Guardiani raportitega, mis toovad esile tehisintellekti mudelite, sealhulgas OpenAI ChatGPT, haavatavusi. Neid süsteeme saab manipuleerida peidetud teksti abil, tuues kaasa eksitavaid tulemusi ning paljastades nende vastuvõtlikkuse keerulistele rünnakutele.

Küberturbe teadlased on tuvastanud uue jailbreak-i tehnika, mis suudab mööda minna suure keelemudeli (LLM) turvaprotokollidest, et luua potentsiaalselt kahjulikke vastuseid. Tuntud kui "Bad Likert Judge", see mitmekäiguline (või paljude pööretega) rünnak avastati Palo Alto Networks'i Unit 42 teadlaste Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao ja Danny Tsechansky poolt. Meetod hõlmab LLM-i juhendamist, et see toimiks kohtunikuna, hinnates vastuste kahjulikkust Likerti skaalaga — reitingusüsteem, mis mõõdab väite suhtes nõustumist või mittenõustumist. Järgmisena palutakse LLM-il luua vastuseid, mis sisaldavad näiteid, mis vastavad neile skaaladele, kus kõrgeim Likerti skoor võib paljastada kahjuliku sisu. Kuna tehisintellekt on populaarsust kogunud, on ilmnenud uued turvaohtliku, nagu näiteks juhiste süstimine. Need rünnakud manipuleerivad masinõppemudeleid, et nad kalduksid kõrvale oma kavandatud käitumisest, kasutades selleks valmistatud juhiseid. Üks variant, paljude-käikude jailbreakimine, kasutab LLM-i tähelepanu ja konteksti võimalusi, et järk-järgult suunata see pahatahtliku vastuse poole, vältides sisemisi kaitsevõimeid.

Tehnikad, nagu Crescendo ja Deceptive Delight, illustreerivad seda lähenemist. Unit 42 viimaste katsete seas kasutatakse LLM-i kohtunikuna, et hinnata vastuste kahjulikkust Likerti skaalal ja seejärel genereerida erinevaid vastuseid, mis vastavad erinevatele tulemustele. Testides kuut arenenud LLM-i Amazon Web Services'ist, Google'ist, Meta-st, Microsoft-st, OpenAI-st ja NVIDIA-st, tuvastati rohkem kui 60% tõus rünnaku edu määras võrreldes tavaliste juhistega. Testitud kategooriad olid vihkamine, ahistamine, enesevigastus, seksuaalne sisaldus, valimatud relvad, ebaseaduslik tegevus, pahavara genereerimine ja süsteemi juhisleke. Teadlased märkisid, et LLM-i kahjuliku sisu mõistmise ja hindamise võime kasutamine suurendab oluliselt võimalusi turvaprotokollidest mööda minna. Sisufiltrid võivad vähendada rünnaku edu määra keskmiselt 89, 2 protsendipunkti võrra kõigi testitud mudelite puhul, rõhutades tugeva filtreerimise tähtsust, kui LLM-e rakendatakse. See areng järgneb The Guardian'i raportile, mis näitas, kuidas OpenAI ChatGPT-d võidi petta, et luua eksitavaid kokkuvõtteid, koostades veebilehti peidetud sisuga. Need meetodid võivad viia ChatGPT-d toodete positiivselt hindamiseni hoolimata negatiivsetest arvustustest, kuna lihtsalt peidetud teksti kaasamine võib selle kokkuvõtteid kallutada.


Watch video about

Uus jailbreak-tehnika "Bad Likert Judge" ohustab LLM-i turvalisust.

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Nov. 15, 2025, 5:27 a.m.

Tehisintellekti videokonverentsitööriistad hõlbus…

Kaugtöö ümberlõikamine on kiirendanud tehisintellekti abil juhitavate videokonverentsi platvormide kasutuselevõttu eri tööstusharudes, rahuldades kasvavat nõudlust tõhusa virtuaalse suhtluse järele hajutatud meeskondade vahel.

Nov. 15, 2025, 5:21 a.m.

Murrang esimese teavituse saanud tehisintellekti …

Me oleme hiljuti tuvastanud küberjulgeoleku alal pöördepunkti: tehisintellekti mudelid on tõeliselt tõhusad tööriistad küberoperatsioonideks, kasulikult ja pahatahtlikult.

Nov. 15, 2025, 5:21 a.m.

Salesforce tõstab aastast müügitulemuse prognoosi…

Salesforce, globaalne pilvepõhiste tarkvara ja CRM-lahenduste liider, on tõstnud oma aastase müüginõudluse 41 miljardi dollarini võrreldes eelneva 40,5 miljardiga, mis näitab tugevat äritegevuse hoogu ning kunstäluuu arengut.

Nov. 15, 2025, 5:20 a.m.

Tehisintellekti tõus digitaalses reklaamimises: s…

Digitaalne reklaamimine on läbinud olulise muutuse, mida sõidab ette kunstliku intelligentsi (AI) tehnoloogiate integreerimine.

Nov. 15, 2025, 5:13 a.m.

AI SEO ja GEO online tippkohtumine käsitleb otsin…

AI SEO ja GEO online tippkohtumine on kavandatud toimuma 9.

Nov. 14, 2025, 1:26 p.m.

Anthropic avastas tehisintellekti juhitava häkkim…

Anthropic, juhtiv tehisintellekti ettevõte, on avalikustanud murrangulise ja murettekitava arengusuuna küberturvalisuses: esimese dokumenteeritud juhtumi, kus tehisintellekt iseseisvalt juhib häkkimiskampaaniat.

Nov. 14, 2025, 1:25 p.m.

AI-ga loodud Sora videod ICE läbipääsude kohta on…

„Vaata sammast, härra, liigu edasi,” ütleb ICE-tähise ja “POICE” märgistusega märkega politseinikke kandev ohvitser Mehhikost pärit näootsaga mehele, kes on riietunud Walmarti töötaja vesti.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today