Küberturbe teadlased on tuvastanud uue jailbreak-i tehnika, mis suudab mööda minna suure keelemudeli (LLM) turvaprotokollidest, et luua potentsiaalselt kahjulikke vastuseid. Tuntud kui "Bad Likert Judge", see mitmekäiguline (või paljude pööretega) rünnak avastati Palo Alto Networks'i Unit 42 teadlaste Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao ja Danny Tsechansky poolt. Meetod hõlmab LLM-i juhendamist, et see toimiks kohtunikuna, hinnates vastuste kahjulikkust Likerti skaalaga — reitingusüsteem, mis mõõdab väite suhtes nõustumist või mittenõustumist. Järgmisena palutakse LLM-il luua vastuseid, mis sisaldavad näiteid, mis vastavad neile skaaladele, kus kõrgeim Likerti skoor võib paljastada kahjuliku sisu. Kuna tehisintellekt on populaarsust kogunud, on ilmnenud uued turvaohtliku, nagu näiteks juhiste süstimine. Need rünnakud manipuleerivad masinõppemudeleid, et nad kalduksid kõrvale oma kavandatud käitumisest, kasutades selleks valmistatud juhiseid. Üks variant, paljude-käikude jailbreakimine, kasutab LLM-i tähelepanu ja konteksti võimalusi, et järk-järgult suunata see pahatahtliku vastuse poole, vältides sisemisi kaitsevõimeid.
Tehnikad, nagu Crescendo ja Deceptive Delight, illustreerivad seda lähenemist. Unit 42 viimaste katsete seas kasutatakse LLM-i kohtunikuna, et hinnata vastuste kahjulikkust Likerti skaalal ja seejärel genereerida erinevaid vastuseid, mis vastavad erinevatele tulemustele. Testides kuut arenenud LLM-i Amazon Web Services'ist, Google'ist, Meta-st, Microsoft-st, OpenAI-st ja NVIDIA-st, tuvastati rohkem kui 60% tõus rünnaku edu määras võrreldes tavaliste juhistega. Testitud kategooriad olid vihkamine, ahistamine, enesevigastus, seksuaalne sisaldus, valimatud relvad, ebaseaduslik tegevus, pahavara genereerimine ja süsteemi juhisleke. Teadlased märkisid, et LLM-i kahjuliku sisu mõistmise ja hindamise võime kasutamine suurendab oluliselt võimalusi turvaprotokollidest mööda minna. Sisufiltrid võivad vähendada rünnaku edu määra keskmiselt 89, 2 protsendipunkti võrra kõigi testitud mudelite puhul, rõhutades tugeva filtreerimise tähtsust, kui LLM-e rakendatakse. See areng järgneb The Guardian'i raportile, mis näitas, kuidas OpenAI ChatGPT-d võidi petta, et luua eksitavaid kokkuvõtteid, koostades veebilehti peidetud sisuga. Need meetodid võivad viia ChatGPT-d toodete positiivselt hindamiseni hoolimata negatiivsetest arvustustest, kuna lihtsalt peidetud teksti kaasamine võib selle kokkuvõtteid kallutada.
Uus jailbreak-tehnika "Bad Likert Judge" ohustab LLM-i turvalisust.
Kaugtöö ümberlõikamine on kiirendanud tehisintellekti abil juhitavate videokonverentsi platvormide kasutuselevõttu eri tööstusharudes, rahuldades kasvavat nõudlust tõhusa virtuaalse suhtluse järele hajutatud meeskondade vahel.
Me oleme hiljuti tuvastanud küberjulgeoleku alal pöördepunkti: tehisintellekti mudelid on tõeliselt tõhusad tööriistad küberoperatsioonideks, kasulikult ja pahatahtlikult.
Salesforce, globaalne pilvepõhiste tarkvara ja CRM-lahenduste liider, on tõstnud oma aastase müüginõudluse 41 miljardi dollarini võrreldes eelneva 40,5 miljardiga, mis näitab tugevat äritegevuse hoogu ning kunstäluuu arengut.
Digitaalne reklaamimine on läbinud olulise muutuse, mida sõidab ette kunstliku intelligentsi (AI) tehnoloogiate integreerimine.
AI SEO ja GEO online tippkohtumine on kavandatud toimuma 9.
Anthropic, juhtiv tehisintellekti ettevõte, on avalikustanud murrangulise ja murettekitava arengusuuna küberturvalisuses: esimese dokumenteeritud juhtumi, kus tehisintellekt iseseisvalt juhib häkkimiskampaaniat.
„Vaata sammast, härra, liigu edasi,” ütleb ICE-tähise ja “POICE” märgistusega märkega politseinikke kandev ohvitser Mehhikost pärit näootsaga mehele, kes on riietunud Walmarti töötaja vesti.
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today