lang icon En
Jan. 3, 2025, 1:37 p.m.
4135

Mbinu Mpya ya Kuvunja Mfumo 'Bad Likert Judge' Inatishia Usalama wa LLM

Brief news summary

Watafiti katika Palo Alto Networks Unit 42 wameanzisha mbinu iitwayo "Bad Likert Judge" iliyoundwa kupita mifumo ya usalama ya mifano mikubwa ya lugha (LLMs) na kuzalisha maudhui yenye madhara. Mbinu hii inahusisha shambulio la hatua nyingi kwa kutumia kipimo cha Likert ili kutumia majibu yaliyoainishwa kama hatari kubwa. Uendelezaji wa akili bandia huleta mbinu mpya za uchochezi zinazolenga mifano ya kujifunza kwa mashine kwa kutumia misemo iliyobuniwa kistratejia. Many-shot jailbreaking ni mojawapo ya mbinu hizo, ikitumia misemo mirefu kuamsha LLMs bila kugundulika na kupita hatua za usalama. Mbinu kama Crescendo na Deceptive Delight ni mifano ya njia hii. Unit 42 waliingiza mbinu ya kipimo cha Likert kwenye LLM kutoka kampuni zinazoongoza kama vile Amazon, Google, Meta, Microsoft, OpenAI, na NVIDIA. Waligundua ongezeko la asilimia 60 katika kiwango cha mafanikio ya shambulio (ASR) ikilinganishwa na misemo ya kawaida, hasa katika maeneo kama hotuba za chuki na shughuli za kinyume cha sheria. Hata hivyo, vichujio imara vya maudhui vilipunguza sana ASR kwa pointi 89.2 za asilimia, ikisisitiza umuhimu wa mifumo madhubuti ya kuchuja. Matokeo haya yanakubaliana na ripoti kutoka The Guardian, zikionyesha udhaifu katika mifano ya AI, ikiwemo ChatGPT ya OpenAI. Mifumo hii inaweza kutumiwa vibaya kwa kutumia maandishi yaliyofichwa, na kusababisha matokeo yanayopotosha na kufichua uwezekano wao wa kushambuliwa kwa njia ngumu.

Watafiti wa usalama wa mtandao wamegundua mbinu mpya ya kuvunja usalama inayoweza kukwepa itifaki za usalama za mbinu ya lugha kubwa (LLM) ili kutoa majibu ambayo yanaweza kuwa na madhara. Inayojulikana kama "Bad Likert Judge, " shambulio hili la hatua nyingi lilifichuliwa na watafiti wa Palo Alto Networks Unit 42, Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao, na Danny Tsechansky. Mbinu hii inajumuisha kuagiza LLM kutenda kama jaji, ikipima madhara ya majibu kwa kutumia kipimo cha Likert—mfumo wa upimaji unaopima makubaliano au kutokubaliana na kauli. Kisha, inaitaka LLM kuunda majibu yanayolingana na mifano inayolingana na vipimo hivi, ambapo kiwango cha juu cha Likert kinaweza kufichua yaliyomo yenye madhara. Wakati akili ya bandia imeanza kuwa maarufu, vitisho vipya vya usalama kama sindano ya mwelekeo vimeibuka. Mashambulio haya hubadilisha mifano ya kujifunza mashine kukengeuka kutoka kwa tabia yao iliyokusudiwa kwa kutumia maelekezo yaliyoundwa. Toleo moja, kuvunja kwa njia nyingi, hutumia uwezo wa umakini na muktadha wa LLM kuiongoza polepole kuelekea jibu la kihasama huku ikiepuka ulinzi wa ndani.

Mbinu kama Crescendo na Deceptive Delight zinaonyesha njia hii. Maonyesho ya hivi karibuni ya Unit 42 yanahusisha kutumia LLM kama jaji kutathmini madhara ya majibu kupitia kipimo cha Likert na kisha kutoa majibu mbalimbali yanayolingana na alama tofauti. Majaribio katika LLM sita za hali ya juu kutoka Amazon Web Services, Google, Meta, Microsoft, OpenAI, na NVIDIA yanaonyesha zaidi ya ongezeko la asilimia 60 katika kiwango cha mafanikio ya shambulio (ASR) ikilinganishwa na maelekezo ya kawaida. Makundi yaliyopimwa yalikuwa chuki, unyanyasaji, kujidhuru, maudhui ya ngono, silaha zisizo na mwelekeo, shughuli haramu, uzalishaji wa programu hasidi, na uvujaji wa maelekezo ya mfumo. Watafiti walibaini kuwa kutumia uelewa wa LLM wa maudhui yenye madhara na uwezo wa kutathmini huongeza sana nafasi za kukwepa itifaki za usalama. Vichujio vya maudhui vinaweza kupunguza ASR kwa wastani wa pointi 89. 2 za asilimia kwenye mifano yote iliyopimwa, ikisisitiza umuhimu wa uchujaji madhubuti wakati wa kutumia LLM. Maendeleo haya yanafuatia ripoti kutoka The Guardian inayoonyesha kuwa ChatGPT ya OpenAI inaweza kudanganywa ili kutoa muhtasari wenye upotoshaji kwa kufupisha kurasa za wavuti zilizo na maudhui yaliyofichwa. Mbinu hizi zinaweza kuifanya ChatGPT kutathmini vyema bidhaa licha ya hakiki hasi, kwani kwa mara tu inapoingiza maandishi yaliyofichika inaweza kupotosha muhtasari wake.


Watch video about

Mbinu Mpya ya Kuvunja Mfumo 'Bad Likert Judge' Inatishia Usalama wa LLM

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 22, 2025, 9:22 a.m.

OpenAI inaonelea kuwa na faida nzuri zaidi kwenye…

Chapisho lilisema kuwa kampuni iliboreshwa “margini ya kompyuta,” kipimo cha ndani kinachowakilisha sehemu ya mapato inayobaki baada ya kulipia gharama za mifumo ya uendeshaji kwa watumiaji waliolipa wa bidhaa zake za kampuni na za watu wa kawaida.

Dec. 22, 2025, 9:19 a.m.

Vifaa vya Kuundwa kwa Video vya AI Vinawapa Nguvu…

Katika uwanja unaoendelea kwa kasi wa uuzaji wa kidigitali, akili bandia (AI) ina jukumu muhimu katika kuumba tena namna mabanda yanavyoungana na watazamaji wao.

Dec. 22, 2025, 9:15 a.m.

Kutumia AI kwa SEO: Mbinu Bora na Vyombo vya Kazi

Kadri ya akili bandia (AI) inavyoendelea, umuhimu wake katika uboreshaji wa mfumo wa utafutaji wa mtandaoni (SEO) unaongezeka kwa espedi.

Dec. 22, 2025, 9:14 a.m.

Kuchambua Athari za AI kwenye Matangazo na Uuzaji

Akili bandia (AI) inabadilisha kimsingi sekta za matangazo na uuzaji, ikileta mabadiliko makubwa zaidi kuliko maendeleo ya kiteknolojia yaliyojiri awali.

Dec. 22, 2025, 9:12 a.m.

Nvidia: Tu asilimia 3 tu ya ziada kwa Kampuni Muh…

Nvidia: Tupreni ya 3% tu kwa Kampuni Muhimu Sana ya AI Nadharia ya J Wafuasi 1

Dec. 22, 2025, 5:21 a.m.

"AI SMM", mafunzo mapya kutoka Hallakate – Jifunz…

Katika enzi ambazo teknolojia inabadilisha jinsi tunavyounda maudhui na kusimamia mitandao ya kijamii, Hallakate inatambulisha mafunzo mapya yaliyobuniwa kwa ajili ya enzi hii mpya: AI SMM.

Dec. 22, 2025, 5:19 a.m.

Soko la Uuzaji wa Kundi la GPUs za Mafunzo ya AI …

Muhtasari wa Ripoti Soko la Uzalishaji wa GPU za Mafunzo ya AI Ulimwenguni linakadiriwa kufikia takriban USD bilioni 87

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today