lang icon En
Jan. 3, 2025, 1:37 p.m.
4185

Nova tècnica de jailbreak 'Bad Likert Judge' amenaça la seguretat dels LLMs

Brief news summary

Investigadors de Palo Alto Networks Unit 42 han introduït un mètode anomenat "Bad Likert Judge" dissenyat per eludir els mecanismes de seguretat dels grans models de llenguatge (LLMs) i produir contingut perjudicial. Aquesta tècnica implica un atac en múltiples passos utilitzant l'escala de Likert per explotar respostes marcades com d'alt risc. El progrès de la intel·ligència artificial porta noves explotacions d'injecció de consultes que apunten a models d'aprenentatge automàtic amb consultes creativament elaborades. Un mètode és el "many-shot jailbreaking", que utilitza llargues seqüències de consultes per activar LLMs de manera discreta i esquivar les mesures de seguretat. Tècniques com Crescendo i Deceptive Delight són exemples d'aquest tipus d'aproximació. Unit 42 va aplicar la tècnica de l'escala de Likert en LLMs de companyies líders, com Amazon, Google, Meta, Microsoft, OpenAI i NVIDIA. Van descobrir un increment del 60% en la taxa d'èxit d'atac (ASR) en comparació amb consultes estàndard, especialment en àrees com discursos d'odi i activitats il·legals. No obstant això, estrictes filtres de contingut van reduir substancialment l'ASR en uns 89,2 punts percentuals, subratllant la importància vital de sistemes de filtratge efectius. Aquests resultats s'alineen amb informes de The Guardian, que destaquen vulnerabilitats en models d'AI, inclòs ChatGPT d'OpenAI. Aquests sistemes es poden manipular utilitzant text ocult, resultant en resultats enganyosos i exposant la seva susceptibilitat a atacs complexos.

Els investigadors en ciberseguretat han identificat una nova tècnica de jailbreak capaç de superar els protocols de seguretat d'un gran model de llenguatge (LLM) per generar respostes potencialment perjudicials. Coneguda com a "Bad Likert Judge", aquesta atac de múltiples torns va ser descobert pels investigadors de Palo Alto Networks Unit 42: Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao i Danny Tsechansky. El mètode consisteix a instruir l'LLM perquè actuï com un jutge, puntuant la perillositat de les respostes utilitzant l'escala de Likert, un sistema de valoració que mesura l'acord o desacord amb una afirmació. Posteriorment, se sol·licita a l'LLM que generi respostes amb exemples alineats amb aquestes escales, on la puntuació més alta de Likert pot revelar contingut nociu. A mesura que la intel·ligència artificial ha guanyat adhesió, han sorgit noves amenaces de seguretat com la injecció de prompts. Aquests atacs manipulen els models d'aprenentatge automàtic per desviar-se del seu comportament previst mitjançant prompts elaborats. Una variant, el jailbreak de molts torns, utilitza l'atenció i la capacitat de context de l'LLM per guiar-lo progressivament cap a una resposta malintencionada mentre evadeix les defenses internes.

Tècniques com Crescendo i Deceptive Delight il·lustren aquest enfocament. La demostració més recent de la Unit 42 implica utilitzar l'LLM com a jutge per avaluar la perillositat de les respostes mitjançant l'escala de Likert i després generar diverses respostes alineades amb diferents puntuacions. Les proves realitzades a sis LLM avançats d'Amazon Web Services, Google, Meta, Microsoft, OpenAI i NVIDIA indiquen un augment de més del 60% en la taxa d'èxit de l'atac (ASR) en comparació amb els prompts normals. Les categories provades eren odi, assetjament, autolesió, contingut sexual, armes indiscriminades, activitats il·legals, generació de malware i fuites de prompts del sistema. Els investigadors van assenyalar que aprofitar la comprensió de l'LLM sobre el contingut nociu i la seva capacitat d'avaluació augmenta considerablement les possibilitats de superar els protocols de seguretat. Els filtres de contingut poden reduir l'ASR en una mitjana de 89, 2 punts percentuals a través de tots els models provats, destacant la importància d'un filtratge robust quan s'implementen LLM. Aquest desenvolupament segueix un informe de The Guardian que mostra que el ChatGPT d'OpenAI podria ser enganyat per generar resums enganyosos resumint pàgines web amb contingut ocult. Això podria portar el ChatGPT a valorar positivament productes malgrat ressenyes negatives, ja que la simple incorporació de text ocult pot desviar els seus resums.


Watch video about

Nova tècnica de jailbreak 'Bad Likert Judge' amenaça la seguretat dels LLMs

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 26, 2025, 5:30 a.m.

La col·laboració de Cognizant amb NVIDIA per acce…

Cognizant Technology Solutions ha anunciat importants avanços en intel·ligència artificial (IA) a través d'una associació estratègica amb NVIDIA, amb l'objectiu d'acelerar l'adopció de la IA en diversos sectors mitjançant l'enfocament en cinc àrees transformadores.

Dec. 26, 2025, 5:17 a.m.

Les eines de moderació de contingut de vídeo amb …

Les plataformes de xarxes socials s'integren cada cop més en tecnologies d'intel·ligència artificial (IA) per millorar la moderació del contingut de vídeos compartits a les seves xarxes.

Dec. 26, 2025, 5:16 a.m.

L’impacte del Mode AI en el SEO: una espasa de do…

Fins al 2025, la Intel·ligència Artificial (IA) està destinada a transformar de manera fonamental la manera com utilitzem internet, afectant profundament la creació de contingut, l’optimització per als motors de cerca (SEO) i la confiança general en la informació en línia.

Dec. 26, 2025, 5:16 a.m.

Monetitzadors vs fabricants: Com el mercat de la …

El mercat de la intel·ligència artificial (IA) es preveu que es fragmenti abans de 2026, després d’un final de 2025 volàtil, marcat per desinvestiments tecnològics, pujades, operacions circulars, emissions de deutes i valoracions elevades que van generar preocupacions sobre una bombolla de la IA.

Dec. 26, 2025, 5:12 a.m.

Microsoft redueix els objectius de creixement de …

Microsoft recentment ha ajustat els seus objectius de creixement de vendes per als seus productes d'intel·ligència artificial (IA), sobretot aquells relacionats amb agents d'IA, després que molts dels seus representants de vendes no hagin assolit les seves quotes.

Dec. 25, 2025, 1:36 p.m.

Els democratess avisen que permetre que Trump aut…

Els demòcrates del Congrés expressen una preocupació seriosa per la possibilitat que els Estats Units puguin començar aviat a vendre xips avançats a un dels seus principals rivals geopolitics.

Dec. 25, 2025, 1:33 p.m.

Funcionaris de la independència preparats per al …

En Tod Palmer, periodista de KSHB 41 que cobreix esport, negocis i l’est de Jackson County, va conèixer aquest projecte important a través del seu seguici a l’Ajuntament d’Independence.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today