Els investigadors en ciberseguretat han identificat una nova tècnica de jailbreak capaç de superar els protocols de seguretat d'un gran model de llenguatge (LLM) per generar respostes potencialment perjudicials. Coneguda com a "Bad Likert Judge", aquesta atac de múltiples torns va ser descobert pels investigadors de Palo Alto Networks Unit 42: Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao i Danny Tsechansky. El mètode consisteix a instruir l'LLM perquè actuï com un jutge, puntuant la perillositat de les respostes utilitzant l'escala de Likert, un sistema de valoració que mesura l'acord o desacord amb una afirmació. Posteriorment, se sol·licita a l'LLM que generi respostes amb exemples alineats amb aquestes escales, on la puntuació més alta de Likert pot revelar contingut nociu. A mesura que la intel·ligència artificial ha guanyat adhesió, han sorgit noves amenaces de seguretat com la injecció de prompts. Aquests atacs manipulen els models d'aprenentatge automàtic per desviar-se del seu comportament previst mitjançant prompts elaborats. Una variant, el jailbreak de molts torns, utilitza l'atenció i la capacitat de context de l'LLM per guiar-lo progressivament cap a una resposta malintencionada mentre evadeix les defenses internes.
Tècniques com Crescendo i Deceptive Delight il·lustren aquest enfocament. La demostració més recent de la Unit 42 implica utilitzar l'LLM com a jutge per avaluar la perillositat de les respostes mitjançant l'escala de Likert i després generar diverses respostes alineades amb diferents puntuacions. Les proves realitzades a sis LLM avançats d'Amazon Web Services, Google, Meta, Microsoft, OpenAI i NVIDIA indiquen un augment de més del 60% en la taxa d'èxit de l'atac (ASR) en comparació amb els prompts normals. Les categories provades eren odi, assetjament, autolesió, contingut sexual, armes indiscriminades, activitats il·legals, generació de malware i fuites de prompts del sistema. Els investigadors van assenyalar que aprofitar la comprensió de l'LLM sobre el contingut nociu i la seva capacitat d'avaluació augmenta considerablement les possibilitats de superar els protocols de seguretat. Els filtres de contingut poden reduir l'ASR en una mitjana de 89, 2 punts percentuals a través de tots els models provats, destacant la importància d'un filtratge robust quan s'implementen LLM. Aquest desenvolupament segueix un informe de The Guardian que mostra que el ChatGPT d'OpenAI podria ser enganyat per generar resums enganyosos resumint pàgines web amb contingut ocult. Això podria portar el ChatGPT a valorar positivament productes malgrat ressenyes negatives, ja que la simple incorporació de text ocult pot desviar els seus resums.
Nova tècnica de jailbreak 'Bad Likert Judge' amenaça la seguretat dels LLMs
Cognizant Technology Solutions ha anunciat importants avanços en intel·ligència artificial (IA) a través d'una associació estratègica amb NVIDIA, amb l'objectiu d'acelerar l'adopció de la IA en diversos sectors mitjançant l'enfocament en cinc àrees transformadores.
Les plataformes de xarxes socials s'integren cada cop més en tecnologies d'intel·ligència artificial (IA) per millorar la moderació del contingut de vídeos compartits a les seves xarxes.
Fins al 2025, la Intel·ligència Artificial (IA) està destinada a transformar de manera fonamental la manera com utilitzem internet, afectant profundament la creació de contingut, l’optimització per als motors de cerca (SEO) i la confiança general en la informació en línia.
El mercat de la intel·ligència artificial (IA) es preveu que es fragmenti abans de 2026, després d’un final de 2025 volàtil, marcat per desinvestiments tecnològics, pujades, operacions circulars, emissions de deutes i valoracions elevades que van generar preocupacions sobre una bombolla de la IA.
Microsoft recentment ha ajustat els seus objectius de creixement de vendes per als seus productes d'intel·ligència artificial (IA), sobretot aquells relacionats amb agents d'IA, després que molts dels seus representants de vendes no hagin assolit les seves quotes.
Els demòcrates del Congrés expressen una preocupació seriosa per la possibilitat que els Estats Units puguin començar aviat a vendre xips avançats a un dels seus principals rivals geopolitics.
En Tod Palmer, periodista de KSHB 41 que cobreix esport, negocis i l’est de Jackson County, va conèixer aquest projecte important a través del seu seguici a l’Ajuntament d’Independence.
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today