News
>
Nueva técnica de jailbreak 'Bad Likert Judge' amenaza la seguridad de los LLM

Jan. 3, 2025, 1:37 p.m.

Nueva técnica de jailbreak 'Bad Likert Judge' amenaza la seguridad de los LLM

Los investigadores de ciberseguridad han identificado una nueva técnica de "jailbreak" capaz de eludir los protocolos de seguridad de un modelo de lenguaje grande (LLM) para generar respuestas potencialmente nocivas. Conocida como "Bad Likert Judge", este ataque de múltiples turnos (o muchos intentos) fue descubierto por los investigadores de Palo Alto Networks Unit 42: Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao y Danny Tsechansky. El método consiste en instruir al LLM para que actúe como un juez, puntuando la nocividad de las respuestas utilizando la escala de Likert, un sistema de clasificación que mide el acuerdo o desacuerdo con una afirmación. Posteriormente, solicita al LLM crear respuestas con ejemplos alineados con estas escalas, donde la puntuación más alta puede revelar contenido nocivo. A medida que la inteligencia artificial ha ganado atención, han surgido nuevas amenazas de seguridad como la inyección de comandos. Estos ataques manipulan los modelos de aprendizaje automático para desviarse de su comportamiento intencionado utilizando solicitudes elaboradas. Una variante, el jailbreak de muchos intentos, emplea la atención y capacidad de contexto del LLM para guiarlo de manera incremental hacia una respuesta maliciosa mientras se evaden defensas internas.

Técnicas como Crescendo y Deceptive Delight ilustran este enfoque. La última demostración de Unit 42 implica usar el LLM como juez para evaluar la nocividad de las respuestas a través de la escala de Likert y luego generar diversas respuestas alineadas con diferentes puntuaciones. Pruebas en seis LLM avanzados de Amazon Web Services, Google, Meta, Microsoft, OpenAI y NVIDIA indican un aumento de más del 60% en la tasa de éxito de ataques (ASR) frente a solicitudes normales. Las categorías evaluadas fueron odio, acoso, autolesiones, contenido sexual, armas indiscriminadas, actividades ilegales, generación de malware y fuga de solicitudes del sistema. Los investigadores notaron que aprovechar la comprensión del LLM sobre contenido nocivo y su capacidad evaluativa mejora en gran medida las posibilidades de eludir los protocolos de seguridad. Los filtros de contenido pueden reducir el ASR en un promedio de 89. 2 puntos porcentuales en todos los modelos probados, lo que enfatiza la importancia de tener un filtrado robusto al implementar LLMs. Este desarrollo sigue un informe de The Guardian que muestra que ChatGPT de OpenAI podría ser engañado para generar resúmenes engañosos al resumir páginas web con contenido oculto. Estos métodos podrían llevar a ChatGPT a evaluar favorablemente productos a pesar de reseñas negativas, ya que simplemente al incorporar texto oculto se pueden sesgar sus resúmenes.

News source

Brief news summary

Investigadores de Palo Alto Networks Unit 42 han introducido un método llamado "Bad Likert Judge" diseñado para eludir los mecanismos de seguridad de grandes modelos de lenguaje (LLMs) y generar contenido dañino. Esta técnica implica un ataque de múltiples pasos utilizando la escala Likert para explotar respuestas marcadas como de alto riesgo. El avance de la inteligencia artificial trae nuevos exploits de inyección de prompt dirigidos a modelos de aprendizaje automático con prompts estratégicamente diseñados. El "many-shot jailbreaking" es uno de estos métodos, que utiliza secuencias largas de prompts para activar discretamente los LLMs y eludir medidas de seguridad. Técnicas como Crescendo y Deceptive Delight son ejemplos de este enfoque. Unit 42 aplicó la técnica de la escala Likert en LLMs de empresas líderes como Amazon, Google, Meta, Microsoft, OpenAI y NVIDIA. Descubrieron un incremento del 60% en la tasa de éxito de los ataques (ASR) en comparación con prompts estándar, especialmente en áreas como discurso de odio y actividades ilegales. Sin embargo, los fuertes filtros de contenido disminuyeron sustancialmente la ASR en alrededor de 89.2 puntos porcentuales, subrayando la importancia vital de sistemas de filtrado efectivos. Estos resultados coinciden con informes de The Guardian, que destacan vulnerabilidades en modelos de IA, incluyendo ChatGPT de OpenAI. Estos sistemas pueden ser manipulados utilizando texto oculto, resultando en resultados engañosos y exponiendo su susceptibilidad a ataques complejos.

Business on autopilot

AI-powered Lead Generation in Social Media
and Search Engines

Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment

Language

Learn how AI can help your business.
Let’s talk!

Hot news

July 3, 2025, 2:28 p.m.

IA en el comercio minorista: personalizando las e…

La inteligencia artificial (IA) está transformando profundamente la industria minorista, inaugurando una nueva era de experiencias de compra personalizadas adaptadas a las preferencias y comportamientos únicos de los consumidores.

July 3, 2025, 2:25 p.m.

Evaluación del valor de Circle y avances regulato…

La industria de las criptomonedas está experimentando una transformación significativa a medida que evolucionan los principales actores y los entornos regulatorios, señalando una nueva era para los activos digitales en todo el mundo.

July 3, 2025, 10:33 a.m.

Noticias de Robinhood (HOOD): Lanzamiento de Acci…

Robinhood Amplía su Presencia en Criptomonedas al Lanzar Su Propio Blockchain y Acciones tokenizadas Las versiones tokenizadas de acciones y ETFs listados en EE

July 3, 2025, 10:32 a.m.

LOS CEOS EUROPEOS URGEN A BRUSELAS A SUSPENDER LA…

Un grupo de destacados CEO envió recientemente una carta abierta a la presidenta de la Comisión Europea, Ursula von der Leyen, expresando serias preocupaciones sobre el estado actual del proyecto de ley de Inteligencia Artificial de la UE.

July 3, 2025, 6:57 a.m.

DMG Blockchain reporta una disminución del 26% en…

VANCOUVER, Columbia Británica, 2 de julio de 2025 (GLOBE NEWSWIRE) – DMG Blockchain Solutions Inc.

July 3, 2025, 6:25 a.m.

La inteligencia artificial de Microsoft supera a …

Microsoft ha logrado un avance importante en la aplicación de inteligencia artificial en la atención médica con su herramienta de diagnóstico impulsada por IA, el Orquestador de Diagnósticos por IA (MAI-DxO).

July 2, 2025, 2:26 p.m.

El auge de los compañeros de IA entre los virgini…

Nuevos datos de Match revelan que el 18% de los virginianos solteros han incorporado inteligencia artificial (IA) en sus vidas románticas, un aumento significativo desde el 6% del año anterior.

All news

Launch Your AI-Powered Business and get clients!

Nueva técnica de jailbreak 'Bad Likert Judge' amenaza la seguridad de los LLM

News source

Brief news summary

AI-powered Lead Generation in Social Media
and Search Engines

I'm your Content Manager, ready to handle your first test assignment

Content Maker

Last news

Cómo la inteligencia artificial está revolucionando la industria minorista con compras personalizadas y operaciones optimizadas

Transformación de la Industria de las Criptomonedas: Auge del Mercado de Circle, Avances Globales en CBDC y Creciente Adopción de Criptomonedas

Robinhood lanza su propia cadena de bloques y acciones tokenizadas para usuarios de la UE

The Best for your Business

Learn how AI can help your business.
Let’s talk!

Hot news

IA en el comercio minorista: personalizando las e…

Evaluación del valor de Circle y avances regulato…

Noticias de Robinhood (HOOD): Lanzamiento de Acci…

LOS CEOS EUROPEOS URGEN A BRUSELAS A SUSPENDER LA…

DMG Blockchain reporta una disminución del 26% en…

La inteligencia artificial de Microsoft supera a …

El auge de los compañeros de IA entre los virgini…

Sales

Marketing

Launch Your AI-Powered Business and get clients!

Nueva técnica de jailbreak 'Bad Likert Judge' amenaza la seguridad de los LLM

News source

Brief news summary

AI-powered Lead Generation in Social Media and Search Engines

I'm your Content Manager, ready to handle your first test assignment

Content Maker

Last news

Cómo la inteligencia artificial está revolucionando la industria minorista con compras personalizadas y operaciones optimizadas

Transformación de la Industria de las Criptomonedas: Auge del Mercado de Circle, Avances Globales en CBDC y Creciente Adopción de Criptomonedas

Robinhood lanza su propia cadena de bloques y acciones tokenizadas para usuarios de la UE

The Best for your Business

Learn how AI can help your business. Let’s talk!

Hot news

IA en el comercio minorista: personalizando las e…

Evaluación del valor de Circle y avances regulato…

Noticias de Robinhood (HOOD): Lanzamiento de Acci…

LOS CEOS EUROPEOS URGEN A BRUSELAS A SUSPENDER LA…

DMG Blockchain reporta una disminución del 26% en…

La inteligencia artificial de Microsoft supera a …

El auge de los compañeros de IA entre los virgini…

Your News is ready

Your article is ready

Generating video takes longer than text.

Join our community of experts

Reasons why you should be part of the experts community

Welcome to Neuron Expert!

Launch Your AI-Powered Business

Auto-Filling SEO Website as a Gift

AI Marketing Across All Social Media

AI Sales Manager + CRM

Support

Content Maker

Topic

Specify the topic (Optional)

Link (Optional)

Learn how to craft press releases, create unique social media posts, write SEO-optimized articles for websites, and produce videos, all from a single source

AI-powered Lead Generation in Social Media
and Search Engines

Learn how AI can help your business.
Let’s talk!