Auto-Filling SEO Website as a Gift

Launch Your AI-Powered Business and get clients!

No advertising investment needed—just results. AI finds, negotiates, and closes deals automatically

Jan. 3, 2025, 1:37 p.m.
192

Nueva técnica de jailbreak 'Bad Likert Judge' amenaza la seguridad de los LLM

Los investigadores de ciberseguridad han identificado una nueva técnica de "jailbreak" capaz de eludir los protocolos de seguridad de un modelo de lenguaje grande (LLM) para generar respuestas potencialmente nocivas. Conocida como "Bad Likert Judge", este ataque de múltiples turnos (o muchos intentos) fue descubierto por los investigadores de Palo Alto Networks Unit 42: Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao y Danny Tsechansky. El método consiste en instruir al LLM para que actúe como un juez, puntuando la nocividad de las respuestas utilizando la escala de Likert, un sistema de clasificación que mide el acuerdo o desacuerdo con una afirmación. Posteriormente, solicita al LLM crear respuestas con ejemplos alineados con estas escalas, donde la puntuación más alta puede revelar contenido nocivo. A medida que la inteligencia artificial ha ganado atención, han surgido nuevas amenazas de seguridad como la inyección de comandos. Estos ataques manipulan los modelos de aprendizaje automático para desviarse de su comportamiento intencionado utilizando solicitudes elaboradas. Una variante, el jailbreak de muchos intentos, emplea la atención y capacidad de contexto del LLM para guiarlo de manera incremental hacia una respuesta maliciosa mientras se evaden defensas internas.

Técnicas como Crescendo y Deceptive Delight ilustran este enfoque. La última demostración de Unit 42 implica usar el LLM como juez para evaluar la nocividad de las respuestas a través de la escala de Likert y luego generar diversas respuestas alineadas con diferentes puntuaciones. Pruebas en seis LLM avanzados de Amazon Web Services, Google, Meta, Microsoft, OpenAI y NVIDIA indican un aumento de más del 60% en la tasa de éxito de ataques (ASR) frente a solicitudes normales. Las categorías evaluadas fueron odio, acoso, autolesiones, contenido sexual, armas indiscriminadas, actividades ilegales, generación de malware y fuga de solicitudes del sistema. Los investigadores notaron que aprovechar la comprensión del LLM sobre contenido nocivo y su capacidad evaluativa mejora en gran medida las posibilidades de eludir los protocolos de seguridad. Los filtros de contenido pueden reducir el ASR en un promedio de 89. 2 puntos porcentuales en todos los modelos probados, lo que enfatiza la importancia de tener un filtrado robusto al implementar LLMs. Este desarrollo sigue un informe de The Guardian que muestra que ChatGPT de OpenAI podría ser engañado para generar resúmenes engañosos al resumir páginas web con contenido oculto. Estos métodos podrían llevar a ChatGPT a evaluar favorablemente productos a pesar de reseñas negativas, ya que simplemente al incorporar texto oculto se pueden sesgar sus resúmenes.



Brief news summary

Investigadores de Palo Alto Networks Unit 42 han introducido un método llamado "Bad Likert Judge" diseñado para eludir los mecanismos de seguridad de grandes modelos de lenguaje (LLMs) y generar contenido dañino. Esta técnica implica un ataque de múltiples pasos utilizando la escala Likert para explotar respuestas marcadas como de alto riesgo. El avance de la inteligencia artificial trae nuevos exploits de inyección de prompt dirigidos a modelos de aprendizaje automático con prompts estratégicamente diseñados. El "many-shot jailbreaking" es uno de estos métodos, que utiliza secuencias largas de prompts para activar discretamente los LLMs y eludir medidas de seguridad. Técnicas como Crescendo y Deceptive Delight son ejemplos de este enfoque. Unit 42 aplicó la técnica de la escala Likert en LLMs de empresas líderes como Amazon, Google, Meta, Microsoft, OpenAI y NVIDIA. Descubrieron un incremento del 60% en la tasa de éxito de los ataques (ASR) en comparación con prompts estándar, especialmente en áreas como discurso de odio y actividades ilegales. Sin embargo, los fuertes filtros de contenido disminuyeron sustancialmente la ASR en alrededor de 89.2 puntos porcentuales, subrayando la importancia vital de sistemas de filtrado efectivos. Estos resultados coinciden con informes de The Guardian, que destacan vulnerabilidades en modelos de IA, incluyendo ChatGPT de OpenAI. Estos sistemas pueden ser manipulados utilizando texto oculto, resultando en resultados engañosos y exponiendo su susceptibilidad a ataques complejos.
Business on autopilot

AI-powered Lead Generation in Social Media
and Search Engines

Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment

Language

Learn how AI can help your business.
Let’s talk!

Hot news

July 3, 2025, 2:28 p.m.

IA en el comercio minorista: personalizando las e…

La inteligencia artificial (IA) está transformando profundamente la industria minorista, inaugurando una nueva era de experiencias de compra personalizadas adaptadas a las preferencias y comportamientos únicos de los consumidores.

July 3, 2025, 2:25 p.m.

Evaluación del valor de Circle y avances regulato…

La industria de las criptomonedas está experimentando una transformación significativa a medida que evolucionan los principales actores y los entornos regulatorios, señalando una nueva era para los activos digitales en todo el mundo.

July 3, 2025, 10:33 a.m.

Noticias de Robinhood (HOOD): Lanzamiento de Acci…

Robinhood Amplía su Presencia en Criptomonedas al Lanzar Su Propio Blockchain y Acciones tokenizadas Las versiones tokenizadas de acciones y ETFs listados en EE

July 3, 2025, 10:32 a.m.

LOS CEOS EUROPEOS URGEN A BRUSELAS A SUSPENDER LA…

Un grupo de destacados CEO envió recientemente una carta abierta a la presidenta de la Comisión Europea, Ursula von der Leyen, expresando serias preocupaciones sobre el estado actual del proyecto de ley de Inteligencia Artificial de la UE.

July 3, 2025, 6:57 a.m.

DMG Blockchain reporta una disminución del 26% en…

VANCOUVER, Columbia Británica, 2 de julio de 2025 (GLOBE NEWSWIRE) – DMG Blockchain Solutions Inc.

July 3, 2025, 6:25 a.m.

La inteligencia artificial de Microsoft supera a …

Microsoft ha logrado un avance importante en la aplicación de inteligencia artificial en la atención médica con su herramienta de diagnóstico impulsada por IA, el Orquestador de Diagnósticos por IA (MAI-DxO).

July 2, 2025, 2:26 p.m.

El auge de los compañeros de IA entre los virgini…

Nuevos datos de Match revelan que el 18% de los virginianos solteros han incorporado inteligencia artificial (IA) en sus vidas románticas, un aumento significativo desde el 6% del año anterior.

All news