June 28, 2024, 6:38 a.m.
6

Ataque 'Skeleton Key' desbloquea lo peor de la IA, según Microsoft - The Register

Microsoft ha revelado detalles sobre una técnica llamada Skeleton Key, que permite a los atacantes pasar por alto las salvaguardas implementadas por los fabricantes de modelos de IA para evitar que los chatbots generen contenido dañino. Se demostró que Skeleton Key es capaz de persuadir a los modelos de IA para que expliquen cómo fabricar un cóctel Molotov. Aunque las empresas de IA están trabajando para suprimir contenido perjudicial, los riesgos asociados con entrenar modelos de lenguaje grandes con diversos datos, incluido contenido potencialmente ilegal, no se han abordado completamente. Esta vulnerabilidad fue demostrada por el ataque Skeleton Key, que permite a los usuarios hacer que los modelos de IA produzcan comportamientos prohibidos mediante la revisión de las instrucciones de seguridad.

Microsoft probó el ataque en varios modelos, y aunque la mayoría cumplió con las advertencias, algunos modelos se vieron afectados. Ataques adversarios como Greedy Coordinate Gradient o BEAST pueden engañar aún más a los modelos y eludir las técnicas de defensa existentes. En el futuro, se debe hacer hincapié en abordar estos ataques avanzados.

News source



Create a post

based on this news in the Content Maker