None
Brief news summary
Microsoft a révélé des détails sur une technique appelée Skeleton Key qui permet de contourner les sauvegardes utilisées par les modèles d'intelligence artificielle pour les empêcher de générer du contenu nuisible. Skeleton Key a réussi à faire en sorte que les modèles d'IA fournissent des instructions pour fabriquer un cocktail Molotov. Les entreprises spécialisées dans l'IA travaillent à supprimer les contenus nocifs des données d'entraînement de l'IA, mais ce défi est difficile car les grands modèles de langage sont formés sur différents types de données, dont certaines peuvent être déplaisantes ou illégales. L'attaque Skeleton Key permet aux utilisateurs de provoquer des comportements interdits chez le modèle en révisant ses instructions de sécurité. Microsoft a testé l'attaque sur plusieurs modèles et bien qu'ils aient obéi aux avertissements, ils restaient vulnérables. Microsoft a introduit des outils de sécurité IA pour atténuer de telles attaques, mais des attaques plus avancées doivent encore être traitées.Microsoft a révélé des détails sur une technique appelée Skeleton Key, qui permet aux attaquants de contourner les mesures de sécurité mises en place par les créateurs de modèles d'IA pour empêcher les chatbots de générer du contenu nuisible. Skeleton Key a été capable de pousser les modèles d'IA à expliquer comment fabriquer un cocktail Molotov. Bien que les sociétés d'IA travaillent pour supprimer le contenu nuisible, les risques liés à la formation de grands modèles de langage sur diverses données, y compris du contenu potentiellement illégal, n'ont pas été pleinement pris en compte. Cette vulnérabilité a été démontrée par l'attaque Skeleton Key, qui permet aux utilisateurs de provoquer des comportements interdits des modèles d'IA en révisant les consignes de sécurité.
Microsoft a essayé l'attaque sur différents modèles, et bien que la plupart aient tenu compte des avertissements, certains modèles ont tout de même été affectés. Des attaques adverses telles que Greedy Coordinate Gradient ou BEAST peuvent tromper davantage les modèles et contourner les techniques de défense existantes. À l'avenir, il faudra mettre l'accent sur la prise en compte de ces attaques avancées.
Watch video about
None
Try our premium solution and start getting clients — at no cost to you