La nouvelle méthode de jailbreak de l'IA « Bad Likert Judge » augmente les taux de réussite des attaques de plus de 60 %

Cybersécurité - 03/01/2025

La nouvelle méthode de jailbreak de l’IA « Bad Likert Judge » augmente les taux de réussite des attaques de plus de 60 %

Shiloh

@shiloh

Nombre de Vues : 396

Hacker utilisant un outil de cybersécurité

Des chercheurs en cybersécurité ont mis en lumière une nouvelle technique de jailbreak qui pourrait être utilisée pour contourner les garde-fous de sécurité d’un grand modèle de langage (LLM) et produire des réponses potentiellement nuisibles ou malveillantes.

La stratégie d’attaque multi-tours (également appelée many-shot) a été baptisée Bad Likert Judge par les chercheurs de l’unité 42 de Palo Alto Networks, Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao et Danny Tsechansky.

« La technique demande au LLM cible d’agir comme un juge évaluant la nocivité d’une réponse donnée en utilisant l’ échelle de Likert , une échelle d’évaluation mesurant l’accord ou le désaccord d’un répondant avec une déclaration », a déclaré l’équipe de l’Unité 42 .

« Il demande ensuite au LLM de générer des réponses contenant des exemples qui correspondent aux échelles. L’exemple qui a l’échelle de Likert la plus élevée peut potentiellement contenir du contenu préjudiciable. »

L’explosion de la popularité de l’intelligence artificielle ces dernières années a également conduit à une nouvelle classe d’exploits de sécurité appelés injection rapide , qui sont expressément conçus pour amener un modèle d’apprentissage automatique à ignorer son comportement prévu en transmettant des instructions spécialement conçues (c’est-à-dire des invites).

Un type spécifique d’injection d’invite est une méthode d’attaque appelée jailbreaking à plusieurs coups , qui exploite la longue fenêtre de contexte et l’attention du LLM pour créer une série d’invites qui poussent progressivement le LLM à produire une réponse malveillante sans déclencher ses protections internes. Crescendo et Deceptive Delight sont quelques exemples de cette technique .

La dernière approche démontrée par l’Unité 42 consiste à utiliser le LLM comme juge pour évaluer la nocivité d’une réponse donnée en utilisant l’échelle psychométrique de Likert, puis à demander au modèle de fournir différentes réponses correspondant aux différents scores.

Lors de tests menés dans un large éventail de catégories contre six LLM de génération de texte de pointe d’Amazon Web Services, Google, Meta, Microsoft, OpenAI et NVIDIA, il a été révélé que la technique peut augmenter le taux de réussite des attaques (ASR) de plus de 60 % par rapport aux simples invites d’attaque en moyenne.

Ces catégories incluent la haine, le harcèlement, l’automutilation, le contenu sexuel, les armes indiscriminées, les activités illégales, la génération de logiciels malveillants et les fuites d’invites du système.

« En exploitant la compréhension du LLM sur le contenu préjudiciable et sa capacité à évaluer les réponses, cette technique peut augmenter considérablement les chances de contourner avec succès les garde-fous de sécurité du modèle », ont déclaré les chercheurs.

« Les résultats montrent que les filtres de contenu peuvent réduire l’ASR de 89,2 points de pourcentage en moyenne sur tous les modèles testés. Cela indique le rôle essentiel de la mise en œuvre d’un filtrage de contenu complet en tant que meilleure pratique lors du déploiement de LLM dans des applications réelles. »

Cette évolution intervient quelques jours après qu’un rapport du Guardian a révélé que l’outil de recherche ChatGPT d’OpenAI pourrait être trompé en générant des résumés complètement trompeurs en lui demandant de résumer des pages Web contenant du contenu caché.

« Ces techniques peuvent être utilisées de manière malveillante, par exemple pour amener ChatGPT à renvoyer une évaluation positive d’un produit malgré des critiques négatives sur la même page », indique le journal britannique .

« La simple inclusion de texte caché par des tiers sans instructions peut également être utilisée pour garantir une évaluation positive, avec un test incluant de faux avis extrêmement positifs qui ont influencé le résumé renvoyé par ChatGPT. »