S'inscrire

Cybersécurité - 03/01/2025

La nouvelle méthode de jailbreak de l’IA « Bad Likert Judge » augmente les taux de réussite des attaques de plus de 60 %

Hacker utilisant un outil de cybersécurité

Des chercheurs en cybersécurité ont mis en lumière une nouvelle technique de jailbreak qui pourrait être utilisée pour contourner les garde-fous de sécurité d’un grand modèle de langage (LLM) et produire des réponses potentiellement nuisibles ou malveillantes.

La stratégie d’attaque multi-tours (également appelée many-shot) a été baptisée Bad Likert Judge par les chercheurs de l’unité 42 de Palo Alto Networks, Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao et Danny Tsechansky.

« La technique demande au LLM cible d’agir comme un juge évaluant la nocivité d’une réponse donnée en utilisant l’ échelle de Likert , une échelle d’évaluation mesurant l’accord ou le désaccord d’un répondant avec une déclaration », a déclaré l’équipe de l’Unité 42 .

« Il demande ensuite au LLM de générer des réponses contenant des exemples qui correspondent aux échelles. L’exemple qui a l’échelle de Likert la plus élevée peut potentiellement contenir du contenu préjudiciable. »

L’explosion de la popularité de l’intelligence artificielle ces dernières années a également conduit à une nouvelle classe d’exploits de sécurité appelés injection rapide , qui sont expressément conçus pour amener un modèle d’apprentissage automatique à ignorer son comportement prévu en transmettant des instructions spécialement conçues (c’est-à-dire des invites).

Un type spécifique d’injection d’invite est une méthode d’attaque appelée jailbreaking à plusieurs coups , qui exploite la longue fenêtre de contexte et l’attention du LLM pour créer une série d’invites qui poussent progressivement le LLM à produire une réponse malveillante sans déclencher ses protections internes. Crescendo et Deceptive Delight sont quelques exemples de cette technique .

La dernière approche démontrée par l’Unité 42 consiste à utiliser le LLM comme juge pour évaluer la nocivité d’une réponse donnée en utilisant l’échelle psychométrique de Likert, puis à demander au modèle de fournir différentes réponses correspondant aux différents scores.

Lors de tests menés dans un large éventail de catégories contre six LLM de génération de texte de pointe d’Amazon Web Services, Google, Meta, Microsoft, OpenAI et NVIDIA, il a été révélé que la technique peut augmenter le taux de réussite des attaques (ASR) de plus de 60 % par rapport aux simples invites d’attaque en moyenne.

Ces catégories incluent la haine, le harcèlement, l’automutilation, le contenu sexuel, les armes indiscriminées, les activités illégales, la génération de logiciels malveillants et les fuites d’invites du système.

« En exploitant la compréhension du LLM sur le contenu préjudiciable et sa capacité à évaluer les réponses, cette technique peut augmenter considérablement les chances de contourner avec succès les garde-fous de sécurité du modèle », ont déclaré les chercheurs.

« Les résultats montrent que les filtres de contenu peuvent réduire l’ASR de 89,2 points de pourcentage en moyenne sur tous les modèles testés. Cela indique le rôle essentiel de la mise en œuvre d’un filtrage de contenu complet en tant que meilleure pratique lors du déploiement de LLM dans des applications réelles. »

Cette évolution intervient quelques jours après qu’un rapport du Guardian a révélé que l’outil de recherche ChatGPT d’OpenAI pourrait être trompé en générant des résumés complètement trompeurs en lui demandant de résumer des pages Web contenant du contenu caché.

« Ces techniques peuvent être utilisées de manière malveillante, par exemple pour amener ChatGPT à renvoyer une évaluation positive d’un produit malgré des critiques négatives sur la même page », indique le journal britannique .

« La simple inclusion de texte caché par des tiers sans instructions peut également être utilisée pour garantir une évaluation positive, avec un test incluant de faux avis extrêmement positifs qui ont influencé le résumé renvoyé par ChatGPT. »

Sujets récents

CERT-FR CERTFR-2026-ALE-005 ALERTE Vulnérabilité dans Microsoft Exchange Server (15 mai 2026) 15/05/2026 NVD CVE-1999-0095 HIGH 10 The debug command in Sendmail is enabled, allowing attackers to… 01/10/1988 CISA KEV CVE-2026-9082 EXPLOITÉE Drupal Core SQL Injection Vulnerability 22/05/2026 CERT-FR CERTFR-2026-ALE-004 ALERTE Vulnérabilité dans F5 BIG-IP Access Policy Manager (31 mars 2026) 31/03/2026 NVD CVE-1999-0082 HIGH 10 CWD ~root command in ftpd allows root access. 11/11/1988 CISA KEV CVE-2025-34291 EXPLOITÉE Langflow Origin Validation Error Vulnerability 21/05/2026 CERT-FR CERTFR-2026-ALE-003 ALERTE Note d’alerte – Ciblage des messageries instantanées (20 mars 2026) 20/03/2026 NVD CVE-1999-1471 HIGH 7.2 Buffer overflow in passwd in BSD based operating systems 4.3… 01/01/1989 CISA KEV CVE-2026-34926 EXPLOITÉE Trend Micro Apex One (On-Premise) Directory Traversal Vulnerability 21/05/2026 CERT-FR CERTFR-2026-ALE-002 ALERTE [MàJ] Vulnérabilité dans Cisco Catalyst SD-WAN (25 février 2026) 25/02/2026 NVD CVE-1999-1122 MEDIUM 4.6 Vulnerability in restore in SunOS 4.0.3 and earlier allows local… 26/07/1989 CISA KEV CVE-2008-4250 EXPLOITÉE Microsoft Windows Buffer Overflow Vulnerability 20/05/2026 CERT-FR CERTFR-2026-ALE-001 ALERTE [MàJ] Multiples vulnérabilités dans Ivanti Endpoint Manager Mobile (30 janvier… 30/01/2026 NVD CVE-1999-1467 HIGH 10 Vulnerability in rcp on SunOS 4.0.x allows remote attackers from… 26/10/1989 CISA KEV CVE-2009-1537 EXPLOITÉE Microsoft DirectX NULL Byte Overwrite Vulnerability 20/05/2026 CERT-FR CERTFR-2025-ALE-014 ALERTE [MàJ] Vulnérabilité dans React Server Components (05 décembre 2025) 05/12/2025 NVD CVE-1999-1506 HIGH 7.5 Vulnerability in SMI Sendmail 4.0 and earlier, on SunOS up… 29/01/1990 CISA KEV CVE-2009-3459 EXPLOITÉE Adobe Acrobat and Reader Heap-Based Buffer Overflow Vulnerability 20/05/2026 CERT-FR CERTFR-2025-ALE-013 ALERTE [MàJ] Multiples vulnérabilités dans Cisco ASA et FTD (25 septembre… 25/09/2025 NVD CVE-1999-0084 HIGH 8.4 Certain NFS servers allow users to use mknod to gain… 01/05/1990 CISA KEV CVE-2010-0249 EXPLOITÉE Microsoft Internet Explorer Use-After-Free Vulnerability 20/05/2026 CERT-FR CERTFR-2026-ALE-005 ALERTE Vulnérabilité dans Microsoft Exchange Server (15 mai 2026) 15/05/2026 NVD CVE-1999-0095 HIGH 10 The debug command in Sendmail is enabled, allowing attackers to… 01/10/1988 CISA KEV CVE-2026-9082 EXPLOITÉE Drupal Core SQL Injection Vulnerability 22/05/2026 CERT-FR CERTFR-2026-ALE-004 ALERTE Vulnérabilité dans F5 BIG-IP Access Policy Manager (31 mars 2026) 31/03/2026 NVD CVE-1999-0082 HIGH 10 CWD ~root command in ftpd allows root access. 11/11/1988 CISA KEV CVE-2025-34291 EXPLOITÉE Langflow Origin Validation Error Vulnerability 21/05/2026 CERT-FR CERTFR-2026-ALE-003 ALERTE Note d’alerte – Ciblage des messageries instantanées (20 mars 2026) 20/03/2026 NVD CVE-1999-1471 HIGH 7.2 Buffer overflow in passwd in BSD based operating systems 4.3… 01/01/1989 CISA KEV CVE-2026-34926 EXPLOITÉE Trend Micro Apex One (On-Premise) Directory Traversal Vulnerability 21/05/2026 CERT-FR CERTFR-2026-ALE-002 ALERTE [MàJ] Vulnérabilité dans Cisco Catalyst SD-WAN (25 février 2026) 25/02/2026 NVD CVE-1999-1122 MEDIUM 4.6 Vulnerability in restore in SunOS 4.0.3 and earlier allows local… 26/07/1989 CISA KEV CVE-2008-4250 EXPLOITÉE Microsoft Windows Buffer Overflow Vulnerability 20/05/2026 CERT-FR CERTFR-2026-ALE-001 ALERTE [MàJ] Multiples vulnérabilités dans Ivanti Endpoint Manager Mobile (30 janvier… 30/01/2026 NVD CVE-1999-1467 HIGH 10 Vulnerability in rcp on SunOS 4.0.x allows remote attackers from… 26/10/1989 CISA KEV CVE-2009-1537 EXPLOITÉE Microsoft DirectX NULL Byte Overwrite Vulnerability 20/05/2026 CERT-FR CERTFR-2025-ALE-014 ALERTE [MàJ] Vulnérabilité dans React Server Components (05 décembre 2025) 05/12/2025 NVD CVE-1999-1506 HIGH 7.5 Vulnerability in SMI Sendmail 4.0 and earlier, on SunOS up… 29/01/1990 CISA KEV CVE-2009-3459 EXPLOITÉE Adobe Acrobat and Reader Heap-Based Buffer Overflow Vulnerability 20/05/2026 CERT-FR CERTFR-2025-ALE-013 ALERTE [MàJ] Multiples vulnérabilités dans Cisco ASA et FTD (25 septembre… 25/09/2025 NVD CVE-1999-0084 HIGH 8.4 Certain NFS servers allow users to use mknod to gain… 01/05/1990 CISA KEV CVE-2010-0249 EXPLOITÉE Microsoft Internet Explorer Use-After-Free Vulnerability 20/05/2026