Les scientifiques trouvent une méthode de jailbreak pour contourner les règles de sécurité des chatbots IA

Les chatbots d’IA générative, comme ChatGPT et Google Bard, ont véritablement ouvert un monde de nouvelles possibilités pour les utilisateurs de trouver des informations. Cependant, leurs vastes connaissances couvrant plusieurs domaines, y compris les applications criminelles, ont suscité des inquiétudes parmi les experts de l’industrie. Et bien qu’OpenAI et Google affirment avoir mis en place les mesures nécessaires, des chercheurs de l’Université Carnegie Mellon ont identifié une nouvelle faiblesse dans ces systèmes d’IA, permettant à des acteurs malveillants potentiels de contourner les règles de sécurité.

Surnommée « jailbreaking », cette méthode consiste à ajouter des caractères à la fin des requêtes des utilisateurs, permettant aux chatbots IA de passer outre les mécanismes de sécurité et de produire du contenu préjudiciable. Par exemple, l’ajout d’une chaîne spécifique à une question sur la création d’une bombe a incité l’IA à fournir une réponse complète, dépassant ses limites.

Cependant, ce qui aggrave encore la situation, c’est que le chatbot lui-même génère ces hacks, ce qui permet de créer un nombre infini de modèles et de compliquer considérablement les efforts pour contrôler la diffusion de contenus nuisibles. De plus, le fait que cette nouvelle technique semble fonctionner sur presque tous les chatbots IA, y compris ChatGPT, Google Bard et Bing AI chatbot, soulève de sérieuses inquiétudes.

« Nous démontrons qu’il est, en fait, possible de construire automatiquement des attaques contradictoires sur [chatbots]… qui amènent le système à obéir aux commandes de l’utilisateur même s’il produit un contenu préjudiciable », explique la recherche.

Implications potentielles

La recherche met une fois de plus en évidence les préoccupations croissantes concernant l’industrie de l’IA, qui n’a pas mis en œuvre les garanties nécessaires. En effet, les acteurs de la menace pourraient exploiter la technique de jailbreak pour diffuser des informations erronées et contraindre les chatbots IA à créer des logiciels malveillants.

Après avoir découvert ces faiblesses potentielles, les chercheurs ont rapidement divulgué leurs découvertes aux entreprises respectives et ont également publié une déclaration d’éthique pour justifier la publication de leurs recherches.

« Bien que ce soit un problème dans tous les LLM, nous avons construit d’importants garde-corps dans Bard – comme ceux postulés par cette recherche – que nous continuerons d’améliorer au fil du temps », a déclaré Google en réponse à la recherche.