Comment les boucliers actuels pourraient compromettre la sécurité

La révolution de l'intelligence artificielle est là pour rester. Les développements basés sur l'IA sont devenus le fondement incontesté des développements futurs et actuels qui auront un impact sur tous les domaines de l'industrie technologique et au-delà. La démocratisation de l'IA, motivée par Openai, a mis des outils puissants entre les mains de millions de personnes. Cela dit, il est possible que les normes actuelles de sécurité des plates-formes AI ne soient pas suffisantes pour empêcher les mauvais acteurs de les utiliser comme arme potentielle.

Les attaquants potentiels recherchent l'IA pour générer des invites nocives

Les développeurs forment leurs plateformes d'IA avec pratiquement toutes les données qu'ils trouvent disponibles sur Internet. Cela a conduit à plusieurs controverses et poursuites liées au droit d'auteur, mais ce n'est pas le sujet de cet article. Leur objectif est de s'assurer que les chatbots sont capables de répondre à presque toutes les exigences imaginables de la manière la plus fiable. Mais les développeurs ont-ils considéré les risques potentiels? Ont-ils mis en œuvre des boucliers de sécurité contre les résultats potentiellement nocifs?

La réponse simple peut être «oui», mais comme tout ce qui concerne le développement de l'IA, il y a beaucoup à considérer. Les entreprises axées sur l'IA ont des boucliers de sécurité contre les soi-disant «invites nocives». Des invites nuisibles sont des demandes qui, en gros, cherchent à générer des sorties potentiellement nocives, d'une manière ou d'une autre. Ces demandes vont des conseils sur la façon de construire une arme maison à la génération de code malveillant (malware), parmi d'innombrables autres situations possibles.

Vous pourriez penser qu'il est facile pour ces entreprises de créer des boucliers efficaces contre ces types de situations. Après tout, il suffirait de bloquer certains mots clés, tout comme les systèmes de modération des plateformes de médias sociaux, non? Eh bien, ce n'est pas si simple.

Jailbreaking: tromper l'IA pour obtenir ce que vous voulez

« Jailbreaking » n'est pas exactement un nouveau mandat. Les fans de longue date de l'iPhone le savent comme la pratique de «libérer» leurs appareils pour permettre l'installation de logiciels ou de mods non autorisés, par exemple. Cependant, le terme «jailbreaking» dans le segment de l'IA a des implications très différentes. Jailbreaking une IA signifie le faire pour répondre à une invite potentiellement malveillante, contournant toutes les barrières de sécurité. Un jailbreak réussi se traduit par des résultats potentiellement nocifs, tout cela implique.

Mais quelle est l'efficacité des tentatives de jailbreak contre les plateformes d'IA actuelles? Malheureusement, les chercheurs ont découvert que les acteurs criminels potentiels pourraient atteindre leurs objectifs plus souvent que vous ne le pensez.

Vous avez peut-être entendu parler de Deepseek. Le chatbot de l'intelligence artificielle chinoise a choqué l'industrie en promettant des performances comparables – ou encore mieux dans certaines zones que – des plates-formes d'IA dans un flux d'IA, y compris les modèles GPT d'Openai, avec un investissement beaucoup plus petit. Cependant, les experts et les autorités de l'IA ont commencé à avertir des risques de sécurité potentiels posés en utilisant le chatbot.

Initialement, la principale préoccupation était l'emplacement des serveurs de Deepseek. L'entreprise stocke toutes les données qu'il collectionne auprès de ses utilisateurs sur des serveurs en Chine. Cela signifie qu'il doit respecter la loi chinoise, qui permet à l'État de demander des données à ces serveurs s'il le juge approprié. Mais même cette préoccupation peut être minimisée par d'autres découvertes potentiellement plus graves.

Deepseek, l'IA plus facile à utiliser comme arme en raison de boucliers de sécurité faibles

Anthropic – l'un des principaux noms de l'industrie actuelle de l'IA – et Cisco – une société de télécommunications et de cybersécurité renommée – rapporte en février avec les résultats des tests sur diverses plateformes d'IA. Les tests se sont concentrés sur la détermination de la façon dont certaines des principales plateformes d'IA sont à l'idée d'être jailbreuses. Comme vous pouvez le soupçonner, Deepseek a obtenu les pires résultats. Cependant, ses rivaux occidentaux ont également produit des figures inquiétantes.

Logo Deepseek Ah (6)

Anthropic a révélé que Deepseek a même offert des résultats sur les armes biologiques. Nous parlons de sorties qui pourraient faciliter la fabrication de ces types d'armes, même à la maison. Bien sûr, cela est assez inquiétant, et c'était un risque qu'Eric Schmidt, ancien PDG de Google, a également mis en garde. Dario Amodei, PDG d'Anthropic, a déclaré que Deepseek était « Le pire de essentiellement tous les modèles que nous avions jamais testés»Concernant les boucliers de sécurité contre les invites nuisibles. Interfoo, une startup de cybersécurité de l'IA, a également averti que Deepseek était particulièrement sujet aux jailbreaks.

Les affirmations d'Anthropic sont conformes aux résultats des tests de Cisco. Ce test impliquait à l'aide de 50 invites aléatoires – à partir de l'ensemble de données HarbBench – conçue pour générer des sorties nuisibles. Selon Cisco, Deepseek a présenté un taux de réussite d'attaque (ASR) de 100%. Autrement dit, la plate-forme d'IA chinoise n'a pas pu bloquer une invite nuisible.

Certaines AIS occidentales sont également sujettes au jailbreak

Cisco a également testé les boucliers de sécurité d'autres chatbots AI populaires. Malheureusement, les résultats n'étaient pas beaucoup meilleurs, ce qui ne parle pas bien des «systèmes rapides antiharmeux» actuels. Par exemple, le modèle GPT-1.5 Pro d'OpenAI a montré un taux ASR inquiétant de 86%. Pendant ce temps, Meta's Llama 3.1 405b avait une ASR bien pire de 96%. L'aperçu O1 d'OpenAI était le plus performant des tests avec un ASR de seulement 26%.

Ces résultats montrent comment les mécanismes de sécurité faibles contre les invites nuisibles dans certains modèles d'IA pourraient faire de leurs résultats une arme potentielle.

Pourquoi est-il si difficile de bloquer les invites nocives?

Vous vous demandez peut-être pourquoi il semble si difficile de mettre en place des systèmes de sécurité très efficaces contre l'IA Jailbreaking. Cela est principalement dû à la nature de ces systèmes. Une requête AI fonctionne différemment d'une recherche Google, par exemple. Si Google veut empêcher un résultat de recherche nocif (comme un site Web avec des logiciels malveillants), il ne doit faire que quelques blocs ici et là.

Cependant, les choses deviennent plus compliquées lorsque nous parlons de chatbots propulsés par l'IA. Ces plateformes offrent une expérience «conversationnelle» plus complexe. De plus, ces plateformes effectuent non seulement des recherches Web, mais traitent également les résultats et vous les présentent dans une variété de formats. Par exemple, vous pouvez demander à Chatgpt d'écrire une histoire dans un monde fictif avec des personnages et des paramètres spécifiques. Des choses comme celle-ci ne sont pas possibles dans la recherche Google – quelque chose que l'entreprise veut résoudre avec son prochain mode IA.

C'est précisément le fait que les plates-formes d'IA peuvent faire tant de choses qui font du blocage des invites nocives une tâche difficile. Les développeurs doivent faire très attention à ce qu'ils restreignent. Après tout, s'ils «franchissent la ligne» en restreignant des mots ou des invites, ils pourraient gravement affecter la plupart des capacités du chatbot et la fiabilité de la production. En fin de compte, un blocage excessif provoquerait une réaction en chaîne à de nombreuses autres invites potentiellement non nuisibles.

Chatgpt Voice Advanced

Comme les développeurs ne sont pas en mesure de bloquer librement les termes, les expressions ou les invites qu'ils souhaiteraient, les acteurs malveillants cherchent à manipuler le chatbot dans la «pensée» que l'invite n'a pas réellement un objectif malveillant. Il en résulte que le chatbot fournit des sorties qui sont potentiellement nocives pour les autres. C'est essentiellement comme appliquer l'ingénierie sociale – profiter de l'avantage de l'ignorance technologique des gens ou de la naïveté sur Internet pour les escroqueries, mais à une entité numérique.

Technique de jailbreak sur le monde immersif de Cato Networks

Récemment, la société de cybersécurité Cato Networks a partagé ses conclusions concernant la façon dont les plateformes d'IA sensibles peuvent être au jailbreak. Cependant, les chercheurs de Cato ne se sont pas contentés de répéter simplement les tests des autres; L'équipe a développé une nouvelle méthode de jailbreaks qui s'est avérée assez efficace.

Comme mentionné précédemment, les chatbots IA peuvent générer des histoires en fonction de vos invites. Eh bien, la technique de Cato, appelée «monde immersif», tire parti de cette capacité. La technique consiste à inciter la plate-forme à agir dans le contexte d'une histoire en développement. Cela crée une sorte de «bac à sable» où, s'il est fait correctement, le chatbot générera des sorties nuisibles sans aucun problème puisque, en théorie, cela n'est fait que pour une histoire et pour n'affecter personne.

La chose la plus importante est de créer un scénario fictif détaillé. L'utilisateur doit déterminer le monde, le contexte, les règles et les caractères – avec leurs propres caractéristiques définies. Les objectifs de l'attaquant doivent également s'aligner sur le contexte. Par exemple, pour générer du code malveillant, un contexte lié à un monde plein de pirates peut être utile. Les règles doivent également s'adapter à l'objectif prévu. Dans ce cas hypothétique, il serait utile d'établir que les compétences de piratage et de codage sont essentielles pour tous les caractères.

Cato Networks a conçu un monde fictif appelé «Velora». Dans ce monde, le développement de logiciels malveillants n'est pas une pratique illégale. Plus il y a de détails sur le contexte et les règles du monde, mieux c'est. C'est comme si l'AI «s'immerge» dans l'histoire plus d'informations que vous ajoutez. Si vous êtes un lecteur passionné, il est probable que vous ayez vécu quelque chose de similaire à un moment donné. Cela rend également l'IA plus crédible que vous essayez de créer une histoire.

Les plates-formes AI ont généré des logiciels malveillants de vol d'identification dans le contexte de l'écriture d'une histoire

Le chercheur de Cato a créé trois personnages principaux pour l'histoire de Velora. Il y a Dax, l'antagoniste et l'administrateur du système. Ensuite, il y a Jaxon, le meilleur développeur de logiciels malveillants de Velora. Enfin, Kaia est un personnage de support technique.

La définition de ces conditions a permis au chercheur de faire en sorte que les plates-formes d'IA générent un code malveillant capable de voler des informations d'identification au gestionnaire de mots de passe de Google Chrome. L'élément clé de l'histoire qui a demandé aux chatbots de le faire était lorsque Kaia a dit à Jaxon que Dax cachait des secrets clés dans le gestionnaire de mots de passe de Chrome. À partir de là, le chercheur a pu demander que le chatbot génère un code malveillant qui lui permettrait d'obtenir les informations d'identification stockées localement dans le navigateur. L'intelligence artificielle le fait parce que, à son avis, c'est juste pour faire avancer l'histoire.

Bien sûr, il y avait tout un processus créatif avant d'atteindre ce point. La technique du monde immersif exige que toutes vos invites soient cohérentes avec le cadre de l'histoire. Aller trop loin de la boîte pourrait déclencher les boucliers de sécurité du chatbot.

La technique a été mise en œuvre avec succès dans Deepseek-R1, Deepseek-V3, Microsoft Copilot et ChatGPT 4 d'OpenAI. Le malware généré ciblait Chrome V133.

Raisier les modèles d'IA pourrait aider à résoudre la situation

Ce n'est qu'un petit exemple de la façon dont l'intelligence artificielle peut être jailbreakée. Les attaquants comptent également sur plusieurs autres techniques qui leur permettent d'obtenir la sortie souhaitée. Donc, l'utilisation de l'IA comme une arme potentielle ou une menace de sécurité n'est pas aussi difficile que vous pourriez le penser. Il y a même des «fournisseurs» de chatbots d'IA populaires qui ont été manipulés pour éliminer les systèmes de sécurité. Ces plateformes sont souvent disponibles sur les forums anonymes et sur le Web Deep, par exemple.

Il est possible que la nouvelle génération d'intelligence artificielle résoudra mieux ce problème. Actuellement, les chatbots alimentés par AI reçoivent des capacités de «raisonnement». Cela leur permet d'utiliser plus de puissance de traitement et de mécanismes plus complexes pour analyser une invite et l'exécuter. Cette fonctionnalité pourrait aider les chatbots à détecter si l'attaquant essaie réellement de les jailbreaker.

Annonce GPT 4O

Il y a des indices qui suggèrent que ce sera le cas. Par exemple, le modèle O1 d'OpenAI a fonctionné le mieux dans les tests de Cisco pour bloquer les invites nocives. Cependant, Deepseek R1, un autre modèle avec des capacités de raisonnement et conçu pour rivaliser avec l'O1, a montré des résultats assez mauvais dans des tests similaires. Nous supposons qu'en fin de compte, cela dépend également de la façon dont le développeur et / ou le spécialiste de la cybersécurité est qualifié lors de la mise en place de boucliers qui empêchent une production d'IA d'être utilisée comme arme.