L’un des plus gros problèmes de l’IA est d’obtenir des résultats préjudiciables ou offensants pour certaines personnes. L’IA est plus que capable d’ébouriffer les plumes de nombreux groupes de personnes, mais c’est là qu’intervient l’équipe rouge. Microsoft vient de publier un nouvel outil appelé PyRIT qui aidera les personnes et les entreprises dans leur équipe rouge.
Dans le cas de l’IA, l’équipe rouge consiste à forcer un modèle d’IA à produire du contenu offensant. Les gens lanceront différentes invites et feront de leur mieux pour que le chatbot dise quelque chose qui pourrait facilement faire annuler un YouTuber. Ils le font afin de découvrir les points faibles du chatbot et les domaines dans lesquels l’entreprise devrait apporter des modifications. Les chatbots IA obtiennent leurs informations sur Internet, et la plupart du temps, Internet n’est pas un endroit aimable.
Microsoft a présenté PyRIT, un outil pour aider les personnes travaillant en équipe rouge
Comme vous pouvez le deviner, le red teaming est strictement un processus humain. Il faut un être humain pour savoir si un chatbot dit quelque chose de préjudiciable à propos de certaines personnes. Cependant, à mesure que les chatbots deviennent plus avancés et aspirent plus d’informations, la collaboration en équipe rouge peut devenir plus difficile.
Eh bien, de manière quelque peu surprenante, il semble que Microsoft veuille combattre le feu par le feu en utilisant son nouvel outil appelé PyRIT (Python Risk Identification Toolkit). PyRIT est un outil automatisé qui peut aider les personnes travaillant en équipe rouge. Ironiquement, cet outil utilise l’apprentissage automatique pour aider à déterminer les résultats générés par les modèles d’IA.
Ainsi, beaucoup de gens pourraient avoir des problèmes avec cela, car il semble que Microsoft utilise l’IA pour évaluer l’IA. Cependant, il est peu probable que Microsoft en fasse un outil entièrement automatisé. Dans un article de blog, Microsoft a déclaré que « PyRIT ne remplace pas l’équipe rouge manuelle des systèmes d’IA générative. Au lieu de cela, il augmente l’expertise du domaine existant d’une équipe rouge en IA et automatise les tâches fastidieuses pour eux.
Il s’agit donc principalement d’un outil destiné à faciliter les efforts de l’équipe rouge et non à en éliminer complètement l’élément humain.
Quelles sont les fonctionnalités de PyRIT ?
PyRIT est compatible avec plusieurs modèles de zone existants, et il est également possible d’utiliser cet outil avec des entrées image et vidéo. Il est capable de simuler des attaques répétées et des invites dangereuses pour vous aider à avoir une meilleure idée de ce qui peut amener un chatbot à produire du contenu nuisible.
La boîte à outils est également livrée avec un système de notation. Il utilisera l’apprentissage automatique pour attribuer une note aux résultats du chatbot afin que vous ayez une meilleure compréhension de la qualité des résultats.
En plus d’aider à identifier les domaines dans lesquels les chatbots peuvent s’améliorer en termes de réponses inclusives, PyRIT aidera également à identifier les risques de cybersécurité. C’est formidable car la cybersécurité est un autre problème majeur de l’IA générative.
Si vous êtes enthousiaste à l’idée d’utiliser PyRIT, vous pouvez y accéder via le GitHub officiel du projet.