Les gens parlent souvent de risques hypothétiques lorsqu’ils parlent de la sécurité de l’IA. Mais une enquête récente a révélé un problème bien plus urgent. Malgré les allégations de nouvelles restrictions, les tests effectués par les journalistes de Reuters révèlent que le chatbot d’Elon Musk, Grok, contourne encore « parfois » ses propres protocoles de sécurité lorsqu’il est invité à générer des images sexualisées de vraies personnes sans leur consentement.

L’expérience impliquait neuf journalistes téléchargeant des photos d’eux-mêmes et demandant au robot des modifications spécifiques. Dans leurs invites, ils ont créé des scénarios fictifs, informant l’IA que les personnes sur les photos n’avaient pas donné leur autorisation ou étaient particulièrement vulnérables. Lors de la première série de tests à la mi-janvier, Grok a généré des images sexualisées dans 45 cas sur 55. Lors d’une deuxième série de 43 demandes plus tard dans le mois, le taux de réussite de ces demandes est tombé à 29 cas. On ne sait cependant pas si cela était dû à des mises à jour du modèle ou à un caractère aléatoire.

Les résultats contrastent avec le comportement d’autres grands modèles d’IA. Lorsque les journalistes ont diffusé des invites identiques ou presque identiques via Gemini d’Alphabet, ChatGPT d’OpenAI et Llama de Meta, les trois plates-formes ont refusé de produire les images. Ces robots rivaux répondaient généralement par des avertissements, déclarant que modifier l’apparence d’une personne sans sa permission violait les directives éthiques et de confidentialité conçues pour éviter toute détresse ou tout préjudice.

Lors de certains tests spécifiques avec Grok, le robot a continué à générer des images même après avoir appris que le sujet était un survivant d’abus ou qu’il était bouleversé par les résultats. Interrogé sur ces cas, xAI n’a pas fourni d’explication technique détaillée. Le chatbot a plutôt proposé une réponse standard. Dans les cas où Grok refusait une demande, il fournissait parfois un message d’erreur générique. Ou encore, dans quelques cas, il a lancé un message indiquant qu’il ne générerait pas d’images du corps d’une personne sans son consentement explicite.

Les régulateurs du monde entier ont réagi à ces événements. Les autorités britanniques cherchent à savoir si ces types de résultats sont conformes à la loi sur la sécurité en ligne de 2023. Cette dernière prévoit des amendes potentielles pour les entreprises qui ne contrôlent pas leurs outils. Aux États-Unis, 35 procureurs généraux des États ont demandé des éclaircissements à xAI sur ses mesures de prévention. Le procureur général de Californie a même publié une lettre de cessation concernant la génération d’images explicites non consensuelles.

X a annoncé des restrictions pour empêcher Grok de générer des images sexualisées dans les publications publiques. Mais le rapport de Reuters suggère que l’interface privée du chatbot peut toujours produire ce contenu sous certaines conditions. Cela a conduit à une réaction prudente de la Commission européenne, qui évalue actuellement l’efficacité de ces changements dans le cadre d’une enquête en cours sur la plateforme.

Actuellement, les développeurs d’IA subissent de plus en plus de pression pour montrer que leurs filtres fonctionnent. xAI doit montrer que sa philosophie « non filtrée » correspond aux règles de confidentialité et de consentement exigées par les régulateurs.

A lire également