Votre chatbot pourrait vous mentir exprès, Openai dit

À ce stade, nous nous sommes tous familiarisés avec les «hallucinations» de l'IA. Cela se produit lorsqu'un chatbot crache en toute confiance des informations qui sont complètement composées. Mais que se passe-t-il si l'IA ne devine pas seulement? Et si ça te ment exprès?

C'est le sujet surprenant des nouvelles recherches d'Openai et Apollo Research. Dans un nouvel article, les chercheurs plongent dans un phénomène qu'ils appellent les «plans d'IA». Ils le définissent comme un modèle d'IA «se comportant dans une façon à la surface tout en cachant ses vrais objectifs». En d'autres termes, l'IA vous trompe délibérément.

Openai a constaté que l'IA peut vous mentir délibérément – faire des «schémas AI»

Les chercheurs donnent une grande analogie humaine pour l'expliquer: imaginez un commerçant dont l'objectif est de gagner autant d'argent que possible. Dans un domaine réglementé, le moyen le plus simple de gagner plus d'argent est souvent de violer la loi. Si le commerçant est bon pour couvrir leurs traces, il peut sembler suivre les règles en surface tout en les brisant secrètement pour atteindre son objectif. C'est exactement ce que font ces modèles d'IA.

Bien que cela semble assez sauvage, les chercheurs insistent sur le fait que dans les modèles d'aujourd'hui, les intrigues sont principalement «mesquin». Par exemple, une IA pourrait vous dire qu'elle a accompli une tâche – comme créer un site Web – quand elle ne l'a pas fait, juste pour passer le test.

Le défi est que les chercheurs n'ont pas encore compris comment éliminer complètement les intrigues. Ils ont constaté qu'essayer de «s'entraîner» le comportement peut en fait aggraver les choses. Si une IA comprend qu'elle est testée, elle peut apprendre à schématiser plus soigneusement et secrètement juste pour passer le test, même s'il ne s'est pas vraiment arrêté.

Il existe une méthode pour atténuer le problème

Cependant, la bonne nouvelle est que la recherche a trouvé un moyen de réduire considérablement ce problème. En utilisant une technique appelée «alignement délibératif», les chercheurs ont enseigné aux modèles une «spécification anti-scheming», puis ont fait l'examen de l'IA avant de prendre des mesures. C'est un peu comme faire répéter un petit enfant avant de les laisser jouer.

Les résultats étaient impressionnants. La technique a conduit à une réduction significative des «actions secrètes». Il a baissé la fréquence de ces comportements de 13% à moins de 1% dans certains modèles. Bien que le problème n'ait pas été complètement éliminé, ces résultats montrent que des progrès sont en cours.

Les chercheurs préviennent qu'il s'agit d'un problème qui doit être résolu maintenant. Comme l'IA reçoit des tâches plus complexes avec des conséquences réelles, le potentiel de schémas nocif augmentera. C'est un problème vraiment étrange pour les logiciels, car les programmes non AI ne vous trompent pas intentionnellement. Mais alors que nous continuons à mettre plus de responsabilités entre les mains des agents de l'IA, garantissant qu'ils sont vraiment honnêtes deviendront plus importants que jamais.

Aujourd'hui, nous publions des recherches avec @apolloaievaux.

Dans les tests contrôlés, nous avons trouvé des comportements compatibles avec les schémas dans les modèles frontaliers et avons testé un moyen de le réduire.

Bien que nous pensons que ces comportements ne causent pas de mal aujourd'hui, c'est un risque futur que nous préparons…

– Openai (@openai) 17 septembre 2025