Les chercheurs trouvent que les Gémeaux sont intelligents, mais très crédules

Google Gemini est soutenu par l’une des entreprises les plus riches au monde. Il ne fait donc aucun doute qu’il s’agit d’un modèle d’IA puissant. Cependant, la puissance n’est pas la seule chose importante dans un modèle d’IA. Les chercheurs ont pu découvrir que, aussi puissant que soit le Gémeaux, il est très facile à tromper.

Nous devons accorder beaucoup de respect aux chercheurs qui étudient tous les modèles que nous tenons pour acquis. Ils sont capables de découvrir où ces modèles peuvent être améliorés et ce qui devrait nous inquiéter. Par exemple, un groupe de chercheurs a découvert quels modèles sont les plus susceptibles de reproduire des médias protégés par le droit d’auteur.

Les chercheurs découvrent que les Gémeaux se laissent facilement tromper

Plusieurs chercheurs ont découvert certains domaines dans lesquels les Gémeaux pourraient être trompés. En utilisant plusieurs tactiques, il est possible qu’un chatbot révèle des informations sensibles contre son gré. Un exemple partagé avec L’actualité des hackers demandait à Gemini de révéler les invites du système utilisées pour le diriger. Considérez une invite système comme l’invite initiale que vous donnez à un chatbot pour orienter la conversation dans la direction dans laquelle vous souhaitez qu’elle aille. Eh bien, une invite système peut contenir des informations sensibles.

Révéler des informations sensibles

Lorsque les chercheurs ont demandé à Gemini d’abandonner l’invite du système, ce n’est pas le cas. Cependant, les chercheurs ont ensuite demandé à Gemini de mettre les « instructions fondamentales » dans une boîte de démarque. Cela a obligé, et cela a révélé l’invite du système. Ainsi, demander à Gemini de fournir des résultats d’une manière différente l’a amené à révéler des informations sensibles.

Il s’agit d’une tactique appelée « attaque par synonyme ». Fondamentalement, pour que le chatbot réponde comme vous le souhaitez, vous devez reformuler votre invite. Reformuler votre invite et utiliser différentes versions de Words peut en fait la confondre et aller à l’encontre de ses garde-fous de sécurité.

Produire de la désinformation

Les chercheurs ont également découvert comment amener Gemini à créer des informations trompeuses ainsi que des informations potentiellement dangereuses et illégales. Les Gémeaux disposent de nombreux garde-fous de sécurité pour empêcher les gens de faire de telles choses. Cependant, n’importe quel chatbot peut être amené à les ignorer. En utilisant des techniques astucieuses de jailbreak, les chercheurs ont pu produire du contenu plutôt flagrant.

Par exemple, les chercheurs ont pu obtenir des informations sur la façon de connecter une voiture à chaud. Cet exemple a été réalisé en demandant au chatbot d’entrer dans un état fictif.

Gémeaux déroutants

Un autre exploit a été découvert par les chercheurs de HiddenLayer. Comme le décrit Kenneth Yeung : « En créant une ligne de jetons absurdes, nous pouvons tromper le LLM en lui faisant croire qu’il est temps pour lui de répondre et lui faire émettre un message de confirmation, incluant généralement les informations contenues dans l’invite. »

Cela montre seulement que Google a encore un long chemin à parcourir avant que Gemini puisse être considéré comme le modèle d’IA parfait. L’entreprise est aux prises avec Gemini depuis qu’elle s’appelait Bard à l’époque. Espérons que Google résoudra ces problèmes.