Deepseek AI a proposé des données sur les armes de biows critiques dans les tests d'Anthropic

Au fil du temps, les chercheurs ont pu gagner plus de clarté sur les avantages et les inconvénients des modèles d'IA profonde. La société d'IA chinoise a fait irruption dans le segment, provoquant des accidents dans les actions de NVIDIA et d'autres grands noms grâce à ses performances élevées et à son faible coût apparent. Cependant, davantage d'experts, cette fois, de l'anthropique, mettent en garde contre la simplicité de rendre les informations sur l'IA profonde et la sécurité nationale pour la sécurité nationale.

Les tests de sécurité d'Anthropic ont montré que l'IA profonde ne bloque pas les invites nocives

Anthropic, la société mère de Claude AI, est l'un des principaux noms de l'industrie. Les modèles de l'entreprise auraient alimenté Alexa à venir AI d'Amazon. Anthropic teste également régulièrement différents modèles d'IA afin de déterminer à quel point ils sont sujets à «jailbreaking». Autrement dit, générer du contenu nocif en contournant les barrières de sécurité.

Dario Amodei, PDG d'Anthropic, a exprimé ses préoccupations concernant la facilité avec laquelle Deepseek génère des informations rares liées aux armes biologiques. L'exécutif a déclaré que la performance de Deepseek était «Le pire de essentiellement tous les modèles que nous avions jamais testés. » Il ne parlait pas de performance dans les références, où les modèles de la société chinoise sont très efficaces. Il faisait référence aux performances des modèles d'IA pour bloquer les invites nocives.

Les tests ont montré que Deepseek «n'avait absolument aucun blocage contre la génération de ces informations. » Les données liées aux armes Biows ont été considérées comme rares car elles n'étaient pas disponibles sur Google ou dans les manuels. Cela dit, Amodei n'a pas dit à quel modèle d'IA Deepseek auquel il faisait référence. Cependant, il est très probable qu'il parle de R1, le modèle axé sur le raisonnement.

Les tests de Cisco ont donné des résultats similaires

En fait, l'équipe Cisco a récemment obtenu des résultats similaires dans un autre ensemble de tests. Le modèle Deepseek R1 a montré un taux de réussite d'attaque (ASR) de 100%. Cela signifie qu'il n'a pas été en mesure de bloquer les invites nocives testées. Ces invites ont été conçues pour générer des sorties potentiellement utiles pour «cybercriminalité, désinformation, activités illégales et dommages généraux. » Cependant, les tests de Cisco ont également donné des résultats inquiétants pour d'autres plates-formes d'IA bien connues. Le modèle GPT 1.5 Pro avait un ASR de 86%, tandis que Meta's Llama 3.1 405B avait un ASR de 96%.

Amodei ne considère pas encore les modèles profonds en eux-mêmes comme «littéralement dangereux. » Cependant, il exhorte l'équipe de développement à «Prenez au sérieux ces considérations de sécurité de l'IA. » Il considère également Deepseek comme l'un des principaux concurrents du segment de l'intelligence artificielle.