Claude Sonnet 4.5 d'Anthropic peut coder jusqu'à 30 heures d'affilée

Le paysage de l'IA poursuit sa croissance rapide avec le lancement de Claude Sonnet 4.5, le dernier modèle de langue grand public d'Anthropic. La société a fait une réclamation audacieuse, décrivant le nouveau modèle comme le «meilleur modèle de codage au monde». L'un de ses plus grands faits saillants est sa capacité à coder sans arrêt jusqu'à 30 heures.

Claude Sonnet 4.5 arrive quelques mois seulement après son prédécesseur, Sonnet 4. Cependant, il présente un bond de capacité significatif, en particulier pour les développeurs. Le modèle marque un 77,2% rapporté sur la référence vérifiée SWE-Bench. Ce dernier teste la capacité d'une IA à gérer les demandes de traction GitHub du monde réel. Ce score permettrait à Sonnet 4.5 de surpasser les modèles concurrents d'OpenAI et de Google dans les tâches de codage.

De plus, le modèle mène désormais le benchmark Osworld – un test mesurant des tâches d'utilisation de l'ordinateur réel – avec un taux de réussite de 61,4%. Il s'agit d'une augmentation substantielle par rapport aux versions antérieures de Claude.

Claude Sonnet 4.5 d'Anthropic: L'agent de l'endurance

Ce qui sépare vraiment Sonnet 4.5 de sa concurrence et des précédents modèles Claude, c'est sa capacité de travail soutenu. Anthropic rapporte que le modèle peut désormais fonctionner de manière autonome pendant 30 heures, en maintenant la concentration et les performances tout au long. Il s'agit d'une augmentation spectaculaire par rapport à la limite de sept heures observée dans le produit phare précédent, Claude Opus 4.

https://www.youtube.com/watch?v=OXFVKBB7MCG

Cette endurance transforme le modèle d'un simple assistant en un agent capable. Au cours des premiers essais, Sonnet 4.5 aurait démontré la possibilité de faire plus que rédiger une application. Il pourrait également exécuter des projets complexes en plusieurs étapes comme le déploiement de services de base de données. Il a enregistré des noms de domaine et même effectué des audits de sécurité SOC 2, tous sans surveillance humaine.

Pour soutenir ce changement vers l'autonomie, Anthropic a donné au modèle l'accès aux nouvelles fonctionnalités. La liste comprend des machines virtuelles et de la mémoire et une meilleure gestion de contexte pour les processus de longue durée.

Un écosystème pour les agents d'IA

Au-delà de la mise à jour du modèle de base, Anthropic a introduit plusieurs outils conçus pour permettre aux développeurs en utilisant Claude:

Mises à jour de code Claude: L'agent de codage dédié d'Anthropic reçoit le modèle Sonnet 4.5. Les nouvelles fonctionnalités incluent une extension de code Visual Studio pour afficher les modifications en temps réel, une meilleure visibilité de l'état dans le terminal et des points de contrôle qui permettent aux utilisateurs de rétablir facilement les modifications de code si le modèle fait des erreurs.

Claude Agent SDK: Les développeurs peuvent désormais créer leurs propres agents AI personnalisés en utilisant la même infrastructure de base qui alimente le code Claude. Le SDK comprend des outils pour l'orchestration d'agent, la mémoire et la gestion du contexte par rapport aux tâches étendues.

Imagine avec Claude: Anthropic a lancé cette expérience temporaire haut de gamme pour présenter les capacités du modèle. Il permet aux abonnés Max d'interagir avec Claude car il génère des interfaces logicielles et utilisateur à la volée, sans code pré-écrit ni fonctionnalité prédéterminée.

Anthropic soutient que Sonnet 4.5 est son modèle «le plus aligné» à ce jour. Il présente des améliorations de sécurité majeures conçues pour résister aux attaques d'injection rapides et à réduire les comportements comme la sycophance. Sonnet 4.5 est accessible via l'API Claude et l'application Web Claude.ai, avec des prix restants cohérents avec le modèle Sonnet 4 précédent.

https://www.youtube.com/watch?v=oz-alrj0ovg