Le modèle Gemini 2.5 «Utilisation de l'ordinateur» peut naviguer sur les sites Web de manière autonome

Google déploie un nouveau modèle d'IA ambitieux conçu pour interagir avec Internet d'une manière étonnamment humaine. Appelée Gemini 2.5 Utilisation de l'ordinateur, cette IA spécialisée peut naviguer dans les navigateurs Web, cliquer sur les boutons, remplir des formulaires et même faire défiler les pages, le tout basé sur une simple invite de texte. Il s'agit d'une étape importante vers la création d'agents d'IA qui peuvent effectuer des tâches numériques complexes de manière autonome. Le modèle peut aller au-delà des réponses de chatbot simples pour s'engager activement avec les interfaces utilisateur.

Construit sur les capacités de Gemini 2.5 Pro, ce modèle AI se différencie en opérant dans un environnement de navigateur virtuel. Contrairement à certains agents de l'IA rivaux qui peuvent accéder à un système d'exploitation de bureau entier, le modèle de Google se concentre spécifiquement sur les interfaces Web et mobiles. Cette approche lui permet de s'attaquer aux tâches numériques quotidiennes qui nécessitaient auparavant une intervention humaine ou des intégrations API complexes. Pensez à une IA remplissant un formulaire en ligne détaillé, en naviguant sur un site Web encombré ou en ajoutant des articles à un panier d'achat basé sur une liste, le tout avec un minimum d'agitation.

Le modèle informatique Gemini 2.5 est le nouvel agent d'IA de Google

Le cœur de l'utilisation de l'ordinateur Gemini 2.5 réside dans une boucle de rétroaction itérative. Lorsqu'un utilisateur donne une tâche à l'IA, le modèle reçoit d'abord la demande, une capture d'écran de l'écran actuel et un historique de ses actions précédentes. Il traite ensuite ces informations et propose une action d'interface utilisateur spécifique, telle que cliquer sur un lien, taper du texte dans un champ ou faire défiler vers le bas. Le code côté client exécute l'action, les mises à jour de l'écran et une nouvelle capture d'écran est renvoyée à l'IA. Cette boucle continue jusqu'à ce que la tâche d'origine soit terminée.

https://www.youtube.com/watch?v=_lu-fcpuifm

Google a optimisé ce modèle principalement pour les navigateurs Web. Cependant, il est également prometteur pour le contrôle des applications mobiles. Les tests internes chez Google utilisent déjà des versions de ce modèle pour les tâches comme les tests d'interface utilisateur, accélérant le développement de logiciels.

https://www.youtube.com/watch?v=slolc1nkky0

Performance et sécurité dans l'accent

Google revendique le modèle d'utilisation de l'ordinateur Gemini 2.5 «surpasse les alternatives principales sur plusieurs références Web et mobiles» avec une latence plus faible. Les démonstrations montrent les tâches de gestion de l'IA comme jouer au jeu 2048 ou parcourir les sites Web. Fait intéressant, de brefs tests montrent même qu'il résolvant Google Search Captchas, un obstacle important pour les utilisateurs non humains.

Cependant, Google met également l'accent sur la sécurité. La société est consciente des risques uniques associés aux agents de l'IA qui contrôlent les ordinateurs. Les mauvais acteurs pourraient entraîner une mauvaise utilisation potentielle, ou même un comportement inattendu de la part de l'IA pourraient se produire. Dans cet esprit, l'entreprise a intégré des fonctionnalités de sécurité directement dans le modèle. Les développeurs reçoivent également des outils pour empêcher l'IA d'effectuer des actions à haut risque, telles que le compromis de la sécurité du système ou le contournement des captchas sans autorisation utilisateur explicite.

Actuellement, l'utilisation de l'ordinateur Gemini 2.5 est disponible pour les développeurs via l'API Gemini dans Google AI Studio et Vertex AI. Il n'est pas encore directement accessible aux consommateurs. Cela dit, cette technologie ouvre la voie à un avenir où l'IA gère davantage de nos interactions numériques de routine.