Gemini 2.5 Computer Use : Google lance une IA qui contrôle le navigateur comme un humain
Google présente Gemini 2.5 Computer Use, un modèle d’IA capable d’interagir avec des interfaces comme un humain, en cliquant, en écrivant ou en scrollant.

Google a présenté Gemini 2.5 Computer Use, une déclinaison de son modèle Gemini 2.5 Pro. Son rôle est de permettre à des agents IA de manipuler directement des interfaces utilisateur, comme un navigateur web par exemple. Contrairement aux modèles qui reposent uniquement sur des API structurées, celui-ci peut cliquer, saisir du texte, faire défiler une page ou encore interagir avec des éléments à l’écran.
L’intérêt de ce modèle est de couvrir des besoins qui n’ont pas toujours d’API adaptée. Remplir un formulaire en ligne, organiser un tableau collaboratif ou encore planifier un rendez-vous peut souvent nécessiter de passer par une interface conçue pour un humain. Avec Gemini 2.5 Computer Use, Google ambitionne de rendre ces tâches accessibles à des agents automatiques, tout en améliorant leur rapidité et leur fiabilité.
Un fonctionnement basé sur une boucle d’interactions
Le modèle Gemini 2.5 Computer Use repose sur un cycle itératif. À chaque étape, il reçoit la demande initiale de l’utilisateur, une capture d’écran de l’interface ainsi qu’un historique des actions effectuées. Grâce à ces éléments, il choisit une action à entreprendre, comme cliquer sur un bouton ou remplir un champ.
Pour accomplir certaines tâches, les agents doivent naviguer sur des pages web et dans des applications comme le font les humains, en cliquant, en saisissant du texte et en faisant défiler l’écran. La capacité à remplir nativement des formulaires, à manipuler des éléments interactifs tels que des menus déroulants ou des filtres, et à fonctionner derrière une authentification constitue une étape essentielle dans la création d’agents puissants et polyvalents.
Une fois cette action exécutée, une nouvelle capture d’écran est transmise et le processus recommence. L’agent poursuit son travail jusqu’à ce que la tâche soit accomplie, qu’une erreur survienne ou qu’une intervention de l’utilisateur mette fin au cycle. Pour certaines opérations sensibles, par exemple un achat, le modèle déclenche automatiquement une demande de confirmation avant de poursuivre.
Des démonstrations pour illustrer les capacités de Gemini 2.5 Computer Use
Google a partagé plusieurs scénarios concrets afin de montrer la potentielle polyvalence de son modèle. Dans un exemple, l’IA récupère des informations sur des animaux depuis un formulaire en ligne, les intègre dans un système de gestion de la relation client, puis programme un rendez-vous dans un spa. Dans un autre, elle réorganise un tableau numérique rempli de post-its virtuels en les classant dans les bonnes catégories.
Ces cas d’usage démontrent la capacité du modèle à enchaîner plusieurs actions successives sur des interfaces variées. Ils servent aussi à illustrer l’avantage d’un agent capable de naviguer dans des environnements conçus pour des utilisateurs humains plutôt que pour des logiciels.
Des performances supérieures à la concurrence ?
D’après les résultats de benchmarks publiés par Google, Gemini 2.5 Computer Use dépasse ses principaux concurrents, notamment OpenAI et Anthropic, sur plusieurs tests de navigation web et mobile. Les expérimentations menées par Browserbase et Google indiquent une meilleure précision sur le benchmark Online-Mind2Web, tout en affichant une latence réduite par rapport aux autres solutions.
Des retours d’acteurs ayant testé le modèle confirment ces progrès, toujours selon les informations divulguées par Google. L’assistant Poke.com affirme avoir constaté une exécution environ 50 % plus rapide que ses alternatives. De son côté, Autotab a mesuré une amélioration de 18 % sur des cas complexes nécessitant une compréhension fine du contexte. Google lui-même dit utiliser déjà cette technologie pour fiabiliser ses tests d’interfaces et réduire les temps de correction.
L’équipe de la plateforme de paiements de Google a intégré le modèle Computer Use comme mécanisme de secours, afin de pallier la fragilité des tests d’interface de bout en bout, lesquels étaient responsables de 25 % de l’ensemble des échecs de tests.
Une attention particulière portée à la sécurité
Donner à une IA la possibilité de contrôler un navigateur comporte des risques. Google explique donc avoir intégré plusieurs garde-fous. Chaque action proposée est évaluée par un service externe avant son exécution, ce qui doit limiter la probabilité de comportements indésirables.
Les développeurs et développeuses disposent également de mécanismes pour renforcer la sécurité de leurs agents. Ils peuvent définir des règles afin que certaines actions soient systématiquement refusées ou soumises à une confirmation utilisateur.
L’entraînement du modèle inclut aussi des protections contre l’utilisation malveillante ou les tentatives d’injection de prompts. Google recommande malgré tout de tester minutieusement les déploiements avant toute mise en production.
Une disponibilité immédiate en preview publique
Gemini 2.5 Computer Use est accessible dès aujourd’hui en preview publique. Les développeurs et développeuses peuvent l’utiliser via l’API Gemini, que ce soit dans Google AI Studio ou dans Vertex AI. Pour celles et ceux qui souhaitent observer ses capacités avant de l’intégrer, une démonstration est proposée sur Browserbase.
Le modèle Gemini 2.5 Computer Use est principalement optimisé pour les navigateurs web, mais s’avère également très prometteur pour les tâches de contrôle d’interfaces utilisateur mobiles. Il n’est pas encore optimisé pour le contrôle au niveau du système d’exploitation.
Comme l’explique Google, le modèle est aujourd’hui principalement optimisé pour la navigation web, mais montre également de bons résultats sur mobile. En revanche, il ne prend pas encore en charge le contrôle complet d’un système d’exploitation de bureau. Cette limitation pourrait évoluer dans les prochaines versions, au fur et à mesure que Google affine ses agents.