Google lance Agentic Vision pour améliorer l’analyse d’images dans Gemini

Avec Agentic Vision, Gemini analyse désormais les images de façon active, en zoomant, annotant et calculant pour fonder ses réponses sur des preuves visuelles vérifiables.

Agentic Vision Google
Agentic Vision permet à Gemini d’analyser les images par le code. © Google

Dans un blog post publié ce mardi 27 janvier 2026, Google a annoncé le lancement d’Agentic Vision dans Gemini 3 Flash. La nouveauté « combine le raisonnement visuel et l’exécution de code pour fonder les réponses sur des preuves visuelles ». Voici l’essentiel à retenir.

Agentic Vision : l’analyse d’images de Google gagne en précision

Agentic Vision « transforme la compréhension d’images d’un acte statique en un processus actif », nous indique la firme. Pour ce faire, elle fonctionne selon une boucle Think-Act-Observe, qui transforme l’analyse d’image en un processus actif.

Dans un premier temps, le modèle analyse la requête utilisateur et l’image pour formuler un plan en plusieurs étapes (Think). Il génère ensuite du code Python pour manipuler l’image (la recadrer, faire pivoter, annoter) ou l’analyser en effectuant des calculs et en comptant des éléments (Act). L’image transformée s’ajoute au contexte du modèle, ce qui lui permet d’examiner les nouvelles données avec plus de précision avant de générer sa réponse finale (Observe).

Les modèles d’IA de pointe comme Gemini traitent généralement le monde en un seul coup d’œil statique. S’ils ne perçoivent pas un détail précis — comme un numéro de série sur une puce électronique ou un panneau de signalisation au loin — ils sont contraints de deviner, déplore Google dans son blog post.

Cette nouvelle approche permet, selon les benchmarks de vision conçus par Google, une amélioration de 5 à 10 % de la précision.

Capacités nouvelles : zoom et inspection, annotation d’images, mathématiques visuelles

Agentic Vision déverrouille trois capacités clés qui améliorent la précision et la fiabilité de l’analyse visuelle :

  • Zoom et inspection : le modèle zoome implicitement sur les détails fins pour les examiner en profondeur. Cette capacité permet de ne pas manquer les petits éléments visuels critiques.
  • Annotation d’images : le modèle exécute du code Python pour dessiner directement sur l’image et marquer les éléments identifiés. Les annotations visuelles servent de vérification pour garantir l’exactitude du résultat.
  • Mathématiques visuelles et représentation graphique : le modèle analyse les tableaux complexes et génère des visualisations par l’exécution de code Python. Il remplace ainsi les suppositions basées sur des probabilités par une exécution vérifiable.

Comment accéder à Agentic Vision

Les développeurs peuvent utiliser Agentic Vision dans Google AI Studio et Vertex AI, où ils ont accès à l’API Gemini pour intégrer directement cette capacité dans leurs applications. Ils peuvent également expérimenter la fonctionnalité dans le playground de Google AI Studio en activant « Code Execution » sous la section Tools.

Pour le grand public, le déploiement commence dans l’application Gemini. Pour ce faire, sélectionnez « Thinking » (« Raisonnement » en français) depuis le menu des modèles.

Sujets liés :
Publier un commentaire
Ajouter un commentaire

Votre adresse email ne sera pas publiée.

Visuel enquête Visuel enquête

Évaluez BDM

Simple ou compliqué, ennuyeux ou captivant... nous avons besoin de vous pour améliorer notre site. Quelques minutes suffisent !

Je donne mon avis

Les meilleurs générateurs d'images par IA