Gemini : Google muscle son API avec 2.5 Flash, Pro et de nouvelles fonctions multimodales

Présentée lors de Google I/O 2025, la nouvelle version de l’API Gemini gagne en puissance, en interactivité et en précision, notamment pour l’audio et la musique.

Les nouvelles capacités de l’API Gemini illustrent la volonté de Google de proposer une IA générative plus fluide, multimodale et adaptée aux développeurs. © Google

Google a levé le voile sur une série de nouveautés majeures pour l’API Gemini lors de la conférence I/O 2025. Ces annonces renforcent l’ambition de la firme de Mountain View de proposer une plateforme d’IA générative encore plus performante, adaptée aux cas d’usage réels, y compris dans des environnements interactifs, multimodaux ou à latence réduite. Les développeurs et développeuses disposent désormais d’outils plus avancés pour créer des expériences conversationnelles, audio ou musicales, toujours via l’API Gemini et le Google AI Studio.

Les modèles Gemini 2.5 désormais intégrés à l’API

Google enrichit son API Gemini avec de nouveaux modèles 2.5 taillés pour « la performance et les interactions naturelles ». Le modèle Gemini 2.5 Flash Preview, dans sa version du 20 mai 2025, se distingue par ses progrès en raisonnement, en génération de code et en traitement de longs contextes. Selon les benchmarks de Google, il atteint la deuxième place du classement LMarena, juste derrière le modèle 2.5 Pro, tout en réduisant de 22 % le volume de tokens requis pour un même niveau de réponse.

Par ailleurs, les modèles 2.5 Pro et Flash sont désormais capables de générer de l’audio natif multilingue (24 langues) en mode text-to-speech, avec contrôle du style vocal et prise en charge de plusieurs locuteurs. En complément, Gemini 2.5 Flash Audio Dialog, accessible via la Live API, permet de créer des voix expressives en temps réel, capables de détecter les émotions et de réagir de façon contextuelle. Un modèle dédié au raisonnement complexe peut aussi être activé pour répondre à des requêtes élaborées. Enfin, Google expérimente un mode Deep Think sur 2.5 Pro, pour des tâches à plusieurs étapes, notamment en mathématiques ou programmation.

L’API accueille également deux nouvelles capacités. Lyria RealTime introduit la génération musicale en continu, via WebSocket, à partir de prompts textuels. Le modèle produit des séquences instrumentales adaptatives, testables via l’app PromptDJ-MIDI. Enfin, Gemma 3n, un modèle open source optimisé pour les appareils mobiles, traite texte, audio et image tout en minimisant les besoins en calcul grâce à une architecture allégée et des techniques de caching avancées.

Des fonctionnalités pensées pour les développeurs

Avec cette nouvelle vague de mises à jour, Google enrichit l’API Gemini de fonctionnalités visant à améliorer la transparence, le contrôle et l’intégration des modèles dans des environnements complexes. Pour aider les développeurs à comprendre les raisonnements derrière les réponses, l’API propose désormais des « résumés de pensée » pour les modèles Gemini 2.5 Pro et Flash. Ces synthèses offrent une vue structurée du cheminement logique suivi par le modèle, avec titres, détails utiles et appels d’outils associés. Elles peuvent être activées simplement dans les paramètres de configuration et s’accompagnent toujours du contenu généré.

Autre nouveauté : l’introduction des « thinking budgets », qui permettent de définir la quantité de calcul cognitif que le modèle doit allouer à une tâche. Cela donne la possibilité d’ajuster finement le compromis entre latence, coût et qualité de réponse. L’option est disponible pour 2.5 Flash et arrivera bientôt sur 2.5 Pro. En parallèle, un nouvel outil URL Context permet aux modèles d’extraire automatiquement du contenu depuis des liens fournis dans les requêtes. Il peut fonctionner seul et ouvre ainsi la voie à la création d’agents de recherche personnalisés.

Parmi les autres nouveautés, l’API intègre un outil de contrôle d’ordinateur, dérivé du projet Mariner, qui permet à un agent d’interagir avec un navigateur, par exemple pour automatiser des tâches web. L’analyse vidéo est enrichie : les modèles peuvent désormais résumer, traduire ou découper des vidéos YouTube ou téléversées. Le JSON Schema est mieux pris en charge, avec le support de structures complexes comme les tuples. L’API Live gère aussi les fonctions asynchrones, ce qui permet à un agent de répondre pendant qu’une action utilisateur se poursuit en arrière-plan. Enfin, une Batch API est en test : elle donne la possibilité d’envoyer des requêtes groupées à moindre coût, avec une réponse sous 24 heures.

Toutes les nouveautés de Google I/O 2025

Explorer les métiers du développement informatique

Les métiers du développement informatique sont essentiels : ce sont les experts techniques des projets. Certains sont en charge des interfaces (front-end), d'autres conçoivent la part immergée des applications (back-end). Les développeurs peuvent aussi intervenir sur l'ensemble des produits (full stack), ou opter pour une spécialisation (mobile, jeux vidéo), puis évoluer vers des fonctions d'architecte ou de CTO. Voir tous les métiers du développement informatique