Google lance Gemini 2.0 Flash, son modèle d’IA le plus avancé : quelles sont les nouveautés ?

En déployant la version expérimentale de Gemini 2.0 Flash, Google continue sa lutte à distance avec OpenAI et ChatGPT, en proposant de nouveaux outils et API pour son IA.

Google-gemini-2-0-Flash
Gemini 2.0 devrait pouvoir analyser les contenus textuels, les images, mais aussi les fichiers audio. © Google

Google vient de dévoiler Gemini 2.0 Flash, une mise à jour majeure de sa plateforme d’intelligence artificielle, avec de nouveaux outils et fonctionnalités, notamment dédiés aux développeurs d’applications. Avec cette version 2.0, Google promet des performances accrues, des expériences multimodales et des agents IA prêts à coder. Pour le moment limité à un petit groupe d’utilisateurs, Gemini 2.0 devrait être disponible plus globalement début 2025. Voici ce qu’il faut retenir des annonces de Google.

Google dévoile Gemini 2.0 Flash dans une version expérimentale

À travers Google AI Studio ou Vertex AI, les développeurs vont pouvoir utiliser Gemini 2.0 Flash Experimental pour créer de nouvelles applications, le tout grâce à l’API Gemini et la création facilitée d’agents IA.

Des performances améliorées

Gemini 2.0 Flash, évolution de la version 1.5 déployée en juillet 2024, se distingue, selon les dires de Google, par une vitesse de traitement doublée et des améliorations dans des domaines tels que la compréhension spatiale et le raisonnement. Ces avancées devraient permettre à l’IA de Google de mieux identifier des objets dans des environnements visuels complexes et de produire des contenus multimodaux (texte, image, audio) avec plus de précision. Les agents créés grâce à l’API devraient également pouvoir produire des contenus mêlant texte et images.

De nouvelles fonctionnalités multimodales

Avec cette version 2.0, Gemini Flash propose plusieurs nouvelles capacités :

  • Sorties audio multilingues natives : les développeurs peuvent générer des contenus audio en plusieurs langues, avec un choix de voix et d’accents personnalisables, et un contrôle avancé « sur ce que dit le modèle » et « la manière dont il le dit », explique Google.
  • Génération d’images natives : Gemini 2.0 peut produire des images et les modifier en plusieurs étapes. L’outil permet également d’intégrer texte et images dans une même réponse, pour des applications comme les recettes ou les tutoriels.

Gemini 2.0 Flash serait aussi capable d’analyser des données textuelles, visuelles, mais également audio, en transmettant directement les fichiers à l’IA.

Google annonce en outre que ces contenus seront protégés par des filigranes invisibles (SynthID) pour limiter les risques de désinformation et d’attribution erronée.

Des capacités avancées pour des cas d’usage complexes

Des outils intégrés pour une utilisation enrichie

Gemini 2.0 est conçu pour pouvoir utiliser des outils tels que Google Search ou des fonctions tierces directement par l’intermédiaire de son API. Ces capacités permettent par exemple de réaliser des recherches parallèles sur plusieurs sources pour enrichir les réponses et traiter des cas plus complexes. En outre, une API nommée « Multimodal Live » a également été introduite, dans le but de gérer des flux audio et vidéo en temps réel, avec des interactions conversationnelles plus naturelles, comme la gestion des interruptions du discours.

Jules, un agent de codage automatisé

Jules a également été présenté par Google. Il s’agit d’un agent IA capable de prendre en charge des tâches courantes de programmation, comme la correction de bugs ou la création de pull requests. Intégré à des workflows comme GitHub, Jules génère des plans d’exécution que les développeurs peuvent valider avant toute modification. Actuellement en phase expérimentale, cet outil sera accessible plus globalement en 2025. Jules rejoindra son ami au nom franchouillard Claude, l’agent conversationnel d’Anthropic.

Des outils pour la data science dans Colab

Dans le domaine de l’analyse de données, un autre agent intégré à Colab permet de générer automatiquement des blocs-notes à partir de requêtes en langage naturel. Cet outil vise, grâce à ses capacités dédiées, à automatiser des analyses complexes, afin de réduire le temps consacré aux tâches répétitives et rendre l’exploration des données plus accessible.

Sujets liés :
Publier un commentaire
Ajouter un commentaire

Votre adresse email ne sera pas publiée.

Visuel enquête Visuel enquête

Community managers : découvrez les résultats de notre enquête 2025

Réseaux, missions, salaire... Un webinar pour tout savoir sur les CM, lundi 29 septembre à 11h !

Je m'inscris

Les meilleurs outils pour les professionnels du web