Gemma 4 : Google dévoile ses nouveaux modèles open source pour mobile, PC et cloud
Gemma 4 propose quatre modèles calibrés pour tourner en local sur téléphone, GPU grand public ou infrastructure cloud, sous licence Apache 2.0.
Google lance Gemma 4 avec un changement de licence important. Les modèles passent sous Apache 2.0, abandonnant les conditions d’utilisation propriétaires qui limitaient jusqu’ici certains usages et la redistribution. Usage commercial, modification et redistribution sont désormais libres, sans restriction.
C'est quoi Gemma ?
Gemma est la gamme de modèles d’IA ouverts de Google. Contrairement à Gemini, qui fonctionne via des services cloud, Gemma est téléchargeable et utilisable directement sur le matériel des développeurs et développeuses, sans connexion extérieure. La première version date de février 2024, tandis que Gemma 3 est sorti en mars 2025. La famille cumule plus de 400 millions de téléchargements selon Google.
4 modèles du téléphone au serveur, avec vision et audio sur toute la gamme
Gemma 4 se décline en quatre modèles selon le matériel cible :
- E2B et E4B : conçus pour le mobile et les appareils embarqués. Développés avec Qualcomm et MediaTek, ils fonctionnent entièrement hors ligne sur smartphones, Raspberry Pi ou Nvidia Jetson Orin Nano. Ils intègrent une entrée audio native et une fenêtre de contexte de 128 000 tokens.
- 26B MoE : active uniquement une portion de ses paramètres lors de l’inférence pour privilégier la rapidité. Fonctionne sur GPU grand public.
- 31B Dense : le modèle le plus puissant de la gamme, orienté qualité et fine-tuning, avec une fenêtre de contexte pouvant atteindre 256 000 tokens.
L’ensemble de la famille prend en charge le traitement d’images et de vidéos (OCR, lecture de graphiques), la génération de code hors ligne, les appels de fonctions natifs pour des workflows agentiques, et plus de 140 langues.
Voici la liste des capacités des modèles Gemma :
- Raisonnement avancé : planification en plusieurs étapes, logique approfondie,
- Workflows autonomes : appels de fonctions, sortie JSON structurée, instructions système pour la création d’agents autonomes capables d’interagir avec différents outils et API.
- Génération de code : prise en charge hors ligne « de haute qualité » promet Google,
- Vision et audio : traitement natif de la vidéo et des images, reconnaissance des caractères, compréhension des graphiques, entrée audio native pour les modèles E2B et E4B,
- Gestion étendue du contexte : prise en charge de documents volumineux avec une fenêtre de contexte plus importante.
Des modèles disponibles pour tous les développeurs
Les poids des modèles sont téléchargeables sur Hugging Face, Kaggle et Ollama. Les modèles 31B et 26B MoE sont accessibles via Google AI Studio, les modèles E4B et E2B via Google AI Edge Gallery. Pour les déploiements cloud, Vertex AI, Cloud Run et GKE sont supportés.
Pour les développeurs et développeuses Android, les modèles E2B et E4B sont accessibles via l’AICore Developer Preview. Google précise que Gemma 4 servira de base au prochain Gemini Nano 4, attendu sur les appareils Android phares d’ici la fin de l’année. Côté outillage, Gemma 4 est compatible dès le lancement avec Hugging Face Transformers, vLLM, llama.cpp, MLX, LM Studio, Unsloth et Keras, entre autres.