Microsoft lance 7 modèles d’IA et se détache un peu plus d’OpenAI

À l’occasion de Microsoft Build, la firme a dévoilé une famille de sept modèles développés en interne. MAI-Thinking-1, le premier modèle de raisonnement maison, constitue la pièce maîtresse de cette annonce.

MAI-Thinking-1 atteint 52,8 % sur SWE Bench Pro. © Microsoft

Ce mardi 2 juin 2026, Microsoft a tenu sa conférence annuelle Build, dédiée aux développeurs et aux professionnels de la tech. Parmi les annonces phares, la firme a considérablement étoffé sa gamme MAI, ses modèles d’IA développés en interne pour concurrencer OpenAI, Anthropic et Google. Sept nouveaux modèles couvrant le raisonnement, le code, l’image, la voix et la transcription, font leur arrivée. Tour d’horizon.

MAI : un cap stratégique pour Microsoft

Depuis plusieurs années, les modèles d’IA de Microsoft ont reposé en grande partie sur la collaboration avec OpenAI, dans lequel la firme a investi plusieurs milliards de dollars. Mais l’accord a été renégocié deux fois en moins d’un an : en octobre 2025, puis en avril 2026, avec à chaque fois un desserrement de l’exclusivité. En développant ses propres modèles frontier, Microsoft s’adapte ainsi à cette nouvelle donne. Les modèles sont entraînés depuis zéro, sans distillation à partir de modèles tiers, sur des données sous licence commerciale, un point que Microsoft met en avant auprès de ses clients en entreprise soucieux de leur chaîne de responsabilité sur les droits d’auteur.

La pièce maîtresse de cette annonce est MAI-Thinking-1, le premier modèle de raisonnement maison de Microsoft. Avec 35 milliards de paramètres actifs et une architecture MoE, il se positionne dans la catégorie des modèles de taille moyenne. Microsoft revendique que des évaluateurs indépendants lui ont préféré MAI-Thinking-1 à Claude Sonnet 4.6 d’Anthropic dans des tests en aveugle, et que ses résultats sur SWE Bench Pro (le benchmark de référence pour les tâches de développement logiciel) le placent presque au niveau de Claude Opus 4.6.

Sept modèles, cinq modalités

Microsoft mise sur le multimodal avec une gamme qui couvre le texte, le code, l’image, la voix et la transcription. Voici les sept modèles annoncés :

MAI-Thinking-1 : premier modèle de raisonnement de Microsoft, il est conçu pour les tâches complexes et multi-étapes. Il est disponible en preview privée sur Microsoft Foundry.
MAI-Code-1-Flash : modèle de code léger de 5 milliards de paramètres, il est optimisé pour VS Code et GitHub Copilot et déployé dès aujourd’hui dans ces deux environnements.
MAI-Image-2.5 : modèle de génération et d’édition d’image, il revendique la 2ᵉ place du classement Arena pour l’édition d’image, derrière Nano Banana 2. Il est déjà actif dans PowerPoint et en cours de déploiement sur OneDrive.
MAI-Image-2.5-Flash : variante allégée de MAI-Image-2.5, elle cible les charges de production à fort volume avec une priorité sur l’efficacité.
MAI-Transcribe-1.5 : modèle de transcription couvrant 43 langues, Microsoft le présente comme cinq fois plus rapide que les modèles concurrents. Il est intégré dans GitHub, Teams, Copilot et Dynamics 365 Contact Center.
MAI-Voice-2 : modèle de synthèse vocale disponible en 15 langues, il est conçu pour produire une voix naturelle avec un contrôle émotionnel fin.
MAI-Voice-2-Flash : variante basse latence de MAI-Voice-2, elle cible les agents vocaux pour lesquels la rapidité de réponse est déterminante.

L’ensemble de la gamme est disponible sur Microsoft Foundry. Les modèles sont également accessibles via OpenRouter, Fireworks et Baseten, ce qui permet aux développeurs de tuner les poids directement dans l’environnement de leur choix.

Sujets liés :