Mistral AI dévoile Voxtral, un modèle open source centré sur l’audio : reconnaissance vocale, transcription…

Décliné en deux variantes, Voxtral n’aurait rien à envier aux meilleures technologies du marché, comme Whisper large-v3 ou Gemini Flash 2.5, d’après Mistral AI.

Le modèle Voxtral sera bientôt intégré à Le Chat. © Rokas - stock.adobe.com

Mistral AI, figure de proue française de l’intelligence artificielle, a présenté Voxtral, sa première gamme de modèles open source dédiés à la reconnaissance et à la transcription vocale. Déclinés en deux variantes, Voxtral (24B) et Voxtral Mini (3B), ces « modèles de compréhension vocale de pointe » sont disponibles en téléchargement sur Hugging Face ou via l’API de Mistral, avec des prix qui « commencent à 0,001 $ la minute ». Ils viennent aussi offrir de nouvelles capacités à Le Chat, l’agent conversationnel de Mistral AI.

Des performances annoncées comme supérieures aux concurrents

Dévoilé ce mardi 15 juillet 2025 dans un billet de blog, Voxtral promet « une précision de pointe et une compréhension sémantique native, en open source, à moins de la moitié du prix des API comparables », souligne Mistral AI. Avec une fenêtre contextuelle de 32 000 tokens, il peut traiter jusqu’à 30 minutes d’audio pour la transcription et 40 minutes pour la compréhension. Il sait reconnaître automatiquement les langues les plus parlées, de l’espagnol à l’hindi en passant par le français, générer des résumés ou répondre à l’oral à des questions. Il pourrait, à terme, différencier les interlocuteurs et détecter certaines de leurs caractéristiques, comme l’âge ou le sexe, selon un communiqué transmis à l’AFP.

Selon Mistral AI, qui a récemment lancé son premier modèle intégrant un raisonnement chain-of-tought et noué un partenariat avec Nvidia, Voxtral n’aurait rien à envier à ses concurrents sur le marché. L’entreprise affirme que, sur certains benchmarks en anglais et multilingues, sa technologie « dépasse largement Whisper large-v3, le modèle open source de transcription vocale le plus avancé actuellement », et qu’il surpasserait aussi GPT-4o mini Transcribe et Gemini 2.5 Flash « sur toutes les tâches ». Rien que ça.

voxtral-benchmark-transcription — Voxtral concurrence Whisper à un coût moins élevé. © Mistral AI

Le Chat va s’enrichir de fonctionnalités audio

Voxtral sera progressivement intégré à Le Chat « dans les prochaines semaines », aussi bien sur la version web que mobile, indique Mistral AI. Les utilisateurs de l’agent conversationnel pourront alors enregistrer ou importer un fichier audio, en obtenir la transcription, poser des questions sur son contenu ou encore générer un résumé.

Pour les entreprises, Mistral AI propose des fonctionnalités avancées, telles que le fine-tuning du modèle pour l’adapter à des domaines d’expertise (santé, droit, support client, etc.), un déploiement privé sur leur propre infrastructure, ainsi qu’un accompagnement pour l’intégration.