VALL-E : l’outil IA de Microsoft qui peut imiter la voix d’une personne
Microsoft dévoile VALL-E, son outil d’intelligence artificielle qui peut reproduire la voix de n’importe quelle personne.

Qu’est-ce que VALL-E ?
VALL-E est un nouveau modèle d’intelligence artificielle développé par Microsoft qui permet de simuler la voix d’une personne à partir d’un échantillon audio de seulement 3 secondes. Il s’agit plus précisément d’un modèle de langage pour la synthèse vocale (Text-To-Speech). VALL-E a été entraîné sur « 60 000 heures de parole anglaise, soit des centaines de fois plus que les systèmes existants. »
Le plus de ce nouvel outil : il est en capacité de préserver le ton et l’émotion du speaker, ce qui permet une imitation encore plus humaine, et donc réelle.
VALL-E présente des capacités d’apprentissage en contexte et peut être utilisé pour synthétiser une parole personnalisée de haute qualité avec seulement un enregistrement de 3 secondes d’un locuteur inconnu comme guide acoustique, explique Microsoft.
Des exemples audio de VALL-E
VALL-E n’est pas encore disponible au grand public pour l’instant. En revanche, vous pouvez écouter des exemples audio sur cette page dédiée sur GitHub. Cette page a été réalisée seulement à des fins de démonstration de recherche. C’est intéressant de voir ce que VALL-E peut donner concrètement à l’oral. Certains extraits audio fonctionnent bien, mais d’autres ont encore une voix de synthèse détectable. Tout n’est pas encore parfait du côté de VALL-E, mais le travail de Microsoft à ce sujet n’en est qu’aux prémices.
Une porte ouverte aux dérives ?
Encore une fois, la question se pose : un outil tel que VALL-E ne pourrait-il pas être dangereux s’il était ouvert au grand public ? Les deepfakes pour les images ont déjà engendré leur lot de dérives… qu’en sera-t-il pour le domaine de la voix ? Il est vrai que l’outil IA de Microsoft pourrait servir à de l’usurpation d’identité vocale si l’outil s’avère réellement performant. Comme pour ChatGPT, les inquiétudes seront nombreuses si VALL-E venait à être accessible à tous.
Puisque VALL-E peut synthétiser la parole en préservant l’identité du speaker, il peut comporter des risques potentiels de mauvaise utilisation du modèle, comme l’usurpation de l’identification vocale ou l’usurpation de l’identité d’un locuteur spécifique. Nous avons mené les expériences en supposant que l’utilisateur accepte d’être le locuteur cible dans la synthèse vocale, précise Microsoft.
VALL-E, un clin d’œil à DALL-E : pourquoi ?
Le nom VALL-E a clairement été inspiré de DALL-E, le générateur d’images par intelligence artificielle conçu par OpenAI. Et ce n’est pas une coïncidence. En ce début d’année, Microsoft semble tout miser sur la technologie d’OpenAI et pourrait même investir jusqu’à 10 milliards de dollars dans cette société selon la source Semafor. Microsoft aurait pour objectif d’intégrer le chatbot d’Open AI à ChatGPT à Word mais aussi à Bing, son moteur de recherche.
Community managers : découvrez les résultats de notre enquête 2025
Réseaux, missions, salaire... Un webinar pour tout savoir sur les CM, lundi 29 septembre à 11h !
Je m'inscris