OpenAI présente Voice Engine, son modèle de clonage de voix par IA

OpenAI a présenté les résultats de sa technologie de clonage de voix par IA, Voice Engine. Pour des raisons de sécurité, le modèle n’est pas encore accessible au grand public.

OpenAI Voice Engine
Selon OpenAI, les possibilités offertes par le modèle sont multiples : aide à la lecture, traduction de contenu audio, accompagnement de personnes muettes... © Robert - stock.adobe.com

Dans une note de blog postée le 29 mars 2024, OpenAI a présenté ses travaux relatifs à Voice Engine, son modèle de création de voix personnalisées. Développé depuis la fin de l’année 2022, Voice Engine a permis à ChatGPT d’implémenter sa fonctionnalité de commande vocale et, plus récemment, de dicter ses réponses à l’oral.

Selon OpenAI, Voice Engine est capable de générer « une voix naturelle très semblable à celle de l’orateur original » à partir d’un extrait de seulement 15 secondes.

Voice Engine : le modèle de voix par IA d’OpenAI

OpenAI présente, dans son communiqué, les différentes possibilités d’application de son modèle, testées avec des partenaires :

  • L’aide à la lecture : l’IA peut être utilisée pour lire un contenu à destination d’un public non-lecteur ou pour des enfants, grâce à « des voix naturelles et expressives représentant un éventail plus large de locuteurs »,
  • La traduction de contenu : la technologie pourrait être utilisée par des créateurs de contenu audio, ou des entreprises, afin de déployer leur travail dans plusieurs pays,
  • L’accompagnement des personnes muettes : Voice Engine a la capacité de proposer une voix naturelle aux personnes muettes, dans de nombreuses langues. Les personnes qui perdent progressivement leur voix pourraient également la synthétiser.

En langue française, il apparaît difficile d’évaluer les performances du modèle. En effet, OpenAI précise que les voix traduites conservent leur accent d’origine. Les références présentées étant toutes en anglais, le clonage en français s’habille donc invariablement d’un accent. En revanche, les exemples en langue anglaise démontrent des résultats remarquables, à tel point qu’il devient difficile de distinguer l’audio original de la voix clonée.

Voici un exemple d’audio d’origine :

Voici le clonage de la voix à partir de cet audio :

Clonage de voix par IA : des risques à prendre en compte

Pour limiter les risques associés au clonage de voix par IA, OpenAI a choisi de ne pas diffuser son modèle auprès du grand public. Seules quelques entreprises partenaires y ont accès, après s’être engagées à respecter les règles d’utilisation qui interdisent l’usurpation de l’identité d’une personne ou d’une organisation sans son consentement explicite. Elles doivent également informer clairement le public lorsqu’une voix est générée par l’IA. Pour renforcer la sécurité, un filigrane sonore est intégré aux voix clonées.

Plus largement, OpenAI conseille aux entreprises de renoncer à l’authentification vocale, encore utilisée par certaines banques. La firme souligne également l’importance de « sensibiliser le public aux capacités et aux limites des technologies de l’IA, y compris à la possibilité d’un contenu trompeur de l’IA », en particulier à l’approche des élections, et de développer des technologies de détection adaptées.

Sujets liés :
Publier un commentaire
Ajouter un commentaire

Votre adresse email ne sera pas publiée.

Visuel enquête Visuel enquête

Community managers : découvrez les résultats de notre enquête 2025

Réseaux, missions, salaire... Un webinar pour tout savoir sur les CM, lundi 29 septembre à 11h !

Je m'inscris

Les meilleurs outils pour les professionnels du web