Microsoft présente VASA-1, un modèle d’IA qui génère des « visages parlants »

Microsoft a présenté un modèle d’IA capable de générer des personnages virtuels doués de parole à partir d’une simple photographie et d’une piste audio.

vasa-1-modele-microsoft
Synchronisation labiale, reproduction des émotions humaines... VASA-1 produit des contenus d'un réalisme saisissant. © Microsoft

Dans un blog post, une équipe de chercheurs de la division R&D asiatique de Microsoft a présenté VASA-1, un modèle d’intelligence artificielle capable de générer des « personnages virtuels aux visages parlants » à partir d’une simple photographie statique et d’un enregistrement audio. Bluffant de réalisme, cet outil en développement a été simplement présenté par la firme. Sachant que le modèle pourrait être utilisé de manière abusive, Microsoft a déclaré que VASA-1 ne serait pas mis à disposition du public. Explications.

VASA-1, un générateur de « compagnons virtuels » bluffant de réalisme

Depuis plusieurs mois, des sociétés comme Elai ou Synthesia mettent à disposition des plateformes permettant de générer des avatars virtuels. Mais aucune de ces solutions n’avait, jusqu’ici, repoussé les frontières du réalisme comme le modèle de Microsoft. Capable de générer de générer des compagnons virtuels dotés « d’un large spectre de nuances faciales » et dont les mouvements de tête sont d’un réalisme saisissant, VASA-1 peut aussi synchroniser avec précision le mouvement des lèvres en fonction de la piste audio d’origine, et ce dans plusieurs langues. « [Le modèle] peut traiter des données audio de longueur arbitraire et produire de manière stable des vidéos de visages homogènes », complètent les chercheurs.

D’un point de vue technique, les vidéos générées ont une résolution de 512×512, une fréquence de 45 images par seconde, et leur durée n’excède pas 1 minute. Le modèle est aussi capable de traiter des « photos artistiques et des pistes audio qui ne faisaient pas partie de ses données d’entraînement », indique Microsoft. Ce qui a notamment permis à l’équipe de chercheurs de produire une vidéo à la fois comique et angoissante, où la Joconde reprend une version parodique de Paparazzi, interprétée par l’actrice Anne Hathaway.

Pour des raisons éthiques, VASA-1 reste un projet interne de Microsoft

Alors que les préoccupations autour de l’IA ont été récemment ravivées par Sora, le générateur de vidéos conçu par OpenAI, c’est désormais Microsoft qui est entré prudemment dans la danse avec VASA-1. Toutefois, les objectifs des deux partenaires divergent. Si l’outil d’OpenAI, encore en phase de développement, semble être plus adapté à des utilisations artistiques, et pourrait être notamment exploité par l’industrie du cinéma, VASA-1 vise à créer des « avatars réalistes qui émulent les comportements conversationnels humains », afin de « renforcer l’équité en matière d’éducation, améliorer l’accessibilité pour les personnes ayant des difficultés de communication » ou encore « offrir un soutien thérapeutique à ceux qui en ont besoin », indique Microsoft.

Problème : l’outil pourrait être, évidemment, utilisé de manière abusive, notamment pour créer des deepfakes ou du contenu « utilisé pour tromper ou induire en erreur », reconnaissent les chercheurs de la division R&D. Par conséquent, Microsoft a décidé de conserver, pour l’instant, le contrôle sur sa technologie. « Dans ce contexte, nous n’avons pas l’intention de publier une démo en ligne, une API, un produit, des détails supplémentaires sur la mise en œuvre ou toute autre offre connexe tant que nous ne sommes pas certains que la technologie sera utilisée de manière responsable et conformément aux réglementations en vigueur », peut-on lire dans le blog post.

Sujets liés :
Publier un commentaire
Ajouter un commentaire

Votre adresse email ne sera pas publiée.

Les meilleurs outils pour les professionnels du web