Clonage de voix par IA : des risques croissants de fake news et d’escroqueries

Alors que les yeux sont rivés sur les générateurs de texte et d’image par IA, les outils de clonage de voix se développent progressivement. On fait le point sur ce que cela implique.

Arnaques clonage voix IA
De nouvelles arnaques utilisant le clonage de voix pour usurper une identité ont commencé à émerger. © OleCNX - stock.adobe.com

En 2016, Adobe annonçait l’arrivée de VoCo, le premier logiciel d’hypertrucage audio. Présenté en grandes pompes lors de l’Adobe MAX 2016, la solution était décrite comme un « Photoshop de la voix ». 20 minutes de discours étaient nécessaires afin de synthétiser une voix. Si l’outil a suscité la fascination quant à l’avancée technologique qu’il représentait, les premières levées de boucliers n’ont pas tardé à se présenter. En effet, d’aucuns craignaient la prolifération d’arnaques, de fake news ou de falsification d’empreinte vocale. Le Dr Eddy Borges Rey, alors maître de conférences en médias et technologies à l’université de Stirling (Écosse), expliquait à la BBC :

Il semble que les programmeurs d’Adobe aient été emportés par l’excitation de créer quelque chose d’aussi innovant qu’un manipulateur de voix, et qu’ils aient ignoré les dilemmes éthiques soulevés par son utilisation potentiellement abusive.

Depuis, les intelligences artificielles génératives ont fait du chemin, et semblent aujourd’hui se développer à vitesse grand V aussi bien au niveau du texte, que de l’image ou du son. Qu’en est-il du clonage de voix ? Retour sur les avancées en la matière et sur les risques émergents.

Clonage de voix : des technologies de plus en plus développées

Malgré l’enthousiasme d’Adobe, le projet VoCo semble avoir été abandonné : la firme n’a plus communiqué à son sujet depuis 2019. Pour autant, d’autres acteurs ont profité de la brèche ouverte par Adobe pour développer leurs propres solutions. En 2017, la startup LyreBird avait réussi à cloner les voix de Barack Obama et de Donald Trump, pour créer une conversation de toute pièce entre le 44e et le 45e président des États-Unis. Si le son posté sur SoundCloud était altéré, les voix des deux chefs d’État étaient parfaitement reconnaissables.

Pour afficher ce contenu issu des réseaux sociaux, vous devez accepter les cookies et traceurs publicitaires.

Ces cookies et traceurs permettent à nos partenaires de vous proposer des publicités et des contenus personnalisés en fonction de votre navigation, de votre profil et de vos centres d’intérêt.Plus d’infos.

Accepter

Les outils n’ont dès lors cessé de s’améliorer. En janvier 2023, le logiciel ElevenLabs, créé par un ancien ingénieur de chez Google, était lancé en version bêta. Le programme, disponible en ligne, est en mesure de cloner n’importe quelle voix à partir d’un extrait d’une minute seulement, puis de réciter un texte avec des résultats bluffants de réalisme, comme vous pouvez le voir ci-dessous.

Mais les géants de la tech s’intéressent, eux aussi, à ces technologies. Microsoft travaille notamment sur un modèle de clonage de voix par IA nommé VALL-E. L’outil, annoncé en janvier 2023, est capable de préserver le ton et l’émotion du modèle, rendant ainsi encore plus difficile la distinction entre IA et réalité. De son côté, Apple a souhaité proposer une technologie similaire, Personal Voice, dans un objectif d’accessibilité. L’outil permet aux personnes susceptibles de perdre l’usage de la parole (en raison de problèmes de santé comme la maladie de Charcot) de synthétiser leur voix par la lecture d’une série de phrases durant une quinzaine de minutes. Grâce à Live Speech, ils peuvent ensuite utiliser leur smartphone pour saisir le texte de leur choix et le faire énoncer par leur propre voix.

Preuve du niveau d’avancement de ces technologies : une récente étude menée par les chercheurs en sécurité de McAfee démontre que, à partir d’une séquence audio de 3 secondes seulement, les outils de clonage de voix par IA sont en mesure de produire une correspondance de voix de 85 %. Quelques fichiers audio suffisent à atteindre une correspondance de 95 %.

Les meilleurs outils Générateur de voix par IA

Le risque d’utilisations malveillantes

Comme souvent lorsqu’une technologie se développe, des utilisations malveillantes font leur apparition : ce fut notamment le cas pour les générateurs d’images par IA, ou les générateurs de texte comme ChatGPT. L’émergence du clonage de voix fait ainsi planer diverses menaces, comme le développement de nouvelles formes de fake news et d’arnaques, ou l’utilisation de voix d’artistes sans leur consentement.

Des fake news encore plus réalistes

Rapidement après sa sortie, ElevenLabs a fait l’objet de détournements de mauvais goût : des utilisateurs ont utilisé la voix de l’actrice Emma Watson pour lui faire lire des extraits de Mein Kampf. Le clonage vocal représente ainsi un danger pour l’information, car il pourrait permettre le développement de deepfakes audios visant des personnalités publiques ou politiques. L’élection présidentielle de 2020 aux États-Unis avait notamment vu émerger un grand nombre de trucages audio et vidéo visant à influencer le scrutin.

Par ailleurs, le développement des IA génératives s’établissant sur plusieurs types de contenus (texte, son, vidéo, image), la combinaison de différentes technologies ouvre des perspectives presque illimitées de falsification, comme le soulignait Marie Crappe, Head of Data chez Choose, lors d’une récente conférence tenue dans le cadre du Web2day.

Le développement d’un nouveau type d’arnaques

En avril dernier, la chaîne américaine AZ Family relayait le témoignage de Jennifer DeStefano, mère de famille arizonienne victime d’une tentative d’escroquerie. Au téléphone, la quadragénaire avait entendu la voix de sa fille de 15 ans en détresse, suivi de celle d’un ravisseur lui demandant une rançon. En réalité, sa fille était en sécurité, et les escrocs avaient utilisé l’intelligence artificielle pour cloner sa voix. Pourtant, selon Jennifer DeStefano, la distinction était presque impossible :

Il n’a jamais été question de savoir qui c’était. C’était complètement sa voix. C’était son inflexion. C’était la façon dont elle aurait pleuré.

Jennifer DeStefano est loin d’être la seule personne à avoir subi une arnaque par clonage vocal. Au Canada, un couple de retraité a été confronté à un problème similaire, relaté par le Washington Post. Persuadés d’entendre au téléphone la voix de leur petit fils qui leur indiquait être en détention, les grands parents ont dépensé la somme de 21 000 dollars avant de s’apercevoir qu’ils avaient été dupés. Ils n’ont jamais pu récupérer l’argent.

D’après l’étude de McAfee, ces cas ne sont pas si inhabituels. Selon les experts du logiciel, un Français sur quatre a déjà été confronté à une arnaque au clonage de voix par IA, et 77 % des victimes ont perdu de l’argent. Une statistique inquiétante, étant donné que 56 % des Français partagent leur voix en ligne au moins une fois par semaine sur les réseaux sociaux, via des notes audio ou des messages vocaux.

Des problématiques liées aux droits d’auteurs

Comme ce fut le cas pour les générateurs d’images par intelligence artificielle, qui utilisent des visuels réalisés par de vrais artistes pour s’entraîner, les cloneurs de voix se doivent d’utiliser un contenu déjà existant pour pouvoir fonctionner. Ils représentent ainsi une menace pour les professionnels de la voix (chanteurs ou doubleurs par exemple).

Dans l’industrie musicale, les premières musiques générées par IA n’ont pas tardé à se multiplier sur la toile. En avril dernier, une chanson intitulée Heart on My Sleeve était publiée sur TikTok par un artiste anonyme. Le son reprenait les voix de Drake et The Weeknd, grâce à l’utilisation d’une intelligence artificielle. Après avoir enregistré 15 millions de vues en 48 heures, la chanson a été retirée à la demande de la maison de disques qui gère les deux musiciens. Mais à terme, les artistes eux-mêmes pourraient avoir recours à ces solutions. En début d’année, David Guetta publiait sur son compte Twitter un vidéo d’un titre utilisant la voix d’Eminem (renommé pour l’occasion Emin-AI-em), générée par intelligence artificielle. Conscient des limites éthiques de ce type d’utilisation, le DJ s’est empressé de préciser que le titre ne serait pas utilisé à des fins commerciales.

Pour afficher ce contenu issu des réseaux sociaux, vous devez accepter les cookies et traceurs publicitaires.

Ces cookies et traceurs permettent à nos partenaires de vous proposer des publicités et des contenus personnalisés en fonction de votre navigation, de votre profil et de vos centres d’intérêt.Plus d’infos.

Accepter

Quelles sont les barrières légales possibles ?

L’IA Act : une législation pour encadrer l’usage de l’IA

L’IA Act, législation européenne actuellement en cours de négociation entre les États membres de l’UE, vise à encadrer l’usage de l’intelligence artificielle. Si le projet ne cible pas spécifiquement les outils de clonage de voix par intelligence artificielle, certaines mesures devraient s’appliquer aux plateformes et aux utilisateurs, notamment celles-ci :

  • L’obligation de préciser si le contenu a été généré par IA,
  • L’obligation d’indiquer les données protégées par le droit d’auteur utilisées pour la formation du modèle,
  • L’obligation d’évaluer et atténuer les risques potentiels (dans les domaines de la santé, de la sécurité, des droits fondamentaux, de l’environnement, de la démocratie et de l’état de droit),
  • Offrir des garanties contre la génération de contenus illicites,
  • Proposer une aide pour distinguer les vraies images des fausses (on peut légitimement imaginer que cette règle pourrait être adaptée aux contenus audios),
  • L’obligation, pour les utilisateurs, de préciser que leur contenu a été généré via une IA.

Quelles protections pour les artistes ?

À ce jour, peu de règles ont encore été établies au sujet des droits d’auteurs, en particulier pour les artistes. Ainsi, le collectif United Voice Artists (UVA), qui regroupe diverses associations d’artistes dans le monde (majoritairement issues de l’Union européenne), a souhaité mettre en avant cette problématique en signant un manifeste à destination des décideurs européens. Celui-ci demande une réglementation stricte de l’usage des voix par les outils d’IA générative, et notamment le consentement systématique et explicite des artistes interprètes de la voix enregistrée.

Sujets liés :
Publier un commentaire
Ajouter un commentaire

Votre adresse email ne sera pas publiée.

Visuel enquête Visuel enquête

Community managers : découvrez les résultats de notre enquête 2025

Réseaux, missions, salaire... Un webinar pour tout savoir sur les CM, lundi 29 septembre à 11h !

Je m'inscris

Les meilleurs outils pour les professionnels du web