OpenAI a-t-il entraîné Sora sur vos jeux vidéo et streameurs préférés ?
Comment Sora, le générateur de vidéo par IA d’OpenAI, a-t-il été entraîné ? Selon TechCrunch, l’outil est étonnamment capable de produire des extraits de jeux bien connus…
				
			
			
				OpenAI a enfin déployé son générateur de vidéo par IA, Sora, présenté en début d’année 2024. Inaccessible en France et en Europe, l’outil est déjà un terrain de jeu pour de nombreux curieux et curieuses. Cependant, si on ignore presque tout de la manière dont a été entraîné Sora, il semblerait que le contenu issu de Twitch, et ses nombreuses parties de jeux vidéo diffusées, ait grandement inspiré OpenAI…
Quand Sora génère presque parfaitement Mario ou Call of Duty
Journaliste pour TechCrunch, Kyle Wiggers a retenu une petite phrase, lors de la présentation de Sora en février 2024, qui a attisé sa curiosité. OpenAI avait effectivement révélé, au détour d’un discours, que des vidéos du jeu Minecraft avaient été utilisées pour entraîner le modèle. Dix mois et un déploiement (presque) mondial plus tard, Kyle Wiggers a repris ses notes et fait quelques tests. À quel point le monde vidéoludique a servi à alimenter le modèle génératif à la base de Sora ? Pour le journaliste, il y a peu de doute, des morceaux de jeux vidéo dans Sora, « il y en a pas mal ».
Sora peut générer une vidéo qui est presque un clone de Super Mario Bros. Il peut créer des séquences de gameplay d’un FPS qui semble inspiré de Call of Duty et Counter Strike.


Exemples à l’appui, Kyle Wiggers démontre en effet la capacité de l’outil d’OpenAI de produire d’étonnantes séquences ressemblant à s’y méprendre à de célèbres jeux. Mais ce n’est pas tout, il note également que « Sora semble avoir une idée de ce à quoi devrait ressembler un stream Twitch ». Dans l’exemple ci-dessous, on reconnaît sans problème l’interface, même si celle-ci n’est pas parfaite, ainsi qu’un étrange mélange des logos Twitch et YouTube, donnant à penser au journaliste de TechCrunch que de nombreux streams Twitch ou walkthrough de jeux vidéo sur YouTube ont été utilisés pour l’entraînement de Sora. L’IA semble même pouvoir générer des créateurs et créatrices de contenu connus, comme AuronPlay ou Pokimane.

Un triple problème de droits potentiel pour OpenAI ?
Si Sora a mis en place un filtrage – si vous promptez « gameplay de Mortal Kombat 1 », la vidéo générée n’y ressemblera pas, fait remarquer Kyle Wiggers -, les tests du journaliste « suggèrent que le contenu vidéo ludique a peut-être trouvé son chemin dans les données d’entraînement » de l’outil. Et si les contenus associés à des lives Twitch ou des vidéos YouTube ont été utilisés, cela pourrait poser un triple problème de droits à OpenAI. La société a reconnu avoir utilisé des données « accessibles au public » et, après la publication de l’article de TechCrunch, a dit « vérifier » la situation.
Pour l’avocat Joshua Weigensberg, interrogé par le média américain, « les entreprises qui entraînent leurs outils à partir de séquences vidéo non autorisées issues de parties de jeux vidéo courent de nombreux risques ». En effet, un stream d’un jeu vidéo peut impliquer plusieurs niveaux de propriété intellectuelle : celle de l’éditeur du jeu vidéo diffusé, celle du créateur ou de la créatrice de contenu, voire celle d’un tiers ayant créé du contenu dans le jeu vidéo (une map dans Fortnite, par exemple).
Si les tribunaux jugent que les droits d’auteur sont en cause dans la formation des modèles d’IA, chacun de ces détenteurs de droits d’auteur pourrait être un plaignant potentiel, explique Joshua Weigensberg.
Déjà, Microsoft et OpenAI sont poursuivis, accusés d’avoir permis « à leurs outils d’IA de régurgiter du code sous licence », précise le journaliste américain. D’autres, comme Midjourney, Runway ou Stability, sont également dans le collimateur de la justice pour des affaires relatives aux droits des artistes. Enfin, les générateurs de musique Suno et Udio font face à un procès, intenté par de grandes maisons de disques, pour « contrefaçon ».