OpenAI a-t-il utilisé des contenus YouTube pour entraîner GPT-4 ?

Une enquête du New York Times suggère qu’OpenAI aurait exploité des contenus YouTube afin d’entraîner les modèles d’IA de ChatGPT, sans autorisation au préalable.

Google aurait également utilisé du contenu provenant de YouTube pour entraîner ses modèles, d'après le New York Times. © rarrarorro - stock.adobe.com

Selon un article publié dans le New York Times, une équipe d’OpenAI, société à l’origine de ChatGPT et DALL-E, aurait recueilli et exploité plus d’un million d’heures de contenus provenant de YouTube pour entraîner GPT-4, son grand modèle de langage (LLM) dévoilé en mars 2023, qui alimente les versions les plus avancées de ses outils d’IA. Le quotidien américain, qui a recueilli des témoignages de sources proches du dossier, avance que Greg Brockman, co-fondateur et actuel président de l’entreprise, aurait personnellement participé à cette collecte de données.

OpenAI aurait développé et utilisé Whisper pour siphonner les contenus de YouTube

L’enquête du New York Times rapporte que la société, co-fondée par Sam Altman, manquait de données exploitables pour former son modèle GPT-4 en fin d’année 2021 et aurait, à l’époque, envisagé concrètement la possibilité de « transcrire des podcasts, des livres audio et des vidéos YouTube » pour poursuivre l’entraînement. OpenAI aurait alors développé puis utilisé Whisper, son système de transcription et de reconnaissance vocale, pour transcrire des milliers d’heures de contenus, une pratique interdite par les conditions générales de YouTube.

Selon le New York Times, les employés d’OpenAI avaient conscience de s’aventurer dans une zone grise sur le plan juridique, mais étaient parallèlement convaincus que l’utilisation de vidéos pour former un modèle d’IA relevait de la doctrine du fair use en matière de droits d’auteur.

Une pratique répandue chez les géants de la tech ?

Matt Bryant, un porte-parole de Google, a déclaré que son entreprise n’était pas au courant des agissements d’OpenAI en matière de scraping. Une affirmation contredite par des sources proches du dossier, qui expliquent que certains employés avaient eu vent de la collecte, mais ne l’avaient pas dénoncé publiquement puisque Google aurait également utilisé des transcriptions de vidéos provenant de YouTube pour former ses modèles d’IA. « Une pratique qui pourrait violer les droits d’auteur des créateurs de contenu sur YouTube », écrit le New York Times. Comme l’explique le quotidien, cette pratique potentiellement illégale ne se limiterait pas uniquement à la société créatrice de ChatGPT. Google et Meta se joueraient également de certaines règles pour former leurs modèles.

OpenAI, Google et Meta ont ignoré les politiques d’entreprises, modifié leurs propres règles et tenté de trouver des moyens de contourner le droit d’auteur pour collecter de l’information qui allait servir à l’entraînement de leurs modèles les plus récents, écrit le quotidien.

YouTube a-t-il été utilisé pour entraîner Sora ?

Ce n’est pas la première fois qu’OpenAI est suspecté d’avoir recueilli et utilisé du contenu provenant de YouTube pour le développement de ses technologies. En mars, la question s’était également posée vis-à-vis de Sora, son IA génératrice de vidéos. Lors d’une interview accordée au Wall Street Journal, Mira Murati, CTO d’OpenAI, n’avait pas réussi à identifier précisément les sources exploitées pour la formation de l’outil, ni formellement nié l’utilisation de contenus provenant de YouTube. En réponse, Neal Mohan, patron de la plateforme, avait rappelé à Bloomberg que le scraping était contraire aux règles de sa plateforme.

Sujets liés :
Publier un commentaire
Ajouter un commentaire

Votre adresse email ne sera pas publiée.

Les meilleurs outils pour les professionnels du web