Meta aurait entraîné son IA sur des millions d’ouvrages piratés : êtes-vous concerné ?
Des échanges internes divulgués lors d’une action en justice contre Meta révèlent que le groupe aurait utilisé la bibliothèque pirate LibGen pour entraîner ses modèles d’IA.

« Payer, c’est trop cher. Attendre, c’est trop long. » Les ingénieurs et exécutifs de Meta auraient-il fait cet intestable constat lorsque la question de l’entraînement de leur modèle d’IA Llama 3 s’est posée ? C’est ce que semblent révéler des échanges dévoilés par la justice américaine dans le cadre d’un procès pour violation de droits d’auteur, intenté notamment par les auteurs Sarah Silverman et Junot Díaz, et repris dans un article de The Atlantic. Le géant de la tech aurait délibérément utilisé une bibliothèque numérique pirate de millions d’ouvrages, s’accaparant les travaux de chercheurs, scientifiques et universitaires du monde entier.
Des licences « déraisonnablement coûteuses » et un processus légal « incroyablement lent »
Pour entraîner son modèle d’IA, Meta, tout comme OpenAI ou d’autres, a besoin de données. Beaucoup de données. Mais peut-être plus important encore : il faut alimenter la machine de travaux scientifiques et académiques récents, qu’on trouve rarement en libre accès. Meta a donc fait face à un dilemme éthique : comment répondre à la nécessité de rassembler un gros volume de texte de qualité, rapidement et sans trop dépenser, pour concurrencer Gemini ou ChatGPT ?
Les conversations internes dévoilées par The Atlantic montrent que plusieurs employés de Meta ont exprimé leur frustration quant aux solutions légales. L’un d’entre eux aurait notamment jugé « déraisonnablement coûteux » les accords de licence proposés. Un cadre supérieur aurait ajouté que cette voie était aussi « incroyablement lente », prenant « plus de quatre semaines pour livrer les données ».
Certains cadres auraient même ouvertement reconnu vouloir mettre en place une stratégie légale fondée sur le « fair use » (usage équitable), affirmant qu’obtenir une licence même pour un seul livre pourrait compromettre leur défense juridique face à des accusations potentielles de violation des droits d’auteur.
Meta se tourne vers LibGen et ses millions d’ouvrages piratés
Face à cette impasse, Meta se serait tourné vers Library Genesis, aussi appelé LibGen, une plateforme pirate qui héberge illégalement plus de 7,5 millions de livres et 81 millions d’articles scientifiques. Les documents internes indiquent que la décision finale aurait été approuvée directement par un certain « MZ », initiales qui désigneraient Mark Zuckerberg lui-même. Toujours selon ces échanges, un responsable senior considérait qu’il était « crucial d’obtenir des ouvrages au plus vite », soulignant même que « les livres sont en réalité plus importants que les données issues du web ».
Pour récupérer ces données en masse, Meta aurait utilisé le protocole BitTorrent, permettant de télécharger mais également de redistribuer anonymement les fichiers, pratique explicitement interdite par les lois sur le copyright. Bien que le groupe affirme avoir pris des précautions pour éviter la redistribution des livres piratés, les échanges internes montrent que certains employés auraient été conscients des risques juridiques élevés, envisageant même des stratégies pour masquer leur activité illégale, comme retirer les références explicites aux droits d’auteur ou paramétrer leur IA pour éviter qu’elle ne génère des passages trop reconnaissables d’œuvres connues.
OpenAI mouillé, Meta cumule
Cette affaire ne concerne pas uniquement Meta. Les documents judiciaires révèlent également qu’OpenAI, créateur de ChatGPT, aurait utilisé par le passé les ressources de LibGen pour entraîner ses propres modèles d’IA, soulevant ainsi une vaste problématique concernant l’éthique et la légalité des méthodes employées par les leaders technologiques. Car les plaintes se multiplient, et pas uniquement aux États-Unis.
En mars 2025, trois associations françaises majeures – le Syndicat national de l’édition (SNE), la Société des gens de lettres (SGDL) et le Syndicat national des auteurs et des compositeurs (SNAC) – ont intenté une action en justice contre Meta devant le tribunal judiciaire de Paris. Elles accusent l’entreprise d’avoir utilisé sans autorisation près de 200 000 livres protégés par le droit d’auteur pour entraîner, là aussi, ses modèles Llama. Les plaignants dénoncent une violation massive des droits d’auteur et réclament le retrait complet des bases de données constituées illégalement.
Vos œuvres et travaux figurent-ils dans la bibliothèque pirate ?
Un addendum à l’article de The Atlantic permet de chercher, au sein de la base de données de LibGen, des auteurs ou des ouvrages qui pourraient y figurer, et donc avoir été piratés. Cependant, le média prévient que « LibGen contient des erreurs », mais également qu’il « est impossible de savoir exactement quelles parties de LibGen Meta a utilisées pour entraîner son IA, et lesquelles l’entreprise aurait pu décider d’exclure. Ce cliché a été pris en janvier 2025, après que Meta a eu accès à la base de données, donc certains titres affichés ici n’étaient probablement pas disponibles au moment où Meta a téléchargé les données ». Vous pouvez faire le test sur le site de The Atlantic en cliquant sur le lien ci-dessous.
Chercher un auteur dans LibGen
Community managers : découvrez les résultats de notre enquête 2025
Réseaux, missions, salaire... Un webinar pour tout savoir sur les CM, lundi 29 septembre à 11h !
Je m'inscris