Archivage du web : comment la BnF préserve la mémoire de l’Internet français

Nous avons interrogé Vladimir Tybin, chef de service du dépôt légal numérique, afin d’en savoir plus sur la mission d’archivage du web français réalisée par la BnF.

Pour collecter les données du web français, la BnF utilise Heritrix, un robot d'indexation conçu par Internet Archive. © Kinn Studio - stock.adobe.com

Sommaire

Vladimir Tybin

À la BnF depuis 2009, Vladimir Tybin a tout d’abord occupé le poste de responsable de la diffusion avec pour mission de coordonner le développement numérique de BnF Éditions. En 2017, il a été en charge du dépôt légal des livres numériques. Depuis janvier 2021, il est le chef du service du dépôt légal numérique dont la mission est le dépôt légal du web et des documents nés numériques.

De quelle manière le dépôt légal numérique a-t-il été lancé ?

Dès 1993, les bibliothèques nationales, mais aussi d’autres acteurs à l’international se sont intéressés à ce qui était produit sur le web. C’était notamment le cas d’Internet Archive, l’un des pionniers de l’archivage qui, dès 1996, a commencé à réfléchir à la manière de collecter et conserver ces données, fichiers et documents diffusés sur le web.

Ainsi, la Bibliothèque Nationale de France (BnF) a commencé à expérimenter ses propres collectes au début des années 2000, mais elle a récupéré les premiers sites web français datant de 1996 auprès d’Internet Archive. Et puis très tôt, la BnF a commencé à internaliser ses process, afin de collecter et conserver ses propres données. Mais le vrai tournant a lieu en 2006, avec l’adoption de la loi relative aux droits d’auteur et aux droits voisins dans la société de l’information (DADVSI). Elle précise exactement la mission de la BnF : étendre la mission du dépôt légal à tout ce qui est diffusé sur le web. Dès lors, la BnF dispose d’un cadre juridique et législatif pour exercer sa mission, ce qui lui permet notamment d’avoir la liberté de collecter les contenus sans l’accord du producteur.

Quel est le périmètre d’action de la BnF, et quels sont les contenus archivés en priorité ?

Notre périmètre d’action, c’est le web français. Concrètement, il s’agit de tous les contenus produits par une personne domiciliée en France et/ou hébergée en France. Mais nous ne pouvons pas prétendre à l’exhaustivité comme le dépôt légal des livres, par exemple. Nous travaillons avec l’Afnic ou d’autres agences d’enregistrement telles qu’OVH ou Gandi, qui nous garantissent que les contenus que nous avons identifiés sont hébergés sur le sol français.

Concernant la priorisation, nous avons pour coutume de dire, au dépôt légal, qu’il faut recueillir un maximum de données sans préjuger du contenu. Pour une raison simple : on ne sait pas ce qui va intéresser les chercheurs dans 50 ou 100 ans.

En l’occurrence, la plateforme Skyblog, que l’on archive actuellement, intéresse déjà les chercheurs en sociologie, en linguistique et, plus largement, en sciences humaines et sociales alors que pour certaines personnes, le contenu peut sembler futile, léger, voire manquer de sérieux par rapport à d’autres contenus académiques.

Comment réalisez-vous, concrètement et techniquement, l’archivage de toutes ces pages web ?

Au départ, nous avons expérimenté plusieurs outils. Puis nous avons rapidement choisi, comme de nombreux confrères à l’international, d’utiliser Heritrix : un robot de collecte qui a été développé à l’origine par Internet Archive. Il s’agit d’un outil open source, qui est maintenu par la communauté des archivistes du web, notamment par l’International Internet Preservation Consortium, fondé par une quinzaine de membres dont la BnF.

Concrètement, ce robot de collecte va réaliser ce qu’on appelle, en anglais, du scraping ou du crawling. Ainsi, il collecte les données suivantes :

Le code source,
La mise en page CSS,
Les fichiers binaires (PDF, images, contenus audio et vidéo, etc.).

En règle générale, nous lui fournissons un nom de domaine de départ. Puis, le robot va partir de la page d’accueil, cliquer sur tous les liens hypertextes, enregistrer les URL, les fichiers binaires et les stocker dans des magasins numériques.

Les fichiers sont archivés de deux manières, soit sur bande magnétique pour de la préservation à long terme, soit sur des serveurs afin de pouvoir rejouer les contenus. Nous disposons d’une application qui s’appelle « archive de l’Internet » qui est, en fait, une version open source de la Wayback Machine utilisée par Internet Archive et que nous avons habillé aux couleurs de la BnF. Ce portail permet d’accéder à toutes les collections des archives du web, des origines jusqu’à nos jours.

À l’heure actuelle, les archives du web français représentent 2 pétaoctets de données, soit 48 milliards d’URL.

Sur la partie documentaire, il existe deux modalités de collectes :

La collecte large : lancée sur 6 millions de noms de domaine, en restreignant le robot à l’archivage de quelques milliers d’URL par site, ce type de collecte permet d’obtenir une vision globale du web français sur une période donnée.
La collecte ciblée : plus fréquente et plus complète, elle a pour objectif de sélectionner des contenus en rapport avec une variété de thématiques (littérature, arts, droit, économie, politique, intelligence artificielle, etc.) ou de plateformes (YouTube, TikTok, Instagram, Twitter, etc.).

Nous répondons aussi à des demandes externes de la part de producteurs de contenus. Par exemple, quand Libération et Le Monde ont fermé leur plateforme de blogs, nous avons tout archivé afin qu’ils restent consultables à la BnF. Et plus récemment, nous avons aussi répondu à la demande de Skyblog.

Où peut-on accéder à ces données archivées ?

Si les contenus que l’on collecte sont librement accessibles au moment de l’archivage, ils sont quand même soumis au droit d’auteur et au code de la propriété intellectuelle. De fait, ils ne sont consultables qu’à la BnF. Pour qu’ils puissent être librement accessibles sur le web, il faudrait obtenir l’accord des auteurs et des producteurs. En revanche, nous réfléchissons à diffuser une version publique de notre catalogue, qui indiquerait, par exemple si une URL a bien été archivée, ainsi que le nombre de fois où elle a été collectée et si elle peut être consultée à la BnF. Nous disposons également d’une plateforme où nous rendons publiques toutes nos collectes ciblées, c’est-à-dire l’ensemble des sites qui ont été sélectionnés.

Mais alors, pourquoi les contenus collectés par Internet Archive sont-ils librement accessibles ?

La légalisation américaine n’est pas parfaitement claire sur ce sujet, même si certains cas ont déjà fait jurisprudence. Le Monde, par exemple, a envoyé ses avocats quand Internet Archive a collecté des données qui étaient payantes sur leur site. Aux États-Unis, il existe le principe du fair use et de l’opt-out : tant que le contenu n’est pas utilisé à but lucratif, et que le producteur ne s’est pas manifesté, il peut être utilisé. Mais Internet Archive est régulièrement poursuivi en justice, notamment par les majors.

La mission de la BnF diffère-t-elle de celle de l’INA, qui dispose également d’un service dédié à l’archivage du web ?

Historiquement, l’INA se concentre sur la collecte, la captation et la conservation de l’ensemble des contenus radio et télévision. Dans le sillage de cette mission, il leur a été confié l’archivage de contenus web liés à la radio et à la télévision, tels que les replays de chaînes ou les podcasts, par exemple. La BnF est censée collecter tout le reste. C’est la répartition qui a été actée au moment de la signature du décret, mais de nombreux chercheurs travaillent avec nos collections et celles de l’INA.

Sujets liés :