IA : la CNIL autorise le web scraping, à certaines conditions

La CNIL a publié une série de recommandations relatives à l’intelligence artificielle. Parmi ces consignes, une clarification concernant le web scraping. On fait le point !

CNIL Scraping
Les IA devront notamment respecter les indications des fichiers Robots.txt. © Antto-AI - stock.adobe.com

Ce jeudi 19 juin 2025, la CNIL s’est enfin prononcée sur l’intelligence artificielle. L’autorité a publié une série de recommandations sur l’intérêt légitime – c’est-à-dire la possibilité, pour une organisation, de traiter des données personnelles sans le consentement explicite des personnes concernées. Celles-ci font suite à une consultation publique incluant de nombreux acteurs : entreprises, chercheurs, universitaires, associations, conseils juridiques et techniques, syndicats, fédérations, etc. Le document précise notamment la position de la CNIL concernant le scraping de données par les IA, qui n’est pas strictement dénoncé. Voici ce qu’il faut retenir.

Une série de recommandations sur les IA

Le document publié par la CNIL vise à encadrer l’utilisation de données personnelles lors du développement de systèmes d’intelligence artificielle. Il s’adresse aux concepteurs, fournisseurs ou prestataires impliqués dans l’entraînement de modèles. Il identifie notamment les principales conditions à remplir pour se conformer au RGPD :

  • Définir une finalité : tout système d’IA doit être conçu autour d’un objectif clairement identifié. Cette finalité permet de limiter les données utilisées et de s’assurer qu’elles sont pertinentes au regard du but poursuivi.
  • Qualifier juridiquement les acteurs : les organisations doivent déterminer leur rôle dans le traitement des données. Elles peuvent agir en tant que responsables de traitement, coresponsables ou sous-traitants, selon leur degré de contrôle.
  • Choisir une base légale appropriée : chaque traitement doit s’appuyer sur une base légale définie par le RGPD. L’intérêt légitime peut être invoqué, à condition d’en démontrer la nécessité et de mettre en place des garanties suffisantes.
  • Vérifier la licéité des bases de données : les données réutilisées doivent avoir été collectées dans des conditions conformes au RGPD, ce qui suppose de vérifier leur origine, leur contenu et l’existence éventuelle de restrictions juridiques.
  • Limiter les données traitées : seules les données strictement nécessaires au développement du système doivent être utilisées. Cette exigence est renforcée lorsqu’il s’agit de données sensibles.
  • Encadrer la durée de conservation : les données personnelles ne peuvent être conservées sans limite de temps. Une durée adaptée à la finalité du traitement doit être fixée et communiquée aux personnes concernées.
  • Évaluer les risques liés à la vie privée : une analyse d’impact sur la protection des données (AIPD) peut être requise lorsque le traitement présente des risques particuliers. Cette évaluation permet d’identifier les mesures à mettre en œuvre pour protéger les droits des personnes.

Le web scraping autorisé mais encadré

Dans son document, la CNIL autorise le recours au web scraping pour entraîner des systèmes d’intelligence artificielle, mais sous conditions strictes. L’autorité française rappelle que cette pratique peut être fondée sur l’intérêt légitime, à condition de respecter plusieurs garde-fous destinés à protéger les droits des personnes concernées.

Cette position, très attendue, autorise par principe la collecte automatisée de données personnelles par les intelligences artificielles, mais sous réserve d’une évaluation de ses impacts. Concrètement, les acteurs qui développent des IA doivent s’assurer de plusieurs éléments :

  • Exclure les données sensibles,
  • Supprimer les contenus non pertinents,
  • Respecter les signaux techniques d’opposition, comme les fichiers robots.txt ou les CAPTCHA,
  • Éviter les sites contenant majoritairement des données personnelles,
  • Faire preuve de transparence en publiant la liste des sources utilisées,
  • Mettre en place des garanties techniques comme l’anonymisation ou le recours à des données synthétiques.

La CNIL alerte aussi sur d’autres risques juridiques, liés au droit d’auteur ou aux conditions d’utilisation des sites, qui peuvent interdire le scraping, même lorsqu’il est conforme au RGPD. Elle rappelle enfin qu’en l’absence de cadre législatif spécifique, ces pratiques restent tolérées uniquement sous réserve de fortes précautions, en particulier dans les contextes publics ou sensibles.

Sujets liés :
Publier un commentaire
Ajouter un commentaire

Votre adresse email ne sera pas publiée.

Les meilleurs outils pour les professionnels du web