Definition Robots.txt

Le robots.txt est un fichier texte accessible à l’URL domaine.com/robots.txt, lu en priorité par tout robot d’exploration avant de parcourir un site. Il repose sur le Robots Exclusion Protocol (REP), un standard proposé en 1994 par l’ingénieur Martijn Koster et formellement standardisé par l’IETF en 2022 sous la référence RFC 9309.

Sa syntaxe est simple : chaque bloc commence par une déclaration User-agent qui cible un robot précis (Googlebot, GPTBot, etc.) ou tous les robots via le caractère *, suivie de directives Allow ou Disallow qui autorisent ou interdisent l’accès à des chemins spécifiques. Un même fichier peut contenir plusieurs blocs pour traiter différents robots de façon distincte.

En SEO, le robots.txt sert principalement à orienter le budget de crawl : en écartant les pages à faible valeur (pages d’administration, résultats de recherche interne, doublons), il concentre les ressources d’exploration de Googlebot sur les contenus utiles à l’indexation. Son usage ne garantit pas l’invisibilité d’une page : une URL bloquée en robots.txt peut toujours apparaître dans les résultats si un lien externe pointe vers elle, mais elle ne sera pas crawlée.

Le robots.txt reconnu comme signal d'opposition par la CNIL

Dans ses recommandations publiées en juin 2025 sur le web scraping et l’entraînement des modèles d’IA, la CNIL a inscrit le fichier robots.txt parmi les « signaux techniques d’opposition » que les acteurs développant des systèmes d’IA sont tenus de respecter. Une reconnaissance officielle de son rôle comme outil de contrôle de l’accès aux contenus, au même titre que les CAPTCHA.

Robots.txt et sitemap : deux fichiers complémentaires

Le robots.txt et le sitemap fonctionnent ensemble dans une logique d’orientation du crawl : le premier pose des barrières, le second dessine un chemin. Il est courant d’indiquer l’URL du sitemap directement dans le fichier robots.txt pour faciliter sa découverte par les robots.

En pratique, une erreur fréquente consiste à bloquer en robots.txt des ressources nécessaires au rendu des pages (fichiers CSS, JavaScript) que Googlebot doit pouvoir lire pour évaluer correctement le contenu. Google recommande explicitement de ne pas bloquer ces ressources. Une configuration mal calibrée peut ainsi nuire à l’indexation de pages qui ne sont pourtant pas visées par le blocage.

La Google Search Console propose un outil de test du robots.txt qui permet de vérifier, pour une URL donnée, si elle est accessible ou bloquée pour Googlebot. C’est le premier réflexe à adopter en cas de problème d’indexation inexpliqué sur un site.

Robots.txt et crawlers IA : de nouveaux usages, de nouvelles limites

Conçu à l’origine pour gérer les robots des moteurs de recherche, le robots.txt est devenu un outil central dans la relation entre les éditeurs et les crawlers d’IA générative. Depuis 2023, des acteurs comme OpenAI (GPTBot), Anthropic (ClaudeBot) ou Google (Google-Extended) ont chacun déclaré des user-agents spécifiques, permettant aux webmasters de les cibler indépendamment de Googlebot.

Cette distinction est importante : bloquer GPTBot n’affecte pas le référencement Google, les deux robots étant techniquement séparés. Des éditeurs comme The Guardian, CNN ou Reuters ont notamment ajouté des règles ciblant les crawlers d’entraînement, sans toucher à leur indexation sur les moteurs de recherche traditionnels. Le robots.txt permet ainsi de choisir si ses contenus alimentent les modèles d’IA, indépendamment de la visibilité SEO.

Ce contrôle reste cependant partiel. Le robots.txt repose sur la bonne volonté des robots qui le consultent : certains crawlers non déclarés ou malveillants l’ignorent. L’affaire Perplexity en 2025 l’a illustré, Cloudflare ayant accusé le moteur de recherche IA de contourner les règles de sites qui lui avaient pourtant fermé l’accès.

llms.txt : le robots.txt des LLMs ?

Souvent présenté comme l’équivalent du robots.txt pour les modèles de langage, le fichier llms.txt remplit en réalité une fonction différente. Olivier Duffez, consultant SEO et fondateur de WebRankInfo, le rappelle : « Le fichier llms.txt n’est pas comparable au robots.txt. Il n’a pas pour objectif de dire ce qui est autorisé ou interdit au crawl. Il s’agit de fournir des informations résumées et faciles à digérer pour les LLM. » Sur son utilité concrète, il est sans ambiguïté : « Il ne sert à rien. En tout cas pour l’instant. » Après plus d’un an d’existence, aucun acteur majeur de l’IA ne l’a adopté.