Definition Robots.txt
Le robots.txt est un fichier texte accessible à l’URL domaine.com/robots.txt, lu en priorité par tout robot d’exploration avant de parcourir un site. Il repose sur le Robots Exclusion Protocol (REP), un standard proposé en 1994 par l’ingénieur Martijn Koster et formellement standardisé par l’IETF en 2022 sous la référence RFC 9309.
Sa syntaxe est simple : chaque bloc commence par une déclaration User-agent qui cible un robot précis (Googlebot, GPTBot, etc.) ou tous les robots via le caractère *, suivie de directives Allow ou Disallow qui autorisent ou interdisent l’accès à des chemins spécifiques. Un même fichier peut contenir plusieurs blocs pour traiter différents robots de façon distincte.
En SEO, le robots.txt sert principalement à orienter le budget de crawl : en écartant les pages à faible valeur (pages d’administration, résultats de recherche interne, doublons), il concentre les ressources d’exploration de Googlebot sur les contenus utiles à l’indexation. Son usage ne garantit pas l’invisibilité d’une page : une URL bloquée en robots.txt peut toujours apparaître dans les résultats si un lien externe pointe vers elle, mais elle ne sera pas crawlée.
Le robots.txt reconnu comme signal d'opposition par la CNIL
Robots.txt et sitemap : deux fichiers complémentaires
Le robots.txt et le sitemap fonctionnent ensemble dans une logique d’orientation du crawl : le premier pose des barrières, le second dessine un chemin. Il est courant d’indiquer l’URL du sitemap directement dans le fichier robots.txt pour faciliter sa découverte par les robots.
En pratique, une erreur fréquente consiste à bloquer en robots.txt des ressources nécessaires au rendu des pages (fichiers CSS, JavaScript) que Googlebot doit pouvoir lire pour évaluer correctement le contenu. Google recommande explicitement de ne pas bloquer ces ressources. Une configuration mal calibrée peut ainsi nuire à l’indexation de pages qui ne sont pourtant pas visées par le blocage.
La Google Search Console propose un outil de test du robots.txt qui permet de vérifier, pour une URL donnée, si elle est accessible ou bloquée pour Googlebot. C’est le premier réflexe à adopter en cas de problème d’indexation inexpliqué sur un site.
Robots.txt et crawlers IA : de nouveaux usages, de nouvelles limites
Conçu à l’origine pour gérer les robots des moteurs de recherche, le robots.txt est devenu un outil central dans la relation entre les éditeurs et les crawlers d’IA générative. Depuis 2023, des acteurs comme OpenAI (GPTBot), Anthropic (ClaudeBot) ou Google (Google-Extended) ont chacun déclaré des user-agents spécifiques, permettant aux webmasters de les cibler indépendamment de Googlebot.
Cette distinction est importante : bloquer GPTBot n’affecte pas le référencement Google, les deux robots étant techniquement séparés. Des éditeurs comme The Guardian, CNN ou Reuters ont notamment ajouté des règles ciblant les crawlers d’entraînement, sans toucher à leur indexation sur les moteurs de recherche traditionnels. Le robots.txt permet ainsi de choisir si ses contenus alimentent les modèles d’IA, indépendamment de la visibilité SEO.
Ce contrôle reste cependant partiel. Le robots.txt repose sur la bonne volonté des robots qui le consultent : certains crawlers non déclarés ou malveillants l’ignorent. L’affaire Perplexity en 2025 l’a illustré, Cloudflare ayant accusé le moteur de recherche IA de contourner les règles de sites qui lui avaient pourtant fermé l’accès.
llms.txt : le robots.txt des LLMs ?