Google veut standardiser l’interprétation du fichier robots.txt
Le fichier robots.txt fête ses 25 ans. À cette occasion, Google veut standardiser son interprétation.

robots.txt, un fichier indispensable pour les sites web
robots.txt est un fichier texte proposé par la grande majorité des sites internet. Il permet de définir les règles que doivent suivre les robots (crawlers). C’est un fichier utile pour les éditeurs et pour les robots : les premiers peuvent bloquer le crawl de certains fichiers ou certains dossiers, pour prévenir l’indexation de pages web qui ne devraient pas être accessibles à tous par exemple ; les seconds peuvent économiser du budget en évitant ces chemins bloqués par le robots.txt. Le fichier robots.txt est toujours situé à la racine d’un site web. Lorsqu’un robot veut crawler un site, il regarde d’abord si ce fichier existe et tente de l’interpréter pour comprendre ce qu’il est autorisé à faire.
25 ans d’existence et toujours pas de standard
Le fichier robots.txt existe depuis 25 ans. C’est Martijn Koster, également connu pour le développement du premier moteur de recherche, qui a inventé ce fichier et commencé à rédiger une proposition d’interprétation : Robots Exclusion Protocol (REP). Petit-à-petit, les webmasters ont placé ce fichier sur leur site et les crawlers l’ont interprété en suivant, plus ou moins, les règles proposées par Martijn Koster. Google veut passer la seconde et standardiser strictement ce fichier, afin que tous les crawlers interprètent de la même manière les fichiers robots.txt des sites internet.
La proposition de Google pour améliorer le REP
Google précise que sa proposition respecte le brouillon initial de son créateur – et c’est essentiel, car les développeurs et SEO se basent sur ce document pour créer leurs fichiers robots.txt – mais que certaines règles, devenues nécessaires avec l’évolution du web, méritent d’être mieux définies.
- Google souhaite permettre à tout protocole de transfert d’accéder à robots.txt (pas uniquement HTTP donc, mais aussi FTP, CoAP…) ;
- Les développeurs devraient au moins analyser les 500 premiers kibibytes du robots.txt. La taille maximale permettrait de soulager la charge serveur.
- Google propose un cache maximum de 24 heures, associé à la possibilité pour le webmasters de déclarer des directives de cache, pour permettre une mise à jour flexible du robots.txt et éviter les requêtes à répétition des crawlers.
- Si le robots.txt n’est pas accessible, les crawlers ne devraient pas explorer les pages connues comme étant interdites pendant « une période raisonnablement longue » (mémoire).
Google a soumis sa proposition à l’IETF (Internet Engineering Task Force) et appelle l’écosystème à réagir, pour que le REP version 2019 soit reconnu comme un standard.
Google libère le code de son outil qui interprète le fichier robots.txt
En parallèle, Google rend open source la librairie C++ qu’il utilise pour analyser les déclarations intégrées aux fichiers robots.txt (lien GitHub). Imaginée dans les années 90, elle a ensuite évolué pour suivre les nouvelles pratiques des développeurs.
Quel impact sur les développeurs et les SEO
Le fait qu’un standard soit érigé n’aura pas d’impact à court terme, et son impact à moyen terme devrait être limité – car la plupart des développeurs et des SEO utilisent les mêmes règles depuis 25 ans. Si l’écosystème approuve le standard proposé par Google (et intègre ses éventuels manques), cela devrait faciliter le travail des professionnels du web – qu’ils soient du côté des sites web ou des crawlers. En revanche, Google annonce que ses crawlers interprétaient certaines déclarations du robots.txt non-définies dans le REP, telles que crawl-delay, nofollow et noindex : ce ne sera plus le cas à la rentrée.
Plus d’infos sur la fin de l’interprétation du noindex dans le robots.txt par Google.
Community managers : découvrez les résultats de notre enquête 2025
Réseaux, missions, salaire... Un webinar pour tout savoir sur les CM, lundi 29 septembre à 11h !
Je m'inscris