Google veut standardiser l’interprétation du fichier robots.txt

Le fichier robots.txt fête ses 25 ans. À cette occasion, Google veut standardiser son interprétation.

Vers un protocole standardisé pour interpréter le robots.txt ? Crédits : Google.

Sommaire

robots.txt, un fichier indispensable pour les sites web

robots.txt est un fichier texte proposé par la grande majorité des sites internet. Il permet de définir les règles que doivent suivre les robots (crawlers). C’est un fichier utile pour les éditeurs et pour les robots : les premiers peuvent bloquer le crawl de certains fichiers ou certains dossiers, pour prévenir l’indexation de pages web qui ne devraient pas être accessibles à tous par exemple ; les seconds peuvent économiser du budget en évitant ces chemins bloqués par le robots.txt. Le fichier robots.txt est toujours situé à la racine d’un site web. Lorsqu’un robot veut crawler un site, il regarde d’abord si ce fichier existe et tente de l’interpréter pour comprendre ce qu’il est autorisé à faire.

25 ans d’existence et toujours pas de standard

Le fichier robots.txt existe depuis 25 ans. C’est Martijn Koster, également connu pour le développement du premier moteur de recherche, qui a inventé ce fichier et commencé à rédiger une proposition d’interprétation : Robots Exclusion Protocol (REP). Petit-à-petit, les webmasters ont placé ce fichier sur leur site et les crawlers l’ont interprété en suivant, plus ou moins, les règles proposées par Martijn Koster. Google veut passer la seconde et standardiser strictement ce fichier, afin que tous les crawlers interprètent de la même manière les fichiers robots.txt des sites internet.

Happy 25th birthday, robots.txt! You make the Internet a better place. You're the real MVP! pic.twitter.com/vxvZTcHpR3

— Google Search Central (@googlesearchc) July 1, 2019

La proposition de Google pour améliorer le REP

Google précise que sa proposition respecte le brouillon initial de son créateur – et c’est essentiel, car les développeurs et SEO se basent sur ce document pour créer leurs fichiers robots.txt – mais que certaines règles, devenues nécessaires avec l’évolution du web, méritent d’être mieux définies.

Google souhaite permettre à tout protocole de transfert d’accéder à robots.txt (pas uniquement HTTP donc, mais aussi FTP, CoAP…) ;
Les développeurs devraient au moins analyser les 500 premiers kibibytes du robots.txt. La taille maximale permettrait de soulager la charge serveur.
Google propose un cache maximum de 24 heures, associé à la possibilité pour le webmasters de déclarer des directives de cache, pour permettre une mise à jour flexible du robots.txt et éviter les requêtes à répétition des crawlers.
Si le robots.txt n’est pas accessible, les crawlers ne devraient pas explorer les pages connues comme étant interdites pendant « une période raisonnablement longue » (mémoire).

Google a soumis sa proposition à l’IETF (Internet Engineering Task Force) et appelle l’écosystème à réagir, pour que le REP version 2019 soit reconnu comme un standard.

Google libère le code de son outil qui interprète le fichier robots.txt

En parallèle, Google rend open source la librairie C++ qu’il utilise pour analyser les déclarations intégrées aux fichiers robots.txt (lien GitHub). Imaginée dans les années 90, elle a ensuite évolué pour suivre les nouvelles pratiques des développeurs.

Quel impact sur les développeurs et les SEO

Le fait qu’un standard soit érigé n’aura pas d’impact à court terme, et son impact à moyen terme devrait être limité – car la plupart des développeurs et des SEO utilisent les mêmes règles depuis 25 ans. Si l’écosystème approuve le standard proposé par Google (et intègre ses éventuels manques), cela devrait faciliter le travail des professionnels du web – qu’ils soient du côté des sites web ou des crawlers. En revanche, Google annonce que ses crawlers interprétaient certaines déclarations du robots.txt non-définies dans le REP, telles que crawl-delay, nofollow et noindex : ce ne sera plus le cas à la rentrée.

Plus d’infos sur la fin de l’interprétation du noindex dans le robots.txt par Google.

Sujets liés :

Publier un commentaire

Ajouter un commentaire

Les meilleurs outils pour les professionnels du web

Brume

SEO

Une plateforme d’IA pour créer des contenus uniques et optimisés

SE Ranking

SEO

Un outil idéal pour développer votre stratégie SEO

Ranxplorer

SEO

Une plateforme française pour analyser sa visibilité SEO/SEA