Cloudflare convertit automatiquement le HTML en Markdown pour les agents IA

Cloudflare permet désormais aux sites de servir automatiquement du contenu en Markdown aux agents IA. Une fonctionnalité qui suscite des inquiétudes côté SEO.

Cloudflare-markdown-agents
La conversion automatique du format HMTL en Markdown doit réduire la consommation de tokens de 80 %. © Cloudflare

Cloudflare vient d’annoncer le lancement de « Markdown for Agents », une nouvelle fonctionnalité qui permet aux sites web de servir automatiquement une version Markdown de leurs pages aux crawlers et agents IA. L’objectif est de réduire drastiquement la consommation de tokens et faciliter l’ingestion de contenu par les systèmes d’intelligence artificielle.

Une conversion automatique qui réduit les tokens de 80 %

Le principe est simple : lorsqu’un agent IA envoie une requête avec le header Accept: text/markdown, Cloudflare intercepte la demande, récupère le HTML d’origine et le convertit à la volée en Markdown. Selon Cloudflare, cette conversion permet de réduire la consommation de tokens d’environ 80 %. À titre d’exemple, un article de blog qui pèse 16 180 tokens en HTML n’en représente plus que 3 150 une fois converti.

Fournir du code HTML brut à une IA revient à payer au mot pour lire un emballage plutôt que le texte à l’intérieur, justifie Cloudflare.

La fonctionnalité est disponible en bêta pour les clients Pro, Business et Enterprise de Cloudflare. Elle s’accompagne d’un header x-markdown-tokens qui indique le nombre estimé de tokens dans le document, ce qui permet aux développeurs et développeuses de mieux gérer leurs fenêtres de contexte. Cloudflare, qui propulse environ 20 % du web mondial, a déjà activé cette option sur son blog et sa documentation développeur.

Des préoccupations SEO autour du cloaking

Cette annonce ne fait pas l’unanimité dans la communauté SEO. Certains consultants soulignent que la fonctionnalité pourrait faciliter le cloaking, c’est-à-dire la pratique consistant à servir un contenu différent aux robots et aux utilisateurs humains. Le header Accept: text/markdown étant transmis au serveur d’origine, il devient techniquement possible d’injecter des instructions cachées ou des données modifiées destinées uniquement aux IA.

Cloudflare-schema-html-markdown
Le schéma explicatif de Cloudflare pour Markdown for Agents. © Cloudflare

Google et Microsoft, cités par Search Engine Land, ont d’ailleurs récemment pris position contre les pages Markdown dédiées aux LLM. John Mueller (Google) s’interroge sur l’intérêt de montrer aux IA une version qu’aucun utilisateur ne voit, tandis que Fabrice Canel (Microsoft) prévient que Bing crawlera de toute façon les deux versions pour vérifier leur similarité. Reste à voir comment les moteurs de recherche et les systèmes d’IA traiteront ces représentations alternatives du contenu web.

De mon point de vue, les LLM se sont entraînés sur des pages web classiques depuis le début — ils les ont lues et analysées. Il semble évident qu’ils n’ont aucun problème à traiter le HTML. Pourquoi voudraient-ils voir une page qu’aucun utilisateur ne voit ? Et s’ils vérifient l’équivalence, pourquoi ne pas utiliser le HTML ?, a questionné John Mueller, de Google.

Sujets liés :
Publier un commentaire
Ajouter un commentaire

Votre adresse email ne sera pas publiée.

Les meilleurs générateurs de code par IA