Cloudflare permet de crawler un site entier avec une seule requête API

Cloudflare déploie un nouveau endpoint /crawl dans son service Browser Rendering. L’outil permet de parcourir un site complet et d’en extraire le contenu en HTML, Markdown ou JSON structuré.

Cloudflare propose aux développeurs de crawler des sites web entiers grâce à une simple requête API. © Robert - stock.adobe.com

Cloudflare continue de multiplier les initiatives autour de l’IA. Après avoir lancé Markdown for Agents pour convertir automatiquement le HTML en Markdown à destination des agents IA, l’entreprise américaine propose désormais aux développeurs et développeuses de crawler des sites web entiers grâce à une simple requête API.

Un seul appel API pour explorer un site entier

Le nouvel endpoint /crawl vient enrichir Browser Rendering, le service de Cloudflare qui permet d’exécuter un navigateur à distance par l’intermédiaire d’une API. En principe, le développeur ou la développeuse envoie une URL de départ et le service se charge du reste. Il parcourt le site en suivant les liens et les sitemaps, charge chaque page dans un navigateur (JavaScript compris), puis restitue le contenu dans le format souhaité, HTML, Markdown, JSON structuré (généré avec l’IA de Cloudflare).

L’exploration tourne en arrière-plan. L’API renvoie un identifiant de crawl, que l’on interroge ensuite pour récupérer les résultats au fil du traitement. Plusieurs options permettent d’affiner le périmètre :

Profondeur de crawl et nombre maximal de pages,
Filtres par motifs d’URL pour inclure ou exclure certains chemins,
Crawl incrémental pour ignorer les pages qui n’ont pas changé depuis la dernière exploration,
Mode statique, qui récupère le HTML brut sans exécuter JavaScript (plus rapide pour les sites statiques),
Respect des directives robots.txt, y compris le délai entre les requêtes.

L’endpoint est disponible en bêta ouverte, sur les offres Workers Free et Paid.

Alimenter les pipelines d’IA, entre ouverture et contrôle

Cloudflare positionne cet outil sur des cas d’usage liés à l’intelligence artificielle, comme l’entraînement de modèles, la construction de pipelines RAG (retrieval-augmented generation) ou la surveillance de contenu à l’échelle d’un site. Ce nouvel endpoint a pour objectif de simplifier un processus qui nécessitait jusqu’ici de configurer des outils tiers, de gérer des instances de navigateur et de traiter manuellement la pagination.

Cette annonce s’inscrit dans une stratégie double de Cloudflare autour du crawl et de l’IA. D’un côté, l’entreprise a développé ces derniers mois une série d’outils pour protéger les éditeurs de contenu, comme AI Labyrinth, qui piège les crawlers IA dans un labyrinthe de pages générées, le modèle Pay per Crawl lancé en partenariat avec Stack Overflow, ou encore le blocage par défaut des crawlers IA sur les nouveaux domaines. De l’autre, Cloudflare propose désormais aux développeurs et développeuses les moyens de crawler le web à grande échelle grâce à Browser Rendering.

Cette position d’intermédiaire central entre les contenus web et les systèmes d’IA reflète l’ambition de Cloudflare, qui propulse environ 20 % du web mondial, de devenir l’arbitre des échanges entre éditeurs et acteurs de l’IA.

Sujets liés :

Développement /
IA

Publier un commentaire

Ajouter un commentaire

Les meilleurs outils Web scraping

Apify

Web scraping

Un service d'extraction de données basé sur JavaScript

Bright Data

Web scraping

Une plateforme pour collecter et structurer des données web

Octoparse

Web scraping

Un solution de web scraping no code

Un seul appel API pour explorer un site entier

Alimenter les pipelines d’IA, entre ouverture et contrôle

Les meilleurs outils Web scraping

Apify

Bright Data

Octoparse

Sur le même thème

Thèmes populaires