Recherche web : BDM a comparé ChatGPT, Gemini, Claude, Perplexity, Copilot, DeepSeek et Le Chat
BDM a testé la fonctionnalité de recherche web des principaux outils d’IA. Lequel d’entre eux s’en sort le mieux dans l’exercice ? Éléments de réponse.
Il y a encore deux ans, les outils d’IA générative mettaient en avant certains facteurs différenciants pour se démarquer. Aujourd’hui, leurs fonctionnalités tendent à s’uniformiser. Mais offrent-elles réellement le même niveau de performance ? Pour y répondre, BDM a comparé les fonctionnalités des principaux outils disponibles sur le marché.
Depuis 2023, les outils d’IA générative ont, tour à tour, franchi une étape importante dans leur évolution : ils ont appris à surfer. Désormais capables d’explorer le web en temps réel avant de formuler une réponse, ChatGPT, Gemini, Claude ou Le Chat ne se contentent plus de s’appuyer sur un corpus figé dans le temps. Ils accèdent à des sources récentes, les croisent, les synthétisent, avec un double objectif : fournir des réponses enrichies, à jour et vérifiables, tout en limitant les hallucinations. Mais réalisent-ils cette tâche correctement, alors que de plus en plus d’utilisateurs s’y fient au quotidien ?
Pour ce test, BDM a soumis trois prompts à ces outils. Le premier porte sur une actualité récente (la Carte Instagram, en l’occurrence), le second sur une actualité chiffrée, et le troisième sur une fausse information circulant sur le web :
- Quelle nouveauté Instagram a-t-il lancée en France au début du mois d’octobre 2025 ? Appuie ta réponse sur des sources fiables et explique en quoi consiste cette fonctionnalité.
- Quel est le nombre d’utilisateurs actifs mensuels de WhatsApp en 2025 selon les données les plus récentes ? Donne la source exacte (site, date) et résume les chiffres par région si disponibles.
- Cette information circule en ligne : les compagnies d’assurances vont cesser d’assurer les Clio 5 contre le vol en 2026. Vérifie si cette affirmation est vraie ou fausse, cite tes sources et explique ton raisonnement.
L’idée, au cours de ce test, était d’évaluer plusieurs choses : leur capacité à accéder à une information récente, à identifier et citer des sources fiables – même confrontés à un prompt relativement générique -, à vérifier les informations, à structurer leur réponse ou à fournir des données chiffrées. Précision supplémentaire : seuls les modèles ou fonctionnalités accessibles gratuitement ont été testés. Par exemple, le mode Pro Search de Perplexity, censé être plus performant mais limité à trois utilisations par jour, n’a pas été examiné.
La recherche web dans ChatGPT : notre test
Levons d’abord une inconnue : les trois prompts ont tous déclenché une recherche sur le web. Ce n’est pas systématique avec ChatGPT, qui décide lui-même d’y recourir ou non lorsque la fonction n’est pas activée manuellement, selon la tournure de la requête ou si les informations demandées dépassent la période couverte par son corpus.
Déployée progressivement à partir d’octobre 2024, la fonctionnalité Recherche sur le Web affiche, il faut le dire, un réel potentiel. Bien aidé par la précision de la date – un repère probablement indispensable, tant Instagram multiplie les tests et les mises à jour – et après un léger temps de réflexion, ChatGPT a facilement identifié la Carte Instagram. Pour en décrire le principe, il s’est appuyé sur des sources officielles (newsrooms de Meta et d’Instagram), mais aussi sur des articles provenant de médias spécialisés (BDM) et grand public (RTL, TF1).
Même constat sur les chiffres : ChatGPT a visé juste, en s’appuyant à nouveau sur des sources officielles (la transcription d’une conférence téléphonique entre Mark Zuckerberg et ses investisseurs, ndlr) et des médias partenaires qu’il cite fréquemment, comme Reuters. En revanche, il a rencontré plus de difficultés sur la répartition géographique, se limitant à l’Union européenne et aux États-Unis. Et pour cause : les statistiques dans les autres régions n’ont pas été dévoilées officiellement par la firme californienne.
Sur le dernier prompt, sans doute alerté par la formulation, ChatGPT a pris plus d’une minute pour répondre. Comme le montre la capture ci-dessous, le fil de son raisonnement s’est affiché progressivement dans un panneau latéral, à droite, jusqu’à l’obtention d’une réponse, qu’il a présentée de manière claire et concise. Plus d’une cinquantaine de contenus ou d’articles, à fiabilité variable, ont été examinés au cours du processus. C’est le total le plus élevé enregistré lors de nos tests, toutes IA génératives confondues.
La recherche web dans Gemini : notre test
Le test se révèle moins concluant avec Gemini. Bien qu’il dispose historiquement d’un accès en temps réel au moteur de recherche de Google, l’agent conversationnel n’a pas su, par exemple, faire le tri dans les annonces récentes du réseau social de Meta pour identifier la Carte Instagram. Même si, dans le doute, il a bien précisé qu’elle faisait partie des fonctionnalités récemment déployées en France.
Au-delà de ce premier couac, Gemini a un défaut particulièrement manifeste : un manque de transparence sur les sources. S’il lui est arrivé, lors de notre test, de mentionner ses références dans le corps du texte, Gemini n’intègre pas systématiquement des liens de redirection, dans un panneau latéral ou sous la réponse.« Si vous ne voyez pas le bouton Sources sous une réponse, cela signifie que les applications Gemini n’ont pas fourni de lien pour cette réponse spécifique », précise d’ailleurs Google dans sa documentation. Un manque problématique, d’autant qu’il place sur un pied d’égalité des médias réputés et des sites plus obscurs.
Mais tout n’est pas à jeter. Gemini se distingue par sa rapidité de traitement et sa capacité de synthèse. Ses réponses sont bien structurées, souvent présentées sous forme de listes, et il adopte des formulations prudentes lorsqu’il manque de certitude (« autour de », « les données sont moins précises », etc.). On peut néanmoins regretter qu’il réponde lorsqu’il doute de la fiabilité de ses informations.
La recherche web dans Claude : notre test
Claude est l’un des derniers chabots à avoir obtenu un accès au web, mais cela le rend-il, pour autant, moins performant que ses concurrents ? Pas nécessairement. Déployée progressivement depuis mars 2025, sa fonctionnalité de recherche web se montre globalement efficace, notamment pour synthétiser l’information. Mais elle affiche aussi certaines limites.
Commençons par ses atouts. Lorsqu’il ne trouve pas immédiatement l’information recherchée, Claude a la particularité de reconnaître son échec, puis de poursuivre avec une recherche plus ciblée. Une approche incrémentale qui lui permet d’apporter la bonne réponse sur toutes les requêtes formulées.
En termes de rapidité, le modèle Sonnet 4.5, proposé gratuitement, rivalise sans difficulté avec ses concurrents. Il se distingue aussi par la clarté de sa restitution : la réponse est d’abord donnée de manière directe, en haut de page, avant d’être développée à l’aide de paragraphes ou de listes pour apporter des précisions.
À l’instar d’autres agents conversationnels, celui d’Anthropic ne s’appuie pas exclusivement sur des sources fiables, et présente parfois le défaut – notamment sur la requête d’actualité relative à Instagram – de baser sa réponse sur une seule source. Contrairement à ChatGPT, il se limite également aux sources francophones. En raison, sans doute, de la formulation du prompt en français.
La recherche web dans Perplexity : notre test
La recherche web, Perplexity en a fait le cœur de son expertise. Depuis le lancement de la première version, fin 2022, l’entreprise américaine dépeint son outil comme un hybride entre chatbot et moteur de recherche propulsé par l’IA. Un positionnement qui lui confère, en théorie, une longueur d’avance sur le reste du marché.
Une avance, peut-être pas. En revanche, la fiabilité est bien là. Lors de nos tests, la fonctionnalité Quick Search, gratuite et censée traiter rapidement les « questions du quotidien », a répondu sans difficulté à toutes nos requêtes. Après avoir examiné en un temps record une vingtaine de sources, francophones ou anglophones selon la thématique, elle identifie la Carte Instagram, trouve le bon nombre d’utilisateurs de WhatsApp (en s’appuyant sur la source jugée la plus fiable, à savoir TechCrunch) et débunke la fausse information sur les Clio 5. Mieux : elle replace les faits dans leur contexte et cite systématiquement les sources, en intégrant des liens.
La principale force de Perplexity, du moins dans sa version gratuite tant l’outil est complet dans sa version payante, se situe ailleurs. Elle réside dans sa capacité à prolonger la discussion en suggérant des questions de suivi. Sur la requête liée à WhatsApp, par exemple, l’outil propose : « Explique comment WhatsApp mesure ses utilisateurs actifs mensuels » ou « fournis le passage citant les 3 milliards d’utilisateurs sur le site ou la date ». Des relances qui permettent de vérifier ou d’ajuster ses réponses en déclenchant une nouvelle recherche.
La recherche web dans Copilot : notre test
Disons-le d’emblée : la fonctionnalité de recherche web, basée sur Bing, n’est sans doute pas le principal atout de Microsoft Copilot. L’outil fait certes preuve de rapidité pour crawler le web et répondre à la requête. Mais il a tendance à survoler les sujets à livrer des réponses superficielles.
Lors de nos tests, Copilot ne s’est appuyé que sur un nombre limité de sources : cinq au maximum, parfois une seule, comme pour la requête concernant Instagram. Toutes étaient francophones, mais plutôt bien choisies et facilement accessibles, tant dans le corps du texte que via le panneau latéral. Les réponses restaient pertinentes et bien présentées, quoique dans un style typiquement IA, avec des emojis, des puces et un recours abusif au formatage en gras.
La recherche web dans DeepSeek : notre test
Par défaut, sans doute pour limiter les coûts, DeepSeek ne déclenche pas automatiquement la recherche web, même lorsque la formulation du prompt le suggère assez clairement. Si la fonctionnalité Search n’est pas manuellement activée dans la barre de saisie, l’outil admet d’emblée qu’il ne peut pas fournir de réponse. Mais il a la particularité de proposer une méthodologie pour l’obtenir, en indiquant notamment les sources fiables sur la thématique. Sur la requête liée à WhatsApp, DeepSeek nous invite, par exemple, à aller consulter les résultats trimestriels de Meta ou les rapports de Statista. Il s’aventure également à formuler des prévisions, en se basant sur les données contenues dans son corpus.
Lorsque la fonctionnalité est activée, en revanche, DeepSeek ne lésine pas sur les moyens. S’il s’appuie sur un nombre relativement limité de sources – moins de dix par requête, en l’occurrence -, il fournit une réponse bien articulée et complète, avec des éléments de contexte et des données chiffrées. Ses sources, quoi que pas toujours bien choisies, sont mises en avant à plusieurs endroits de l’interface. Lors de nos tests, il a seulement buté sur la Carte Instagram, qu’il n’a pas su identifier clairement – mais qu’il a mentionnée dans un tableau récapitulant d’autres ajouts récents. Là encore, comme lorsque la fonctionnalité Search n’était pas activée, il a ajouté un paragraphe expliquant comment trouver des informations fiables sur cette thématique.
La recherche web dans Le Chat : notre test
Lors d’un précédent test de l’agent conversationnel de Mistral AI, en mars dernier, BDM avait constaté qu’il peinait à déterminer quand activer la fonctionnalité de recherche web, déployée quelques mois plus tôt. Ce défaut semble désormais corrigé, du moins sur les prompts que nous lui avons soumis.
Sur des questions simples, notamment celle portant sur Instagram, Le Chat affiche une rapidité de traitement presque sans équivalent. Le revers de la médaille ? Ses réponses sont laconiques – quelques paragraphes ou une liste à puces avec une brève introduction et conclusion – et manquent parfois de profondeur. Il s’appuie sur nombre limité de sources – parfois une seule, plus fréquemment entre cinq et dix, pas forcément crédibles – et n’affiche aucune forme de retenue quand il ne dispose pas d’informations officielles, contrairement à Gemini, par exemple. C’était particulièrement criant sur la requête liée à WhatsApp, où il a avancé des chiffres d’utilisation par région issus de sources peu fiables, sans la moindre réserve dans ses formulations.
En termes d’expérience utilisateur, Le Chat ne présente pas de défaut majeur. Il reprend globalement l’approche de ChatGPT, avec des liens associés à chaque point et un bouton Sources en bas de page, qui ouvre un panneau latéral. On pourra difficilement lui reprocher de s’inspirer du chatbot le plus ancré dans le quotidien des internautes.