ChatGPT : quels sont les mots les plus utilisés par le chatbot ?

ChatGPT a lui aussi ses tics de langage. Découvrez les mots les plus employés par l’agent conversationnel d’OpenAI.

ChatGPT on computer. Chat GPT is artificial intelligence AI chatbot which was launched by OpenAI
Dans ses réponses, ChatGPT a l'habitude d'utiliser certains mots qui peuvent parfois surprendre. © Rokas - stock.adobe.com

ChatGPT comptait, lors du dernier recensement en décembre 2024 plus de 300 millions d’utilisateurs hebdomadaires et près de 3 milliards de visites. Au fil de ces discussions, le modèle de langage présente des particularités dans son style d’écriture. Le chatbot affiche notamment une tendance à surutiliser certains mots par rapport au langage courant.

Quels sont les mots les plus utilisés par ChatGPT ?

ChatGPT tend à recourir fréquemment à des connecteurs comme « donc », « cependant », « en outre » ou « dorénavant » qui structurent ses réponses de manière rigoureuse mais qui alourdissent le discours par la même occasion.

Il affiche aussi une prédilection pour un vocabulaire sophistiqué, intégrant régulièrement des termes complexes tels que « exacerbant » ou « interopérabilité ». Cela peut s’expliquer par le fait que le chatbot s’entraine en collectant des millions de données qu’il trouve sur internet y compris des textes scientifiques qui utilisent un vocabulaire spécifique.

ChatGPT privilégie également des réponses très structurées, particulièrement face à des questions complexes. Il adopte souvent un schéma proche de celui d’une dissertation, avec différentes parties qui nuancent ses propos et lui évite ainsi de trancher clairement.

Mais quels sont les mots que ChatGPT utilise-t-il le plus ? Jordan Gibbs, journaliste pour Medium a fait le test en donnant un code au chatbot lui permettant d’écrire librement à travers 500 thématiques. Il s’est retrouvé avec un fichier contenant tous les mots utilisés par l’IA et leur fréquence d’utilisation. Voici les mots les plus générés par ChatGPT (traduits de l’anglais) :

  • le/la
  • de
  • et
  • un/une
  • à
  • dans
  • que/qui
  • avec
  • est
  • comme

Jusqu’ici, rien de vraiment surprenant, mais Jordan Gibbs a tout de même constaté quelques surprises dans la suite du classement. Par exemple, elle, apparait en 17e position dans les données de ChatGPT alors que le mot ne se trouve qu’en 139e place sur les données du web.

Plus étonnant encore, et certainement plus intéressant, ChatGPT utilise des termes très spécifiques à outrance comparé à l’humain. Parmi les mots les plus surexploités par ChatGPT :

  • Réinventé (reimagined en anglais) : ce terme est, selon l’analyse de Medium, le terme le plus surexploité qu’utilise ChatGPT. Il aurait été utilisé 1 033 fois plus souvent que le texte réel généré par un humain.
  • Bioluminescent : 650 fois plus utilisé par ChatGPT que par l’humain,
  • Verdoyant (verdant) : 600 fois plus utilisé,
  • Graphène (graphene) : 400 fois plus utilisé,
  • Animé/actif (bustling) : 380 fois plus employé,
  • Ne pas pouvoir (cannot) : 380 fois plus utilisé,
  • Creuser/fouiller (delve) : 370 fois plus employé,
  • Scintillait (twinkled) : 360 fois plus utilisé,
  • Inlassablement (tirelessly) : 350 fois plus employé,
  • Entrelacer (intertwine) : 350 fois plus employé.

Retrouver l’ensemble des mots surutilisés par ChatGPT

Quelles sont les phrases les plus utilisées par ChatGPT ?

ChatGPT dispose également de tournures de phrases surutilisées comparé aux écrits humains. Parmi les phrases préférées de l’IA nous retrouvons :

  • Plongez dans les détails…
  • Il est important de noter…
  • Comme nous l’avons vu…
  • Il est crucial de comprendre…
  • Dans un monde qui évolue à un rythme effréné…

Retrouver l’ensemble des phrases privilégiées par ChatGPT

Pourquoi certains mots et phrases reviennent sans cesse ?

Les modèles de langage tels que GPT-4 sont conçus à partir d’une immense base de données textuelles qui lui permet de prédire statistiquement le mot suivant dans une phrase. Mais brut, un grand modèle de langage (LLM) est difficilement utilisable et nécessite une intervention humaine pour le perfectionner. Cette étape est appelée le Renforcement par Feedback Humain (RLHF) et consiste à faire tester et évaluer les réponses du modèle de langage par des humains.

Cette intervention est cruciale et demande des centaines de milliers d’heures de travail. Pour réduire les coûts, les entreprises comme OpenAI externalisent souvent ce travail vers des régions où la main-d’œuvre est moins coûteuse, notamment dans  certains pays d’Afrique.

Les travailleurs qui ont formé leur système ont donc fourni des exemples d’entrées et de sorties utilisant la même langue, ce qui a finalement abouti à un système d’IA qui écrit un peu comme de l’anglais parlé en Afrique, note le Guardian

Par exemple, le terme delve (creuser, ou fouiller en profondeur – physiquement ou pour appronfondir un sujet – en français) est particulièrement utilisé dans les pays anglophones africains, notamment au Nigeria mais beaucoup plus rarement aux États-Unis.

Sujets liés :
Publier un commentaire
Ajouter un commentaire

Votre adresse email ne sera pas publiée.

Visuel enquête Visuel enquête

Community managers : découvrez les résultats de notre enquête 2025

Réseaux, missions, salaire... Un webinar pour tout savoir sur les CM, lundi 29 septembre à 11h !

Je m'inscris

Les meilleurs outils pour les professionnels du web