GPT-3 et GPT-4 : tout savoir sur les modèles d’OpenAI

Contrairement aux premières rumeurs, le prochain modèle de langage d’OpenAI ne devrait pas être capable de traiter 100 trillions de paramètres.

openai-smartphone
La médiatisation de ChatGPT amplifie encore les attentes du public concernant GPT-4. © sdx15 - stock.adobe.com

OpenAI est l’entreprise « à but lucratif plafonné » qui édite notamment les outils ChatGPT pour générer des textes et DALL-E pour générer des images.

Ces services sont basés sur des modèles, mis à disposition via une interface de programmation (API). Leur objectif est la compréhension et la génération de langage naturel (NLP) et de code informatique. Ils peuvent être entraînés avec des données, pour répondre à des besoins précis ou affiner les réponses obtenues. La communication avec ces modèles, via l’API d’OpenAI, permet d’obtenir des contenus en soumettant des requêtes rédigées naturellement, avec plus ou moins de paramètres pour ajuster les réponses générées.

GPT-3 : fonctionnement, données et modèles d’OpenAI

La date de sortie de GPT-3

GPT-3 a été présenté par OpenAI le 28 mai 2020. On peut y accéder via l’API de l’éditeur depuis le mois de juillet 2020.

Les paramètres de GPT-3

GPT-3 est un modèle de langage entraîné avec pas moins de 175 milliards de paramètres. Pour comparer : son prédécesseur, GPT-2, était basé sur 1,5 milliard de paramètres. Ces données correspondent au nombre de valeurs que le réseau de neurones essaye d’optimiser durant son entraînement. Ce n’est qu’une donnée parmi d’autres, mais il s’agit d’un élément qui influence la qualité du modèle.

Les modèles d’OpenAI basés sur GPT-3

GPT-3 signifie Generative Pre-trained Transformer 3. Cette technologie se décline en une série de 4 modèles (A, B, C, D) plus ou moins rapides et performants.

  • Davinci (text-davinci-003) : c’est le modèle le plus avancé. Davinci est particulièrement adapté aux intentions complexes, aux relations de cause à effet et à la création de résumés de contenus.
  • Curie (text-curie-001) : performant et beaucoup plus rapide. Idéal pour la traduction, la classification complexe, l’analyse de texte et les résumés.
  • Babbage (text-babbage-001) : un modèle efficace pour les catégorisations plus simples et la classification sémantique.
  • Ada (text-ada-001) : très rapide et peu coûteux, à privilégier pour les classifications les plus simples, l’extraction de texte et la correction d’adresses.

Les données d’entraînement de Davinci s’arrêtent en juin 2021 ; celles des autres modèles, en octobre 2019. OpenAI conseille d’expérimenter avec le modèle Davinci, puis d’essayer les autres qui sont en mesure de réaliser un grand nombre de tâches similaires à des coûts beaucoup moins élevés.

Les autres modèles d’OpenAI pour le code informatique et la modération

OpenAI propose également les modèles spécifiques Codex pour la compréhension et la génération de code informatique (code-davinci-002 et code-cushman-001). Pour la modération des contenus, l’éditeur invite les développeurs à privilégier un nouvel endpoint permettant de déterminer si un contenu est safe, sensitive ou unsafe avec des filtres personnalisés.

Les données utilisées pour entraîner GPT-3

Pour s’entraîner, les algorithmes GPT-3 utilisent une quantité très importante de données. Elles proviennent des bases Common Crawl, des corpus WebText2, Books1, Books2 et d’articles Wikipédia rédigés en anglais.

ChatGPT et GPT-3.5

Quant à ChatGPT, le générateur de texte qui fait tant parler, OpenAI précise qu’il est basé sur un modèle de la série GPT-3.5, entraîné sur les infrastructures de Microsoft Azure AI. Trois des modèles d’OpenAI sont issus de GPT-3.5 :

  • code-davinci-002 : le modèle de base ;
  • text-davinci-002 : un modèle InstructGPT basé sur le précédent ;
  • text-davinci-003 : une amélioration du modèle précédent.

Le processus d’apprentissage permet à ces technologies d’intégrer des données spécifiques pour apporter une réponse plus pertinente aux différentes requêtes.

chatgpt-etapes
OpenAI présente le fonctionnement de ChatGPT © OpenAI

GPT-4 : les nouveautés attendues de la prochaine techno d’OpenAI

Mise à jour, 14 mars 2023 : depuis la publication de cet article, OpenAI a présenté officiellement GPT-4, son nouveau modèle de langage. Il s’agit d’une intelligence artificielle multimodale, capable d’interpréter du texte et des images.

Vous l’aurez compris, GPT-3.5 est une étape vers le développement d’une technologie encore plus avancée : GPT-4. Beaucoup l’attendent avec impatience – trop d’impatience apparemment, selon le CEO d’OpenAI lui-même : « les gens ne demandent qu’à être déçus et ils le seront ».

Le nombre de paramètres de GPT-4

Devant le peu d’informations véridiques qui circulent sur GPT-4, les rumeurs vont bon train. Ainsi, contrairement à ce qui avait été annoncé ici et là, GPT-4 ne devrait pas être capable de traiter 100 000 milliards de paramètres. C’est le chiffre qui circulait le plus jusqu’à présent, il correspond à 571 fois la taille du réseau de neurones de GPT-3. Mais Sam Altman, CEO d’OpenAI, a réfuté cette donnée gigantesque lors d’une session privée de questions/réponses. Le nombre de paramètres ne devrait pas être la nouveauté marquante de GPT-4.

Les innovations de GPT-4

Les améliorations de GPT-4 devraient ainsi se situer dans des éléments plus techniques, moins palpables. L’optimisation de l’entraînement du modèle fait partie des points clés – car ce processus consomme beaucoup de ressources et beaucoup de temps. Des paramètres plus avancés pourraient permettre d’obtenir des résultats plus probants. Il ne devrait pas s’agir d’une IA multimodale – comprenez qu’avec GPT-4, vous ne devriez pouvoir générer que du texte.

La date de sortie de GPT-4

GPT-4 serait présenté dès le premier trimestre 2023, selon le New York Times. Sam Altman a tempéré l’information, indiquant que « cela sortira lorsque nous serons convaincu que nous pouvons le faire en toute sécurité, de manière responsable ». Les risques associés aux technologies basées sur le machine learning et le traitement du langage sont très importants, et les dirigeants d’OpenAI semblent en être bien conscients.

Le métier de Prompt engineer vous intéresse ?

Tout savoir sur le métier de prompt engineer, pour maîtriser les outils d’IA générative et configurer leurs paramètres pour industrialiser la production de contenu. Voir la fiche métier Prompt engineer
Sujets liés :
Publier un commentaire
Ajouter un commentaire

Votre adresse email ne sera pas publiée.

Visuel enquête Visuel enquête

Community managers : découvrez les résultats de notre enquête 2025

Réseaux, missions, salaire... Un webinar pour tout savoir sur les CM, lundi 29 septembre à 11h !

Je m'inscris

Les meilleurs outils pour les professionnels du web