GPT-3 - Wikiwand

GPT-3 (sigle de Generative Pre-trained Transformer 3) est un modèle de langage, de type transformeur génératif pré-entraîné, développé par la société OpenAI, annoncé le 28 mai 2020, ouvert aux utilisateurs via l'API d'OpenAI en juillet 2020.

Faits en bref Développé par, Première version ...

Informations
Développé par	OpenAI
Première version	28 mai 2020
Dépôt	github.com/openai/gpt-3
Type	Grand modèle de langage Modèle autorégressif Modèle génératif Transformateur génératif pré-formé
Licence	Licence propriétaire
Site web	arxiv.org/abs/2005.14165

Au moment de son annonce, GPT-3 est le plus gros modèle de langage jamais entraîné avec 175 milliards de paramètres. GPT-2, sorti en 2019, n'avait que 1,5 milliard de paramètres^[1].

OpenAI ouvre une version bêta en juillet 2020 avec l'intention d'en faire un produit commercial^[1].

En mars 2022, OpenAI a sorti de nouvelles versions de GPT-3 (« text-davinci-002 » et « code-davinci-002 »)^[2]. En novembre 2022, OpenAI a commencé à faire référence à ces modèles comme faisant partie de la série « GPT-3.5 », et en a intégré une version ajustée dans ChatGPT^[3].

En mars 2023, OpenAI annonce le lancement de son successeur, GPT-4^[4]. GPT-3 et GPT-4 sont à la base de chatGPT, un robot conversationnel commercialisé par OpenAI.

Remove ads

Capacités

Résumé

Contexte

Une prépublication arXiv du 28 mai 2020 par un groupe de 31 ingénieurs et chercheurs de OpenAI^{[note 1]} présentait le développement de GPT-3, un modèle linguistique de troisième génération^[5]^,^[6]. L'équipe a augmenté la capacité de GPT-3 de plus de deux ordres de grandeur par rapport à celle de son prédécesseur, GPT-2^[7]. Le nombre plus élevé de paramètres de GPT-3 lui confère une plus grande précision par rapport aux versions précédentes de plus faible capacité^[8]. La capacité de GPT-3 est dix fois supérieure à celle du NLG de Turing de Microsoft^[6].

60 % de l'ensemble de données pondérées de pré-apprentissage pour le modèle GPT-3 proviennent d'une version filtrée du corpus Common Crawl consistant en 410 milliards d'unités textuelles sous-lexicales encodées par l'algorithme BPE^[5]. Les autres sources sont 19 milliards d'unités du corpus WebText2 représentant 22 % du total pondéré, 12 milliards d'unités du corpus Books1 représentant 8 %, 55 milliards du corpus Books2 représentant 8 % et 3 milliards d'unités de Wikipedia représentant 3 %^[5]. GPT-3 a été entrainé sur des centaines de milliards de mots et est capable de programmer en CSS, JSX, Python, entre autres^[9].

Les données d'apprentissage de GPT-3 étant globales, il ne nécessite pas d'apprentissage supplémentaire pour des tâches linguistiques distinctes^[9]. Le 11 juin 2020, OpenAI a annoncé que les utilisateurs pouvaient demander l'accès à son API GPT-3 - un ensemble d'outils d'apprentissage machine - pour qu'OpenAI augmente sa valeur d'usage^[10]^,^[11]. L'invitation décrivait comment cette API disposait d'une interface texte qui permettait d'effectuer presque « n'importe quelle tâche en anglais », au lieu du cas d'utilisation unique habituel^[10]. Selon un utilisateur, qui avait accès à une version préliminaire privée de l'API GPT-3 d'OpenAI, GPT-3 pouvait écrire un texte cohérent avec seulement quelques instructions simples^[12].

Parce que GPT-3 peut « générer des articles de presse que les évaluateurs humains ont du mal à distinguer des articles écrits par des humains »^[6], GPT-3 pourrait avoir des applications nuisibles^[5]. Dans leur article du 28 mai 2020, les chercheurs ont décrit en détail ces effets potentiels du GPT-3^[6] qui comprennent « la désinformation, le spam, l'hameçonnage, l'abus des processus légaux et gouvernementaux, la rédaction frauduleuse d'essais universitaires sous prétexte d'ingénierie sociale »^[5]. Les auteurs attirent l'attention sur ces dangers pour demander des recherches sur l'atténuation des risques^[5].

Remove ads

Usages

Résumé

Contexte

L'artiste Mario Klingemann a utilisé GPT-3 pour générer des pastiches de grands auteurs (en anglais)^[1].

Parmi les utilisations possibles figure l'extraction d'informations venant de documents. Par exemple GPT-3 peut répondre à la question « pourquoi le pain est gonflé » en se basant sur l'article Wikipédia « pain »^[13].

Il est possible d'avoir des discussions rapides, complexes et cohérentes dans le but de générer des idées, recommander des livres et des films, raconter des histoires interactives ou encore participer à une réunion^[13]. GPT-3 peut fournir une assistance aux clients automatique en ligne sur les sites internet par exemple^[13].

GPT-3 permet d'analyser et synthétiser du texte sous forme de tableaux, de résumer des discussions, d'élargir des contenus à partir d'idées de base^[13]. Il peut être utilisé pour traduire des textes d'une langue à l'autre^[13], transformer un texte en langue courante en un texte juridique^[14], générer du code informatique à partir d'instructions en langue naturelle^[15]. Il peut également être utilisé pour aider à la rédaction de textes et d'autres supports marketing par les startups Copy.ai^[16], Jasper.ai^[17], TextCortex AI^[18] et Hypotenuse AI^[19].

Remove ads

Limites

Du fait de sa taille, GPT-3 ne peut pas être exécuté sur un ordinateur personnel. Le stockage des paramètres à lui seul requiert au moins 175 gigaoctets de mémoire vive, ce qui en 2020 excède largement la capacité des machines typiquement disponibles sur le marché, ou constructibles à partir de matériel grand public.

Contrairement à GPT-2, le précédent modèle de langage développé par OpenAI, GPT-3 est livré sous forme d'une API et le code source n'est pas ouvert.

En 2020, la start-up française Nabla a réalisé des tests en créant un agent conversationnel médical en anglais basé sur GPT-3, ce qui est contre-indiqué par OpenAI. Lors des phases de test, le chatbot a conseillé à un patient simulé de se suicider^[20]^,^[21].

Projets comparables

Wu Dao (chinois traditionnel : 悟道 ; pinyin : wùdào ; litt. « chemin de la conscience »), est un projet chinois environ dix fois plus volumineux^[22].

Bloom est un projet financé au moins en partie par le gouvernement français, et publié sous une licence nommée « RAIL » (Responsible AI License)^[23].

GPT-J, un modèle conçu sur une architecture similaire, mais publié sous licence libre et de taille suffisamment petite pour être exécutable par un ordinateur personnel.

LLaMA, un modèle dont le code source est publié et maintenu par Meta.

Remove ads

Notes et références

Loading content...

Articles connexes

Loading content...

Lien externe

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads