Remove ads
famille de modèles de langage informatique De Wikipédia, l'encyclopédie libre
Un transformeur génératif préappris (ou préentraîné) (ou GPT, de l’anglais generative pre-trained transformer) est un type de grand modèle de langage basé sur l'architecture transformeur. Le « préapprentissage » consiste à prédire le prochain mot dans une séquence de texte. Répété pour de vastes corpus de données textuelles, cet apprentissage permet ensuite au modèle de générer du texte semblable.
Il est construit en utilisant plusieurs blocs de la partie décodeur de l'architecture du transformeur. Ils peuvent être affinés pour diverses tâches de traitement du langage naturel telles que la génération de texte, la traduction de langue et la classification de texte. Le terme pre-trained dans son nom fait référence au processus d'apprentissage initial sur un grand corpus de texte où le modèle apprend à prédire le mot suivant dans un passage, ce qui fournit une base solide pour que le modèle fonctionne bien sur des tâches en aval avec des quantités limitées de données spécifiques à la tâche.
Les performances des modèles GPT reposent à la fois sur l'architecture transformeur, et sur une nouvelle méthode d'apprentissage ne nécessitant pas l'annotation des données d'entraînement.
Jusqu'en 2017, les réseaux de neurones les plus performants en traitement automatique des langues (les LSTM) utilisaient principalement l'apprentissage supervisé à partir de données étiquetées manuellement. L'annotation de grands ensembles de données rendait l'entraînement de ces modèles coûteux et chronophage[6],[7]. De plus, de nombreuses langues (telles que le swahili ou le créole haïtien ) étaient difficiles à traduire et à interpréter à l'aide de tels modèles en raison d'un manque de traductions existantes pour apprendre le modèle[7].
La publication par des chercheurs de Google d'un article intitulé Attention Is All You Need[8] conduit à l’émergence de grands modèles de langage tels que BERT en octobre 2018[9], qui est un transformeur préappris non génératif. A la même période, le 11 juin 2018, OpenAI publie un article intitulé Improving Language Understanding by Generative Pre-Training, dans lequel est introduit le premier Generative Pre-trained Transformer (« GPT-1 »)[6].
L'apprentissage auto-supervisé utilisé par OpenAI pour entraîner ses grands modèles de langage commence par une étape de préapprentissage, où le modèle est entraîné à prédire le token suivant (un token étant une séquence de caractères, typiquement un mot, une partie d'un mot, ou de la ponctuation). Cet entraînement à prédire ce qui va suivre, répété pour un grand nombre de textes, permet à ces modèles d'accumuler des connaissances sur le monde[6],[10].
Il y a ensuite parfois une étape d'apprentissage supervisé où le modèle est ajusté pour une tâche donnée[6], par exemple pour obtenir des réponses selon un format ou un style d'assistant. Il y a également souvent une étape d'apprentissage par renforcement (telle que RLHF ou RLAIF) permettant de rendre le modèle plus véridique, utile et inoffensif[10],[11].
Version | Architecture | Nombre de paramètres | Données d'entraînement |
---|---|---|---|
GPT-1 | Transformeur de type decodeur à 12 niveaux et 12 têtes (pas d'encodeur), suivi de linear-softmax. | 0,12 × 109 | BookCorpus[12] : 4,5 Go de texte, à partir de 7 000 livres inédits de divers genres. |
GPT-2 | GPT-1, mais avec une normalisation modifiée | 1,5 × 109 | WebText : 40 Go de texte, 8 millions de documents, à partir de 45 millions de pages Web votées sur Reddit. |
GPT-3 | GPT-2, mais avec des modifications pour permettre une plus grande mise à l'échelle. | 175 × 109 | 570 Go de texte en clair, 0,4 billion de jetons. Principalement CommonCrawl, WebText, Wikipedia anglais et deux corpus de livres (Books1 et Books2). |
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.