Remove ads
De Wikipédia, l'encyclopédie libre
L'attention, en apprentissage automatique, est un mécanisme qui imite intuitivement l'attention cognitive. Il calcule des poids pour chaque élément à combiner. Ces poids peuvent être calculés en parallèle comme dans les transformeurs, ou séquentiellement comme dans les réseaux de neurones récurrents (RNN). Certains types de poids peuvent être changés à chaque exécution, là où d'autres sont entraînés et restent ensuite figés.
Le mécanisme d'attention des transformeurs[1] a en particulier été conçu pour remédier aux faiblesses liées aux RNN. Dans un RNN, chaque mot hérite d'une partie de l'information du mot précédent, qui lui même hérite d'une partie de l'information du mot précédent... Ainsi, l'information récupérée d'un mot décroît exponentiellement avec le nombre de mots qui le sépare du mot actuel. Ce qui fait que ces réseaux n'ont qu'une mémoire à relativement court terme. À l'inverse, l'attention, telle qu'implémentée dans les transformeurs, permet de combiner directement l'information à différents endroits du texte.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.