Remove ads
De Wikipédia, l'encyclopédie libre
Dans la théorie mathématique des réseaux de neurones artificiels, le théorème d'approximation universelle indique qu'un réseau à propagation avant d'une seule couche cachée contenant un nombre fini de neurones (c'est-à-dire, un perceptron multicouche) peut approximer des fonctions continues sur des sous-ensembles compacts de Rn.
Une des premières versions du cas avec largeur arbitraire a été prouvé par George Cybenko (en) en 1989 pour des fonctions d'activation sigmoïdes[1]. Kurt Hornik a montré en 1991[2] que ce n'est pas le choix spécifique de la fonction d'activation, mais plutôt l'architecture multi-couches à propagation avant elle-même qui donne aux réseaux de neurones le potentiel d'être des approximateurs universels. Moshe Leshno et al en 1993[3] et plus tard Allan Pinkus en 1999[4] ont montré que la propriété d'approximation universelle est équivalente à l'utilisation d'une fonction d'activation non-polynomiale.
Le cas avec profondeur arbitraire a aussi été étudié par nombre d'auteurs, comme Zhou Lu et al en 2017[5], Boris Hanin et Mark Sellke en 2018[6], et Patrick Kidger et Terry Lyons en 2020[7]. Le résultat sur la largeur minimale par couche a été raffiné en 2020[8],[9] pour les réseaux résiduels.
Plusieurs extensions du théorème existent, comme celle à des fonctions d'activation discontinues[3], à des domaines non compacts[7], à des réseaux certifiables[10], et à des architectures de réseaux et des topologies alternatives[7],[11].
On note l'ensemble des fonctions continues d'un ensemble vers un ensemble . La forme classique du théorème d'approximation universelle pour une largeur arbitraire et une profondeur bornée est la suivante[1],[2],[12],[13]. Elle étend[4] les résultats classiques de George Cybenko (en) and Kurt Hornik (en).
Théorème d'approximation universelle. Soit . Notons que , c'est-à-dire que représente l'application de à chacune des composantes de [pas clair].
Alors n'est pas polynomiale si et seulement si pour tout , , pour tout sous-espace compact , pour tout et pour tout , il existe , , et , tels que : où
Une telle fonction peut également être approximée par un réseau de plus grande profondeur en utilisant la même construction pour les deux premières couches et et en utilisant la fonction identité pour les couches ultérieures.
Les versions 'duales' du théorème considèrent des réseaux de largeur bornée et de profondeur arbitraire. Une variante du théorème d'approximation universelle a été prouvée pour le cas de la profondeur arbitraire par Zhou Lu et al. en 2017[5]. Ils ont montré que les réseaux de largeur n+4 avec fonction d'activation ReLU peuvent approximer n'importe quelle fonction intégrable au sens de Lebesgue sur un espace d'entrée de dimension n muni de la distance à condition d'autoriser la profondeur du réseau à croître. Il a aussi été montré que si la largeur était inférieure ou égal à n, cette possibilité générale d'approximer toute fonction intégrable au sens de Lebesgue était perdue. Dans le même article [5] il est montré que les réseaux ReLU de largeur n+1 sont suffisants pour approximer n'importe quelle fonction continue à variables d'entrée de dimension n[14]. Le raffinement suivant précise la largeur minimale optimale pour laquelle une telle approximation est possible et est dû à Sejun Park et al.[15]
Théorème d'approximation universelle (distance L1, activation ReLU, profondeur arbitraire, largeur minimale). Pour toute fonction Bochner–Lebesgue p-integrable et tout , il existe un réseau ReLU entièrement connecté (en) de largeur exactement , satisfaisant:
- .
En outre, il existe une fonction et un certain , pour lesquels il n'existe pas de réseau ReLU entièrement connecté de largeur inférieure à satisfaisant la borne d'approximation ci-dessus.
Par ailleurs, le résultat central de [7] fournit le théorème d'approximation universelle suivant pour les réseaux à largeur bornée:
Théorème d'approximation universelle (activation non-affine, profondeur arbitraire, largeur constrainte). Soit un sous-ensemble compact de . Soit une transformation non-affine continue qui soit continûment différentiable en au moins un point, avec des dérivées non nulles en ce point. Soit l'espace des réseaux de neurones à propagation avant ayant neurones d'entrée, neurones de sortie, et un nombre arbitraire de couches cachées, chacune ayant neurones, et telles que tout neurone caché ait comme fonction d'activation et que tout neurone de sortie ait l'identité comme fonction d'activation.
Alors pour tout et tout , il existe telle que:
En d'autres termes, est dense dans muni de la topologie de la convergence uniforme.
Certaines conditions nécessaires pour le cas largeur bornée, profondeur arbitraire ont été établies, mais il y a encore un écart entre les conditions nécessaires et les conditions suffisantes connues[5],[6],[16].
Les réseaux de neurones quantiques peuvent être exprimés par différents outils mathématiques pour les circuits ordinateurs quantiques, allant du perceptron quantique aux circuits quantiques variationnels, tous deux basés sur des combinaisons de portes logiques quantiques. Les circuits quantiques variationnels sont basés sur un circuit paramétrique, n'impliquant pas de réseaux de neurones. Au lieu de cela, le perceptron quantique permet la conception d'un réseau de neurones quantiques avec la même structure que les réseaux de neurones à réaction, à condition que le comportement de seuil de chaque nœud n'implique pas l'effondrement de l'état quantique, c'est-à-dire aucun processus de mesure. En 2022, un tel bloc de construction sans mesure fournissant le comportement de la fonction d'activation pour les réseaux de neurones quantiques a été conçu [17]. Le circuit quantique renvoie une approximation arbitraire des fonctions d'écrasement dans l'intervalle de -1 à +1, ce qui est pertinent pour les qubits. Une telle méthode pour concevoir des fonctions d'activation quantiques arbitraires permet des multi-perceptrons quantiques et des réseaux de neurones à réaction quantique en général.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.