Loading AI tools
dispersion des valeurs d'une variable aléatoire autour de sa valeur attendue De Wikipédia, l'encyclopédie libre
En mathématiques, l’écart type (aussi orthographié écart-type) est une mesure de la dispersion des valeurs d'un échantillon statistique ou d'une distribution de probabilité. Il est défini comme la racine carrée de la variance ou, de manière équivalente, comme la moyenne quadratique des écarts par rapport à la moyenne. Il se note en général avec la lettre grecque σ (« sigma »), d’après l’appellation standard deviation en anglais. Il est homogène à la variable mesurée.
Les écarts types sont rencontrés dans tous les domaines où sont appliquées les probabilités et la statistique, en particulier dans le domaine des sondages, en physique, en biologie ou dans la finance. Ils permettent en général de synthétiser les résultats numériques d'une expérience répétée. Tant en probabilités qu'en statistique, il sert à l'expression d'autres notions importantes comme le coefficient de corrélation, le coefficient de variation ou la répartition optimale de Neyman.
Quand l'écart type d'une population est inconnu, sa valeur est approchée à l'aide d'estimateurs.
Exemples :
L'écart type est une grandeur dont l'invention remonte au XIXe siècle, qui voit la statistique se développer au Royaume-Uni.
C'est à Abraham de Moivre qu'est attribuée la découverte du concept de mesure de la dispersion qui apparaît dans son ouvrage The Doctrine of Chances en 1718[b 1]. Mais le terme d'écart type (« standard deviation ») a été employé pour la première fois par Karl Pearson en 1893 devant la Royal Society[b 2]. C'est aussi Karl Pearson qui utilise pour la première fois le symbole σ pour représenter l'écart type[b 2]. En 1908, William Gosset, plus connu sous le pseudonyme de Student, définit l'écart type empirique d'un échantillon et montre qu'il est important de le distinguer de l'écart type d'une population[b 2]. La variance est une notion qui apparut plus tard, en 1918, dans un texte de Ronald Fisher intitulé The Correlation between Relatives on the Supposition of Mendelian Inheritance[i 1].
À partir d'un relevé exhaustif (x1, ..., xn) d'une variable quantitative pour tous les individus d'une population, l'écart type est la racine carrée de la variance, c'est-à-dire[b 3],[1],[2] :
où représente la moyenne. L'écart type est homogène à la variable mesurée, c'est-à-dire que si par un changement d'unité, toutes les valeurs sont multipliées par un coefficient α > 0, l'écart type sera multiplié par le même coefficient. En revanche, l'écart type est invariant par décalage additif : si on ajoute une constante à toutes les valeurs relevées, cela ne change pas l'écart type. Ces deux propriétés font de l'écart type un indicateur de dispersion.
Par contraste avec d'autres indicateurs de dispersion comme l'écart interquartile, l'écart type a l'avantage de pouvoir se calculer à partir des moyennes et écarts types sur une partition de la population, puisque la variance globale est la somme de la variance des moyennes et de la moyenne des variances. Cela permet de calculer l'écart type en parallèle.
L'écart type est implémenté en Python dans la bibliothèque numpy
avec la méthode std
. En R, la fonction sd
(pour standard deviation)[3] utilise à la place de , ce qui correspond à l'estimateur de l'écart-type d'une population à partir d'un échantillon.
L'écart type est la distance euclidienne du point de coordonnées à la droite diagonale engendrée par le vecteur dans , atteinte en son projeté orthogonal de coordonnées .
L'écart type est donc le minimum de la fonction qui calcule la distance entre M et le point de coordonnées (t, ..., t).
L'écart type peut être utilisé pour comparer l'homogénéité de plusieurs populations sur une même variable. Par exemple, si on donne deux classes d'un même niveau moyen et évaluées selon les mêmes critères, la classe avec un plus fort écart type des notes sera plus hétérogène. Dans le cas d'une notation de à , l'écart type minimal est (notes toutes identiques), et peut valoir jusqu'à si la moitié de la classe à et l'autre moitié [Note 1].
En revanche, on ne peut comparer tels quels les écarts types de variables différentes, et dont les ordres de grandeur ne correspondent pas nécessairement. Pour une variable quantitative strictement positive, on définit alors le coefficient de variation, égal au quotient de l'écart type par la moyenne[b 4]. Ce nombre adimensionnel ne dépend pas de l'unité de mesure choisie et permet de comparer la dispersion de variables différentes.
Un coefficient de variation élevé peut éventuellement signaler l'existence d'une valeur aberrante. Un critère consiste à rejeter les valeurs qui diffèrent de la moyenne par plus de 3 fois l'écart type. Dans le cas d'une distribution gaussienne, la probabilité d'un tel dépassement[b 5] est de l'ordre de 3/1000.
La modélisation probabiliste d'une distribution statistique consiste à définir une variable aléatoire, c'est-à-dire une application X avec une mesure de probabilité , laquelle permet de définir les probabilités de la forme . La donnée de ces probabilités constitue la loi de probabilité[b 6] de X. La modélisation est fidèle si la probabilité d'un évènement correspond à la fréquence d'occurrence des valeurs correspondantes dans la population testée, conformément à la loi des grands nombres.
On s'intéresse ici aux variables aléatoires réelles ou vectorielles de carré intégrable, c'est-à-dire dont l'espérance E(X2) converge. Pour une variable vectorielle (à valeurs dans un espace vectoriel normé complet), l'espérance est un vecteur du même espace et le carré désigne le carré de la norme. L'ensemble de ces variables est lui-même un espace vectoriel.
L'écart type de X est la racine carrée de la variance[Note 2],[i 2] .
L'existence de l'écart type est assurée pour une variable aléatoire bornée ou admettant une fonction de densité dominée à l'infini par une fonction puissance avec α > 3.
Dans le cas d'une variable aléatoire discrète dont les valeurs sont notées xi, avec , l'écart type s'écrit comme pour une série statistique , où μ est l'espérance de la loi de X.
En particulier, si X est uniforme[b 7] sur un ensemble fini , c'est-à-dire si
alors
Dans le cas d'une variable aléatoire à densité pour laquelle les probabilités s'écrivent où f est une fonction localement intégrable, pour la mesure de Lebesgue par exemple, mais pas nécessairement une fonction continue[b 8], l'écart type de X est défini par où est l'espérance de X.
Avec ces formules et la définition, le calcul des écarts types pour les lois couramment rencontrées est aisé. Le tableau suivant donne les écarts types de quelques-unes de ces lois :
Nom de la loi | Paramètre(s) | Description | Écart type |
---|---|---|---|
Loi de Bernoulli[b 7] | p ∈ ]0 ; 1[ | Loi discrète sur {0 ; 1} avec une probabilité p d'obtenir 1 | |
Loi binomiale[b 9] | et p ∈ ]0 ; 1[ | Loi de la somme de n variables indépendantes suivant la loi de Bernoulli de même paramètre p | |
Loi géométrique[b 10] | p ∈ ]0 ; 1[ | Loi du rang de la première réalisation dans une suite de variables de Bernoulli indépendantes de même paramètre p | |
Loi uniforme sur un segment[b 11] | a < b | Loi de densité constante sur[a , b] | |
Loi exponentielle[b 11] | Loi à densité avec un taux de panne constant λ | ||
Loi de Poisson[b 12] | Loi sur du nombre de réalisations indépendantes sur de moyenne λ | ||
Loi du χ²[b 13] | n | Loi de la somme de n carrés de variables normales centrées réduites indépendantes | |
Si la variable X suit une loi log-normale alors ln X suit une loi normale et l'écart type de X est relié à l'écart type géométrique[b 14].
Mais toutes les lois de probabilité n'admettent pas forcément un écart type fini : la loi de Cauchy (ou loi de Lorentz) n'a pas d'écart type, ni même d'espérance mathématique[b 15].
où ρ(X,Y) est le coefficient de corrélation entre les deux variables X et Y.
En sciences, il est fréquent de considérer que les mesures d'une grandeur se répartissent selon une distribution gaussienne, par accumulation d'erreurs de mesure ou d'interférences indépendantes avec d'autres phénomènes, en application du théorème central limite. L'histogramme des valeurs observées se rapproche alors d'une courbe en cloche caractéristique de la loi normale. La courbe étant complètement définie par la donnée de la valeur moyenne et de l'écart type, ces deux valeurs permettent de définir un intervalle de fluctuation qui concentre l'essentiel des observations.
Le calcul des quantiles de cette loi montre par exemple que pour une grandeur satisfaisant cette distribution sur une population d'individus, avec une moyenne m et un écart type σ, 95 % des valeurs observées appartiendront à l'intervalle [m – 1,96 σ ; m + 1,96 σ] (voir 97,5e centile). On peut ainsi associer des probabilités à des intervalles de valeurs centrés sur la moyenne et dont l'amplitude est un multiple de l'écart type[b 19].
Écart maximal à la moyenne | Proportion des valeurs |
---|---|
68,27 % | |
95 % | |
95,45 % | |
99,73 % |
Dans l'industrie, l'écart type intervient dans le calcul de l'indice de qualité des produits manufacturés ou dans l'indice de fidélité d'un appareil de mesure[i 3],[i 4].
En physique des particules, la détection d'évènements est ainsi quantifiée en nombre de sigmas, représentant l'écart entre la valeur observée et la moyenne attendue en l'absence d'évènement. Un résultat est considéré comme significatif par l'obtention de 5 sigmas, représentant une probabilité d'erreur inférieure à 0,00006 % (soit niveau de confiance de plus de 99,99994 %)[i 5].
Dans le domaine de la communication financière, l'écart type est une mesure de la volatilité des cours des actions des sociétés cotées[b 20]. Les bandes de Bollinger sont des outils facilitant l'analyse des prévisions boursières. John Bollinger a construit la courbe des moyennes mobiles sur 20 jours et les courbes, de part et d'autre de cette courbe, situées à deux fois l'écart type sur ces 20 jours. John Bollinger a utilisé une définition adaptée de l'écart type[i 6]. En outre, le risque d'un actif boursier et le risque associé au marché sont mesurés par l'écart type de la rentabilité attendue, dans le modèle d'évaluation des actifs financiers de Harry Markowitz[i 7].
Si X est une variable aléatoire d'écart type non nul, on peut lui faire correspondre la variable centrée et réduite Z définie par . Deux variables aléatoires centrées et réduites Z1 et Z2 sont aisées à comparer, puisque E(Zi)=0 et σZi=1[b 21].
Le théorème central limite a pour objet la limite d'une suite de variables aléatoires centrées réduites[b 22], les coefficients de dissymétrie et d'aplatissement d'une densité de probabilité, E(Z3) et E(Z4), permettent de comparer des distributions différentes[b 23].
Si X et Y sont deux variables aléatoires réelles admettant toutes les deux une variance non nulle, le coefficient de corrélation linéaire est le rapport où est la covariance des variables X et Y. D'après l'inégalité de Cauchy-Schwarz, ; le coefficient de corrélation prend ses valeurs dans l'intervalle [–1 ; +1][b 24].
Si les deux variables sont indépendantes, le coefficient de corrélation linéaire est nul, mais la réciproque est fausse.
Si le coefficient de corrélation linéaire vaut 1 ou −1, les deux variables sont presque sûrement en relation affine[b 25].
C'est grâce à l'inégalité de Bienaymé-Tchebychev que l'écart type apparaît comme une mesure de la dispersion autour de la moyenne. En effet, cette inégalité exprime que [b 26] et montre que la probabilité pour que X s'écarte de E(X) de plus de k fois l'écart type est inférieure à 1/k2[b 27].
En mécanique quantique, le principe d'incertitude d'Heisenberg exprime que le produit des écarts types de la position x et de l'impulsion p d'une particule est supérieur ou égal à la constante de Planck réduite divisée par deux, soit [i 8].
Lorsqu'il n'est pas possible de connaître toutes les valeurs de la caractéristique considérée, on se trouve dans le cadre de la théorie statistique. Le statisticien procède alors par échantillonnage et estimation pour évaluer les grandeurs analysées telles que l'écart type.
Un estimateur est une fonction permettant d'approcher un paramètre d'une population à l'aide d'un échantillon tiré au hasard[b 28], ou une grandeur sur un phénomène aléatoire à partir de plusieurs réalisations de celui-ci.
Dans le cas d'un échantillon de taille n, et dont la vraie moyenne -ou espérance- μ est connue, l'estimateur est le suivant : Malheureusement, le plus souvent on ne connaît pas μ et on doit l'estimer à partir de l'échantillon lui-même grâce à l'estimateur suivant : . Différents estimateurs de l'écart type sont généralement utilisés. La plupart de ces estimateurs s'expriment par la formule : Sn – 1 (ou S′) est l'estimateur le plus utilisé[b 29],[b 3], mais certains auteurs recommandent d'utiliser Sn (ou S)[i 9].
Deux propriétés importantes des estimateurs sont la convergence et l'absence de biais[b 3].
Pour tout k tel que k/n tende vers 1, la loi des grands nombres garantit que S2
n puis S2
k sont des estimateurs convergents de σ2. Grâce au théorème de continuité, stipulant que si f est continue, alors . La fonction racine carrée étant continue, Sk converge lui aussi vers σ. En particulier Sn et Sn – 1 sont des estimateurs convergents de σ, ce qui reflète l'approximation de σ par ces deux séries lorsque n devient de plus en plus grand[Note 5],[b 30] et conforte le statisticien à utiliser ces estimateurs.
L'estimateur de la variance S2
n – 1 est sans biais. Cependant, la non-linéarité de la fonction racine carrée fait que Sn – 1 est légèrement biaisé[i 9]. Les estimateurs S2
n et Sn sont eux aussi biaisés. Le fait de faire intervenir non pas n mais n – 1 au dénominateur (correction de Bessel (en)) dans le calcul de la variance vient du fait que déterminer la moyenne de x à partir de l'échantillon fait perdre un degré de liberté puisque la formule relie aux valeurs xi. On a donc seulement n – 1 valeurs indépendantes après le calcul de . Dans le cas ou l'on cherche à estimer l’écart-type d'une loi normale, on dispose d'un estimateur non biaisé de σ proche de [i 10]. Le choix de permet de corriger le biais supplémentaire lié à la racine carrée.
La précision, donnée par l'erreur quadratique moyenne, est difficile à calculer explicitement pour des lois quelconques. Il semblerait cependant qu'en dépit d'un biais plus important, Sn soit plus précis que Sn –1[i 9].
Pour estimer la précision de l'estimation de la moyenne d'une variable, la méthode du calcul de l'écart type de la distribution d'échantillonnage des moyennes est utilisée. Appelé aussi erreur type de la moyenne (« Standard error »), noté , c'est l'écart type des moyennes des échantillons de tailles identiques d'une population. Si n est la taille des échantillons prélevés sur une population d'écart type σ, et si N est la taille de la population, alors [b 31]. Lorsque l'écart type σ de la population est inconnu, il peut être remplacé par l'estimateur Sn–1[b 31]. Quand n est suffisamment grand (n ≥ 30), la distribution d'échantillonnage suit approximativement une loi de Laplace-Gauss, ce qui permet de déduire un intervalle de confiance, fonction de , permettant de situer la moyenne de la population par rapport à la moyenne de l'échantillon[b 32],[b 33].
En général, il est très difficile de calculer la loi de distribution des écarts types empiriques. Mais si Xn est une suite de variables aléatoires distribuées selon la loi normale , alors suit une loi du χ2 à n degrés de liberté[b 13],[Note 6]. Cette loi a pour écart type √2n et donc l'écart type de la distribution des variances de variables normales a pour expression [b 13].
Dans les sondages d'opinion, l'écart type évalue l'incertitude des variations accidentelles de x inhérentes au sondage, ce qu'on appelle la marge d'erreur due aux variations accidentelles[i 11].
De plus, avec la méthode d'échantillonnage représentatif, lorsque les différentes strates ont des écarts types très différents, l'écart type est utilisé pour calculer la répartition optimale de Neyman qui permet d'évaluer la population dans les différentes strates en fonction de leur l'écart type ; en d'autres termes est la taille de l'échantillon dans la strate i, où n est la taille totale de l'échantillon, Ni est la taille de la strate i, σi l'écart type de la strate i[i 11].
Les écarts types obtenus par un programme d'ordinateur peuvent être incorrects si on n'utilise pas un algorithme adapté aux données, comme lorsqu'on utilise celui qui exploite directement la formule sur des grands échantillons de valeurs comprises entre 0 et 1[i 12],[i 13].
Un des meilleurs algorithmes est celui de B.P. Welford qui est décrit par Donald Knuth dans son livre The Art of Computer Programming, vol. 2[i 14],[i 15].
Une approximation de l'écart type de la direction du vent est donnée par l'algorithme de Yamartino dont on se sert dans les anémomètres modernes[i 16],[i 17].
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.