Loading AI tools
notion statistique De Wikipédia, l'encyclopédie libre
En théorie des probabilités et en statistiques, la médiane est une valeur qui sépare la moitié inférieure et la moitié supérieure des termes d’une série statistique quantitative ordonnée ou d’une variable aléatoire réelle. On peut la définir aussi pour une variable ordinale[1].
La médiane est un indicateur de tendance centrale. Par comparaison avec la moyenne, elle est insensible aux valeurs extrêmes mais son calcul est un petit peu plus complexe. En particulier, elle ne peut s’obtenir à partir des médianes de sous-groupes.
La donnée de la médiane peut s’accompagner des quartiles ou d’autres quantiles, notamment pour visualiser la distribution des valeurs à l’aide d’un diagramme en boite. La notion peut aussi être utilisée pour construire des estimateurs ou pour définir l’algorithme de recherche par médiane des médianes.
La méthode consiste à ordonner les valeurs en une liste croissante et à choisir la valeur qui est au centre de cette liste. Pour une liste ordonnée de n éléments, n étant impair, la valeur de l'élément à la position (n + 1)/2 est la médiane. Si le nombre n d'éléments est pair, toute valeur comprise entre les éléments en positions n/2 et n/2 + 1 est une médiane[1] ; en pratique, dans le cas d'une liste de nombres, c'est la moyenne arithmétique de ces deux valeurs centrales qui est en général utilisée[2],[3].
La complexité de l'algorithme de calcul de la médiane est donc la complexité de l'algorithme de tri utilisé, soit au mieux O(n log n).
Exemples
Pour déterminer une médiane d'un ensemble de valeurs, il suffit de calculer les pourcentages cumulés croissants et on prend la première valeur de la série dont le pourcentage cumulé atteint ou dépasse 50 %.
Cette méthode est plus pratique lorsque l'on a un grand nombre de valeurs[Information douteuse].
Il existe des algorithmes de complexité linéaire (en O(n)), donc plus performants[4]. Il s'agit d'algorithmes qui permettent de manière générale de déterminer le k-ième élément d'une liste de n éléments (voir Algorithme de sélection) ; k = n/2 pour la médiane. Ce sont des adaptations des algorithmes de tri, mais qui sont plus performants du fait que l'on ne s'intéresse pas à toutes les valeurs. On peut par exemple utiliser l'algorithme diviser pour régner en seulement O(n) opérations ; c'est le cas de l'algorithme quickselect, variation du Tri rapide (quicksort), qui est en général en O(n) mais peut être en O(n2) dans le pire des cas.
Dans la pratique, si l'on cherche la médiane d'une liste de n entiers, et si l'on a la chance de constater que la valeur maximale m est inférieure à n2 (cette constatation coûte O(n)), alors le tri par comptage, de mise en œuvre très facile et dont le coût est, en l'espèce, de O(m) opérations, permet d'obtenir la médiane en moins de O(n2) opérations. Ce cas s'applique en particulier au cas des notes sur 20 (sans décimales) d'une classe de plus de 5 élèves (5 au carré est supérieur à 20).
Lorsque la médiane est utilisée pour situer des valeurs en statistiques descriptives, il existe différentes possibilités pour exprimer la variabilité : l'étendue, l'écart interquartile et l'écart absolu.
Pour toutes distributions de probabilités réelles, une médiane m satisfait l'égalité :
c'est-à-dire en termes de fonction de répartition :
(cf. le dessin dans la définition générale de l'espérance). Ainsi pour une distribution de probabilités diffuse (fonction de répartition continue) :
Dans certains cas il peut y avoir plusieurs médianes.
Pour toutes les distributions symétriques, la médiane est égale à l'espérance.
La médiane est principalement utilisée pour les distributions asymétriques, car elle les représente mieux que la moyenne arithmétique. Considérons l'ensemble {1, 2, 2, 2, 3, 9}. La médiane est 2, tout comme le mode, ce qui est une meilleure mesure de tendance centrale que la moyenne arithmétique égale à 3,166….
Le calcul de la médiane est couramment effectué pour représenter différentes distributions et elle est facile à comprendre, tout comme à calculer. Elle est aussi plus robuste que la moyenne en présence de valeurs extrêmes.
La médiane est aussi la valeur centrale qui minimise la valeur moyenne des écarts absolus. Dans la série {1, 2, 2, 2, 3, 9} donnée auparavant, ce serait (1 + 0 + 0 + 0 + 1 + 7) / 6 = 1,5, plutôt que 1,944 à partir de la moyenne, qui, elle, minimise les écarts quadratiques. En théorie des probabilités, la valeur c qui minimise
est la médiane de la distribution de probabilités de la variable aléatoire X.
Pour les distributions continues de probabilités, la différence entre la médiane et l'espérance est au plus d'un écart type.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.