Loading AI tools
jeu de données artificiel De Wikipédia, l'encyclopédie libre
Le quartet d'Anscombe est constitué de quatre ensembles de données qui ont les mêmes propriétés statistiques simples mais qui sont en réalité très différents, ce qui se voit facilement lorsqu'on les représente sous forme de graphiques. Ils ont été construits en 1973 par le statisticien Francis Anscombe dans le but de démontrer l'importance de tracer des graphiques avant d'analyser des données, car cela permet notamment d'estimer l'incidence des données aberrantes sur les différentes indices statistiques que l'on pourrait calculer.
Nommé en référence à | |
---|---|
Producteur | |
Décrit par |
Graphs in Statistical Analysis (d) |
Dans la première page du premier chapitre de son ouvrage, The Visual Display of Quantitative Information, Edward Tufte utilise le quartet d'Anscombe pour démontrer l'importance de l'exploration graphique avant d'analyser un ensemble de données
Chaque ensemble de données contient 11 points. Les quatre ensembles présentent ces propriétés :
Propriété | Valeur |
---|---|
Moyenne des x | 9,0 |
Variance des x | 10,0 |
Moyenne des y | 7,5 |
Variance des y | 3,75 |
Coefficient de corrélation entre les x et les y | 0,816 |
Équation de la droite de régression linéaire | y=3 + 0,5 x |
Somme des carrés des erreurs relativement à la moyenne |
110,0 |
Le premier ensemble (en haut à gauche) présente deux variables (x et y) dont la distribution semble proche d'une loi normale et qui présentent entre elles une simple corrélation linéaire (avec un certain degré de bruit qui la rend donc imparfaite).
Le deuxième (en haut à droite) se caractérise par une relation non linéaire (en l'occurrence parfaitement quadratique) entre les deux variables : pour cette raison, les coefficients de corrélation de Pearson sont inappropriés car ils mesurent l'écart à une droite de régression et non à une parabole.
Dans le troisième ensemble (en bas à gauche), la corrélation linéaire est parfaite (avec une pente légèrement inférieure à 3) sauf pour une donnée aberrante qui influe sur le coefficient de corrélation global, le faisant passer de 1 (pour les 10 premières données) à 0,81 (pour les 11 données).
Finalement, le quatrième ensemble (en bas à droite) démontre qu'une seule donnée aberrante suffit pour obtenir un coefficient de corrélation élevé, alors même que, hormis cette 11e donnée, il n'existe pas de corrélation entre les deux variables puisque la variable x est constante.
Les ensembles de données sont comme suit (les valeurs des x sont les mêmes pour les trois premiers ensembles).
I | II | III | IV | ||||
---|---|---|---|---|---|---|---|
x | y | x | y | x | y | x | y |
10,0 | 8,04 | 10,0 | 9,14 | 10,0 | 7,46 | 8,0 | 6,58 |
8,0 | 6,95 | 8,0 | 8,14 | 8,0 | 6,77 | 8,0 | 5,76 |
13,0 | 7,58 | 13,0 | 8,74 | 13,0 | 12,74 | 8,0 | 7,71 |
9,0 | 8,81 | 9,0 | 8,77 | 9,0 | 7,11 | 8,0 | 8,84 |
11,0 | 8,33 | 11,0 | 9,26 | 11,0 | 7,81 | 8,0 | 8,47 |
14,0 | 9,96 | 14,0 | 8,10 | 14,0 | 8,84 | 8,0 | 7,04 |
6,0 | 7,24 | 6,0 | 6,13 | 6,0 | 6,08 | 8,0 | 5,25 |
4,0 | 4,26 | 4,0 | 3,10 | 4,0 | 5,39 | 19,0 | 12,50 |
12,0 | 10,84 | 12,0 | 9,13 | 12,0 | 8,15 | 8,0 | 5,56 |
7,0 | 4,82 | 7,0 | 7,26 | 7,0 | 6,42 | 8,0 | 7,91 |
5,0 | 5,68 | 5,0 | 4,74 | 5,0 | 5,73 | 8,0 | 6,89 |
Des procédures pour créer d'autres ensembles de données exhibant les mêmes propriétés statistiques simples, mais des représentations graphiques dissemblables, sont proposées dans les ouvrages de la bibliographie.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.