Loading AI tools
méthode d'analyse de données De Wikipédia, l'encyclopédie libre
L’analyse des correspondances multiples (ACM) est une méthode d'analyse factorielle adaptée aux données qualitatives (aussi appelées catégorielles). Elle permet d'étudier plus de deux variables simultanément, contrairement à l'analyse factorielle des correspondances (AFC)[1],[2]. Un exemple typique de données utilisées en ACM est celui des enquêtes d’opinion.
Type |
Analyse des données (en) |
---|---|
Nom court |
ACM |
L'ACM permet d'étudier le lien entre ces variables par l'intermédiaire d'un tableau disjonctif complet (TDC) ou du tableau de Burt (TB). Dans ces tableaux de données, les individus (en lignes) sont décrits par un ensemble de variables qualitatives (en colonnes).
Soient individus décrits par variables qualitatives. On considère et l'ensemble des modalités possibles. On construit les variables qualitatives telles que la première variable utilise l'ensemble de modalités , utilise l'ensemble de modalités , et ainsi de suite.
Le tableau disjonctif complet à lignes et colonnes noté , est construit de telle sorte que l’intersection de la ligne et de la colonne (associée à la modalité ) est égale à si l’individu possède la modalité et dans le cas inverse .
Il est possible d'inclure une variable quantitative dans l'analyse, à condition de remplacer ses valeurs numériques afin de la convertir en variable catégorielle, par exemple avec un encodage one-hot.
Le traitement mathématique[3],[2] du tableau commence par le calcul de la matrice , s'ensuit le calcul du vecteur , qui contient la somme en ligne de la matrice et enfin, le calcul du vecteur , qui contient la somme en colonne de la matrice .
On prend également en compte les matrices diagonales et , issues de et respectivement. L'étape clé est une décomposition en valeurs singulières de la matrice suivante :
La décomposition de donne accès aux matrices , et telles que , avec et deux matrices unitaires, et la matrice diagonale généralisée. On peut montrer que est de mêmes dimensions que et contient les valeurs singulières ordonnées de la plus grande à la plus petite. Les coefficients diagonaux de sont les valeurs propres de et correspondent à l'inertie de chacun des facteurs. Ces facteurs sont les coordonnées des individus (ligne) ou variables (colonne) sur chacun des axes factoriels. Les coordonnées des individus dans ce nouvel espace vectoriel sont données par la formule suivante :
La -ième ligne de contient les coordonnées du -ième individu dans l'espace factoriel, tandis que les coordonnées des variables dans le même espace factoriel sont données par :
L'ACM est une méthode générale qui s'applique à tout tableau dans lequel un ensemble d'individus est décrit par des variables qualitatives. Elle n'appartient donc pas à un champ disciplinaire particulier. Cependant, un des champs principaux d'utilisation est le traitement des enquêtes d'opinion, les questionnaires étant souvent composés de questions à choix multiples.
Une mention particulière doit être faite à la sociologie. L'ACM est utilisée par les sociologues s'inspirant de Pierre Bourdieu pour étudier des champs spécifiques. Par exemple, le sociologue Frédéric Lebaron emploie une ACM pour analyser le champ des économistes français[4], et Hjellbrekke et ses coauteurs appliquent la même méthode pour analyser le champ des élites norvégiennes[5]. De même, Julien Duval utilise une ACM pour analyser le champ du cinéma français[6], tandis que Christian Baudelot et Michel Gollac utilisent une analyse des correspondances multiples pour étudier le rapport des Français à leur travail[7].
Comme toute analyse factorielle, l’ACM peut s’interpréter géométriquement à partir d’un nuage dont les points représentent les lignes (ou les colonnes) du tableau analysé[8].
Un individu est représenté par l’ensemble de ses réponses, aussi appelé profil de réponse. L'étude porte sur la variabilité de ces profils de réponse. Comme dans toute analyse factorielle, cette variabilité est décomposée selon une suite de variables synthétiques (notées , ces sont retranscrites en tant que colonnes d'une matrice ). Ces variables synthétiques sont quantitatives et permettent des représentations graphiques et l'utilisation de méthodes d'analyse adaptées aux variables quantitatives. Seules les premières colonnes de sont retenues en général, celles-ci correspondant aux dimensions de l'espace factoriel qui regroupent le plus d'inertie.
La liaison entre deux variables qualitatives s’étudie au travers des associations entre leurs modalités. Par exemple, un élément de la description de la liaison entre les variables couleur des yeux et couleur des cheveux est : les personnes qui ont les cheveux blonds ont plutôt les yeux bleus. En présence d’un ensemble de variables qualitatives, on cherche donc les associations entre toutes les modalités. On attend de l’ACM une représentation des modalités dans laquelle les modalités qui s’associent entre elles sont proches. Les remarques concernant restent valables pour .
De façon intuitive, et comme dans toute analyse factorielle, l’ACM consiste à projeter chacun des deux nuages sur une suite d’axes orthogonaux d’inertie maximum (cela correspond mathématiquement à l'étape de décomposition en valeurs singulières). Dans , la quantité maximisée est la moyenne des carrés des rapports de corrélation. Pour l’axe , il s'agit de maximiser la valeur .
Les dimensions de l’ACM peuvent donc être considérées comme des variables synthétiques. Les valeurs de sont les coordonnées des individus sur l’axe de rang (dans ). Il en résulte que les individus qui ont beaucoup de modalités en commun sont aussi proches que possible au contraire des individus qui ont peu de (voire aucune) modalités en commun qui sont aussi séparés que possible.
La combinaison de deux de ces axes fournit une représentation plane, aussi appelée plan factoriel. En pratique, le premier plan factoriel suffit pour avoir une représentation graphique simple.
En ACM, la représentation des individus et celle des modalités sont superposables. Ceci est permis par les relations de transition, présentes dans toute analyse factorielle mais qui s’expriment de façon particulièrement simple en ACM.
Pour un axe donné, à un coefficient près, un individu est au barycentre des modalités qu’il possède et une modalité est au barycentre des individus qui la possèdent.
Ces relations sont aussi connues sous le nom de propriétés barycentriques.
L'exemple présenté ici est choisi de très petite taille, ce qui permet de vérifier facilement dans les données les interprétations réalisées à partir des plans factoriels (cf. tableau 1).
Six individus sont interrogés sur leur préférence pour les fruits (orange, poire, pomme), les légumes (épinard, haricot), et la viande (cheval, mouton, porc).
Fruit | Légume | Viande | |
---|---|---|---|
Pomme | Haricot | Cheval | |
Poire | Haricot | Cheval | |
Orange | Haricot | Mouton | |
Pomme | Épinard | Mouton | |
Poire | Épinard | Porc | |
Orange | Épinard | Porc |
Appliquée au tableau 1, l'ACM fournit la représentation de la figure 1.
Le premier axe oppose le groupe d’individus (à droite) au groupe (à gauche).
Le groupe d’individus est d’abord caractérisé par une préférence pour la viande de cheval (ce sont les seuls dans ce cas), puis par une préférence pour les haricots (préférence qu’ils partagent aussi avec ).
De son côté le groupe est caractérisé par une préférence pour la viande de porc (ce sont les seuls dans ce cas), mais aussi par une préférence pour les épinards (préférence qu’ils partagent aussi avec ).
L’individu a préféré poire, haricot et cheval. Il se trouve bien du côté de ces trois modalités. Par rapport au centre de gravité exact de ces modalités, il est un peu plus écarté de l’origine : en effet, le coefficient mentionné dans les relations de transition est toujours supérieur à 1.
La modalité cheval a été choisie par et . Elle est donc du côté de ces individus. Par rapport au centre de gravité de et , elle est légèrement excentrée (pour la même raison que dans le cas précédent).
Dans le carré des liaisons, les variables sont représentées à l’aide de leur rapport de corrélation avec les facteurs. Ainsi, dans l’exemple, ce carré montre que le premier axe est d’abord lié à la viande, puis au légume et que le deuxième axe est lié également à la viande et au fruit.
Cette représentation est d’autant plus utile que les variables sont nombreuses.
Lorsqu'un programme d’AFC est mis en place sur un tableau disjonctif complet ou sur un tableau de Burt, ce sont les axes de l’ACM qui sont obtenus. C’est ce qui conduit certains auteurs à considérer l’ACM comme un cas particulier (ou une extension) de l’AFC. En outre, les axes de l’ACM peuvent aussi être obtenus en appliquant un programme d’ACP au TDC (légèrement modifié)[10].
Cependant, l’ACM possède plusieurs propriétés spécifiques qui en font bien une méthode à part entière.
Très souvent, dans les enquêtes d'opinion, les questionnaires sont structurés en thèmes. Il est toujours intéressant de prendre en compte cette structure en groupes des questions. C'est ce que fait l'analyse factorielle multiple[11].
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.