Remove ads
De Wikipédia, l'encyclopédie libre
L'indice de Calinski-Harabasz est une mesure de qualité d'une partition d'un ensemble de données en classification automatique
C'est le rapport entre la variance inter-groupes et la variance intra-groupe.
Il se rapproche beaucoup du critère utilisé pour stopper certains algorithmes de partitionnement, comme les K-means. De tels algorithmes vont donc maximiser ce score, par construction.
Une alternative à l'indice de Calinski-Harabasz est l'indice de Dunn ou encore l'indice de Davies-Bouldin.
Si l'on note la matrice des données, dont chaque ligne correspond à un individu (ou observation) et chaque colonne correspond à un prédicteur (ou variable). On note le nombre d'individus et le nombre de prédicteurs :
Notons la dissimilarité entre les individus et (respectivement, ligne et de ). Notons le nombre de groupes que l'on souhaite former.
Un algorithme de partitionnement donnera une fonction d'attribution dont on cherche à évaluer la pertinence par un score. L'ensemble des points appartenant à un groupe est alors donné par .
Notons le point moyen du groupe et le point moyen de tout le nuage. L'indice (ou score) de Calinski-Harabasz, , se base sur la variance inter-groupes et les variances intra-groupes .
Il aura pour expression[1] :
L'indice de Calinski-Harabasz varie entre 0 (pire classification) et (meilleure classification). Il dépend fortement de (le nombre de points dans l'échantillon). Toutes choses égales par ailleurs, il croit linéairement avec . Par conséquent, son ordre de grandeur peut varier considérablement d'un jeu de données à l'autre.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.