Loading AI tools
mathematisches Verfahren der Statistik Aus Wikipedia, der freien Enzyklopädie
Als hierarchische Clusteranalyse bezeichnet man eine bestimmte Familie von distanzbasierten Verfahren zur Clusteranalyse (Strukturentdeckung in Datenbeständen). Cluster bestehen hierbei aus Objekten, die zueinander eine geringere Distanz (oder umgekehrt: höhere Ähnlichkeit) aufweisen als zu den Objekten anderer Cluster. Man kann die Verfahren in dieser Familie nach den verwendeten Distanz- bzw. Proximitätsmaßen (zwischen Objekten, aber auch zwischen ganzen Clustern) und nach ihrer Berechnungsvorschrift unterscheiden.
Untergliedert man nach der Berechnungsvorschrift, so unterscheidet man zwei wichtige Typen von Verfahren:
Für beide Verfahren gilt, dass einmal gebildete Cluster nicht mehr verändert werden können. Die Struktur wird entweder stets nur verfeinert („divisiv“) oder nur vergröbert („agglomerativ“), so dass eine strikte Cluster-Hierarchie entsteht. An der entstandenen Hierarchie kann man nicht mehr erkennen, wie sie berechnet wurde.
Die Vorteile der hierarchischen Clusteranalyse sind die Flexibilität durch Verwendung komplexer Distanzmaße, dass das Verfahren außer der Distanzfunktion und der Fusionierungsmethode keine eigenen Parameter hat und dass das Ergebnis eine Cluster-Hierarchie ist, die auch Unterstrukturen erlaubt.
Der Nachteil ist der Analyseaufwand des Ergebnisses. Andere Verfahren, wie z. B. der k-Means-Algorithmus, DBSCAN oder der ebenfalls hierarchische OPTICS-Algorithmus, liefern eine einzelne Partitionierung der Daten in Cluster. Eine hierarchische Clusteranalyse liefert zahlreiche solcher Partitionierungen, und der Anwender muss sich entscheiden, wie er partitioniert. Dies kann aber auch ein Vorteil sein, da dem Anwender so eine Zusammenfassung des qualitativen Verhaltens des Clusterings gegeben wird. Diese Erkenntnis ist grundlegend für die topologische Datenanalyse im Allgemeinen, und persistenter Homologie im Speziellen.
Ein weiterer Nachteil der hierarchischen Clusteranalyse ist die Laufzeit-Komplexität. Eine agglomerative Berechnung kommt in der Praxis und Forschung sehr viel häufiger vor, da es in jedem Schritt Möglichkeiten gibt, Cluster zusammenzufassen, was zu einer naiven Gesamtkomplexität von führt. In speziellen Fällen sind jedoch Verfahren mit einer Gesamtkomplexität von bekannt. Divisiv gibt es aber naiv in jedem Schritt Möglichkeiten, den Datensatz zu teilen.
Als weiterer Nachteil der hierarchischen Clusteranalyse gilt, dass sie keine Clustermodelle liefert. So entstehen beispielsweise je nach verwendeten Maßen Ketteneffekte ("single-link effekt") und es werden aus Ausreißern oft winzige Cluster erzeugt, die nur aus wenigen Elementen bestehen. Die gefundenen Cluster müssen daher meist nachträglich analysiert werden, um Modelle zu erhalten.
Zur Visualisierung der bei einer hierarchischen Clusterung entstehenden Baumstruktur kann das Dendrogramm (griech. δένδρον (dendron) = Baum) genutzt werden. Das Dendrogramm ist ein Baum, der die hierarchische Zerlegung der Datenmenge in immer kleinere Teilmengen darstellt. Die Wurzel repräsentiert ein einziges Cluster, das die gesamte Menge enthält. Die Blätter des Baumes repräsentieren Cluster, in denen sich je ein einzelnes Objekt der Datenmenge befindet. Ein innerer Knoten repräsentiert die Vereinigung aller seiner Kindknoten. Jede Kante zwischen einem Knoten und einem seiner Kindknoten hat als Attribut noch die Distanz zwischen den beiden repräsentierenden Mengen von Objekten.
Das Dendrogramm wird informativer, wenn eine Achse zur Darstellung der Distanz oder (Un-)ähnlichkeit verwendet wird. Wenn zwei Cluster zusammengefügt werden, dann haben diese Cluster eine bestimmte Distanz oder (Un-)ähnlichkeit zueinander. Auf dieser Höhe wird der Verbindungsstrich gezeichnet. Im nebenstehenden Beispiel wurden z. B. die Objekte RR1 und RR4 bei einem Wert des Ähnlichkeitsmaßes von ca. 62 zusammengefügt. Die „Höhe“ ist hier die horizontale Achse.
In dieser Darstellung kann man eine gewünschte Zahl von Clustern auswählen, indem man das Dendrogramm auf einer geeigneten Höhe durchschneidet. Typischerweise sucht man eine Stelle, wo es zwischen zwei Fusionierungen einen großen Sprung der Distanz oder (Un-)ähnlichkeit gibt, z. B. im rechten Dendrogramm auf der Höhe 40. Dann ergeben sich vier Cluster, von denen 2 nur einzelne Objekte enthalten (RR2, RR5), ein Cluster enthält zwei Objekte (RR3 und RR6) und das letzte Cluster enthält alle übrigen Objekte. Gibt es hierarchische Cluster mit deutlich unterschiedlichen Größen, so kann es notwendig sein, auf unterschiedlichen Höhen zu zerlegen: während ein Cluster auf einer Höhe noch mit seinen Nachbarn verbunden ist, zerfällt ein anderer ("dünnerer") Cluster auf dieser Höhe schon in einzelne Objekte.
Sowohl in der agglomerativen als auch bei den divisiven hierarchischen Clusteranalysen ist es notwendig, Abstände bzw. (Un-)ähnlichkeiten zwischen zwei Objekten, einem Objekt und einem Cluster oder zwei Clustern zu berechnen. Je nach Skalenniveau der zugrunde liegenden Variablen kommen verschiedene Maße zum Einsatz:
Die folgende Tabelle zeigt einige Ähnlichkeits- bzw. Distanzmaße für binäre und metrische Variablen. Kategorielle Variablen mit mehr als zwei Kategorien können in mehrere binäre Variablen umgewandelt werden. Die Gower Distanz kann auch für nominal skalierte Variablen definiert werden.
Ähnlichkeitsmaß | Distanzmaß | ||
---|---|---|---|
Jaccard | |||
Tanimoto | Euklidisch | ||
Simple Matching | Pearson | mit die Standardabweichung der Variable | |
Russel Rao | City-Block Manhattan | ||
Dice | Gower | mit die Spannweite der Variable | |
Kulczynski | Mahalanobis | mit die Kovarianzmatrix der Variablen |
Welches Ähnlichkeits- bzw. Distanzmaß verwendet wird, hängt letztlich von der gewünschten inhaltlichen Interpretation des Ähnlichkeits- bzw. Distanzmaßes ab.
Die agglomerative Berechnung einer hierarchischen Clusteranalyse ist der einfachste und flexibelste Fall. Zu Beginn wird zunächst jedes Objekt als ein eigener Cluster aufgefasst. Nun werden in jedem Schritt die jeweils einander nächsten Cluster zu einem Cluster zusammengefasst. Besteht ein Cluster aus mehreren Objekten, dann muss angegeben werden, wie die Distanz zwischen Clustern berechnet wird. Hier unterscheiden sich die einzelnen agglomerativen Verfahren. Das Verfahren kann beendet werden, wenn alle Cluster eine bestimmte Distanz/Ähnlichkeit zueinander überschreiten/unterschreiten oder wenn eine genügend kleine Zahl von Clustern ermittelt worden ist. Dies ist bei Clustern mit nur einem Objekt, wie sie zu Anfang vorgegeben sind, trivial.
Für die Durchführung einer agglomerativen Clusteranalyse müssen
Dabei ist die Wahl des Fusionierungsalgorithmus oft wichtiger als die des Distanz- oder Ähnlichkeitsmaßes.
Die folgende Tabelle zeigt eine Übersicht über gängige Fusionierungsalgorithmen. Der Abstand zwischen Cluster und dem neuen Cluster wird oft über den Abstand oder die Unähnlichkeit von zwei Objekten berechnet. Der neue Cluster B entsteht aus der Fusion des "grünen" und "blauen" Clusters.
Single-Linkage[1][2][3][4] | |
---|---|
Minimaler Abstand aller Elementpaare aus den beiden Clustern . Dieses Verfahren neigt zur Kettenbildung. | |
Complete-Linkage[5] | |
Maximaler Abstand aller Elementpaare aus den beiden Clustern . Dieses Verfahren neigt zur Bildung kleiner Gruppen. | |
Average-Linkage, Weighted Pair-Group Method using arithmetic Averages (WPGMA)[6] | |
Durchschnittlicher Abstand aller Elementpaare aus den beiden Clustern | |
Average-Group-Linkage, McQuitty, Unweighted Pair-Group Method using arithmetic Averages (UPGMA)[6] | |
Durchschnittlicher Abstand aller Elementpaare aus der Vereinigung von A und B | |
Centroid-Method, Unweighted Pair-Group Method using Centroids (UPGMC)[6] | |
Abstand der Zentren der beiden Cluster wobei das Zentrum des Clusters sei, das des Clusters . | |
Median-Method, Weighted Pair-Group Method using Centroids (WPGMC)[7] | |
Abstand der Zentren der beiden Cluster wobei das Zentrum des Clusters sei, der Mittelwert aus den Clusterzentren des grünen und blauen Clusters. |
Weitere Methoden sind:
wobei das Zentrum des Clusters sei, das des Clusters . Dieses Verfahren neigt zur Bildung von gleich großen Clustern.
Von praktischer Relevanz ist hierbei vor allem single linkage, da es mit dem Algorithmus SLINK eine effiziente Berechnungsmethode erlaubt.
Besonders deutlich wird dies im zweiten Schritt des Algorithmus. Bei der Verwendung eines bestimmten Distanzmaßes wurden im ersten Schritt die beiden einander nächsten Objekte zu einem Cluster fusioniert. Dies kann wie folgt als Distanzmatrix dargestellt werden:
Distanz zw. | Cluster1 Objekt1 | Cluster2 Objekt2 | Cluster3 Objekt3 | Cluster4 Objekt4 |
---|---|---|---|---|
Objekt1 | 0 | |||
Objekt2 | 4 | 0 | ||
Objekt3 | 7 | 5 | 0 | |
Objekt4 | 8 | 10 | 9 | 0 |
Die kleinste Distanz findet sich zwischen dem Objekt1 und Objekt2 (rot in der Distanzmatrix) und man würde daher Objekt1 und Objekt2 zu einem Cluster zusammenfassen (fusionieren). Nun muss die Matrix neu erstellt werden ("o." steht für oder), das heißt die Distanz zwischen dem neuen Cluster und Objekt3 bzw. Objekt4 muss neu berechnet werden (gelb in der Distanzmatrix):
Distanz zw. | Cluster1 Objekt1&2 | Cluster2 Objekt3 | Cluster3 Objekt4 |
---|---|---|---|
Objekt1&2 | 0 | ||
Objekt3 | 7 o. 5 | 0 | |
Objekt4 | 8 o. 10 | 9 | 0 |
Welcher der beiden Werte für die Distanzbestimmung relevant ist, bestimmt das Verfahren:
Verfahren | Distanz zw. | Cluster1 Objekt1&2 | Cluster2 Objekt3 | Cluster3 Objekt4 |
---|---|---|---|---|
|
Objekt1&2 | 0 | ||
Objekt3 | 5 | 0 | ||
Objekt4 | 8 | 9 | 0 | |
|
Objekt1&2 | 0 | ||
Objekt3 | 7 | 0 | ||
Objekt4 | 10 | 9 | 0 | |
|
Objekt1&2 | 0 | ||
Objekt3 | 6 | 0 | ||
Objekt4 | 9 | 9 | 0 | |
|
Objekt1&2 | 0 | ||
Objekt3 | 5,3 | 0 | ||
Objekt4 | 7,3 | 9 | 0 | |
|
Objekt1&2 | 0 | ||
Objekt3 | 5 | 0 | ||
Objekt4 | 8 | 9 | 0 |
Beim Density Linkage wird für jedes Objekt ein Dichtewert geschätzt. Zur Berechnung wird eines der üblichen Distanzmaße, z. B. euklidischer Abstand, Manhattan-Distanz, zwischen den Objekten benutzt. Auf Basis der Dichtewerte zweier Objekte wird dann eine neue Distanz zwischen ihnen berechnet. Diese hängen auch von der Umgebung der Objekte und ab. Für das agglomerative Clustering kann dann eine der vorhergehenden Fusionierungsmethoden verwendet werden.
Ein Problem der Density linkage Algorithmen ist die Festlegung der Parameter.
Die Algorithmen OPTICS und HDBSCAN* (eine hierarchische Variante von DBSCAN clustering) können ebenfalls als hierarchisches Density Linkage clustering interpretiert werden.
Zum Fusionieren der Cluster ist es jedoch nicht notwendig, immer wieder die Distanzen zwischen den Objekten neu zu berechnen. Stattdessen startet man wie in obigem Beispiel mit einer Distanzmatrix. Steht fest, welche Cluster fusioniert werden, so müssen nur die Distanzen zwischen dem fusionierten Cluster und allen anderen Clustern neu berechnet werden. Jedoch kann die neue Distanz zwischen dem fusionierten Cluster und einem anderen Cluster aus den alten Distanzen mit Hilfe der Formel von Lance und Williams berechnet werden:
Lance und Williams haben auch eine eigene Fusionierungsmethode auf Basis ihrer Formel angegeben: Lance-Williams Flexible-Beta.
Für die verschiedenen Fusionierungsmethoden ergeben sich verschiedene Konstanten , , und , die der folgenden Tabelle entnommen werden können. Dabei bedeutet die Anzahl der Objekte im Cluster .
Methode | ||||
---|---|---|---|---|
Single linkage | 1/2 | 1/2 | 0 | -1/2 |
Complete linkage | 1/2 | 1/2 | 0 | 1/2 |
Median | 1/2 | 1/2 | -1/4 | 0 |
Unweighted Group Average linkage (UPGMA) | 0 | 0 | ||
Weighted Group Average linkage | 1/2 | 1/2 | 0 | 0 |
Centroid | − | 0 | ||
Ward | − | 0 | ||
Lance-Williams Flexible-Beta | Standardwert oft | 0 |
Während die naive Berechnung einer hierarchischen Clusteranalyse eine schlechte Komplexität hat (bei komplexen Ähnlichkeitmaßen kann eine Laufzeit von oder auftreten), so gibt es für manche Fälle effizientere Lösungen.
So gibt es für single-linkage ein agglomeratives optimal effizientes Verfahren namens SLINK[9] mit der Komplexität , und eine Verallgemeinerung davon auf complete-linkage CLINK[10] ebenfalls mit der Komplexität . Für andere Fusionierungsmethoden wie Average-Linkage sind keine effizienten Algorithmen bekannt.[11]
Der Schweizer Banknoten-Datensatz besteht aus 100 echten und 100 gefälschten Schweizer 1000 Franken-Banknoten. An jeder Banknote wurden sechs Variablen erhoben:
Als Distanzmaß bietet sich hier die euklidische Distanz an
und für die folgende Grafiken wurden dann verschiedene hierarchische Clustermethoden angewandt. Jede Grafik besteht aus zwei Teilen:
Wie oben angesprochen gibt es theoretisch Möglichkeiten, einen Datensatz mit Objekten in zwei Teile zu teilen. Divisive Verfahren brauchen daher normalerweise eine Heuristik, um Kandidaten zu generieren, die dann beispielsweise mit denselben Maßen wie in der agglomerativen Berechnung bewertet werden können.
Kaufman und Rousseeuw (1990) beschreiben eine Divisive Clustering Procedure (Diana) wie folgt:[12]
Ein weiterer spezieller Algorithmus ist die Spektrale Relaxation.
Grundlagen und Verfahren
Anwendung
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.