Loading AI tools
statistische Methode Aus Wikipedia, der freien Enzyklopädie
In der Statistik, insbesondere der Multivariaten Statistik, interessiert man sich für die Messung der Ähnlichkeit zwischen verschiedenen Objekten und definiert dazu Ähnlichkeits- und Distanzmaße. Es handelt sich dabei nicht um Maße im mathematischen Sinn, der Begriff bezieht sich ausschließlich auf die Messung einer bestimmten Größe.
In der Regel werden Ähnlichkeitsmaße für nominal oder ordinal skalierte Variablen genutzt und Distanzmaße für metrisch skalierte Variablen (d. h. für Intervall- und Verhältnisskala).
Sei eine endliche Menge. Eine Funktion heißt Ähnlichkeitsmaß oder Ähnlichkeitsfunktion, falls für alle gilt:
Zudem wird oft noch gefordert, dass für alle gilt:
Die Funktionswerte lassen sich zu einer symmetrischen -Matrix anordnen. Diese Matrix heißt Ähnlichkeitsmatrix. In diesem Kontext wird auch als Ähnlichkeitskoeffizient bezeichnet.
Ähnlichkeitsmatrizen wie PAM oder BLOSUM spielen eine wichtige Rolle beim Sequenzalignment. Ähnliche Proteine, Nukleotide oder Aminosäuren erhalten dabei höhere Scores (d. h. Ähnlichkeitswerte) als unähnliche. Die Ähnlichkeit ist hier durch die chemischen Eigenschaften der Bausteine und ihre Mutationsraten definiert.
Beispiel (AGCT steht für die vier Nukleinbasen Adenin, Guanin, Cytosin und Thymin):
A | G | C | T | |
---|---|---|---|---|
A | 10 | −1 | −3 | −4 |
G | −1 | 7 | −5 | −3 |
C | −3 | −5 | 9 | 0 |
T | −4 | −3 | 0 | 8 |
Die Moleküle, deren Ähnlichkeit angegeben werden soll, werden in gleicher Reihenfolge spalten- und zeilenweise sortiert. Der Wert an der Position gibt somit an, wie ähnlich das Molekül an der Spaltenposition dem an der Zeilenposition ist.
Laut obiger Ähnlichkeitsmatrix sind Cytosin und Tymin (Ähnlichkeits-Score 0) einander ähnlicher als Guanin und Cytosin (Ähnlichkeits-Score -5).
Für binäre Variablen und zwei Beobachtungen und sei
Dann kann man folgende Maße definieren:
Für nicht binäre nominale oder ordinale Variablen definiert man für jede Kategorie der Variablen eine binäre Variable und kann dann die Ähnlichkeitsmaße für binäre Variablen verwenden.
Welches Ähnlichkeitsmaß man zur Analyse wählt, hängt von der Problemstellung ab. Es gibt jedoch einige Hinweise, wann sich welches Maß gut eignet in Abhängigkeit von den Eigenschaften der binären Variable:[3]
Bei der Wahl des Ähnlichkeitmaßes sollten auch Zusammenhänge zwischen den Maßen berücksichtigt werden:
Sei eine endliche Menge. Eine Funktion heißt Distanzmaß oder Distanzfunktion, falls für alle gilt:
Die Funktionswerte lassen sich zu einer symmetrischen -Matrix anordnen. Diese Matrix heißt Distanzmatrix.
Falls die Funktion zusätzlich die Dreiecksungleichung erfüllt, ist sie eine Metrik. Häufig wird auch eine Metrik als Distanzfunktion bezeichnet.
Für metrische Variablen und zwei Beobachtungen und kann man folgende Maße definieren:
Distanzmaß | |
---|---|
Euklidisch | |
Pearson | mit die Standardabweichung der Variable |
City-Block Manhattan | |
Gower[4] | mit die Spannweite der Variable |
Mahalanobis | mit der Stichproben-Kovarianzmatrix der Variablen |
Allgemein kann man ein Distanzmaß aus einem Ähnlichkeitsmaß definieren durch[5]
Ein so gewonnenes Distanzmaß erfüllt aber im Allgemeinen nicht die Dreiecksungleichung und ist somit keine Metrik.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.