Remove ads
From Wikipedia, the free encyclopedia
A rangkorreláció vagy rangkorrelációs együttható a valószínűségszámításban valószínűségi változók közötti kapcsolatot vizsgál a korrelációhoz hasonlóan. Az összefüggést tetszőleges monoton függvény szerint képes vizsgálni, eloszlásuk vizsgálata nélkül.
A korrelációval szemben a rangkorreláció nemcsak lineáris kapcsolatot tud leírni, továbbá a kilógó adatok sem zavarják.
Közelebbről két rangkorrelációs együtthatót használnak: az egyik a Spearman-rhó, a másik a Kendall-tau. Több megfigyelő észlelései közötti összefüggés vizsgálatára alkalmas a W konkordanciaegyüttható.
mérésből álló párral kezdünk, jelölje ezeket . A rangkorreláció minden értékhez relatívan meghatároz egy ragot a többi értékkel szemben, azaz hozzárendel egy számot közül. Ezután kezelhetők ezek a számok úgy, mintha egyenletes eloszlásból származnának. Ha minden különböző, akkor minden szám egyszer fordul elő. Ha vannak köztük egyenlőek, akkor a középső értéket kapják, mint amit akkor rendelnének hozzájuk, ha mind különbözőek lennének. Ekkor kapcsolatokról, vagy döntetlenekről beszélnek.[1] Ez a szám lehet egész, vagy félegész. Mindkét esetben a számok összege ugyanannyi, azaz 1-től -ig, vagyis .
Ugyanezt elvégzik az értékekkel is, mindegyiket az -kkel szembeni rangjával helyettesítik.
Az intervallumskálázott adatok helyettesítésével információt vesztünk, számítása azonban értelmes lehet robosztussága miatt. Ez azt jelenti, hogy kevésbé érzékeny a kilógó adatokra és a hibákra, ahogy a medián is kevésbé érzékeny ezekre, mint az átlag. Rangsorok közötti kapcsolat felderítésében a rangkorrelációnak nincs alternatívája.
A Spearman-rangkorrelációt Charles Spearman után nevezték el, és gyakran a ρ betűvel illetve -sel jelölik.
Elméletben ρ a Pearson szorzat-momentum-korreláció speciális esete, ahol az adatokat ranggá konvertálják, mielőtt kiszámítják a rangkorrelációt:
Ahol
kovarianciája.
A gyakorlatban inkább egy egyszerűbb képletet használnak, ami akkor ad helyes eredményt, ha minden rang különbözik.
A nyers adatokat konvertálják, és minden párra kiszámítják a különbséget, jelben . Ezzel a ρ
ahol az értékpárok száma.
Ellenben ha vannak egyező értékek, ez a képlet nem ad pontos eredményt, de ha nem sok helyen azonosak az értékek, akkor az eltérés kicsi. A pontos eredményt egy bonyolultabb képlet adja:[2]
ahol .; az azonos rangú megfigyelések száma, továbbá vagy helyett áll.
Például vizsgáljuk különböző emberek magasságát és testsúlyát. A magasságok 175 cm, 178 cm és 190 cm; a testsúlyok rendre 65 kg, 70 kg és 98 kg.
Ebben az esetben maximális rangkorreláció adódik, mivel a legkisebb ember a legkönnyebb és a legnagyobb ember a legnehezebb. Ha fordítva lenne, akkor a rangkorreláció is kicsi lenne. A rangkorreláció számszerűen fejezi ki az összefüggést két rangsor között.
Adva legyenek megfigyelések két változóról, a-ról és b-ről:
i | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
---|---|---|---|---|---|---|---|---|
2,0 | 3,0 | 3,0 | 5,0 | 5,5 | 8,0 | 10,0 | 10,0 | |
1,5 | 1,5 | 4,0 | 3,0 | 1,0 | 5,0 | 5,0 | 9,5 |
A rangok meghatározására rendezik az értékeket, és normálják, azaz egyező értékek esetén középértéket vesznek. Ezután helyreállítják az eredeti sorrendet, hogy képezhessék a különbségeket.
Bemenet | Rendezés(érték) | Rang | Rendezés(index) |
---|---|---|---|
Az adatokból a következő köztes eredmény adódik:
a értékei | b értékei | a rangjai | b rangjai | ||
---|---|---|---|---|---|
2,0 | 1,5 | 1,0 | 2,5 | −1,5 | 2,25 |
3,0 | 1,5 | 2,5 | 2,5 | 0,0 | 0,00 |
3,0 | 4,0 | 2,5 | 5,0 | −2,5 | 6,25 |
5,0 | 3,0 | 4,0 | 4,0 | 0,0 | 0,00 |
5,5 | 1,0 | 5,0 | 1,0 | 4,0 | 16,00 |
8,0 | 5,0 | 6,0 | 6,5 | −0,5 | 0,25 |
10,0 | 5,0 | 7,5 | 6,5 | 1,0 | 1,00 |
10,0 | 9,5 | 7,5 | 8,0 | −0,5 | 0,25 |
A táblázat a értékei szerint vannak rendezve. Fontos, hogy az értékekhez rangok legyenek rendelve. A sorban kétszer jelenik meg a 3 érték, rangjuk az átlagos (2+3)/2 = 2,5. Ugyanez történik a b adatsornál is.
Werte von a | Werte von b | ||||
---|---|---|---|---|---|
2,0 | 1,5 | 1 | 0 | 2 | 6 |
3,0 | 1,5 | 2 | 6 | - | - |
3,0 | 4,0 | - | - | 1 | 0 |
5,0 | 3,0 | 1 | 0 | 1 | 0 |
5,5 | 1,0 | 1 | 0 | 1 | 0 |
8,0 | 5,0 | 1 | 0 | 2 | 6 |
10,0 | 5,0 | 2 | 6 | - | - |
10,0 | 9,5 | - | - | 1 | 0 |
A Horn-korrekcióval
adódik.
Teszt szempontjából a érték vizsgálata, hogy nullától különbözik-e, permutációteszt. Kiszámítják annak a valószínűségét is, hogy értéke legalább akkora-e, mint ahogy azt a nullhipotézis megjósolja.
Ezt a módszert használhatják viszonylag kis adathalmazokon, amiken egyszerűen létrehozhatók a nullhipotézist valószínűsítő permutációk.
Szemben a Spearman-rhóval, a Kendell-tau a rangok közötti különbséget használja fel. Rendszerint a értéke kisebb, mint a értéke. A együtthatót érdemes intervallumskálázott adatokra használni, ha nem normális eloszlásúak, a skálák egyenetlen beosztásúak vagy a szúrópróba mérete kicsi.
A számításához tekintjük az szerint rendezett és párokat, ahol és ; továbbá
Az első párt az összes többivel összehasonlítjuk, a második párt az első kivételével mindegyikkel, és így tovább, az utolsót nem hasonlítjuk össze egyikkel sem. Tehát páronkénti összehasonlítást végzünk.
A következőket állapítjuk meg a párokról:
Megszámoljuk a különböző párokat:
A Tx ill. Ty kiszámítása: Jelölje ti a kötésben lévő (azonos) elemek i. csoportjának darabszámát az X halmazban. (pl. az X={1,2,2,5,3,8,8,8,2,9,8} adatsorban két ismétlődő adatcsoport van a "2" 3 alkalommal fordul elő, tehát t1=3, míg a "8" 4 alkalommal, tehát t2=4, további kötések nincsenek.) A fenti adatsorra tehát Tx= ( 3*(3-1) + 4*(4-1) ) /2 = 9
Ty hasonlóan számolható az Y halmazra vonatkozóan.
A Kendall- a konkordáns és a diszkordáns párok számát hasonlítja össze:
Ha pozitív, akkor több konkordáns pár van, mint diszkordáns. Ami azt jelenti, hogy ha , akkor valószínűbb, hogy . Ha negatív, akkor a diszkordáns párokból van több, vagyis ha , akkor az a valószínűbb, hogy . Az normálja a Kendall- értékét, így
Tekintve egy valószínűségi változót, Kendall belátta, hogy ha a tesztben
akkor a nullhipotézis teljesülése esetén eloszlása approximatívan normális: . Az approximációs tezt mellett permutációteszt is végezhető.
Kendall a fent definiált számértékek felhasználásával további három együtthatót definiált:
A csak akkor alkalmazható, ha nincsenek kötések. A nem négyzetes kontingenciatáblákon nem érheti el a illetve szélsőértékeket. Nem veszi figyelembe az -ben és -ban levő kötéseket. Négypróbás tesztekben egyezik a együtthatókkal, és ha két, csak 0 és 1 értékeket felvevő valószínűségi változókat vizsgálunk, akkor a Pearson-korrelációval is.
A Likert-skálával kapcsolatban gyakran tetra- illetve polichorikus korrelációt számolnak. A tetrachorikus korrelációt bináris adatokhoz használják. Az alaphipotézis az, hogy a válaszadók valamilyen mérték szerint adtak választ arra, hogy szerintük mi mennyire teljesül rájuk.
A megfigyelt ordinális változók mögött többnyire folytonos változók állnak. A nem megyfigyelt változók közötti kapcsolatot tetra- és polichorikus korrelációk fejezik ki.
Használata akkor javallott, ha a Likert-itemek esetén kevesebb, mint hét.[3] A gyakorlatban ehelyett a Bravais-Pearson-korrelációval dolgoznak, ám megmutatható, hogy ezzel alábecsülik a korrelációt.[4]
Feltéve, hogy a valószínűségi változók páronként kétváltozós normális eloszlásúak, a maximum-likelihood-módszerrel becsülhető a meg nem figyelt valószínűségi változók közötti korreláció. Ennek két módja van:
Egylépéses módszer: Az ismeretlen korreláció és az ismeretlen intervallumhatárok a maximum-likelihood-függvény paraméterei; azaz egyetlen lépésben becslik őket.
Kétlépéses módszer: Először az intervallumhatárokat becslik azzal a feltevéssel, hogy az változók eloszlása normális. A második lépésben kerül sor a korrelációra.
\ | 0 | 1 |
---|---|---|
0 | ||
1 |
Két bináris változó esetén a tetrachorikus korreláció közelíthető úgy, mint
ahol a jelölések a jobb oldalon látható kereszttáblázat szerintiek.
Egy korreláció pontosan akkor fordul elő, ha . Hasonlóan, a érték pontosan akkor fordul elő, ha .
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.