Tau Kendalla – statystyka będąca jedną z miar monotonicznej zależności dwóch zmiennych losowych. Służy w praktyce do opisu korelacji między zmiennymi porządkowymi.
Ogólnie tau Kendalla jest definiowane jako[1]:
| | |
|
(1) |
Można też wyrazić tau Kendalla w terminach kopuł[1]:
Zwykle estymuje się tau Kendalla dane wzorem (1) na podstawie próby statystycznej.
Aby je obliczyć, należy zestawić obserwacje z próby we wszystkie możliwe pary, a następnie podzielić te pary na trzy możliwe kategorie:
- pary zgodne – porównywane zmienne w obrębie tych dwóch obserwacji zmieniają się w tę samą stronę, tzn. albo w pierwszej obserwacji obydwie są większe niż w drugiej, albo obydwie mniejsze. Liczba takich par w próbie będzie dalej oznaczana przez
- pary niezgodne – zmienne zmieniają się w przeciwną stronę, to znaczy jedna z nich jest większa dla tej obserwacji w parze, dla której druga jest mniejsza. Liczba takich par w próbie będzie oznaczana przez
- pary wiązane – jedna ze zmiennych ma równe wartości w obydwu obserwacjach. Liczba takich par w próbie będzie oznaczana przez
Estymator tau Kendalla obliczany jest wówczas ze wzoru:
Warto zauważyć, że:
gdzie to liczność próby, tak więc wzór ten można przedstawić w postaci:
Tau Kendalla stanowi różnicę między prawdopodobieństwem, że porównywane zmienne będą układały się w tym samym porządku dla dwóch obserwacji, a prawdopodobieństwem, że ułożą się w przeciwnym porządku.
Tau Kendalla przyjmuje wartości od –1 do 1 włącznie. +1 oznacza, że każda ze zmiennych rośnie przy wzroście drugiej. –1 oznacza że każda maleje przy wzroście drugiej. Tym samym tau Kendalla, podobnie jak korelacja rangowa i rho Spearmana jest miarą monotonicznej zależności zmiennych losowych.
Ponieważ liczba par zgodnych, niezgodnych i wiązanych, a zatem również wartość tau nie zmienia się pod wpływem rangowania, tau Kendalla można uważać za jedną ze statystycznych metod rangowych.
Istotność statystyczna wyniku tau Kendalla jest równa jeden minus prawdopodobieństwo, że taki wynik może powstać przypadkowo dla zmiennych niezależnych. Ponieważ tau Kendalla jest metodą rangową, a rozkład rang jest niezależny od rozkładu zmiennych rangowanych (o ile nie ma rang wiązanych), więc określenie istotności nie wymaga żadnych założeń odnośnie do rozkładów w próbie.
Dla małych prób tablice podają Siegel i Castellan (1988). Rozkład tau bardzo szybko dąży do rozkładu normalnego, więc dla prób można już stosować rozkład normalny (Hays 1988).
Tau Kendalla ma dobrą interpretację i właściwości statystyczne, jednak wartości 1 i –1 nie wystąpią, gdy którakolwiek z porównywanych zmiennych ma tę samą wartość dla dwóch obserwacji. Intuicyjnie wydawałoby się, że miara pokazująca zależność dwóch zmiennych powinna dawać maksymalną wartość (czyli tu 1) jeśli porównamy jakąś zmienną z nią samą. W przypadku tau Kendalla nie będzie to jednak prawda, o ile zmienna przyjmie dla dwóch obserwacji tę samą wartość.
Zaproponowano szereg innych estymatorów z próby tau Kendalla, które nie mają tej właściwości. Dwa z nich, nazywane są tau-b i tau-c. Dla odróżnienia miara opisana wcześniej nazywana bywa tau-a. Miary te różnią się wartością tylko w przypadku występowania par wiązanych.
Współczynnik tau-b () zdefiniowany w następujący sposób[2][3]:
- ,
gdzie P to liczba par zgodnych, Q to liczba par niezgodnych, n0 to liczba wszystkich par (), zaś n1 i n2 wyznaczone są dla wartości wiązanych za pomocą następujących wzorów:
- , gdzie ti to liczba powiązanych wartości pierwszej zmiennej dla i-tej grupy wiązań
- , gdzie uj to liczba powiązanych wartości pierwszej zmiennej dla j-tej grupy wiązań
Współczesne języki programowania stosowane do analizy danych, takie jak R lub Python, stosują domyślnie wersję tau-b[4][5].
Tau-c (), znane również pod nazwą Tau-c Stewarta-Kendalla, zalecane gdy liczba wiązań jest duża i różna w przypadku obu zmiennych, zdefiniowane jest następująco[6]:
- ,
gdzie m to mniejsza z dwóch liczb: liczby unikalnych wartości pierwszej zmiennej i liczby unikalnych wartości drugiej zmiennej.
Współczynnik korelacji
Współczynnik korelacji Pearsona służy do oceny liniowej zależności pomiędzy dwiema zmiennymi. Tau Kendalla mierzy zależność monotoniczną. Współczynniki te mierzą co innego, więc ich wartości nie są bezpośrednio porównywalne.
Tau Kendalla jako metoda rangowa jest odporne na obserwacje odstające, w przeciwieństwie do współczynnika korelacji.
Tau Kendalla jako metoda nieparametryczna nie czyni żadnych założeń dotyczących rozkładu zmiennych w populacji, nadaje się zatem do dowolnych rozkładów. Współczynnik korelacji ma poprawne wyprowadzenie matematyczne tylko dla wielowymiarowego rozkładu normalnego, dla innych rozkładów może nie mieć sensownej interpretacji, niepoprawnie działają również testy istotności statystycznej.
Rho Spearmana
Tau Kendalla i rho Spearmana to dwie miary zależności monotonicznej zmiennych losowych. Inne jest jednak ich wyprowadzenie i interpretacja. Tau Kendalla należy interpretować w kategoriach prawdopodobieństwa, natomiast rho Spearmana należy interpretować w kategoriach procentu wariancji rang jednej zmiennej, wyjaśnianej przez drugą zmienną.
Między tymi wartościami zachodzi nierówność[7][1]:
Podawane jest też[8][9] grubsze oszacowanie:
Można też pokazać, że jeśli przedstawimy łączny rozkład dwuwymiarowy zmiennych X i Y w postaci unormowanej do 1 macierzy prawdopodobieństwa o elementach wówczas obydwie te wielkości dają się przedstawić za pomocą średnich ważonych z minorów stopnia drugiego (Kowalczyk 2000):
gdzie:
a i to tzw. skory gradacyjne (grade scores):
Klasyczna analiza odpowiedniości (inna nazwa: analiza korespondencji) jest metodą statystyczną, która wszystkim możliwym wartościom dwóch zmiennych nominalnych przyporządkowuje takie liczby (tzw. scory), aby przy pewnych założeniach maksymalizować współczynnik korelacji Pearsona między tymi zmiennymi.
Zespół prof. Elżbiety Pleszczyńskiej opracował odpowiedniki klasycznej analizy odpowiedniości, zwane gradacyjną analizą odpowiedniości (GCA), które maksymalizują rho Spearmana oraz tau Kendalla[10].
AlanA. Agresti AlanA., Analysis of ordinal categorical data, wyd. 2. ed, Wiley series in probability and statistics, Hoboken, NJ: Wiley, 2010, ISBN 978-0-470-08289-8 [dostęp 2023-11-30]. Brak numerów stron w książce
Kenneth J.K.J. Berry Kenneth J.K.J. i inni, Stuart’s tau measure of effect size for ordinal variables: Some methodological considerations, „Behavior Research Methods”, 41 (4), 2009, s. 1144–1148, DOI: 10.3758/BRM.41.4.1144, ISSN 1554-3528 [dostęp 2023-11-30] (ang.).
J. Durbin, A.S. Stuart. Inversions and rank correlations. „Journal of Royal Statistical Society Series”. B 2, s. 303–309, 1951.
H.E. Daniels: Rank correlation and population models. J R Statist Soc B (1950), 171–181. Brak numerów stron w książce
Siegel i Castellan (1988).
T. Kowalczyk, E. Pleszczyńska, F. Ruland, (red.): Grade Models and Methods for Data Analysis with Applications for the Analysis of Data Populations. Berlin Heidelberg New York: Springer Verlag, 2004, seria: Studies in Fuzziness and Soft Computing vol. 151. ISBN 978-3-540-21120-4. Brak numerów stron w książce
- H. Abdi: Kendall rank correlation. w N.J. Salkind (red.): Encyclopedia of Measurement and Statistics. Thousand Oaks (CA): Sage., 2007. Brak numerów stron w książce
- H.E. Daniels: Rank correlation and population models. J R Statist Soc B, 171–181, 1950. Brak numerów stron w książce
- B.S. Everitt: The analysis of contingency tables. Londyn: Chapman & Hall, 1977. Brak numerów stron w książce
- W.L. Hays: Statistics. Wyd. 4. Nowy Jork: CBS College Publishing, 1988. Brak numerów stron w książce
- M.G. Kendall: A New Measure of Rank Correlation. 1938. Brak numerów stron w książce Biometrika, 30, 81-89.
- M.G. Kendall: Rank Correlation Methods. Wyd. 1. Londyn: Charles Griffin & Company Limited, 1948. Brak numerów stron w książce
- Teresa Kowalczyk: Link between grade measures of dependence and of separability of pairs of conditional distributions. Statistics and Probability Letters 46 (2000), 371-379. Brak numerów stron w książce
- W.H. Kruskal: Ordinal Measures of Association. 1958. Brak numerów stron w książce Journal of the American Statistical Association, 53(284), 814-861.
- S. Siegel, N.J. Castellan: Nonparametric statistics for the behavioral sciences. Wyd. 2. Nowy Jork: McGraw-Hill, 1988. Brak numerów stron w książce
- Statsoft: Statistica Electronic Manual