Coeficiente de correlación de rango de Kendall

En estadística, el coeficiente de correlación de rango de Kendall, comúnmente conocido como coeficiente τ de Kendall (con la letra griega τ, tau), es una estadística utilizada para medir la asociación ordinal entre dos cantidades medidas. Una prueba τ es una prueba de hipótesis no paramétrica para la dependencia estadística basada en el coeficiente τ.

Es una medida de correlación de rango: la semejanza en el ordenamiento de los datos cuando se clasifican en rangos por cada una de las cantidades. Su nombre referencia a Maurice Kendall, quién lo desarrolló en 1938, aunque Gustav Fechner había propuesto una medida similar en el contexto de series de tiempo en 1897.^[1]^[2]

Intuitivamente, la correlación de Kendall entre dos variables será alta cuando las observaciones tengan un rango similar (o idéntico para una correlación de 1) (es decir, la posición relativa de las observaciones dentro de la variable: 1º, 2º, 3º, etc.) entre los dos variables, y bajo cuando las observaciones tienen un rango diferente (o completamente diferente para una correlación de -1) entre las dos variables.

Tanto $\tau$ de Kendall y $\rho$ de Spearman pueden formularse como casos especiales de un coeficiente de correlación general .

Remove ads

Definición

Resumir

Contexto

Sea $(x_{1},y_{1}),...,(x_{n},y_{n})$ un conjunto de observaciones de las variables aleatorias conjuntas X e Y, de modo que todos los valores de ( $x_{i}$ ) y ( $y_{i}$ ) son únicos (los vínculos se ignoran por simplicidad). Cualquier par de observaciones $(x_{i},y_{i})$ y $(x_{j},y_{j})$ , dónde $i<j$ , se dice que son un par concordante si el orden de clasificación de $(x_{i},x_{j})$ y $(y_{i},y_{j})$ está de acuerdo: es decir, si ambos $x_{i}>x_{j}$ e $y_{i}>y_{j}$ o ambos $x_{i}<x_{j}$ e $y_{i}<y_{j}$ ; de lo contrario se dice que son discordantes .

El coeficiente τ de Kendall se define como:

\tau ={\frac {({\text{número de pares concordantes}})-({\text{número de pares discordantes}})}{n \choose 2}}.

^[3]

Donde ${n \choose 2}={n(n-1) \over 2}$ es el coeficiente binomial para la cantidad de formas de elegir dos elementos de $n$ elementos.

Propiedades

El denominador es el número total de combinaciones de pares, por lo que el coeficiente debe estar en el rango −1 ≤ τ ≤ 1)

Si la concordancia entre las dos clasificaciones es perfecto (es decir, son iguales) el coeficiente tiene el valor 1.
Si el desacuerdo entre las dos clasificaciones es perfecto (es decir, una clasificación es la inversa de la otra), el coeficiente tiene un valor −1.
Si X e Y son independientes, entonces esperaríamos que el coeficiente sea aproximadamente cero.
Una expresión explícita para el coeficiente de rango de Kendall es $\tau ={\frac {2}{n(n-1)}}\sum _{i<j}\operatorname {sgn}(x_{i}-x_{j})\operatorname {sgn}(y_{i}-y_{j})$ .

Remove ads

Prueba de hipótesis

El coeficiente de rango de Kendall a menudo se usa como estadística de prueba en una prueba de hipótesis estadística para establecer si dos variables pueden considerarse como dependientes estadísticamente. Esta prueba es no paramétrica, ya que no se basa en suposiciones sobre las distribuciones de X o Y o la distribución de ( X, Y ).

Bajo la hipótesis nula de independencia de X e Y, la distribución muestral de τ tiene un valor esperado de cero. La distribución precisa no puede caracterizarse en términos de distribuciones comunes, pero puede calcularse exactamente para muestras pequeñas; para muestras más grandes, es común usar una aproximación a la distribución normal, con media cero y varianza:

{\frac {2(2n+5)}{9n(n-1)}}

.^[4]

Remove ads

Contabilidad de empates

Resumir

Contexto

Un par $\{(x_{i},y_{i}),(x_{j},y_{j})\}$ se dice que está empatado si $x_{i}=x_{j}$ o $y_{i}=y_{j}$ ; un par empatado no es ni concordante ni discordante. Cuando surgen pares vinculados en los datos, el coeficiente puede modificarse de varias maneras para mantenerlo en el rango [−1, 1]:

Tau-a

La prueba estadística Tau indica la fuerza de asociación de las tabulaciones cruzadas. Ambas variables tienen que ser ordinales. Tau-a no hará ningún ajuste ante empates. Se define como:

\tau _{A}={\frac {n_{c}-n_{d}}{n_{0}}}

donde n_c, n_d y n₀ se definen como en la siguiente sección.

Tau-b

La estadística Tau-b, a diferencia de Tau-a, hace ajustes ante empates.^[5] Los valores de Tau-b varían de −1 (asociación negativa al 100% o inversión perfecta) a +1 (asociación positiva al 100% o acuerdo perfecto). Un valor de cero indica la ausencia de asociación.

El coeficiente Kendall Tau-b se define como:

\tau _{B}={\frac {n_{c}-n_{d}}{\sqrt {(n_{0}-n_{1})(n_{0}-n_{2})}}}

dónde

{\begin{aligned}n_{0}&=n(n-1)/2\\n_{1}&=\sum _{i}t_{i}(t_{i}-1)/2\\n_{2}&=\sum _{j}u_{j}(u_{j}-1)/2\\n_{c}&={\text{Número de pares concordantes}}\\n_{d}&={\text{Número de pares discordantes}}\\t_{i}&={\text{Número de valores empatados en el }}i{\text{-ésimo grupo de empates para la primera cantidad}}\\u_{j}&={\text{Número de valores empatados en el }}j{\text{-ésimo grupo de empates para la segunda cantidad}}\end{aligned}}

Tenga en cuenta que algunos software estadísticos, por ejemplo SPSS, utilizan fórmulas alternativas por eficiencia computacional, con el doble del número 'habitual' de pares concordantes y discordantes.^[6]

Tau-c

Tau-c (también llamado Stuart-Kendall Tau-c)^[7] es más adecuado que Tau-b para el análisis de datos basados en tablas de contingencia no cuadradas (es decir, rectangulares).^[8] Por lo tanto, use Tau-b si la escala subyacente de ambas variables tiene el mismo número de valores posibles (antes de la clasificación) y Tau-c si difieren. Por ejemplo, una variable podría puntuarse en una escala de 5 puntos (muy buena, buena, promedio, mala, muy mala), mientras que la otra podría basarse en una escala más fina de 10 puntos.

El coeficiente Kendall Tau-c se define como:^[8]

\tau _{C}={\frac {2(n_{c}-n_{d})}{n^{2}{\frac {(m-1)}{m}}}}

dónde

{\begin{aligned}n_{c}&={\text{Número de pares concordantes}}\\n_{d}&={\text{Número de pares discordantes}}\\r&={\text{Número de filas}}\\c&={\text{Número de columnas}}\\m&=\min(r,c)\end{aligned}}

Remove ads

Pruebas de significancia

Resumir

Contexto

Cuando dos cantidades son estadísticamente independientes, la distribución de $\tau$ no es fácilmente caracterizable en términos de distribuciones conocidas. Sin embargo, para $\tau _{A}$ la siguiente estadística, $z_{A}$ , se distribuye aproximadamente como un estándar normal cuando las variables son estadísticamente independientes:

z_{A}={3(n_{c}-n_{d}) \over {\sqrt {n(n-1)(2n+5)/2}}}

Por lo tanto, para probar si dos variables son estadísticamente dependientes, uno calcula $z_{A}$ y encuentra la probabilidad acumulativa de una distribución normal estándar en $-|z_{A}|$ . Para una prueba de 2 colas, multiplique ese número por dos para obtener el valor p . Si el valor p está por debajo de un nivel de significancia dado, uno rechaza la hipótesis nula (en ese nivel de significancia) de que las cantidades son estadísticamente independientes.

Se deben agregar numerosos ajustes a $z_{A}$ al contabilizar los empates. La siguiente estadística, $z_{B}$ , tiene la misma distribución que la distribución $\tau _{B}$ , y nuevamente es aproximadamente igual a una distribución normal estándar cuando las cantidades son estadísticamente independientes:

z_{B}={n_{c}-n_{d} \over {\sqrt {v}}}

dónde

{\begin{array}{ccl}v&=&(v_{0}-v_{t}-v_{u})/18+v_{1}+v_{2}\\v_{0}&=&n(n-1)(2n+5)\\v_{t}&=&\sum _{i}t_{i}(t_{i}-1)(2t_{i}+5)\\v_{u}&=&\sum _{j}u_{j}(u_{j}-1)(2u_{j}+5)\\v_{1}&=&\sum _{i}t_{i}(t_{i}-1)\sum _{j}u_{j}(u_{j}-1)/(2n(n-1))\\v_{2}&=&\sum _{i}t_{i}(t_{i}-1)(t_{i}-2)\sum _{j}u_{j}(u_{j}-1)(u_{j}-2)/(9n(n-1)(n-2))\end{array}}

Esto a veces se conoce como la prueba de Mann-Kendall.^[9]

Remove ads

Algoritmos

El cálculo directo del numerador. $n_{c}-n_{d}$ , implica dos iteraciones anidadas, caracterizadas por el siguiente pseudocódigo:

numerador := 0
for i := 2..N do
  for j := 1..(i - 1) do
    numerador := numerador + signo(x[i] - x[j]) × signo(y[i] - y[j])
return numerador

Aunque es rápido de implementar, este algoritmo es $O(n^{2})$ en complejidad y se vuelve muy lento en muestras grandes. Se puede usar un algoritmo más sofisticado^[10] construido sobre el algoritmo Merge Sort para calcular el numerador en tiempo $O(n\cdot \log {n})$ .

Comience ordenando sus puntos de datos por la primera cantidad, $x$ y secundariamente (entre empates en $x$ ) por la segunda cantidad, $y$ . Con este ordenamiento inicial $y$ no está ordenado, y el núcleo del algoritmo consiste en calcular cuántos pasos tomaría una Bubble Sort para ordenar esta $y$ inicial. Un algoritmo mejorado de clasificación por mezcla, con complejidad $O(n\log n)$ , se puede aplicar para calcular el número de intercambios, $S(y)$ , eso sería requerido por un Bubble Sort para ordenar $y_{i}$ . Entonces el numerador para $\tau$ se calcula como:

n_{c}-n_{d}=n_{0}-n_{1}-n_{2}+n_{3}-2S(y),

dónde $n_{3}$ se calcula como $n_{1}$ y $n_{2}$ , pero con respecto a los empates conjuntos en $x$ y $y$ .

Un ordenamiento por mezcla divide los datos que se ordenarán $y$ en dos mitades aproximadamente iguales $y_{\mathrm {izq} }$ y $y_{\mathrm {der} }$ , ordena cada mitad recursivamente y luego combina las dos mitades ordenadas en un vector completamente ordenado. El número de intercambios de Bubble Sort es igual a:

S(y)=S(y_{\mathrm {izq} })+S(y_{\mathrm {der} })+M(Y_{\mathrm {izq} },Y_{\mathrm {der} })

dónde $Y_{\mathrm {izq} }$ y $Y_{\mathrm {der} }$ son las versiones ordenadas de $y_{\mathrm {izq} }$ y $y_{\mathrm {der} }$ y $M(\cdot ,\cdot )$ caracteriza el Bubble Sort swap-equivalente para una operación de fusión. $M(\cdot ,\cdot )$ se calcula como se muestra en el siguiente pseudocódigo:

 function M(L[1..n], R[1..m]) is
  i := 1
  j := 1
  nSwaps := 0
  while i ≤ n and j ≤ m do
    if R[j] < L[i] then
      nSwaps := nSwaps + n - i + 1
      j := j + 1
    else
      i := i + 1
  return nSwaps

Un efecto secundario de los pasos anteriores es que uno termina con una versión ordenada de $x$ y una versión ordenada de $y$ . Con esto, los factores $t_{i}$ y $u_{j}$ usados para calcular $\tau _{B}$ se obtienen fácilmente en un solo paso de tiempo lineal a través de las matrices ordenadas.

Remove ads

Implementaciones de software

El paquete base de estadísticas de R implementa la prueba cor.test(x, y, method = "kendall") en su paquete "stats" (también cor(x, y, method = "kendall") funcionará, pero sin volver el valor p).
Para Python, la biblioteca SciPy implementa el cálculo de $\tau$ en scipy.stats.kendalltau

Véase también

Correlación
Coeficiente de correlación de rango de Spearman
Prueba U de Mann-Whitney : es equivalente al coeficiente de correlación tau de Kendall si una de las variables es binaria.

Referencias

Loading content...

Otras lecturas

Loading content...

Enlaces externos

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads