Loading AI tools
De Wikipedia, la enciclopedia libre
En estadística, el coeficiente de correlación de rango de Kendall, comúnmente conocido como coeficiente τ de Kendall (con la letra griega τ, tau), es una estadística utilizada para medir la asociación ordinal entre dos cantidades medidas. Una prueba τ es una prueba de hipótesis no paramétrica para la dependencia estadística basada en el coeficiente τ.
Es una medida de correlación de rango: la semejanza en el ordenamiento de los datos cuando se clasifican en rangos por cada una de las cantidades. Su nombre referencia a Maurice Kendall, quién lo desarrolló en 1938, aunque Gustav Fechner había propuesto una medida similar en el contexto de series de tiempo en 1897.[1][2]
Intuitivamente, la correlación de Kendall entre dos variables será alta cuando las observaciones tengan un rango similar (o idéntico para una correlación de 1) (es decir, la posición relativa de las observaciones dentro de la variable: 1º, 2º, 3º, etc.) entre los dos variables, y bajo cuando las observaciones tienen un rango diferente (o completamente diferente para una correlación de -1) entre las dos variables.
Tanto de Kendall y de Spearman pueden formularse como casos especiales de un coeficiente de correlación general .
Sea un conjunto de observaciones de las variables aleatorias conjuntas X e Y, de modo que todos los valores de ( ) y ( ) son únicos (los vínculos se ignoran por simplicidad). Cualquier par de observaciones y , dónde , se dice que son un par concordante si el orden de clasificación de y está de acuerdo: es decir, si ambos e o ambos e ; de lo contrario se dice que son discordantes .
El coeficiente τ de Kendall se define como:
Donde es el coeficiente binomial para la cantidad de formas de elegir dos elementos de elementos.
El denominador es el número total de combinaciones de pares, por lo que el coeficiente debe estar en el rango −1 ≤ τ ≤ 1)
El coeficiente de rango de Kendall a menudo se usa como estadística de prueba en una prueba de hipótesis estadística para establecer si dos variables pueden considerarse como dependientes estadísticamente. Esta prueba es no paramétrica, ya que no se basa en suposiciones sobre las distribuciones de X o Y o la distribución de ( X, Y ).
Bajo la hipótesis nula de independencia de X e Y, la distribución muestral de τ tiene un valor esperado de cero. La distribución precisa no puede caracterizarse en términos de distribuciones comunes, pero puede calcularse exactamente para muestras pequeñas; para muestras más grandes, es común usar una aproximación a la distribución normal, con media cero y varianza:
Un par se dice que está empatado si o ; un par empatado no es ni concordante ni discordante. Cuando surgen pares vinculados en los datos, el coeficiente puede modificarse de varias maneras para mantenerlo en el rango [−1, 1]:
La prueba estadística Tau indica la fuerza de asociación de las tabulaciones cruzadas. Ambas variables tienen que ser ordinales. Tau-a no hará ningún ajuste ante empates. Se define como:
donde nc, nd y n0 se definen como en la siguiente sección.
La estadística Tau-b, a diferencia de Tau-a, hace ajustes ante empates.[5] Los valores de Tau-b varían de −1 (asociación negativa al 100% o inversión perfecta) a +1 (asociación positiva al 100% o acuerdo perfecto). Un valor de cero indica la ausencia de asociación.
El coeficiente Kendall Tau-b se define como:
dónde
Tenga en cuenta que algunos software estadísticos, por ejemplo SPSS, utilizan fórmulas alternativas por eficiencia computacional, con el doble del número 'habitual' de pares concordantes y discordantes.[6]
Tau-c (también llamado Stuart-Kendall Tau-c)[7] es más adecuado que Tau-b para el análisis de datos basados en tablas de contingencia no cuadradas (es decir, rectangulares).[8] Por lo tanto, use Tau-b si la escala subyacente de ambas variables tiene el mismo número de valores posibles (antes de la clasificación) y Tau-c si difieren. Por ejemplo, una variable podría puntuarse en una escala de 5 puntos (muy buena, buena, promedio, mala, muy mala), mientras que la otra podría basarse en una escala más fina de 10 puntos.
El coeficiente Kendall Tau-c se define como:[8]
dónde
Cuando dos cantidades son estadísticamente independientes, la distribución de no es fácilmente caracterizable en términos de distribuciones conocidas. Sin embargo, para la siguiente estadística, , se distribuye aproximadamente como un estándar normal cuando las variables son estadísticamente independientes:
Por lo tanto, para probar si dos variables son estadísticamente dependientes, uno calcula y encuentra la probabilidad acumulativa de una distribución normal estándar en . Para una prueba de 2 colas, multiplique ese número por dos para obtener el valor p . Si el valor p está por debajo de un nivel de significancia dado, uno rechaza la hipótesis nula (en ese nivel de significancia) de que las cantidades son estadísticamente independientes.
Se deben agregar numerosos ajustes a al contabilizar los empates. La siguiente estadística, , tiene la misma distribución que la distribución , y nuevamente es aproximadamente igual a una distribución normal estándar cuando las cantidades son estadísticamente independientes:
dónde
Esto a veces se conoce como la prueba de Mann-Kendall.[9]
El cálculo directo del numerador. , implica dos iteraciones anidadas, caracterizadas por el siguiente pseudocódigo:
numerador := 0 for i := 2..N do for j := 1..(i - 1) do numerador := numerador + signo(x[i] - x[j]) × signo(y[i] - y[j]) return numerador
Aunque es rápido de implementar, este algoritmo es en complejidad y se vuelve muy lento en muestras grandes. Se puede usar un algoritmo más sofisticado[10] construido sobre el algoritmo Merge Sort para calcular el numerador en tiempo .
Comience ordenando sus puntos de datos por la primera cantidad, y secundariamente (entre empates en ) por la segunda cantidad, . Con este ordenamiento inicial no está ordenado, y el núcleo del algoritmo consiste en calcular cuántos pasos tomaría una Bubble Sort para ordenar esta inicial. Un algoritmo mejorado de clasificación por mezcla, con complejidad , se puede aplicar para calcular el número de intercambios, , eso sería requerido por un Bubble Sort para ordenar . Entonces el numerador para se calcula como:
dónde se calcula como y , pero con respecto a los empates conjuntos en y .
Un ordenamiento por mezcla divide los datos que se ordenarán en dos mitades aproximadamente iguales y , ordena cada mitad recursivamente y luego combina las dos mitades ordenadas en un vector completamente ordenado. El número de intercambios de Bubble Sort es igual a:
dónde y son las versiones ordenadas de y y caracteriza el Bubble Sort swap-equivalente para una operación de fusión. se calcula como se muestra en el siguiente pseudocódigo:
function M(L[1..n], R[1..m]) is i := 1 j := 1 nSwaps := 0 while i ≤ n and j ≤ m do if R[j] < L[i] then nSwaps := nSwaps + n - i + 1 j := j + 1 else i := i + 1 return nSwaps
Un efecto secundario de los pasos anteriores es que uno termina con una versión ordenada de y una versión ordenada de . Con esto, los factores y usados para calcular se obtienen fácilmente en un solo paso de tiempo lineal a través de las matrices ordenadas.
cor.test(x, y, method = "kendall")
en su paquete "stats" (también cor(x, y, method = "kendall")
funcionará, pero sin volver el valor p).scipy.stats.kendalltau
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.