Coeficiente de correlação de postos de Spearman

Em estatística, o coeficiente de correlação de postos de Spearman ou rô de Spearman, que recebe este nome em homenagem ao psicólogo e estatístico Charles Spearman, frequentemente denotado pela letra grega $\rho$ (rô) ou $r_{s}$ , é uma medida não paramétrica de correlação de postos (dependência estatística entre a classificação de duas variáveis). O coeficiente avalia com que intensidade a relação entre duas variáveis pode ser descrita pelo uso de uma função monótona.^[1] A correlação de Spearman entre duas variáveis é igual à correlação de Pearson entre os valores de postos daquelas duas variáveis. Enquanto a correlação de Pearson avalia relações lineares, a correlação de Spearman avalia relações monótonas, sejam elas lineares ou não.^[2] Se não houver valores de dados repetidos, uma correlação de Spearman perfeita de +1 ou -1 ocorre quando cada uma das variáveis é uma função monótona perfeita da outra.

Intuitivamente, a correlação de Spearman entre duas variáveis será alta quando observações tiverem uma classificação semelhante (ou idêntica no caso da correlação igual a 1) entre as duas variáveis, isto é, a posição relativa das observações no interior da variável (1º, 2º, 3º, etc.), e baixa quando observações tiverem uma classificação dessemelhante (ou completamente oposta no caso da correlação igual a -1) entre as duas variáveis.

O coeficiente de Spearman é apropriado tanto para variáveis contínuas, como para variáveis discretas, incluindo variáveis ordinais.^[3] Tanto o $\rho$ de Spearman, como o $\tau$ de Kendall pode ser formulados como casos especiais de um coeficiente de correlação mais geral.

O coeficiente de correlação de Spearman é definido como o coeficiente de correlação de Pearson entre variáveis classificadas em postos.^[4]

Para uma amostra de tamanho $n$ , os $n$ dados brutos $X_{i},Y_{i}$ são convertidos em postos $\operatorname {rg} X_{i},\operatorname {rg} Y_{i}$ e $r_{s}$ é computado a partir de:

r_{s}=\rho _{\operatorname {rg} _{X},\operatorname {rg} _{Y}}={\frac {\operatorname {cov} (\operatorname {rg} _{X},\operatorname {rg} _{Y})}{\sigma _{\operatorname {rg} _{X}}\sigma _{\operatorname {rg} _{Y}}}},

em que

$\rho$ denota o usual coeficiente de correlação de Pearson, mas aplicado às variáveis em postos;
$\operatorname {cov} (\operatorname {rg} _{X},\operatorname {rg} _{Y})$ é a covariância das variáveis em postos;
$\sigma _{\operatorname {rg} _{X}}$ e $\sigma _{\operatorname {rg} _{Y}}$ são os desvios padrão das variáveis em postos.^[5]

Apenas se todos os postos $n$ forem números inteiros distintos, o coeficiente pode ser calculado usando a fórmula popular:

r_{s}={1-{\frac {6\sum d_{i}^{2}}{n(n^{2}-1)}}},

em que

$d_{i}=\operatorname {rg} (X_{i})-\operatorname {rg} (Y_{i})$ é a diferença entre os dois postos de cada observação;
$n$ é o número de observações.^[6]^[7]

Quando há valores idênticos, geralmente se atribui a cada valor um posto fracionário igual à média de suas posições na ordem ascendente dos valores, que é equivalente ao cálculo da média de todas as permutações possíveis.^[8]

Se valores repetidos estiverem presentes nos conjuntos de dados, a equação produz resultados incorretos. Apenas se, em ambas as variáveis, todos os postos forem distintos, então, $\sigma _{\operatorname {rg} _{X}}\sigma _{\operatorname {rg} _{Y}}=\operatorname {Var} {\operatorname {rg} _{X}}=\operatorname {Var} {\operatorname {rg} _{Y}}=n(n^{2}-1)/6$ (vide número tetraédrico $T_{n-1}$ ). A primeira equação — normalizando pelo desvio padrão — pode ser usada até mesmo quando os postos forem normalizados a $[0;1]$ ("postos relativos"), porque não é sensível tanto à translação, quanto ao escalonamento linear.

Este método também não deve ser usado em casos em que o conjunto de dados estiver truncado, isto é, quando o coeficiente de correlação de Spearman for desejado para os $X$ registros do topo (seja pelos postos pré-mudança, pelos postos pós-mudança ou ambos). Neste caso, deve-se usar a fórmula do coeficiente de correlação de Pearson descrita acima.

O erro padrão $\sigma$ do coeficiente foi determinado pelo estatístico britânico Karl Pearson em 1907 e pelo matemático britânico Thorold Gosset em 1920, sendo:

\sigma _{r_{s}}={\frac {0.6325}{\sqrt {n-1}}}.

**Correlações de postos de Spearman positiva e negativa**
Um coeficiente de correlação de Spearman positivo corresponde a uma tendência monotônica crescente entre $X$ e $Y$ .	Um coeficiente de correlação de Spearman negativo corresponde a uma tendência monotônica decrescente entre $X$ e $Y$ .

Há várias outras medidas numéricas que quantificam a intensidade da dependência estatística entre parers de observações. A mais comum é o coeficiente de correlação produto-momento de Pearson, que é um método de correlação semelhante ao coeficiente de correlação de postos de Spearman, que mede as relações "lineares" entre números brutos, não entre seus postos.

Um nome alternativo para a correlação de postos de Spearman é "correlação de grau".^[9] Nesta denominação, o "posto" de uma observação é substituído pelo "grau". Em distribuições contínuas, o grau de uma observação é, por convenção, sempre uma metade menor que o posto. Assim, as correlações entre graus e postos são iguais neste caso. De forma mais generalizada, o "grau" de uma observação é proporcional ao valor estimado da fração de uma população menor que um dado valor, com o ajuste da meia-observação nos valores observados. Assim, isto corresponde a um tratamento possível de postos empatados. Ainda que incomum, o termo "correlação de grau" ainda está em uso.^[10]

O sinal da correlação de Spearman indica a direção da associação entre $X$ (a variável independente) e $Y$ (a variável dependente). Se $Y$ tende a aumentar quando $X$ aumenta, o coeficiente de correlação de Spearman é positivo. Se $Y$ tende a diminuir quando $X$ aumenta, o coeficiente de correlação de Spearman é negativo. Um coeficiente de Spearman igual a zero indica que não há tendência de que $Y$ aumente ou diminua quando $X$ aumenta. A correlação de Spearman aumenta em magnitude conforme $X$ e $Y$ ficam mais próximas de serem funções monótonas perfeitas uma da outra. Quando $X$ e $Y$ são perfeitamente monotonamente relacionadas, o coeficiente de correlação de Spearman se torna 1. Uma relação crescente monótona perfeita implica que, para quaisquer dois pares de valores de dados $X_{i},Y_{i}$ e $X_{j},Y_{j}$ , $X i - X j$ e $Y i - Y j$ terão sempre o mesmo sinal. Uma relação decrescente monótona perfeita implica que estas diferenças terão sempre sinais opostos.

O coeficiente de correlação de Spearman é frequentemente descrito como sendo "não paramétrico". Isto pode ter dois sentidos. Em primeiro lugar, uma correlação de Spearman perfeita ocorre quando $X$ e $Y$ estão relacionados por qualquer função monótona, em contraste com a correlação de Pearson, que só dá um valor perfeito quando $X$ e $Y$ estão relacionadas por uma função linear. O outro sentido em que a correlação de Spearman é não paramétrica se refere ao fato de que sua exata distribuição de amostragem pode ser obtida sem conhecimento (isto é, sem informação sobre os parâmetros) quanto à distribuição de probabilidade conjunta de $X$ e $Y$ .^[11]

Neste exemplo, os dados brutos na tabela abaixo são usados para calcular a correlação entre o QI de uma pessoa e o número de horas em que assiste televisão por semana.

Mais informação QI,

...

QI, $X_{i}$	Horas de TV por semana, $Y_{i}$
106	7
86	0
100	27
101	50
99	28
103	29
97	20
113	12
112	6
110	17

Fechar

Primeiro, é necessário achar o valor do termo $d_{i}^{2}$ . Para fazer isto, executam-se os seguintes passos, refletidos na tabela abaixo:

Ordene os dados de acordo com a primeira coluna ( $X_{i}$ ). Crie uma nova coluna $x_{i}$ e atribua a esta coluna os valores dos postos $1,2,3,...,n$ ;
Em seguida, ordene os dados de acordo com a segunda coluna ( $Y_{i}$ ). Crie uma quarta coluna $y_{i}$ e, analogamente, atribua a esta coluna os valores dos postos $1,2,3,...,n$ ;
Crie uma quinta coluna $d_{i}$ para conter as diferenças entre os postos das duas colunas $x_{i}$ e $y_{i}$ ;
Crie uma última coluna $d_{i}^{2}$ para conter os quadrados dos valores da coluna $d_{i}$ .

Mais informação QI,

...

QI, $X_{i}$	Horas de TV por semana, $Y_{i}$	posto $x_{i}$	posto $y_{i}$	$d_{i}$	$d_{i}^{2}$
86	0	1	1	0	0
97	20	2	6	−4	16
99	28	3	8	−5	25
100	27	4	7	−3	9
101	50	5	10	−5	25
103	29	6	9	−3	9
106	7	7	3	4	16
110	17	8	5	3	9
112	6	9	2	7	49
113	12	10	4	6	36

Fechar

Calculados os valores $d_{i}^{2}$ , são somados para encontrar $\sum d_{i}^{2}=194$ . O valor de $n$ é 10. Agora, estes valores podem ser substituidos na equação $\rho =1-{\frac {6\sum d_{i}^{2}}{n(n^{2}-1)}}$ :

\rho =1-{\frac {6\times 194}{10(10^{2}-1)}},

o que resulta em $ρ = -29/165 = -0,175757575...$ com um valor-p igual a 0,627188, usando a distribuição t de Student.

Este valor baixo mostra que a correlação entre QI e número de horas na frente da TV é muito baixa, ainda que o valor negativo sugira que, quanto mais tempo se passa assistindo televisão, mais baixo o QI. No caso de empates nos dados originais, esta fórmula não deve ser usada. Em vez disso, o coeficiente de correlação de Pearson deve ser calculado nos postos (quando se atribuem postos aos empates, como descrito acima).

Uma abordagem para testar se um valor observado de $\rho$ é significantemente diferente de zero ( $r$ sempre se manterá entre -1 e 1) consiste em calcular a probabilidade de que seria maior ou igual ao $r$ observado, dada a hipótese nula, ao usar um teste de permutação. Uma vantagem desta abordagem é que ela automaticamente leva em conta o número de valores empatados de dados na amostra e a forma como são tratados ao computar a correlação de postos.^[12]

Uma abordagem faz paralelo ao uso da transformação de Fisher no caso do coeficiente de correlação produto-momento de Pearson, isto é, intervalos de confiança e testes de hipóteses relativos ao valor da população $\rho$ podem ser conduzidos usando a transformação de Fisher:^[13]

F(r)={1 \over 2}\ln {1+r \over 1-r}=\operatorname {artanh} (r).

Se $F(r)$ for a transformação de Fisher de $r$ , o coeficiente de correlação de postos de Spearman amostral, e $n$ for o tamanho da amostra, então:

z={\sqrt {\frac {n-3}{1.06}}}F(r)

é um escore padronizado para $r$ que segue aproximadamente uma distribuição normal padrão sob a hipótese nula da independência estatística ( $\rho =0$ ).^[14]^[15]

Pode-se também testar por significância usando:

t=r{\sqrt {\frac {n-2}{1-r^{2}}}}

que é aproximadamente distribuído como a distribuição t de Student com $n-2$ graus de liberdade sob a hipótese nula.^[16] Uma justificação para este resultado se baseia em um argumento de permutação.^[17]

Uma generalização do coeficiente de Spearman é útil na situação em que há três ou mais condições, uma quantidade de sujeitos é toda observada em cada uma delas e se prevê que as observações terão uma ordem particular. Por exemplo, cada sujeito deste grupo será avaliado três vezes fazendo a mesma tarefa e se prevê que a performance melhorará a cada avaliação. Um teste da significância da tendência entre condições nesta situação foi desenvolvido por Ellis Batten Page, sendo usualmente chamado de teste de tendência de Page para alternativas ordenadas.^[18]

A análise de correspondência clássica é um método estatístico que dá um escore para todo valor de duas variáveis nominais. Desta forma, o coeficiente de correlação de Pearson entre eles é maximizado.

Há um equivalente deste método, chamado de análise de correspondência de grau, que maximiza o rô de Spearman e o tau de Kendall.^[19]

[1]
Spearman, C. (1904). «The Proof and Measurement of Association between Two Things». The American Journal of Psychology. 15 (1): 72–101. doi:10.2307/1412159
[2]
Kendall, Maurice George; Gibbons, Jean Dickinson (1990). Rank correlation methods (em inglês). [S.l.]: E. Arnold
[3]
Lehman, Ann; O'Rourke, Norm; Hatcher, Larry; Stepanski, Edward (2013). JMP for Basic Univariate and Multivariate Statistics: Methods for Researchers and Social Scientists, Second Edition (em inglês). [S.l.]: SAS Institute. ISBN 9781612906034
[4]
Myers, Jerome L.; Well, Arnold D.; Jr, Robert F. Lorch (11 de janeiro de 2013). Research Design and Statistical Analysis: Third Edition (em inglês). [S.l.]: Routledge. ISBN 9781135811631
[5]
Daniel, Wayne W. (30 de junho de 2000). Applied Nonparametric Statistics (em inglês). [S.l.]: Duxbury. ISBN 9780534381943
[6]
Hollander, Myles; Wolfe, Douglas A.; Chicken, Eric (25 de novembro de 2013). Nonparametric Statistical Methods (em inglês). [S.l.]: John Wiley & Sons. ISBN 9781118553299
[7]
Spiegel, M. R. (1985). Estatistica; resumo da teoria 875 problemas resolvidos 619 problemas propostos. [S.l.]: Fundacao CARGILL
[8]
Dodge, Yadolah (15 de abril de 2008). The Concise Encyclopedia of Statistics (em inglês). [S.l.]: Springer Science & Business Media. ISBN 9780387317427
[9]
Yule, George Udny; Kendall, Maurice (1950). An Introduction to the Theory of Statistics. G. Udny Yule, ... and M.G. Kendall, ... 14th Edition Revised and Enlarged (em inglês). [S.l.]: C. Griffin
[10]
Piantadosi, Julia; Howlett, Phil; Boland, John (maio de 2007). «Matching the grade correlation coefficient using a copula with maximum disorder». Journal of Industrial and Management Optimization. 3 (2). Consultado em 19 de julho de 2017. Arquivado do original em 3 de dezembro de 2013
[11]
Corder, Gregory W.; Foreman, Dale I. (20 de setembro de 2011). Nonparametric Statistics for Non-Statisticians: A Step-by-Step Approach (em inglês). [S.l.]: John Wiley & Sons. ISBN 9781118211250
[12]
Bonett, Douglas G.; Wright, Thomas A. (1 de março de 2000). «Sample size requirements for estimating pearson, kendall and spearman correlations». Psychometrika (em inglês). 65 (1): 23–28. ISSN 0033-3123. doi:10.1007/BF02294183
[13]
Caruso, John C.; Cliff, Norman (2 de julho de 2016). «Empirical Size, Coverage, and Power of Confidence Intervals for Spearman's Rho». Educational and Psychological Measurement (em inglês). 57 (4): 637–654. doi:10.1177/0013164497057004009
[14]
Choi, S. C. (1 de dezembro de 1977). «Tests of equality of dependent correlation coefficients». Biometrika. 64 (3): 645–647. ISSN 0006-3444. doi:10.1093/biomet/64.3.645
[15]
Fieller, E. C.; Hartley, H. O.; Pearson, E. S. (1 de dezembro de 1957). «TESTS FOR RANK CORRELATION COEFFICIENTS. I». Biometrika. 44 (3-4): 470–481. ISSN 0006-3444. doi:10.1093/biomet/44.3-4.470
[16]
Press, William H.; Teukolsky, Saul A.; Vetterling, William T.; Flannery, Brian P. (7 de fevereiro de 2002). Numerical Recipes in C++: The Art of Scientific Computing (em inglês). [S.l.]: Cambridge University Press. ISBN 9780521750332
[17]
The Advanced Theory of Statistics. Vol. 2: Inference and: Relationsship (em inglês). [S.l.]: Griffin. 1973
[18]
Page, Ellis Batten (1 de março de 1963). «Ordered Hypotheses for Multiple Treatments: A Significance Test for Linear Ranks». Journal of the American Statistical Association. 58 (301): 216–230. ISSN 0162-1459. doi:10.2307/2282965
[19]
Kowalczyk, Teresa; Pleszczynska, Elzbieta; Ruland, Frederick (6 de dezembro de 2012). Grade Models and Methods for Data Analysis: With Applications for the Analysis of Data Populations (em inglês). [S.l.]: Springer. ISBN 9783540399285

[1] [1]
Spearman, C. (1904). «The Proof and Measurement of Association between Two Things». The American Journal of Psychology. 15 (1): 72–101. doi:10.2307/1412159

[2] [2]
Kendall, Maurice George; Gibbons, Jean Dickinson (1990). Rank correlation methods (em inglês). [S.l.]: E. Arnold

[3] [3]
Lehman, Ann; O'Rourke, Norm; Hatcher, Larry; Stepanski, Edward (2013). JMP for Basic Univariate and Multivariate Statistics: Methods for Researchers and Social Scientists, Second Edition (em inglês). [S.l.]: SAS Institute. ISBN 9781612906034

[4] [4]
Myers, Jerome L.; Well, Arnold D.; Jr, Robert F. Lorch (11 de janeiro de 2013). Research Design and Statistical Analysis: Third Edition (em inglês). [S.l.]: Routledge. ISBN 9781135811631

[5] [5]
Daniel, Wayne W. (30 de junho de 2000). Applied Nonparametric Statistics (em inglês). [S.l.]: Duxbury. ISBN 9780534381943

[6] [6]
Hollander, Myles; Wolfe, Douglas A.; Chicken, Eric (25 de novembro de 2013). Nonparametric Statistical Methods (em inglês). [S.l.]: John Wiley & Sons. ISBN 9781118553299

[7] [7]
Spiegel, M. R. (1985). Estatistica; resumo da teoria 875 problemas resolvidos 619 problemas propostos. [S.l.]: Fundacao CARGILL

[8] [8]
Dodge, Yadolah (15 de abril de 2008). The Concise Encyclopedia of Statistics (em inglês). [S.l.]: Springer Science & Business Media. ISBN 9780387317427

[9] [9]
Yule, George Udny; Kendall, Maurice (1950). An Introduction to the Theory of Statistics. G. Udny Yule, ... and M.G. Kendall, ... 14th Edition Revised and Enlarged (em inglês). [S.l.]: C. Griffin

[10] [10]
Piantadosi, Julia; Howlett, Phil; Boland, John (maio de 2007). «Matching the grade correlation coefficient using a copula with maximum disorder». Journal of Industrial and Management Optimization. 3 (2). Consultado em 19 de julho de 2017. Arquivado do original em 3 de dezembro de 2013

[11] [11]
Corder, Gregory W.; Foreman, Dale I. (20 de setembro de 2011). Nonparametric Statistics for Non-Statisticians: A Step-by-Step Approach (em inglês). [S.l.]: John Wiley & Sons. ISBN 9781118211250

[12] [12]
Bonett, Douglas G.; Wright, Thomas A. (1 de março de 2000). «Sample size requirements for estimating pearson, kendall and spearman correlations». Psychometrika (em inglês). 65 (1): 23–28. ISSN 0033-3123. doi:10.1007/BF02294183

[13] [13]
Caruso, John C.; Cliff, Norman (2 de julho de 2016). «Empirical Size, Coverage, and Power of Confidence Intervals for Spearman's Rho». Educational and Psychological Measurement (em inglês). 57 (4): 637–654. doi:10.1177/0013164497057004009

[14] [14]
Choi, S. C. (1 de dezembro de 1977). «Tests of equality of dependent correlation coefficients». Biometrika. 64 (3): 645–647. ISSN 0006-3444. doi:10.1093/biomet/64.3.645

[15] [15]
Fieller, E. C.; Hartley, H. O.; Pearson, E. S. (1 de dezembro de 1957). «TESTS FOR RANK CORRELATION COEFFICIENTS. I». Biometrika. 44 (3-4): 470–481. ISSN 0006-3444. doi:10.1093/biomet/44.3-4.470

[16] [16]
Press, William H.; Teukolsky, Saul A.; Vetterling, William T.; Flannery, Brian P. (7 de fevereiro de 2002). Numerical Recipes in C++: The Art of Scientific Computing (em inglês). [S.l.]: Cambridge University Press. ISBN 9780521750332

[17] [17]
The Advanced Theory of Statistics. Vol. 2: Inference and: Relationsship (em inglês). [S.l.]: Griffin. 1973

[18] [18]
Page, Ellis Batten (1 de março de 1963). «Ordered Hypotheses for Multiple Treatments: A Significance Test for Linear Ranks». Journal of the American Statistical Association. 58 (301): 216–230. ISSN 0162-1459. doi:10.2307/2282965

[19] [19]
Kowalczyk, Teresa; Pleszczynska, Elzbieta; Ruland, Frederick (6 de dezembro de 2012). Grade Models and Methods for Data Analysis: With Applications for the Analysis of Data Populations (em inglês). [S.l.]: Springer. ISBN 9783540399285

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

Coeficiente de correlação de postos de Spearman

Wikiwand in your browser!

Coeficiente de correlação de postos de Spearman

Wikiwand in your browser!

Definição e cálculo

Quantidades relacionadas

Interpretação

Exemplo

Determinação da significância

Análise de correspondência baseada no rô de Spearman

Ver também

Referências

Ligações externas