Loading AI tools
Da Wikipédia, a enciclopédia livre
Em estatística, o coeficiente de correlação de postos de Spearman ou rô de Spearman, que recebe este nome em homenagem ao psicólogo e estatístico Charles Spearman, frequentemente denotado pela letra grega (rô) ou , é uma medida não paramétrica de correlação de postos (dependência estatística entre a classificação de duas variáveis). O coeficiente avalia com que intensidade a relação entre duas variáveis pode ser descrita pelo uso de uma função monótona.[1] A correlação de Spearman entre duas variáveis é igual à correlação de Pearson entre os valores de postos daquelas duas variáveis. Enquanto a correlação de Pearson avalia relações lineares, a correlação de Spearman avalia relações monótonas, sejam elas lineares ou não.[2] Se não houver valores de dados repetidos, uma correlação de Spearman perfeita de +1 ou -1 ocorre quando cada uma das variáveis é uma função monótona perfeita da outra.
Intuitivamente, a correlação de Spearman entre duas variáveis será alta quando observações tiverem uma classificação semelhante (ou idêntica no caso da correlação igual a 1) entre as duas variáveis, isto é, a posição relativa das observações no interior da variável (1º, 2º, 3º, etc.), e baixa quando observações tiverem uma classificação dessemelhante (ou completamente oposta no caso da correlação igual a -1) entre as duas variáveis.
O coeficiente de Spearman é apropriado tanto para variáveis contínuas, como para variáveis discretas, incluindo variáveis ordinais.[3] Tanto o de Spearman, como o de Kendall pode ser formulados como casos especiais de um coeficiente de correlação mais geral.
O coeficiente de correlação de Spearman é definido como o coeficiente de correlação de Pearson entre variáveis classificadas em postos.[4]
Para uma amostra de tamanho , os dados brutos são convertidos em postos e é computado a partir de:
Apenas se todos os postos forem números inteiros distintos, o coeficiente pode ser calculado usando a fórmula popular:
Quando há valores idênticos, geralmente se atribui a cada valor um posto fracionário igual à média de suas posições na ordem ascendente dos valores, que é equivalente ao cálculo da média de todas as permutações possíveis.[8]
Se valores repetidos estiverem presentes nos conjuntos de dados, a equação produz resultados incorretos. Apenas se, em ambas as variáveis, todos os postos forem distintos, então, (vide número tetraédrico ). A primeira equação — normalizando pelo desvio padrão — pode ser usada até mesmo quando os postos forem normalizados a ("postos relativos"), porque não é sensível tanto à translação, quanto ao escalonamento linear.
Este método também não deve ser usado em casos em que o conjunto de dados estiver truncado, isto é, quando o coeficiente de correlação de Spearman for desejado para os registros do topo (seja pelos postos pré-mudança, pelos postos pós-mudança ou ambos). Neste caso, deve-se usar a fórmula do coeficiente de correlação de Pearson descrita acima.
O erro padrão do coeficiente foi determinado pelo estatístico britânico Karl Pearson em 1907 e pelo matemático britânico Thorold Gosset em 1920, sendo:
Há várias outras medidas numéricas que quantificam a intensidade da dependência estatística entre parers de observações. A mais comum é o coeficiente de correlação produto-momento de Pearson, que é um método de correlação semelhante ao coeficiente de correlação de postos de Spearman, que mede as relações "lineares" entre números brutos, não entre seus postos.
Um nome alternativo para a correlação de postos de Spearman é "correlação de grau".[9] Nesta denominação, o "posto" de uma observação é substituído pelo "grau". Em distribuições contínuas, o grau de uma observação é, por convenção, sempre uma metade menor que o posto. Assim, as correlações entre graus e postos são iguais neste caso. De forma mais generalizada, o "grau" de uma observação é proporcional ao valor estimado da fração de uma população menor que um dado valor, com o ajuste da meia-observação nos valores observados. Assim, isto corresponde a um tratamento possível de postos empatados. Ainda que incomum, o termo "correlação de grau" ainda está em uso.[10]
O sinal da correlação de Spearman indica a direção da associação entre (a variável independente) e (a variável dependente). Se tende a aumentar quando aumenta, o coeficiente de correlação de Spearman é positivo. Se tende a diminuir quando aumenta, o coeficiente de correlação de Spearman é negativo. Um coeficiente de Spearman igual a zero indica que não há tendência de que aumente ou diminua quando aumenta. A correlação de Spearman aumenta em magnitude conforme e ficam mais próximas de serem funções monótonas perfeitas uma da outra. Quando e são perfeitamente monotonamente relacionadas, o coeficiente de correlação de Spearman se torna 1. Uma relação crescente monótona perfeita implica que, para quaisquer dois pares de valores de dados e , Xi − Xj e Yi − Yj terão sempre o mesmo sinal. Uma relação decrescente monótona perfeita implica que estas diferenças terão sempre sinais opostos.
O coeficiente de correlação de Spearman é frequentemente descrito como sendo "não paramétrico". Isto pode ter dois sentidos. Em primeiro lugar, uma correlação de Spearman perfeita ocorre quando e estão relacionados por qualquer função monótona, em contraste com a correlação de Pearson, que só dá um valor perfeito quando e estão relacionadas por uma função linear. O outro sentido em que a correlação de Spearman é não paramétrica se refere ao fato de que sua exata distribuição de amostragem pode ser obtida sem conhecimento (isto é, sem informação sobre os parâmetros) quanto à distribuição de probabilidade conjunta de e .[11]
Neste exemplo, os dados brutos na tabela abaixo são usados para calcular a correlação entre o QI de uma pessoa e o número de horas em que assiste televisão por semana.
QI, | Horas de TV por semana, |
---|---|
106 | 7 |
86 | 0 |
100 | 27 |
101 | 50 |
99 | 28 |
103 | 29 |
97 | 20 |
113 | 12 |
112 | 6 |
110 | 17 |
Primeiro, é necessário achar o valor do termo . Para fazer isto, executam-se os seguintes passos, refletidos na tabela abaixo:
QI, | Horas de TV por semana, | posto | posto | ||
---|---|---|---|---|---|
86 | 0 | 1 | 1 | 0 | 0 |
97 | 20 | 2 | 6 | −4 | 16 |
99 | 28 | 3 | 8 | −5 | 25 |
100 | 27 | 4 | 7 | −3 | 9 |
101 | 50 | 5 | 10 | −5 | 25 |
103 | 29 | 6 | 9 | −3 | 9 |
106 | 7 | 7 | 3 | 4 | 16 |
110 | 17 | 8 | 5 | 3 | 9 |
112 | 6 | 9 | 2 | 7 | 49 |
113 | 12 | 10 | 4 | 6 | 36 |
Calculados os valores , são somados para encontrar . O valor de é 10. Agora, estes valores podem ser substituidos na equação :
o que resulta em ρ = −29/165 = −0,175757575... com um valor-p igual a 0,627188, usando a distribuição t de Student.
Este valor baixo mostra que a correlação entre QI e número de horas na frente da TV é muito baixa, ainda que o valor negativo sugira que, quanto mais tempo se passa assistindo televisão, mais baixo o QI. No caso de empates nos dados originais, esta fórmula não deve ser usada. Em vez disso, o coeficiente de correlação de Pearson deve ser calculado nos postos (quando se atribuem postos aos empates, como descrito acima).
Uma abordagem para testar se um valor observado de é significantemente diferente de zero ( sempre se manterá entre -1 e 1) consiste em calcular a probabilidade de que seria maior ou igual ao observado, dada a hipótese nula, ao usar um teste de permutação. Uma vantagem desta abordagem é que ela automaticamente leva em conta o número de valores empatados de dados na amostra e a forma como são tratados ao computar a correlação de postos.[12]
Uma abordagem faz paralelo ao uso da transformação de Fisher no caso do coeficiente de correlação produto-momento de Pearson, isto é, intervalos de confiança e testes de hipóteses relativos ao valor da população podem ser conduzidos usando a transformação de Fisher:[13]
Se for a transformação de Fisher de , o coeficiente de correlação de postos de Spearman amostral, e for o tamanho da amostra, então:
é um escore padronizado para que segue aproximadamente uma distribuição normal padrão sob a hipótese nula da independência estatística ().[14][15]
Pode-se também testar por significância usando:
que é aproximadamente distribuído como a distribuição t de Student com graus de liberdade sob a hipótese nula.[16] Uma justificação para este resultado se baseia em um argumento de permutação.[17]
Uma generalização do coeficiente de Spearman é útil na situação em que há três ou mais condições, uma quantidade de sujeitos é toda observada em cada uma delas e se prevê que as observações terão uma ordem particular. Por exemplo, cada sujeito deste grupo será avaliado três vezes fazendo a mesma tarefa e se prevê que a performance melhorará a cada avaliação. Um teste da significância da tendência entre condições nesta situação foi desenvolvido por Ellis Batten Page, sendo usualmente chamado de teste de tendência de Page para alternativas ordenadas.[18]
A análise de correspondência clássica é um método estatístico que dá um escore para todo valor de duas variáveis nominais. Desta forma, o coeficiente de correlação de Pearson entre eles é maximizado.
Há um equivalente deste método, chamado de análise de correspondência de grau, que maximiza o rô de Spearman e o tau de Kendall.[19]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.