斯皮爾曼相關係數的定義為等級變量之間的皮爾森相關係數。[1]
對於樣本容量為n的樣本,將n個原始數據轉換成等級數據,則相關係數為
其中
- 是皮爾森積動差相關係數,但使用等級變量來計算,
- 為等級變量的共變異數,
- 和為等級變量的標準差。
通常,對於數據中相同的值,其等級數等於它們按值升序排列的所處位置的平均值。[2]如下表所示:
當所有的等級數值都為整數時,可以透過以下簡單的步驟計算等級相關係數:[1][3]
其中
- 為每組觀測中兩個變量的等級差值,
- n為觀測數。
證明
考慮一個雙變量樣本,其相應的位次為。則的斯皮爾曼等級相關係數為:
其中:
,
,
,
,
若假定樣本中兩變量均沒有重複數值,則可只用來給出。
在此假定下,可視為隨機變數,其分布類似於均勻分布隨機變數,,其自變數取值為。
因此
且
,
其中
,
,
故有
。
(這些求和可以用三角形數和四角錐數的公式來計算,也可以用離散數學的基本求和結果來計算。)
既然
則綜上可得
當數據中存在相等的數值時,使用該簡化公式會得到錯誤結果:只有在兩組變量中所有數值不重複時,才有(根據偏誤變異數計算)。第一個方程式(透過標準差進行歸一化)即使在排名標準化為[0, 1](「相對排名」)的情況下仍可使用,因為它對平移和線性縮放都不敏感。
對於截取的數據也不應使用簡化公式。即,當希望計算前X條記錄的等級相關係數時,應當使用前述的皮爾森積動差相關係數公式。[4]
度量一對觀測數據的統計相關性還有其他的幾種度量指標。其中最常用的是皮爾森積動差相關係數。
斯皮爾曼相關也可稱為「級別相關」(grade correlation);[5] 也就是說, 被觀測數據的「等級」被替換成 「級別」。在連續的分布中, 被觀測數據的級別,通常總是小於等級的一半。然而,在這個案例中,級別和等級相關係數是一致的。更一般的, 被觀測數據的「級別」 與估計的母體樣本的比值小於給定的值,即被觀測值的一半。也就是說,它是相應的等級係數的一種可能的解決方案。雖然不常用,「級別相關」還是仍然有被使用。[6]
正的斯皮爾曼相關係數反映兩個變量X和Y之間單調遞增的趨勢。
負的斯皮爾曼相關係數反映兩個變量X和Y之間單調遞減的趨勢。
斯皮爾曼相關係數表明X(自變數)和Y(應變數)的相關方向。如果當X增加時,Y趨向於增加,則斯皮爾曼相關係數為正。如果當X增加時,Y趨向於減少,則斯皮爾曼相關係數為負。斯皮爾曼相關係數為0表明當X增加時Y沒有任何趨向性。當X和Y越來越接近完全的單調相關時,斯皮爾曼相關係數會在絕對值上增加。當X和Y完全單調相關時,斯皮爾曼相關係數的絕對值為1。完全的單調遞增關係意味著對任意兩對數據Xi, Yi和Xj, Yj,有Xi − Xj和Yi − Yj總是同號。完全的單調遞減關係意味著對任意兩對數據Xi, Yi和Xj, Yj,有Xi − Xj和Yi − Yj總是異號。
斯皮爾曼相關係數經常被稱作「無母數」的,其中有兩層含義。首先,當X和Y的關係由任意單調函數描述時,則它們是完全皮爾森相關的。與此相應的,皮爾森相關係數只能給出由線性方程式描述的X和Y的相關性。其次,斯皮爾曼不需要先驗知識(也就是說,知道其參數)便可以準確獲取X和Y的採樣機率分布。
一種確定被觀測數據的ρ值是否顯著不為零(r總是有1 ≥ r ≥ −1)的方法是計算它是否大於r的機率,作為虛無假說,並使用排列檢定。這種方法的優勢在於它考慮了樣本中的重複出現的數據個數,以及在計算等級相關性時處理它們的方式。
另一種方法是使用皮爾森積動差中使用到的費雪轉換。也就是,ρ的信賴區間和假說檢定可以透過費雪轉換獲得
如果F(r)是r的費雪轉換,則
是r的z-值,其中,r在統計獨立性(ρ = 0)[7][8]的虛無假說下近似服從標準常態分布。
顯著性為
其在虛無假說下近似服從自由度為n − 2的t分布。[9] A justification for this result relies on a permutation argument.[10]
一般地,斯皮爾曼相關係數在有三個或更多條件的情況下是有用的。並且,它預測觀測數據有一個特定的順序。例如,在同一任務中,一系列的個體會被嘗試多次,並預測在多次嘗試過程中,性能會得到提升。在這種情況下,對條件間趨勢的顯著性檢定由E. B. Page[11]發展了,並通常稱為給定序列下的Page趨勢檢定。
經典的一致性分析是一種統計方法,它給兩個標稱變量賦給一個分數。透過這種方法,兩個變量間的皮爾森相關係數被最大化了。
有一種被稱為級別相關分析的等價方法,它能夠最大化斯皮爾曼相關係數或肯德爾等級相關係數。[12]
Myers, Jerome L.; Well, Arnold D., Research Design and Statistical Analysis 2nd, Lawrence Erlbaum: 508, 2003, ISBN 0-8058-4037-0
Maritz. J.S. (1981) Distribution-Free Statistical Methods, Chapman & Hall. ISBN 0-412-15940-6. (page 217)
Al Jaber, Ahmed Odeh; Elayyan, Haifaa Omar. Toward Quality Assurance and Excellence in Higher Education. River Publishers. 2018: 284. ISBN 978-87-93609-54-9.
Yule, G.U and Kendall, M.G. (1950), "An Introduction to the Theory of Statistics", 14th Edition (5th Impression 1968). Charles Griffin & Co. page 268
Piantadosi, J.; Howlett, P.; Boland, J. (2007) "Matching the grade correlation coefficient using a copula with maximum disorder", Journal of Industrial and Management Optimization, 3 (2), 305–312
Choi, S.C. (1977) Test of equality of dependent correlations. Biometrika,
64 (3), pp. 645–647
Fieller, E.C.; Hartley, H.O.; Pearson, E.S. (1957) Tests for rank correlation coefficients. I. Biometrika 44, pp. 470–481
Press, Vettering, Teukolsky, and Flannery (1992) Numerical Recipes in C: The Art of Scientific Computing, 2nd Edition, page 640
Kendall, M.G., Stuart, A. (1973)The Advanced Theory of Statistics, Volume 2: Inference and Relationship, Griffin. ISBN 0-85264-215-6 (Sections 31.19, 31.21)
Kowalczyk, T.; Pleszczyńska E. , Ruland F. (eds.). Grade Models and Methods for Data Analysis with Applications for the Analysis of Data Populations. Studies in Fuzziness and Soft Computing vol. 151. Berlin Heidelberg New York: Springer Verlag. 2004. ISBN 978-3-540-21120-4.
- G.W. Corder, D.I. Foreman, "Nonparametric Statistics for Non-Statisticians: A Step-by-Step Approach", Wiley (2009)
- C. Spearman, "The proof and measurement of association between two things" Amer. J. Psychol., 15 (1904) pp. 72–101
- M.G. Kendall, "Rank correlation methods", Griffin (1962)
- M. Hollander, D.A. Wolfe, "Nonparametric statistical methods", Wiley (1973)
- J. C. Caruso, N. Cliff, "Empirical Size, Coverage, and Power of Confidence Intervals for Spearman's Rho", Ed. and Psy. Meas., 57 (1997) pp. 637–654