在統計學 中,皮爾遜積矩 相關係數 (英語:P earson p roduct-m oment c orrelation c oefficient ,縮寫:PPMCC ,或PCCs [ 1] [ 註 1] ,有時簡稱相關係數 )用於度量兩組數據的變量X和Y之間的線性 相關 的程度。它是兩個變量的協方差 與其標準差 的乘積之比; 因此,它本質上是協方差的歸一化度量,因此結果始終具有介於-1和1之間的值。與協方差本身一樣,該度量只能反映變量的線性相關性,而忽略了許多其他類型的關係或相關性。舉個簡單的例子,可以預期高中青少年樣本的年齡和身高的皮爾遜積矩相關係數顯著大於0,但小於1(因為1表示不切實際的完美相關性)。
具有不同相關係數值 (ρ )的散點圖示例
幾組(x, y)的點集,以及各個點集中x和y之間的相關係數。我們可以發現相關係數反映的是變量之間的線性關係和相關性的方向(第一排),而不是相關性的斜率(中間),也不是各種非線性關係(第三排)。請注意:中間的圖中斜率為0,但相關係數是沒有意義的,因為此時變量Y是0
它是由卡爾·皮爾遜 從弗朗西斯·高爾頓 在1880年代提出的一個相似卻又稍有不同的想法演變而來,[ 2] [ 3] 並且其數學公式由奧古斯特·布拉菲 (Auguste Bravais)於1844年推導出和發表[ 註 2] [ 7] [ 8] [ 9] [ 10] 。係數的命名因此是史蒂格勒名字由來法則 的一個例子。
這個相關係數也稱作「皮爾森相關係數r」。
總體和樣本皮爾遜係數的絕對值小於或等於1。如果樣本數據點精確的落在直線上[ 註 3] ,或者雙變量分布完全在直線上(計算總體皮爾遜係數的情況),則相關係數等於1或-1。皮爾遜係數是對稱的:corr(X,Y) = corr(Y,X)。
皮爾遜相關係數有一個重要的數學特性是,因兩個變量的位置和尺度的變化並不會引起該係數的改變,即它該變化的不變量 (由符號確定)。也就是說,我們如果把X移動到a + bX和把Y移動到c + dY,其中a、b、c和d是常數,並不會改變兩個變量的相關係數[ 註 4] 。我們發現更一般的線性變換則會改變相關係數:參見之後章節 對該特性應用的介紹。
由於μX = E(X), σX 2 = E[(X − E(X))2 ] = E(X2 ) − E2 (X),Y也類似, 並且
E
[
(
X
−
E
(
X
)
)
(
Y
−
E
(
Y
)
)
]
=
E
(
X
Y
)
−
E
(
X
)
E
(
Y
)
,
{\displaystyle E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y),\,}
故相關係數也可以表示成
ρ
X
,
Y
=
E
(
X
Y
)
−
E
(
X
)
E
(
Y
)
E
(
X
2
)
−
(
E
(
X
)
)
2
E
(
Y
2
)
−
(
E
(
Y
)
)
2
.
{\displaystyle \rho _{X,Y}={\frac {E(XY)-E(X)E(Y)}{{\sqrt {E(X^{2})-(E(X))^{2}}}~{\sqrt {E(Y^{2})-(E(Y))^{2}}}}}.}
對於樣本 皮爾遜相關係數:
r
x
y
=
∑
x
i
y
i
−
n
x
¯
y
¯
(
n
−
1
)
s
x
s
y
=
n
∑
x
i
y
i
−
∑
x
i
∑
y
i
n
∑
x
i
2
−
(
∑
x
i
)
2
n
∑
y
i
2
−
(
∑
y
i
)
2
.
{\displaystyle r_{xy}={\frac {\sum x_{i}y_{i}-n{\bar {x}}{\bar {y}}}{(n-1)s_{x}s_{y}}}={\frac {n\sum x_{i}y_{i}-\sum x_{i}\sum y_{i}}{{\sqrt {n\sum x_{i}^{2}-(\sum x_{i})^{2}}}~{\sqrt {n\sum y_{i}^{2}-(\sum y_{i})^{2}}}}}.}
以上方程給出了計算樣本皮爾遜相關係數簡單的單流程算法,但是其依賴於涉及到的數據,有時它可能是數值不穩定 的。
皮爾遜相關係數的變化範圍為-1到1。係數的值為1意味着X 和 Y 可以很好的由直線方程來描述,所有的數據點都很好的落在一條直線 上,且 Y 隨着 X 的增加而增加。係數的值為−1意味着所有的數據點都落在直線上,且 Y 隨着 X 的增加而減少。係數的值為0意味着兩個變量之間沒有線性關係。
更一般的, 我們發現,當且僅當 X i 和 Y i 均落在他們各自的均值的同一側, 則(X i − X )(Y i − Y ) 的值為正。 也就是說,如果X i 和 Y i 同時趨向於大於, 或同時趨向於小於他們各自的均值,則相關係數為正。 如果 X i 和 Y i 趨向於落在他們均值的相反一側,則相關係數為負。
回歸直線:y=gx (x) [紅色] 和 x=gy (y) [藍色]
對於沒有進行中心化的數據, 相關係數與兩條可能的回歸線 y=gx (x) 和 x=gy (y) 夾角的餘弦值一致。
對於中心化過的數據(也就是說, 數據移動一個樣本平均值以使其均值為0),相關係數也可以被視作由兩個隨機變量向量 夾角
θ
{\displaystyle \ \theta }
的餘弦值 (見下方)。
從一個數據集中可以確定出非中心化的相關係數 (non-Pearson-compliant) 和中心化的相關係數二者。例如,有5個國家的國民生產總值分別為 10, 20, 30, 50 和 80 億美元。 假設這5個國家 (順序相同) 的貧困百分比分別為 11%, 12%, 13%, 15%, 和 18% 。 令 x 和 y 分別等於包含上述5個數據的向量: x = (1, 2, 3, 5, 8) 和 y = (0.11, 0.12, 0.13, 0.15, 0.18)。
利用通常的方法計算兩個向量之間的夾角
θ
{\displaystyle \ \theta }
(參見 數量積 ), 未中心化 的相關係數是:
cos
θ
=
x
⋅
y
‖
x
‖
‖
y
‖
=
2.93
103
0.0983
=
0.920814711.
{\displaystyle \cos \theta ={\frac {\mathbf {x} \cdot \mathbf {y} }{\left\|\mathbf {x} \right\|\left\|\mathbf {y} \right\|}}={\frac {2.93}{{\sqrt {103}}{\sqrt {0.0983}}}}=0.920814711.}
我們發現以上的數據特意選定為完全相關: y = 0.10 + 0.01 x 。 於是,皮爾遜相關係數應該等於1。將數據中心化 (通過E(x ) = 3.8移動 x 和通過 E(y ) = 0.138 移動 y ) 得到 x = (−2.8, −1.8, −0.8, 1.2, 4.2) 和 y = (−0.028, −0.018, −0.008, 0.012, 0.042), 從中,
cos
θ
=
x
⋅
y
‖
x
‖
‖
y
‖
=
0.308
30.8
0.00308
=
1
=
ρ
x
y
,
{\displaystyle \cos \theta ={\frac {\mathbf {x} \cdot \mathbf {y} }{\left\|\mathbf {x} \right\|\left\|\mathbf {y} \right\|}}={\frac {0.308}{{\sqrt {30.8}}{\sqrt {0.00308}}}}=1=\rho _{xy},}
More information 相關性, 負 ...
相關性
負
正
無
−0.09 to 0.0
0.0 to 0.09
弱
−0.3 to −0.1
0.1 to 0.3
中
−0.5 to −0.3
0.3 to 0.5
強
−1.0 to −0.5
0.5 to 1.0
Close
一些著作的作者[ 11] [ 12] 給出了某些解釋相關係數的指南。 然而, 所有這些標準從某種意義上說是武斷的和不嚴格的。[ 12] 對相關係數的解釋是依賴於具體的應用背景和目的的。 例如,若是在運用高性能的儀器來驗證一個物理定律實驗這樣的應用背景下,0.9的相關係數可能是很低的。但如果是應用在社會科學中,由於社會科學受到各種複雜多變因素影響,0.9的相關係數是相當高的。
皮爾遜距離 度量的是兩個變量X和Y,它可以根據皮爾遜係數定義成[ 13]
d
X
,
Y
=
1
−
ρ
X
,
Y
.
{\displaystyle d_{X,Y}=1-\rho _{X,Y}.}
我們可以發現,皮爾遜係數落在
[
−
1
,
1
]
{\displaystyle [-1,1]}
,而皮爾遜距離落在
[
0
,
2
]
{\displaystyle [0,2]}
。
圖表顯示對於給定的樣本大小,在0.05的置信度上,皮爾遜相關係數顯著不為零。 基於皮爾遜相關係數的統計推斷通常關注以下兩個目標。
驗證零假設 是否為真,即相關係數 ρ 是否等於 0, 該相關係數使用的是樣本相關係數 r 。
在給定的置信水平 α之下,構建一個圍繞r 的置信區間 。
顯著性檢驗 提供了一種假設檢驗和構造置信區間的直接方法。
對皮爾遜相關係數的顯著性檢驗 包括以下兩個步驟:
隨機地將原始的數據對 (x i , y i )重新定義成數據集 (x i , y i′ ), 其中 i′ 表示數列 {1,...,n }。 數列 i′ 的選取是隨機的, 以相同的概率落在 n ! 種可能的數列中。這等價於隨機地"不可重複地"從數列{1,..., n }中選取 i′ 。一種相近的且合乎情理的方法(自助抽樣法 )是「可重複地」從數列{1,..., n }中選取 i 和 i′
由隨機數據構造相關係數r 。
為了完成顯著性檢驗,需要多次重複步驟(i)和(ii) 。顯著性檢驗的P值 是由測試數據除以步驟(ii)得到的r ,其中r 大於由原始數據計算出的皮爾遜相關係數。在這裡「大」可能是絕對值比較大或者是數值比較大,這取決於測試使用的是雙尾檢驗 或者是單尾檢驗 。
自助抽樣法 可以被用來構造皮爾遜係數的置信區間。在"非參數"的自助抽樣法中,「可重複」地從觀測數據集n 中重新採樣n 對的 (x i , y i ) 數據,用來計算相關係數r 。這個過程重複了大量次數,。重新採樣後數據的 r 值的分布被用來估計統計學上的樣本分布 。ρ 的95%的置信區間 可以被定義成重新採樣樣本 r 值的%2.5到%97.5之間。
對於近似高斯分布 的數據,皮爾遜相關係數的樣本分布 近似於自由度為N − 2的t分布 。特別地,如果兩個變量服從雙變量正態分布,變量
t
=
r
n
−
2
1
−
r
2
{\displaystyle t=r{\sqrt {\frac {n-2}{1-r^{2}}}}}
也會服從不相關的t分布。[ 14] 如果樣本容量不是特別小,這個結論也大致成立,即便觀測數據不是正態分布的。[ 15] 如果需要構建置信區間和進行有力的分析,還需要採用如下的可逆變換
r
=
t
n
−
2
+
t
2
.
{\displaystyle r={\frac {t}{\sqrt {n-2+t^{2}}}}.}
或者,也可以採用大量採樣數據的方法。
早期對樣本相關係數的研究得益於R. A. Fisher [ 16] [ 17] 和A. K. Gayen.[ 18] 的工作。
另一篇早期的論文[ 19] 給出了在小樣本的情況下總體相關係數 ρ 的圖表, 並討論了相關的計算方法。
準確的雙變量樣本相關係數的分布是[ 20] [ 21]
f
(
r
)
=
(
n
−
2
)
Γ
(
n
−
1
)
(
1
−
ρ
2
)
n
−
1
2
(
1
−
r
2
)
n
−
4
2
2
π
Γ
(
n
−
1
2
)
(
1
−
ρ
r
)
n
−
3
2
2
F
1
(
1
2
,
1
2
;
2
n
−
1
2
;
ρ
r
+
1
2
)
{\displaystyle f\left(r\right)={\frac {\left(n-2\right)\,\mathbf {\Gamma } \left(n-1\right)\left(1-\rho ^{2}\right)^{\frac {n-1}{2}}\left(1-r^{2}\right)^{\frac {n-4}{2}}}{{\sqrt {2\pi }}\,\mathbf {\Gamma } \left(n-{\frac {1}{2}}\right)\left(1-\rho r\right)^{n-{\frac {3}{2}}}}}\,\mathbf {_{2}F_{1}} \left({\frac {1}{2}},{\frac {1}{2}};{\frac {2n-1}{2}};{\frac {\rho r+1}{2}}\right)}
其中
Γ
{\displaystyle \mathbf {\Gamma } }
是伽瑪函數 ,
2
F
1
(
a
,
b
;
c
;
z
)
{\displaystyle \,\mathbf {_{2}F_{1}} (a,b;c;z)}
是高斯超幾何函數 。
注意到
E
(
r
)
=
ρ
−
ρ
(
1
−
ρ
2
)
2
(
n
−
1
)
+
⋯
{\displaystyle E\left(r\right)=\rho -{\frac {\rho \left(1-\rho ^{2}\right)}{2\left(n-1\right)}}+\cdots }
, 因此 r 是
ρ
{\displaystyle \,\rho }
的一個有偏估計。一種獲得無偏估計的方法是解
ρ
{\displaystyle \,\rho }
的方程
r
=
E
(
r
)
=
ρ
−
ρ
(
1
−
ρ
2
)
2
(
n
−
1
)
{\displaystyle r=E\left(r\right)=\rho -{\frac {\rho \left(1-\rho ^{2}\right)}{2\left(n-1\right)}}}
。 然而,解
ρ
˘
=
r
[
1
+
1
−
r
2
2
(
n
−
1
)
]
{\displaystyle {\breve {\rho }}=r\left[1+{\frac {1-r^{2}}{2\left(n-1\right)}}\right]}
是次優的。 一種無偏估計, 可以從 n 較大情況下的最小方差和有偏序列
1
n
−
1
{\displaystyle {\frac {1}{n-1}}}
, 通過最大化
log
f
(
r
)
{\displaystyle \log {f\left(r\right)}}
, 也就是
ρ
^
=
r
[
1
−
1
−
r
2
2
(
n
−
1
)
]
{\displaystyle {\hat {\rho }}=r\left[1-{\frac {1-r^{2}}{2\left(n-1\right)}}\right]}
獲得。
特殊情況下,當
ρ
=
0
{\displaystyle \,\rho =0}
時,分布可以被寫成
f
(
r
)
=
(
1
−
r
2
)
n
−
4
2
B
(
1
2
,
n
−
2
2
)
{\displaystyle f\left(r\right)={\frac {\left(1-r^{2}\right)^{\frac {n-4}{2}}}{\mathbf {B} \left({\frac {1}{2}},{\frac {n-2}{2}}\right)}}}
其中
B
{\displaystyle \mathbf {B} }
是貝塔函數 。
實際應用中, 與ρ相關的置信區間 和假設檢驗 通常是通過費雪轉換 獲得
F
(
r
)
=
1
2
ln
1
+
r
1
−
r
=
arctanh
(
r
)
.
{\displaystyle F(r)={1 \over 2}\ln {1+r \over 1-r}=\operatorname {arctanh} (r).}
如果F (r )是r 的費雪轉換,n 是樣本容量,那麼F (r )近似服從正態分布
mean
=
F
(
ρ
)
=
arctanh
(
ρ
)
{\displaystyle {\text{mean}}=F(\rho )=\operatorname {arctanh} (\rho )}
and standard error
SE
=
1
n
−
3
.
{\displaystyle {\text{SE}}={\frac {1}{\sqrt {n-3}}}.}
也就是Z-分數 是
z
=
x
−
mean
SE
=
[
F
(
r
)
−
F
(
ρ
0
)
]
n
−
3
{\displaystyle z={\frac {x-{\text{mean}}}{\text{SE}}}=[F(r)-F(\rho _{0})]{\sqrt {n-3}}}
對
ρ
=
ρ
0
{\displaystyle \rho =\rho _{0}}
進行零假設 ,可以設想樣本數據對是獨立同分布 並且服從雙變量正態分布 。因此P值 估計可以從正態分布概率表中獲得。比如,如果觀測數據 z = 2.2,並且要用雙尾p值對
ρ
=
0
{\displaystyle \rho =0}
進行零假設檢驗,p值是 2·Φ(−2.2) = 0.028, 其中Φ 是正態分布的累積分布函數 。
為了獲得ρ 的置信區間,首先,我們應該計算 F (
ρ
{\displaystyle \rho }
)的置信區間:
100
(
1
−
α
)
%
CI
:
arctanh
(
ρ
)
∈
[
arctanh
(
r
)
±
z
α
/
2
S
E
]
{\displaystyle 100(1-\alpha )\%{\text{CI}}:\operatorname {arctanh} (\rho )\in [\operatorname {arctanh} (r)\pm z_{\alpha /2}SE]}
通過可逆Fisher變換可以獲得相關尺度上的區間。
100
(
1
−
α
)
%
CI
:
ρ
∈
[
tanh
(
arctanh
(
r
)
−
z
α
/
2
S
E
)
,
tanh
(
arctanh
(
r
)
+
z
α
/
2
S
E
)
]
{\displaystyle 100(1-\alpha )\%{\text{CI}}:\rho \in [\operatorname {tanh} (\operatorname {arctanh} (r)-z_{\alpha /2}SE),\operatorname {tanh} (\operatorname {arctanh} (r)+z_{\alpha /2}SE)]}
舉例來說,假設我們觀測到 r = 0.3,樣本容量 n =50,並且我們期望獲得ρ 的95%的置信區間。變換後的值是artanh(r ) = 0.30952,所以在變換尺度上的置信區間是 0.30952 ± 1.96/√47,或者 (0.023624, 0.595415)。變換回相關尺度上是 (0.024, 0.534)。
樣本相關係數的平方,亦稱作決定係數 ,利用簡單線性回歸 估計由X 引起的Y 的變化。一開始,Y i 圍繞它們平均值上的變化可以分解成
∑
i
(
Y
i
−
Y
¯
)
2
=
∑
i
(
Y
i
−
Y
^
i
)
2
+
∑
i
(
Y
^
i
−
Y
¯
)
2
,
{\displaystyle \sum _{i}(Y_{i}-{\bar {Y}})^{2}=\sum _{i}(Y_{i}-{\hat {Y}}_{i})^{2}+\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2},}
其中
Y
^
i
{\displaystyle {\hat {Y}}_{i}}
是作回歸分析時的適應值。 整理後得
1
=
∑
i
(
Y
i
−
Y
^
i
)
2
∑
i
(
Y
i
−
Y
¯
)
2
+
∑
i
(
Y
^
i
−
Y
¯
)
2
∑
i
(
Y
i
−
Y
¯
)
2
.
{\displaystyle 1={\frac {\sum _{i}(Y_{i}-{\hat {Y}}_{i})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}+{\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}.}
兩個被加數是由X (右邊)引起的Y 的變化和不是由X (左邊)引起的變化。
接下來, 我們利用最小方差回歸模型, 使
Y
^
i
{\displaystyle {\hat {Y}}_{i}}
和
Y
i
−
Y
^
i
{\displaystyle Y_{i}-{\hat {Y}}_{i}}
的樣本協方差為0。 於是, 觀測數據和適應值的樣本相關係數可以被寫成
r
(
Y
,
Y
^
)
=
∑
i
(
Y
i
−
Y
¯
)
(
Y
^
i
−
Y
¯
)
∑
i
(
Y
i
−
Y
¯
)
2
⋅
∑
i
(
Y
^
i
−
Y
¯
)
2
=
∑
i
(
Y
i
−
Y
^
i
+
Y
^
i
−
Y
¯
)
(
Y
^
i
−
Y
¯
)
∑
i
(
Y
i
−
Y
¯
)
2
⋅
∑
i
(
Y
^
i
−
Y
¯
)
2
=
∑
i
[
(
Y
i
−
Y
^
i
)
(
Y
^
i
−
Y
¯
)
+
(
Y
^
i
−
Y
¯
)
2
]
∑
i
(
Y
i
−
Y
¯
)
2
⋅
∑
i
(
Y
^
i
−
Y
¯
)
2
=
∑
i
(
Y
^
i
−
Y
¯
)
2
∑
i
(
Y
i
−
Y
¯
)
2
⋅
∑
i
(
Y
^
i
−
Y
¯
)
2
=
∑
i
(
Y
^
i
−
Y
¯
)
2
∑
i
(
Y
i
−
Y
¯
)
2
.
{\displaystyle {\begin{aligned}r(Y,{\hat {Y}})&={\frac {\sum _{i}(Y_{i}-{\bar {Y}})({\hat {Y}}_{i}-{\bar {Y}})}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\&={\frac {\sum _{i}(Y_{i}-{\hat {Y}}_{i}+{\hat {Y}}_{i}-{\bar {Y}})({\hat {Y}}_{i}-{\bar {Y}})}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\&={\frac {\sum _{i}[(Y_{i}-{\hat {Y}}_{i})({\hat {Y}}_{i}-{\bar {Y}})+({\hat {Y}}_{i}-{\bar {Y}})^{2}]}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\&={\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\&={\sqrt {\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}}.\end{aligned}}}
於是
r
(
Y
,
Y
^
)
2
=
∑
i
(
Y
^
i
−
Y
¯
)
2
∑
i
(
Y
i
−
Y
¯
)
2
{\displaystyle r(Y,{\hat {Y}})^{2}={\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}}
是由X 的線性方程引起的Y 的平均變化。
總體皮爾遜相關係數被定義成 矩 ,因此任意的雙變量概率分布 是非零的,也就是說是由總體 協方差 和邊緣 總體方差 定義的。一些概率分布,如柯西分布 的方差未定義,因此若X 或Y 服從這種分布,ρ便是未定義的。在實際應用中,若有懷疑數據服從重尾分布 ,就需要重視這個條件。然而,相關係數的存在性通常無關緊要,例如若分布有界,則ρ必有意義。
在雙變量正態分布 的案例中,只要邊緣均值和方差是已知的,總體相關係數描述的是便是聯合分布。在其他的雙變量分布中,這個結論並不正確。總之,不論兩個隨機變量的聯合分布是不是正態的,相關係數都對研究它們之間的線性依賴性有幫助。[ 2] 樣本相關係數是對兩個正態分布變量總體相關係數的最大似然估計 ,並且是漸進 無偏 和有效率 的。換言之,如果數據是遵循正態分佈,並且樣本容量不太小,就不可能構造出一個比樣本相關係數更準確的估計。對於非正態的數據,樣本相關係數大致上是無偏的,但有可能是無效的。只要樣本均值、方差和協方差是一致的(當大數定理 可以應用的情況下),樣本相關係數是總體相關係數的一致估計 。
與其他常用的統計指標類似,樣本指標r 不穩健 [ 22] 。因此如果由離群值 ,這個指標是有誤導性的。[ 23] [ 24] 特別地,PMCC既不是穩健分布的[來源請求] ,也不是異常值穩健的[ 22] (見穩健統計 )。觀察X 和Y 的散點圖 ,可以認出是否缺乏穩健性,在這種情況下,採用的聯合的方法是比較明智的。注意到,雖然大多數穩健的估計量,都有某程度的統計依賴 ,但總括而言,在總體相關係數的尺度上都是可辨的。
基於皮爾遜相關係數的統計推斷,對數據分布敏感。如果數據大致是正態分布的,可以使用精確檢驗和基於費雪變換 的漸進檢驗,但是它們可能有誤導性。在一些情況下,自助採樣 可以用來構造置信區間。同時,重複抽樣 可以應用在假設檢驗中。這些非參數化 的方法在某些情況下,如不能保證是雙變量正態分布時,可能得出更有意義的結論。然而,這些方法的標準形式,依賴於數據要可交換 。這也就意味着要分析的數據沒有順序的和組別之分,否則可能會影響估計相關係數的特性。
分層分析是一種容許缺少雙變量正態性的方法,或者說是用來隔離相互關聯因素的關聯結果。如果W 代表聚類成員或者其它需要控制的因素,則可以分離基於W 的數據,然後可以再逐層計算相關係數。當控制變量W ,便能在層的等級上估計與所有相關係數相關的各自的相關係數。[ 25]
假設我們要計算關聯性的觀測數據有着不同的重要程度,表示成權值向量 w 。 利用權值向量w (總長度 n )計算向量 x 和 y 的相關係數,[ 26]
m
(
x
;
w
)
=
∑
i
w
i
x
i
∑
i
w
i
.
{\displaystyle \operatorname {m} (x;w)={\sum _{i}w_{i}x_{i} \over \sum _{i}w_{i}}.}
cov
(
x
,
y
;
w
)
=
∑
i
w
i
(
x
i
−
m
(
x
;
w
)
)
(
y
i
−
m
(
y
;
w
)
)
∑
i
w
i
.
{\displaystyle \operatorname {cov} (x,y;w)={\sum _{i}w_{i}(x_{i}-\operatorname {m} (x;w))(y_{i}-\operatorname {m} (y;w)) \over \sum _{i}w_{i}}.}
corr
(
x
,
y
;
w
)
=
cov
(
x
,
y
;
w
)
cov
(
x
,
x
;
w
)
cov
(
y
,
y
;
w
)
.
{\displaystyle \operatorname {corr} (x,y;w)={\operatorname {cov} (x,y;w) \over {\sqrt {\operatorname {cov} (x,x;w)\operatorname {cov} (y,y;w)}}}.}
我們總是可以通過一定的線性變換去除隨機變量之間的相關性, 即便變量間的關係是非線性的。 Cox & Hinkley[ 27] 給出了在總體相關係數中的表達形式。
與此相應的,樣本相關係數也存在這樣的結論,使得樣本相關係數變為0。假設長度為 n 的隨機變量被隨機採樣 m 次。 令 X 是一個矩陣,其中
X
i
,
j
{\displaystyle X_{i,j}}
是第i 次採樣的第 j 個變量。 令
Z
m
,
m
{\displaystyle Z_{m,m}}
是一個所有元素都為1的 m * m 的方陣。 那麼 D 是變換後的數據,使得隨機變量的均值為0, 並且 T 是變換後的數據,使得所有的變量均值為0和與除自身外的其他變量的相關係數為0 - T 的矩作為身份矩陣。 為了得到單位方差,還需要除以標準差。 雖然變換後的數據有可能不是獨立的 ,但他們一定是不相關的。
D
=
X
−
1
m
Z
m
,
m
X
{\displaystyle D=X-{\frac {1}{m}}Z_{m,m}X}
T
=
D
(
D
T
D
)
−
1
2
{\displaystyle T=D(D^{T}D)^{-{\frac {1}{2}}}}
其中,指數-1/2表示矩陣置換後的矩陣方根 。T的協方差被當做身份矩陣。如果新的樣本數據x是n個元素的向量, 那麼相同的變換可以應用到x中以獲得變換向量d和t:
d
=
x
−
1
m
Z
1
,
m
X
{\displaystyle d=x-{\frac {1}{m}}Z_{1,m}X}
t
=
d
(
D
T
D
)
−
1
2
{\displaystyle t=d(D^{T}D)^{-{\frac {1}{2}}}}
這個去相關性的方法被應用到多變量的主成分分析 中。
反射相關係數是皮爾遜相關係數的變體,數據並不是以他們的均值為中心。[來源請求] 總體反射相關係數是
Corr
r
(
X
,
Y
)
=
E
[
X
Y
]
E
X
2
⋅
E
Y
2
.
{\displaystyle {\text{Corr}}_{r}(X,Y)={\frac {E[XY]}{\sqrt {EX^{2}\cdot EY^{2}}}}.}
反射相關係數是對稱的, 但在如下的變換中並不是不變的
Corr
r
(
X
,
Y
)
=
Corr
r
(
Y
,
X
)
=
Corr
r
(
X
,
b
Y
)
≠
Corr
r
(
X
,
a
+
b
Y
)
,
a
≠
0
,
b
>
0.
{\displaystyle {\text{Corr}}_{r}(X,Y)={\text{Corr}}_{r}(Y,X)={\text{Corr}}_{r}(X,bY)\neq {\text{Corr}}_{r}(X,a+bY),\quad a\neq 0,b>0.}
樣本反射相關係數是
r
r
x
y
=
∑
x
i
y
i
(
∑
x
i
2
)
(
∑
y
i
2
)
.
{\displaystyle rr_{xy}={\frac {\sum x_{i}y_{i}}{\sqrt {(\sum x_{i}^{2})(\sum y_{i}^{2})}}}.}
樣本加權相關係數是
r
r
x
y
,
w
=
∑
w
i
x
i
y
i
(
∑
w
i
x
i
2
)
(
∑
w
i
y
i
2
)
.
{\displaystyle rr_{xy,w}={\frac {\sum w_{i}x_{i}y_{i}}{\sqrt {(\sum w_{i}x_{i}^{2})(\sum w_{i}y_{i}^{2})}}}.}
規模的相關性是一個變種的皮爾森相關數據的範圍限制故意以受控的方式揭示時間序列之間的快速成分的相關性。比例相關的定義是在短數據段的平均相關性。
對於給定規模S,令K為可以適應信號的總長度的段數:
K
=
S
o
u
n
d
(
T
s
)
{\displaystyle \mathbf {K} =\mathbf {Sound} \left({\frac {T}{s}}\right)}
比例相關的整個信號的rs 的計算公式為
r
s
→
=
1
K
∑
k
=
1
K
r
k
{\displaystyle {\overrightarrow {r_{s}}}={\frac {1}{K}}\sum _{k=1}^{K}r_{k}}
rs 為k的部分皮爾森相關係數。
通過對參數s的選擇,減少值的範圍和較長的時間尺度上的相關性被過濾掉,只有在很短的時間尺度上的相關性被發現。因此,慢分量的貢獻被刪除,快分量被保留。
強噪聲條件下,提取相關係數兩個隨機變量之間的是平凡的,特別是在典型相關分析報告在退化的相關值的情況下,由於存在大量噪聲。一種概括的方法在其他地方給出。
"The human disease network", Albert Barabasi et al., Plos.org
Wright, S. Correlation and causation. Journal of Agricultural Research. 1921, 20 (7): 557–585.
A. Buda and A.Jarynowski (2010) Life-time of correlations and its applications vol.1 , Wydawnictwo Niezalezne: 5–21, December 2010, ISBN 978-83-915272-9-0
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.)
Fulekar (Ed.), M.H. (2009) Bioinformatics: Applications in Life and Environmental Sciences , Springer (pp. 110) ISBN 1402088795
N.A Rahman, A Course in Theoretical Statistics; Charles Griffin and Company, 1968
Kendall, M.G., Stuart, A. (1973)The Advanced Theory of Statistics, Volume 2: Inference and Relationship , Griffin. ISBN 0852642156 (Section 31.19)
Soper, H.E., Young, A.W., Cave, B.M., Lee, A., Pearson, K. (1917). "On the distribution of the correlation coefficient in small samples. Appendix II to the papers of "Student" and R. A. Fisher. A co-operative study", Biometrika , 11, 328-413. doi:10.1093/biomet/11.4.328
Kenney, J. F. and Keeping, E. S., Mathematics of Statistics , Pt. 2, 2nd ed. Princeton, NJ: Van Nostrand, 1951.
Wilcox, Rand R. Introduction to robust estimation and hypothesis testing. Academic Press. 2005.
Cox, D.R., Hinkley, D.V. (1974) Theoretical Statistics , Chapman & Hall (Appendix 3) ISBN 0412124203