在統計學 中,皮爾森積動差 相關係數 (英語:P earson p roduct-m oment c orrelation c oefficient ,縮寫:PPMCC ,或PCCs [ 1] [ 註 1] ,有時簡稱相關係數 )用於度量兩組數據的變量X和Y之間的線性 相關 的程度。它是兩個變量的共變異數 與其標準差 的乘積之比; 因此,它本質上是共變異數的歸一化度量,因此結果始終具有介於-1和1之間的值。與共變異數本身一樣,該度量只能反映變量的線性相依性,而忽略了許多其他類型的關係或相關性。舉個簡單的例子,可以預期高中青少年樣本的年齡和身高的皮爾森積動差相關係數顯著大於0,但小於1(因為1表示不切實際的完美相關性)。
具有不同相關係數值 (ρ )的散點圖示例
幾組(x, y)的點集,以及各個點集中x和y之間的相關係數。我們可以發現相關係數反映的是變量之間的線性關係和相關性的方向(第一排),而不是相關性的斜率(中間),也不是各種非線性關係(第三排)。請注意:中間的圖中斜率為0,但相關係數是沒有意義的,因為此時變量Y是0
它是由卡爾·皮爾森 從弗朗西斯·高爾頓 在1880年代提出的一個相似卻又稍有不同的想法演變而來,[ 2] [ 3] 並且其數學公式由奧古斯特·布拉菲 (Auguste Bravais)於1844年推導出和發表[ 註 2] [ 7] [ 8] [ 9] [ 10] 。係數的命名因此是史蒂格勒名字由來法則 的一個例子。
這個相關係數也稱作「皮爾森相關係數r」。
母體和樣本皮爾森係數的絕對值小於或等於1。如果樣本數據點精確的落在直線上[ 註 3] ,或者雙變量分布完全在直線上(計算母體皮爾森係數的情況),則相關係數等於1或-1。皮爾森係數是對稱的:corr(X,Y) = corr(Y,X)。
皮爾森相關係數有一個重要的數學特性是,因兩個變量的位置和尺度的變化並不會引起該係數的改變,即它該變化的不變量 (由符號確定)。也就是說,我們如果把X移動到a + bX和把Y移動到c + dY,其中a、b、c和d是常數,並不會改變兩個變量的相關係數[ 註 4] 。我們發現更一般的線性轉換則會改變相關係數:參見之後章節 對該特性應用的介紹。
由於μX = E(X), σX 2 = E[(X − E(X))2 ] = E(X2 ) − E2 (X),Y也類似, 並且
E
[
(
X
−
E
(
X
)
)
(
Y
−
E
(
Y
)
)
]
=
E
(
X
Y
)
−
E
(
X
)
E
(
Y
)
,
{\displaystyle E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y),\,}
故相關係數也可以表示成
ρ
X
,
Y
=
E
(
X
Y
)
−
E
(
X
)
E
(
Y
)
E
(
X
2
)
−
(
E
(
X
)
)
2
E
(
Y
2
)
−
(
E
(
Y
)
)
2
.
{\displaystyle \rho _{X,Y}={\frac {E(XY)-E(X)E(Y)}{{\sqrt {E(X^{2})-(E(X))^{2}}}~{\sqrt {E(Y^{2})-(E(Y))^{2}}}}}.}
對於樣本 皮爾森相關係數:
r
x
y
=
∑
x
i
y
i
−
n
x
¯
y
¯
(
n
−
1
)
s
x
s
y
=
n
∑
x
i
y
i
−
∑
x
i
∑
y
i
n
∑
x
i
2
−
(
∑
x
i
)
2
n
∑
y
i
2
−
(
∑
y
i
)
2
.
{\displaystyle r_{xy}={\frac {\sum x_{i}y_{i}-n{\bar {x}}{\bar {y}}}{(n-1)s_{x}s_{y}}}={\frac {n\sum x_{i}y_{i}-\sum x_{i}\sum y_{i}}{{\sqrt {n\sum x_{i}^{2}-(\sum x_{i})^{2}}}~{\sqrt {n\sum y_{i}^{2}-(\sum y_{i})^{2}}}}}.}
以上方程式給出了計算樣本皮爾森相關係數簡單的單流程算法,但是其依賴於涉及到的數據,有時它可能是數值不穩定 的。
皮爾森相關係數的變化範圍為-1到1。係數的值為1意味著X 和 Y 可以很好的由直線方程式來描述,所有的數據點都很好的落在一條直線 上,且 Y 隨著 X 的增加而增加。係數的值為−1意味著所有的數據點都落在直線上,且 Y 隨著 X 的增加而減少。係數的值為0意味著兩個變量之間沒有線性關係。
更一般的, 我們發現,若且唯若 X i 和 Y i 均落在他們各自的均值的同一側, 則(X i − X )(Y i − Y ) 的值為正。 也就是說,如果X i 和 Y i 同時趨向於大於, 或同時趨向於小於他們各自的均值,則相關係數為正。 如果 X i 和 Y i 趨向於落在他們均值的相反一側,則相關係數為負。
迴歸直線:y=gx (x) [紅色] 和 x=gy (y) [藍色]
對於沒有進行中心化的數據, 相關係數與兩條可能的迴歸線 y=gx (x) 和 x=gy (y) 夾角的餘弦值一致。
對於中心化過的數據(也就是說, 數據移動一個樣本平均值以使其均值為0),相關係數也可以被視作由兩個隨機變數向量 夾角
θ
{\displaystyle \ \theta }
的餘弦值 (見下方)。
從一個數據集中可以確定出非中心化的相關係數 (non-Pearson-compliant) 和中心化的相關係數二者。例如,有5個國家的國民生產總值分別為 10, 20, 30, 50 和 80 億美元。 假設這5個國家 (順序相同) 的貧困百分比分別為 11%, 12%, 13%, 15%, 和 18% 。 令 x 和 y 分別等於包含上述5個數據的向量: x = (1, 2, 3, 5, 8) 和 y = (0.11, 0.12, 0.13, 0.15, 0.18)。
利用通常的方法計算兩個向量之間的夾角
θ
{\displaystyle \ \theta }
(參見 數量積 ), 未中心化 的相關係數是:
cos
θ
=
x
⋅
y
‖
x
‖
‖
y
‖
=
2.93
103
0.0983
=
0.920814711.
{\displaystyle \cos \theta ={\frac {\mathbf {x} \cdot \mathbf {y} }{\left\|\mathbf {x} \right\|\left\|\mathbf {y} \right\|}}={\frac {2.93}{{\sqrt {103}}{\sqrt {0.0983}}}}=0.920814711.}
我們發現以上的數據特意選定為完全相關: y = 0.10 + 0.01 x 。 於是,皮爾森相關係數應該等於1。將數據中心化 (通過E(x ) = 3.8移動 x 和通過 E(y ) = 0.138 移動 y ) 得到 x = (−2.8, −1.8, −0.8, 1.2, 4.2) 和 y = (−0.028, −0.018, −0.008, 0.012, 0.042), 從中,
cos
θ
=
x
⋅
y
‖
x
‖
‖
y
‖
=
0.308
30.8
0.00308
=
1
=
ρ
x
y
,
{\displaystyle \cos \theta ={\frac {\mathbf {x} \cdot \mathbf {y} }{\left\|\mathbf {x} \right\|\left\|\mathbf {y} \right\|}}={\frac {0.308}{{\sqrt {30.8}}{\sqrt {0.00308}}}}=1=\rho _{xy},}
More information 相關性, 負 ...
相關性
負
正
無
−0.09 to 0.0
0.0 to 0.09
弱
−0.3 to −0.1
0.1 to 0.3
中
−0.5 to −0.3
0.3 to 0.5
強
−1.0 to −0.5
0.5 to 1.0
Close
一些著作的作者[ 11] [ 12] 給出了某些解釋相關係數的指南。 然而, 所有這些標準從某種意義上說是武斷的和不嚴格的。[ 12] 對相關係數的解釋是依賴於具體的應用背景和目的的。 例如,若是在運用高性能的儀器來驗證一個物理定律實驗這樣的應用背景下,0.9的相關係數可能是很低的。但如果是應用在社會科學中,由於社會科學受到各種複雜多變因素影響,0.9的相關係數是相當高的。
皮爾森距離 度量的是兩個變量X和Y,它可以根據皮爾森係數定義成[ 13]
d
X
,
Y
=
1
−
ρ
X
,
Y
.
{\displaystyle d_{X,Y}=1-\rho _{X,Y}.}
我們可以發現,皮爾森係數落在
[
−
1
,
1
]
{\displaystyle [-1,1]}
,而皮爾森距離落在
[
0
,
2
]
{\displaystyle [0,2]}
。
圖表顯示對於給定的樣本大小,在0.05的置信度上,皮爾森相關係數顯著不為零。 基於皮爾森相關係數的統計推論通常關注以下兩個目標。
驗證虛無假說 是否為真,即相關係數 ρ 是否等於 0, 該相關係數使用的是樣本相關係數 r 。
在給定的信心水準 α之下,構建一個圍繞r 的信賴區間 。
顯著性檢定 提供了一種假說檢定和構造信賴區間的直接方法。
對皮爾森相關係數的顯著性檢定 包括以下兩個步驟:
隨機地將原始的數據對 (x i , y i )重新定義成數據集 (x i , y i′ ), 其中 i′ 表示數列 {1,...,n }。 數列 i′ 的選取是隨機的, 以相同的機率落在 n ! 種可能的數列中。這等價於隨機地"不可重複地"從數列{1,..., n }中選取 i′ 。一種相近的且合乎情理的方法(自助抽樣法 )是「可重複地」從數列{1,..., n }中選取 i 和 i′
由隨機數據構造相關係數r 。
為了完成顯著性檢定,需要多次重複步驟(i)和(ii) 。顯著性檢定的P值 是由測試數據除以步驟(ii)得到的r ,其中r 大於由原始數據計算出的皮爾森相關係數。在這裡「大」可能是絕對值比較大或者是數值比較大,這取決於測試使用的是雙尾檢定 或者是單尾檢定 。
自助抽樣法 可以被用來構造皮爾森係數的信賴區間。在"無母數"的自助抽樣法中,「可重複」地從觀測數據集n 中重新採樣n 對的 (x i , y i ) 數據,用來計算相關係數r 。這個過程重複了大量次數,。重新採樣後數據的 r 值的分布被用來估計統計學上的樣本分布 。ρ 的95%的信賴區間 可以被定義成重新採樣樣本 r 值的%2.5到%97.5之間。
對於近似高斯分布 的數據,皮爾森相關係數的樣本分布 近似於自由度為N − 2的t分布 。特別地,如果兩個變量服從雙變量常態分布,變量
t
=
r
n
−
2
1
−
r
2
{\displaystyle t=r{\sqrt {\frac {n-2}{1-r^{2}}}}}
也會服從不相關的t分布。[ 14] 如果樣本容量不是特別小,這個結論也大致成立,即便觀測數據不是常態分布的。[ 15] 如果需要構建信賴區間和進行有力的分析,還需要採用如下的可逆轉換
r
=
t
n
−
2
+
t
2
.
{\displaystyle r={\frac {t}{\sqrt {n-2+t^{2}}}}.}
或者,也可以採用大量採樣數據的方法。
早期對樣本相關係數的研究得益於R. A. Fisher [ 16] [ 17] 和A. K. Gayen.[ 18] 的工作。
另一篇早期的論文[ 19] 給出了在小樣本的情況下母體相關係數 ρ 的圖表, 並討論了相關的計算方法。
準確的雙變量樣本相關係數的分布是[ 20] [ 21]
f
(
r
)
=
(
n
−
2
)
Γ
(
n
−
1
)
(
1
−
ρ
2
)
n
−
1
2
(
1
−
r
2
)
n
−
4
2
2
π
Γ
(
n
−
1
2
)
(
1
−
ρ
r
)
n
−
3
2
2
F
1
(
1
2
,
1
2
;
2
n
−
1
2
;
ρ
r
+
1
2
)
{\displaystyle f\left(r\right)={\frac {\left(n-2\right)\,\mathbf {\Gamma } \left(n-1\right)\left(1-\rho ^{2}\right)^{\frac {n-1}{2}}\left(1-r^{2}\right)^{\frac {n-4}{2}}}{{\sqrt {2\pi }}\,\mathbf {\Gamma } \left(n-{\frac {1}{2}}\right)\left(1-\rho r\right)^{n-{\frac {3}{2}}}}}\,\mathbf {_{2}F_{1}} \left({\frac {1}{2}},{\frac {1}{2}};{\frac {2n-1}{2}};{\frac {\rho r+1}{2}}\right)}
其中
Γ
{\displaystyle \mathbf {\Gamma } }
是伽瑪函數 ,
2
F
1
(
a
,
b
;
c
;
z
)
{\displaystyle \,\mathbf {_{2}F_{1}} (a,b;c;z)}
是高斯超幾何函數 。
注意到
E
(
r
)
=
ρ
−
ρ
(
1
−
ρ
2
)
2
(
n
−
1
)
+
⋯
{\displaystyle E\left(r\right)=\rho -{\frac {\rho \left(1-\rho ^{2}\right)}{2\left(n-1\right)}}+\cdots }
, 因此 r 是
ρ
{\displaystyle \,\rho }
的一個偏誤估計。一種獲得不偏估計的方法是解
ρ
{\displaystyle \,\rho }
的方程式
r
=
E
(
r
)
=
ρ
−
ρ
(
1
−
ρ
2
)
2
(
n
−
1
)
{\displaystyle r=E\left(r\right)=\rho -{\frac {\rho \left(1-\rho ^{2}\right)}{2\left(n-1\right)}}}
。 然而,解
ρ
˘
=
r
[
1
+
1
−
r
2
2
(
n
−
1
)
]
{\displaystyle {\breve {\rho }}=r\left[1+{\frac {1-r^{2}}{2\left(n-1\right)}}\right]}
是次優的。 一種不偏估計, 可以從 n 較大情況下的最小變異數和偏誤序列
1
n
−
1
{\displaystyle {\frac {1}{n-1}}}
, 通過最大化
log
f
(
r
)
{\displaystyle \log {f\left(r\right)}}
, 也就是
ρ
^
=
r
[
1
−
1
−
r
2
2
(
n
−
1
)
]
{\displaystyle {\hat {\rho }}=r\left[1-{\frac {1-r^{2}}{2\left(n-1\right)}}\right]}
獲得。
特殊情況下,當
ρ
=
0
{\displaystyle \,\rho =0}
時,分布可以被寫成
f
(
r
)
=
(
1
−
r
2
)
n
−
4
2
B
(
1
2
,
n
−
2
2
)
{\displaystyle f\left(r\right)={\frac {\left(1-r^{2}\right)^{\frac {n-4}{2}}}{\mathbf {B} \left({\frac {1}{2}},{\frac {n-2}{2}}\right)}}}
其中
B
{\displaystyle \mathbf {B} }
是貝塔函數 。
實際應用中, 與ρ相關的信賴區間 和假說檢定 通常是通過費雪轉換 獲得
F
(
r
)
=
1
2
ln
1
+
r
1
−
r
=
arctanh
(
r
)
.
{\displaystyle F(r)={1 \over 2}\ln {1+r \over 1-r}=\operatorname {arctanh} (r).}
如果F (r )是r 的費雪轉換,n 是樣本容量,那麼F (r )近似服從常態分布
mean
=
F
(
ρ
)
=
arctanh
(
ρ
)
{\displaystyle {\text{mean}}=F(\rho )=\operatorname {arctanh} (\rho )}
and standard error
SE
=
1
n
−
3
.
{\displaystyle {\text{SE}}={\frac {1}{\sqrt {n-3}}}.}
也就是Z-分數 是
z
=
x
−
mean
SE
=
[
F
(
r
)
−
F
(
ρ
0
)
]
n
−
3
{\displaystyle z={\frac {x-{\text{mean}}}{\text{SE}}}=[F(r)-F(\rho _{0})]{\sqrt {n-3}}}
對
ρ
=
ρ
0
{\displaystyle \rho =\rho _{0}}
進行虛無假說 ,可以設想樣本數據對是獨立同分布 並且服從雙變量常態分布 。因此P值 估計可以從常態分布機率表中獲得。比如,如果觀測數據 z = 2.2,並且要用雙尾p值對
ρ
=
0
{\displaystyle \rho =0}
進行虛無假說檢定,p值是 2·Φ(−2.2) = 0.028, 其中Φ 是常態分布的累積分布函數 。
為了獲得ρ 的信賴區間,首先,我們應該計算 F (
ρ
{\displaystyle \rho }
)的信賴區間:
100
(
1
−
α
)
%
CI
:
arctanh
(
ρ
)
∈
[
arctanh
(
r
)
±
z
α
/
2
S
E
]
{\displaystyle 100(1-\alpha )\%{\text{CI}}:\operatorname {arctanh} (\rho )\in [\operatorname {arctanh} (r)\pm z_{\alpha /2}SE]}
通過可逆Fisher轉換可以獲得相關尺度上的區間。
100
(
1
−
α
)
%
CI
:
ρ
∈
[
tanh
(
arctanh
(
r
)
−
z
α
/
2
S
E
)
,
tanh
(
arctanh
(
r
)
+
z
α
/
2
S
E
)
]
{\displaystyle 100(1-\alpha )\%{\text{CI}}:\rho \in [\operatorname {tanh} (\operatorname {arctanh} (r)-z_{\alpha /2}SE),\operatorname {tanh} (\operatorname {arctanh} (r)+z_{\alpha /2}SE)]}
舉例來說,假設我們觀測到 r = 0.3,樣本容量 n =50,並且我們期望值獲得ρ 的95%的信賴區間。轉換後的值是artanh(r ) = 0.30952,所以在轉換尺度上的信賴區間是 0.30952 ± 1.96/√47,或者 (0.023624, 0.595415)。轉換回相關尺度上是 (0.024, 0.534)。
樣本相關係數的平方,亦稱作決定係數 ,利用簡單線性迴歸 估計由X 引起的Y 的變化。一開始,Y i 圍繞它們平均值上的變化可以分解成
∑
i
(
Y
i
−
Y
¯
)
2
=
∑
i
(
Y
i
−
Y
^
i
)
2
+
∑
i
(
Y
^
i
−
Y
¯
)
2
,
{\displaystyle \sum _{i}(Y_{i}-{\bar {Y}})^{2}=\sum _{i}(Y_{i}-{\hat {Y}}_{i})^{2}+\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2},}
其中
Y
^
i
{\displaystyle {\hat {Y}}_{i}}
是作迴歸分析時的適應值。 整理後得
1
=
∑
i
(
Y
i
−
Y
^
i
)
2
∑
i
(
Y
i
−
Y
¯
)
2
+
∑
i
(
Y
^
i
−
Y
¯
)
2
∑
i
(
Y
i
−
Y
¯
)
2
.
{\displaystyle 1={\frac {\sum _{i}(Y_{i}-{\hat {Y}}_{i})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}+{\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}.}
兩個被加數是由X (右邊)引起的Y 的變化和不是由X (左邊)引起的變化。
接下來, 我們利用最小變異數迴歸模型, 使
Y
^
i
{\displaystyle {\hat {Y}}_{i}}
和
Y
i
−
Y
^
i
{\displaystyle Y_{i}-{\hat {Y}}_{i}}
的樣本共變異數為0。 於是, 觀測數據和適應值的樣本相關係數可以被寫成
r
(
Y
,
Y
^
)
=
∑
i
(
Y
i
−
Y
¯
)
(
Y
^
i
−
Y
¯
)
∑
i
(
Y
i
−
Y
¯
)
2
⋅
∑
i
(
Y
^
i
−
Y
¯
)
2
=
∑
i
(
Y
i
−
Y
^
i
+
Y
^
i
−
Y
¯
)
(
Y
^
i
−
Y
¯
)
∑
i
(
Y
i
−
Y
¯
)
2
⋅
∑
i
(
Y
^
i
−
Y
¯
)
2
=
∑
i
[
(
Y
i
−
Y
^
i
)
(
Y
^
i
−
Y
¯
)
+
(
Y
^
i
−
Y
¯
)
2
]
∑
i
(
Y
i
−
Y
¯
)
2
⋅
∑
i
(
Y
^
i
−
Y
¯
)
2
=
∑
i
(
Y
^
i
−
Y
¯
)
2
∑
i
(
Y
i
−
Y
¯
)
2
⋅
∑
i
(
Y
^
i
−
Y
¯
)
2
=
∑
i
(
Y
^
i
−
Y
¯
)
2
∑
i
(
Y
i
−
Y
¯
)
2
.
{\displaystyle {\begin{aligned}r(Y,{\hat {Y}})&={\frac {\sum _{i}(Y_{i}-{\bar {Y}})({\hat {Y}}_{i}-{\bar {Y}})}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\&={\frac {\sum _{i}(Y_{i}-{\hat {Y}}_{i}+{\hat {Y}}_{i}-{\bar {Y}})({\hat {Y}}_{i}-{\bar {Y}})}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\&={\frac {\sum _{i}[(Y_{i}-{\hat {Y}}_{i})({\hat {Y}}_{i}-{\bar {Y}})+({\hat {Y}}_{i}-{\bar {Y}})^{2}]}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\&={\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\&={\sqrt {\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}}.\end{aligned}}}
於是
r
(
Y
,
Y
^
)
2
=
∑
i
(
Y
^
i
−
Y
¯
)
2
∑
i
(
Y
i
−
Y
¯
)
2
{\displaystyle r(Y,{\hat {Y}})^{2}={\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}}
是由X 的線性方程式引起的Y 的平均變化。
母體皮爾森相關係數被定義成 動差 ,因此任意的雙變量機率分布 是非零的,也就是說是由母體 共變異數 和邊際 母體變異數 定義的。一些機率分布,如柯西分布 的變異數未定義,因此若X 或Y 服從這種分布,ρ便是未定義的。在實際應用中,若有懷疑數據服從重尾分布 ,就需要重視這個條件。然而,相關係數的存在性通常無關緊要,例如若分布有界,則ρ必有意義。
在雙變量常態分布 的案例中,只要邊際均值和變異數是已知的,母體相關係數描述的是便是聯合分布。在其他的雙變量分布中,這個結論並不正確。總之,不論兩個隨機變數的聯合分布是不是常態的,相關係數都對研究它們之間的線性依賴性有幫助。[ 2] 樣本相關係數是對兩個常態分布變量母體相關係數的最大概似估計 ,並且是漸進 不偏 和有效率 的。換言之,如果數據是遵循常態分布,並且樣本容量不太小,就不可能構造出一個比樣本相關係數更準確的估計。對於非常態的數據,樣本相關係數大致上是不偏的,但有可能是無效的。只要樣本均值、變異數和共變異數是一致的(當大數定理 可以應用的情況下),樣本相關係數是母體相關係數的一致估計 。
與其他常用的統計指標類似,樣本指標r 不穩健 [ 22] 。因此如果由離群值 ,這個指標是有誤導性的。[ 23] [ 24] 特別地,PMCC既不是穩健分布的[來源請求] ,也不是異常值穩健的[ 22] (見穩健統計 )。觀察X 和Y 的散點圖 ,可以認出是否缺乏穩健性,在這種情況下,採用的聯合的方法是比較明智的。注意到,雖然大多數穩健的估計量,都有某程度的統計依賴 ,但總括而言,在母體相關係數的尺度上都是可辨的。
基於皮爾森相關係數的統計推論,對數據分布敏感。如果數據大致是常態分布的,可以使用精確檢定和基於費雪轉換 的漸進檢定,但是它們可能有誤導性。在一些情況下,自助採樣 可以用來構造信賴區間。同時,重複抽樣 可以應用在假說檢定中。這些無母數化 的方法在某些情況下,如不能保證是雙變量常態分布時,可能得出更有意義的結論。然而,這些方法的標準形式,依賴於數據要可交換 。這也就意味著要分析的數據沒有順序的和組別之分,否則可能會影響估計相關係數的特性。
分層分析是一種容許缺少雙變量常態性的方法,或者說是用來隔離相互關聯因素的關聯結果。如果W 代表聚類成員或者其它需要控制的因素,則可以分離基於W 的數據,然後可以再逐層計算相關係數。當控制變量W ,便能在層的等級上估計與所有相關係數相關的各自的相關係數。[ 25]
假設我們要計算關聯性的觀測數據有著不同的重要程度,表示成權值向量 w 。 利用權值向量w (總長度 n )計算向量 x 和 y 的相關係數,[ 26]
m
(
x
;
w
)
=
∑
i
w
i
x
i
∑
i
w
i
.
{\displaystyle \operatorname {m} (x;w)={\sum _{i}w_{i}x_{i} \over \sum _{i}w_{i}}.}
cov
(
x
,
y
;
w
)
=
∑
i
w
i
(
x
i
−
m
(
x
;
w
)
)
(
y
i
−
m
(
y
;
w
)
)
∑
i
w
i
.
{\displaystyle \operatorname {cov} (x,y;w)={\sum _{i}w_{i}(x_{i}-\operatorname {m} (x;w))(y_{i}-\operatorname {m} (y;w)) \over \sum _{i}w_{i}}.}
corr
(
x
,
y
;
w
)
=
cov
(
x
,
y
;
w
)
cov
(
x
,
x
;
w
)
cov
(
y
,
y
;
w
)
.
{\displaystyle \operatorname {corr} (x,y;w)={\operatorname {cov} (x,y;w) \over {\sqrt {\operatorname {cov} (x,x;w)\operatorname {cov} (y,y;w)}}}.}
我們總是可以通過一定的線性轉換去除隨機變數之間的相關性, 即便變量間的關係是非線性的。 Cox & Hinkley[ 27] 給出了在母體相關係數中的表達形式。
與此相應的,樣本相關係數也存在這樣的結論,使得樣本相關係數變為0。假設長度為 n 的隨機變數被隨機採樣 m 次。 令 X 是一個矩陣,其中
X
i
,
j
{\displaystyle X_{i,j}}
是第i 次採樣的第 j 個變量。 令
Z
m
,
m
{\displaystyle Z_{m,m}}
是一個所有元素都為1的 m * m 的方陣。 那麼 D 是轉換後的數據,使得隨機變數的均值為0, 並且 T 是轉換後的數據,使得所有的變量均值為0和與除自身外的其他變量的相關係數為0 - T 的動差作為身份矩陣。 為了得到單位變異數,還需要除以標準差。 雖然轉換後的數據有可能不是獨立的 ,但他們一定是不相關的。
D
=
X
−
1
m
Z
m
,
m
X
{\displaystyle D=X-{\frac {1}{m}}Z_{m,m}X}
T
=
D
(
D
T
D
)
−
1
2
{\displaystyle T=D(D^{T}D)^{-{\frac {1}{2}}}}
其中,指數-1/2表示矩陣置換後的矩陣方根 。T的共變異數被當做身份矩陣。如果新的樣本數據x是n個元素的向量, 那麼相同的轉換可以應用到x中以獲得轉換向量d和t:
d
=
x
−
1
m
Z
1
,
m
X
{\displaystyle d=x-{\frac {1}{m}}Z_{1,m}X}
t
=
d
(
D
T
D
)
−
1
2
{\displaystyle t=d(D^{T}D)^{-{\frac {1}{2}}}}
這個去相關性的方法被應用到多變量的主成分分析 中。
反射相關係數是皮爾森相關係數的變體,數據並不是以他們的均值為中心。[來源請求] 母體反射相關係數是
Corr
r
(
X
,
Y
)
=
E
[
X
Y
]
E
X
2
⋅
E
Y
2
.
{\displaystyle {\text{Corr}}_{r}(X,Y)={\frac {E[XY]}{\sqrt {EX^{2}\cdot EY^{2}}}}.}
反射相關係數是對稱的, 但在如下的轉換中並不是不變的
Corr
r
(
X
,
Y
)
=
Corr
r
(
Y
,
X
)
=
Corr
r
(
X
,
b
Y
)
≠
Corr
r
(
X
,
a
+
b
Y
)
,
a
≠
0
,
b
>
0.
{\displaystyle {\text{Corr}}_{r}(X,Y)={\text{Corr}}_{r}(Y,X)={\text{Corr}}_{r}(X,bY)\neq {\text{Corr}}_{r}(X,a+bY),\quad a\neq 0,b>0.}
樣本反射相關係數是
r
r
x
y
=
∑
x
i
y
i
(
∑
x
i
2
)
(
∑
y
i
2
)
.
{\displaystyle rr_{xy}={\frac {\sum x_{i}y_{i}}{\sqrt {(\sum x_{i}^{2})(\sum y_{i}^{2})}}}.}
樣本加權相關係數是
r
r
x
y
,
w
=
∑
w
i
x
i
y
i
(
∑
w
i
x
i
2
)
(
∑
w
i
y
i
2
)
.
{\displaystyle rr_{xy,w}={\frac {\sum w_{i}x_{i}y_{i}}{\sqrt {(\sum w_{i}x_{i}^{2})(\sum w_{i}y_{i}^{2})}}}.}
規模的相關性是一個變種的皮爾森相關數據的範圍限制故意以受控的方式揭示時間序列之間的快速成分的相關性。比例相關的定義是在短數據段的平均相關性。
對於給定規模S,令K為可以適應信號的總長度的段數:
K
=
S
o
u
n
d
(
T
s
)
{\displaystyle \mathbf {K} =\mathbf {Sound} \left({\frac {T}{s}}\right)}
比例相關的整個信號的rs 的計算公式為
r
s
→
=
1
K
∑
k
=
1
K
r
k
{\displaystyle {\overrightarrow {r_{s}}}={\frac {1}{K}}\sum _{k=1}^{K}r_{k}}
rs 為k的部分皮爾森相關係數。
通過對參數s的選擇,減少值的範圍和較長的時間尺度上的相關性被過濾掉,只有在很短的時間尺度上的相關性被發現。因此,慢分量的貢獻被刪除,快分量被保留。
強噪聲條件下,提取相關係數兩個隨機變數之間的是平凡的,特別是在典型相關分析報告在退化的相關值的情況下,由於存在大量噪聲。一種概括的方法在其他地方給出。
"The human disease network", Albert Barabasi et al., Plos.org
Wright, S. Correlation and causation. Journal of Agricultural Research. 1921, 20 (7): 557–585.
A. Buda and A.Jarynowski (2010) Life-time of correlations and its applications vol.1 , Wydawnictwo Niezalezne: 5–21, December 2010, ISBN 978-83-915272-9-0
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.)
Fulekar (Ed.), M.H. (2009) Bioinformatics: Applications in Life and Environmental Sciences , Springer (pp. 110) ISBN 1402088795
N.A Rahman, A Course in Theoretical Statistics; Charles Griffin and Company, 1968
Kendall, M.G., Stuart, A. (1973)The Advanced Theory of Statistics, Volume 2: Inference and Relationship , Griffin. ISBN 0852642156 (Section 31.19)
Soper, H.E., Young, A.W., Cave, B.M., Lee, A., Pearson, K. (1917). "On the distribution of the correlation coefficient in small samples. Appendix II to the papers of "Student" and R. A. Fisher. A co-operative study", Biometrika , 11, 328-413. doi:10.1093/biomet/11.4.328
Kenney, J. F. and Keeping, E. S., Mathematics of Statistics , Pt. 2, 2nd ed. Princeton, NJ: Van Nostrand, 1951.
Wilcox, Rand R. Introduction to robust estimation and hypothesis testing. Academic Press. 2005.
Cox, D.R., Hinkley, D.V. (1974) Theoretical Statistics , Chapman & Hall (Appendix 3) ISBN 0412124203