統計學中,典型相關分析(英語:Canonical Correlation Analysis)是對互協方差矩陣的一種理解。如果我們有兩個隨機變量向量 X = (X1, ..., Xn) 和 Y = (Y1, ..., Ym) 並且它們是相關的,那麼典型相關分析會找出 XiYj 的相互相關最大的線性組合。[1]T·R·Knapp指出「幾乎所有常見的參數測試的意義可視為特殊情況的典型相關分析,這是研究兩組變量之間關係的一般步驟。」[2] 這個方法在1936年由哈羅德·霍特林首次引入。[3]

給定兩個隨機向量,我們可以定義互協方差矩陣 矩陣,其中 協方差 。實際上,我們可以基於 的採樣數據來估計協方差矩陣。(如從一對數據矩陣)。

典型相關分析求出向量 使得隨機變量 相關 最大。隨機變量 第一對典型變量。然後尋求一個依然最大化相關但與第一對典型變量不相關的向量;這樣就得到了 第二對典型變量。 這個步驟會進行 次。

計算

推導

。需要最大化的參數為

第一步是定義一個基變更以及

因此我們有

根據柯西-施瓦茨不等式,我們有

如果向量 共線,那麼上式相等。此外,如果 是矩陣 (見Rayleigh quotient) 最大特徵值對應的特徵向量,那麼就可以得到相關的最大值。隨後的典型變量對可以通過減少特徵值的量級來得到。正交性保證了相關矩陣的對稱性。

解法

因此解法是:

  • 的一個特徵向量。
  • 的比例項。

相反地,也有:

  • 的一個特徵向量。
  • 的比例項。

把坐標反過來,我們有

  • 的一個特徵向量。
  • 的一個特徵向量。
  • 的比例項。
  • 的比例項。

那麼相關變量定義為:

實現

典型相關分析可以用一個相關矩陣的奇異值分解來解決。[4] 以下是它在一些語言中的函數 [5]

假設檢定

每一行可以用下面的方法檢測其重要性。由於相關是排好序的,也就是說行 為 0 意味着所有後續的相關都為 0。如果我們在一個樣本中有 個獨立觀測,對 是其估計相關。對第 行,測試統計為:

上面漸近為一個對大 自由度卡方分佈[6] 由於所有從 的相關從邏輯上來說都是 0,所以在這一點之後的乘積都是不相關的。

實際運用

例子

與principal angles的連接

參見

  • Generalized Canonical Correlation
  • Multilinear subspace learning
  • RV coefficient
  • Principal angles
  • 主成分分析
  • Regularized canonical correlation analysis
  • 奇異值分解
  • Partial least squares regression

參考文獻

外部連結

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.