主成分分析

在多變量分析中，主成分分析（英語：Principal components analysis，縮寫：PCA）是一種統計分析、簡化數據集的方法。它利用正交轉換來對一系列可能相關的變量的觀測值進行線性轉換，從而投影為一系列線性不相關變量的值，這些不相關變量稱為主成分（Principal Components）。具體地，主成分可以看做一個線性方程，其包含一系列線性係數來指示投影方向。PCA對原始數據的正則化或預處理敏感（相對縮放）。

Thumb — 一個高斯分佈，平均值為(1, 3)，標準差在(0.878, 0.478)方向上為3、在其正交方向上為1的主成分分析。黑色的兩個向量是此分佈的協方差矩陣的特徵向量，其長度為對應的特徵值之平方根，並以分佈的平均值為原點。

基本思想：

將坐標軸中心移到數據的中心，然後旋轉坐標軸，使得數據在C1軸上的方差最大，即全部n個數據個體在該方向上的投影最為分散。意味着更多的資訊被保留下來。C1成為第一主成分。
C2第二主成分：找一個C2，使得C2與C1的協方差（相關係數）為0，以免與C1資訊重疊，並且使數據在該方向的方差儘量最大。
以此類推，找到第三主成分，第四主成分……第p個主成分。p個隨機變量可以有p個主成分^[1]。

主成分分析經常用於減少數據集的維數，同時保留數據集當中對方差貢獻最大的特徵。這是通過保留低維主成分，忽略高維主成分做到的。這樣低維成分往往能夠保留住數據的最重要部分。但是，這也不是一定的，要視具體應用而定。由於主成分分析依賴所給數據，所以數據的準確性對分析結果影響很大。

主成分分析由卡爾·皮爾森於1901年發明^[2]，用於分析數據及建立數理模型，在原理上與主軸定理（英語：Principal axis theorem）相似。之後在1930年左右由哈羅德·霍特林獨立發展並命名。依據應用領域的不同，在信號處理中它也叫做離散K-L 轉換（discrete Karhunen–Loève transform (KLT)）。其方法主要是通過對協方差矩陣進行特徵分解^[3]，以得出數據的主成分（即特徵向量）與它們的權值（即特徵值^[4]）。PCA是最簡單的以特徵量分析多元統計分佈的方法。其結果可以理解為對原數據中的方差做出解釋：哪一個方向上的數據值對方差的影響最大？換而言之，PCA提供了一種降低數據維度的有效辦法；如果分析者在原數據中除掉最小的特徵值所對應的成分，那麼所得的低維度數據必定是最優化的（也即，這樣降低維度必定是失去訊息最少的方法）。主成分分析在分析複雜數據時尤為有用，比如人臉識別。

PCA是最簡單的以特徵量分析多元統計分佈的方法。通常，這種運算可以被看作是揭露數據的內部結構，從而更好地展現數據的變異度。如果一個多元數據集是用高維數據空間之坐標系來表示的，那麼PCA能提供一幅較低維度的圖像，相當於數據集在訊息量最多之角度上的一個投影。這樣就可以利用少量的主成分讓數據的維度降低了。

PCA 跟因子分析密切相關。因子分析通常包含更多特定領域底層結構的假設，並且求解稍微不同矩陣的特徵向量。

PCA 也跟典型相關分析（CCA）有關。CCA定義的坐標系可以最佳地描述兩個數據集之間的互協方差，而PCA定義了新的正交坐標系，能最佳地描述單個數據集當中的方差。

[1]

[2]

[3]

[4]

Symbol符號	Meaning意義	Dimensions尺寸	Indices指數
$\mathbf {X} =\{X[m,n]\}$	由所有數據向量集組成的數據矩陣，一列代表一個向量	$M\times N$	$m=1\ldots M$ $n=1\ldots N$
$N\,$	數據集中列向量的個數	$1\times 1$	純量
$M\,$	每個列向量的元素個數	$1\times 1$	純量
$L\,$	子空間的維數, $1\leq L\leq M$	$1\times 1$	純量
$\mathbf {u} =\{u[m]\}$	經驗均值向量	$M\times 1$	$m=1\ldots M$
$\mathbf {s} =\{s[m]\}$	經驗標準方差向量	$M\times 1$	$m=1\ldots M$
$\mathbf {h} =\{h[n]\}$	所有的單位向量	$1\times N$	$n=1\ldots N$
$\mathbf {B} =\{B[m,n]\}$	對均值的偏離向量	$M\times N$	$m=1\ldots M$ $n=1\ldots N$
$\mathbf {Z} =\{Z[m,n]\}$	Z-分數，利用均值和標準差計算得到	$M\times N$	$m=1\ldots M$ $n=1\ldots N$
$\mathbf {C} =\{C[p,q]\}$	協方差矩陣	$M\times M$	$p=1\ldots M$ $q=1\ldots M$
$\mathbf {R} =\{R[p,q]\}$	相關矩陣	$M\times M$	$p=1\ldots M$ $q=1\ldots M$
$\mathbf {V} =\{V[p,q]\}$	C的所有特徵向量集	$M\times M$	$p=1\ldots M$ $q=1\ldots M$
$\mathbf {D} =\{D[p,q]\}$	主對角線為特徵值的對角矩陣	$M\times M$	$p=1\ldots M$ $q=1\ldots M$
$\mathbf {W} =\{W[p,q]\}$	基向量矩陣	$M\times L$	$p=1\ldots M$ $q=1\ldots L$
$\mathbf {Y} =\{Y[m,n]\}$	X 和W矩陣的投影矩陣	$L\times N$	$m=1\ldots L$ $n=1\ldots N$

主成分分析

數學定義

討論

符號和縮寫表

主成分分析的屬性和限制

主成分分析和資訊理論

使用統計方法計算PCA

組織數據集

計算經驗均值

計算平均偏差

求協方差矩陣

查找協方差矩陣的特徵值和特徵向量

參見

註釋

參考

Wikiwand - on