迴歸分析 - Wikiwand

迴歸分析（英語：Regression Analysis）是一種統計學上分析數據的方法，目的在於了解兩個或多個變量間是否相關、相關方向與強度，並建立數學模型以便觀察特定變量來預測研究者感興趣的變量。更具體的來說，回歸分析可以幫助人們了解在只有一個自變量變化時應變量的變化量。一般來說，通過回歸分析我們可以由給出的自變量估計應變量的條件期望值。

本條目存在以下問題，請協助改善本條目或在討論頁針對議題發表看法。

此條目需要擴充。 (2018年11月8日)

此條目需要精通或熟悉相關主題的編者參與及協助編輯。 (2018年11月8日)

此條目需要補充更多來源。 (2018年11月8日)

迴歸分析是建立被解釋變量 $Y$ （或稱應變量、依變量、反應變量）與解釋變量 $X$ （或稱自變量、獨立變量）之間關係的模型。簡單線性回歸使用一個自變量 $X$ ，複迴歸使用超過一個自變量（ $X_{1},X_{2}...X_{i}$ ）。

回歸模型主要包括以下變量：

未知母數，記為 $\beta$ ，可以代表一個純量或一個向量。
自變量， $\mathbf {X}$ 。
應變量， $Y$ 。

回歸模型將 $Y$ 和一個關於 $\mathbf {X}$ 和 $\beta$ 的函數關聯起來。

在不同的應用領域有各自不同的術語代替這裏的「自變量」和「應變量」。

Y\approx f(\mathbf {X} ,{\boldsymbol {\beta }})

這個估計值通常寫作: $E(X|Y)=f(\mathbf {X} ,{\boldsymbol {\beta }})$ 。

在進行回歸分析時，函數 $f$ 的形式必須預先指定。有時函數 $f$ 的形式是在對 $Y$ 和 $\mathbf {X}$ 關係的已有知識上建立的，而不是在數據的基礎之上。如果沒有這種已有知識，那麼就要選擇一個靈活和便於回歸的 $f$ 的形式。

假設現在未知向量 $\beta$ 的維數為k。為了進行回歸分析，必須要先有關於 $Y$ 的資訊：

如果以 $(Y,\mathbf {X} )$ 的形式給出了 $N$ 個數據點，當 $N<k$ 時，大多數傳統的回歸分析方法都不能進行，因為數據量不夠導致回歸模型的系統方程不能完全確定 $\beta$ 。
如果恰好有 $N=k$ 個數據點，並且函數 $f$ 的形式是線性的，那麼方程 $Y=f(\mathbf {X} ,{\boldsymbol {\beta }})$ 能精確求解。這相當於解一個有 $N$ 個未知量和 $N$ 個方程的方程組。在 $\mathbf {X}$ 線性無關的情況下，這個方程組有唯一解。但如果 $f$ 是非線性形式的，解可能有多個或不存在。
實際中 $N>k$ 的情況佔大多數。這種情況下，有足夠的資訊用於估計一個與數據最接近的 $\beta$ 值，這時當回歸分析應用於這些數據時，可以看作是解一個關於 $\beta$ 的超定方程（英語：Overdetermined system）。