迴歸分析(英語:Regression Analysis)是一種統計學上分析數據的方法,目的在於了解兩個或多個變數間是否相關、相關方向與強度,並建立數學模型以便觀察特定變數來預測研究者感興趣的變數。更具體的來說,回歸分析可以幫助人們了解在只有一個自變量變化時應變量的變化量。一般來說,通過回歸分析我們可以由給出的自變量估計應變量的條件期望值。
迴歸分析是建立被解釋變數(或稱應變量、依變數、反應變量)與解釋變數(或稱自變量、獨立變數)之間關係的模型。簡單線性回歸使用一個自變量,複迴歸使用超過一個自變量()。
起源
回歸的最早形式是最小平方法,由1805年的勒壤得(Legendre)[1],和1809年的高斯(Gauss)出版[2]。勒壤得和高斯都將該方法應用於從天文觀測中確定關於太陽的物體的軌道(主要是彗星,但後來是新發現的小行星)的問題。 高斯在1821年發表了最小平方理論的進一步發展[3],包括高斯-馬可夫定理的一個版本。
「迴歸」一詞最早由法蘭西斯·高爾頓(Francis Galton)所使用[4][5]。他曾對親子間的身高做研究,發現父母的身高雖然會遺傳給子女,但子女的身高卻有逐漸「回歸到中等(即人的平均值)」的現象。不過現在的迴歸已經和當初的意義不盡相同。
在1950年代和60年代,經濟學家使用機械電子桌面計算器來計算回歸。在1970年之前,這種計算方法有時需要長達24小時才能得出結果[6]。
迴歸分析原理
- 目的在於找出一條最能夠代表所有觀測資料的函數曲線(迴歸估計式)。
- 用此函數代表因變數和自變量之間的關係。
回歸模型
回歸模型主要包括以下變量:
回歸模型將和一個關於和的函數關聯起來。
在不同的應用領域有各自不同的術語代替這裏的「自變量」和「應變量」。
這個估計值通常寫作:。
在進行回歸分析時,函數的形式必須預先指定。有時函數的形式是在對和關係的已有知識上建立的,而不是在數據的基礎之上。如果沒有這種已有知識,那麼就要選擇一個靈活和便於回歸的的形式。
假設現在未知向量的維數為k。為了進行回歸分析,必須要先有關於的資訊:
- 如果以的形式給出了個數據點,當時,大多數傳統的回歸分析方法都不能進行,因為數據量不夠導致回歸模型的系統方程不能完全確定。
- 如果恰好有個數據點,並且函數的形式是線性的,那麼方程能精確求解。這相當於解一個有個未知量和個方程的方程組。在線性無關的情況下,這個方程組有唯一解。但如果是非線性形式的,解可能有多個或不存在。
- 實際中的情況佔大多數。這種情況下,有足夠的資訊用於估計一個與數據最接近的值,這時當回歸分析應用於這些數據時,可以看作是解一個關於的超定方程。
在最後一種情況下,回歸分析提供了一種完成以下任務的工具: ⒈找出一個未知量的解使應變量的預測值和實際值差別最小(又稱最小平方法)。
⒉在特定統計假設下,回歸分析使用數據中的多餘資訊給出關於應變量和未知量之間的關係。
迴歸分析的種類
簡單線性迴歸(英語:simple linear regression)
- 應用時機
- 以單一變數預測
- 判斷兩變數之間相關的方向和程度
複回歸分析(英語:multiple regression analysis)是簡單線性迴歸的一種延伸應用,用以瞭解一個依變項與兩組以上自變項的函數關係。
對數線性迴歸(英語:Log-linear model),是將解釋變項(實驗設計中的自變項)和反應變項(實驗設計中的依變項)都取對數值之後再進行線性迴歸,所以依據解釋變項的數量,可能是對數簡單線性迴歸,也可能是對數複迴歸。
對數幾率回歸(英語:Logistic Regression)
偏迴歸(英語:Partial Regression)
用於研究單個自變量對因變數的影響,同時控制其他自變量的影響。它通常應用在多元迴歸模型中,以解決自變量之間存在共線性時的問題,或者用於探索自變量之間的相互作用。
參閱
參考資料
外部連結
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.