在統計學 中,簡單線性迴歸 是指僅具有單一的自變量 的線性迴歸 [ 1] [ 2] [ 3] [ 4] [ 5] ,其中「簡單」係單一自變量之意。此迴歸可用於估計有限的截距 與斜率 以推論應變量 在特定自變量為條件下的均值 。
奧肯法則 在宏觀經濟學 是簡單線性迴歸的實例。圖中應變量 (經濟增長率)被推論為與自變量 (失業率變動)存在負向的線性關係。
普通最小平方法 是常見用於尋求簡單線性迴歸式的方法,目的是得到能使殘差平方和 最小的迴歸式。其它方法,諸如最小絕對偏差 (使殘差絕對值的總和最小)、泰爾-森估算 (所有樣本點兩兩配對的斜率中位數做為整體斜率)等,亦可應用於簡單線性迴歸的命題。戴明迴歸 (考慮自變量與應變量同時為誤差來源)的功能雖然與上述方法相似但不屬於簡單線性迴歸的範疇,因其不區分自變量與應變量且可能得到多個迴歸式。
以最小平方法處理簡單線性迴歸,則求得的斜率β 等於自變量x 與應變量y 的皮爾森積動差相關系數 與二者的標準偏差 比值的乘積,
β
^
=
r
x
,
y
s
y
s
x
{\displaystyle {\hat {\beta }}=r_{x,y}{\frac {s_{y}}{s_{x}}}}
而再考慮截距α 則保證使迴歸線通過自變量與應變量的均值 (x , y ) 。
以下皆以普通最小平方法求解簡單線性迴歸式。考慮以下的數學模型 函數
y
=
α
+
β
x
{\displaystyle y=\alpha +\beta x}
,
是一條斜率 為β 且y軸截距 為α 的直線。通常實際上自變量與應變量並非如此完美的關係而存在未知的誤差 εi ,即
y
i
=
α
+
β
x
i
+
ε
i
,
i
=
1
,
…
,
n
{\displaystyle y_{i}=\alpha +\beta x_{i}+\varepsilon _{i},i=1,\ldots ,n}
,
以表示第
i
{\displaystyle i}
對資料中自變量與應變量的關係。此模型稱為簡單線性模型。
計算迴歸式的目標是根據資料計算估計值
α
^
{\displaystyle {\hat {\alpha }}}
與
β
^
{\displaystyle {\hat {\beta }}}
以「最佳地」估計參數α 與β 。由於採用最小平方法 進行計算,「最佳」係指能使殘差平方和
ε
^
i
=
y
i
−
α
−
β
x
i
{\displaystyle {\hat {\varepsilon }}_{i}=y_{i}-\alpha -\beta x_{i}}
最小的參數估計值為目標。換句話說,我們尋求能使Q 函數值最小的解,
Q
(
α
,
β
)
=
∑
i
=
1
n
ε
^
i
2
=
∑
i
=
1
n
(
y
i
−
α
−
β
x
i
)
2
{\displaystyle Q(\alpha ,\beta )=\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}^{\,2}=\sum _{i=1}^{n}(y_{i}-\alpha -\beta x_{i})^{2}}
。
此解為
α
^
{\displaystyle {\hat {\alpha }}}
與
β
^
{\displaystyle {\hat {\beta }}}
[ 6] ,
α
^
=
y
¯
−
(
β
^
x
¯
)
,
β
^
=
∑
i
=
1
n
(
x
i
−
x
¯
)
(
y
i
−
y
¯
)
∑
i
=
1
n
(
x
i
−
x
¯
)
2
=
s
x
,
y
s
x
2
=
r
x
y
s
y
s
x
{\textstyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-({\hat {\beta }}\,{\bar {x}}),\\{\hat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\\&={\frac {s_{x,y}}{s_{x}^{2}}}\\&=r_{xy}{\frac {s_{y}}{s_{x}}}\end{aligned}}}
其中
x
¯
{\displaystyle {\bar {x}}}
與
y
¯
{\displaystyle {\bar {y}}}
分別為x i 與y i 的計數平均數 ,r xy 為x 與y 的皮爾森積動差相關系數 ,s x 與sy 分別為x 與y 的樣本標準偏差 ,
s
x
2
{\displaystyle s_{x}^{2}}
與
s
x
,
y
{\displaystyle s_{x,y}}
分別為x 的樣本方差 及x 與y 間的樣本協方差 。
將
α
^
{\displaystyle {\hat {\alpha }}}
與
β
^
{\displaystyle {\hat {\beta }}}
帶入
y
^
=
α
^
+
β
^
x
{\displaystyle {\hat {y}}={\hat {\alpha }}+{\hat {\beta }}x}
可得
y
^
−
y
¯
s
y
=
r
x
y
x
−
x
¯
s
x
{\displaystyle {\frac {{\hat {y}}-{\bar {y}}}{s_{y}}}=r_{xy}{\frac {x-{\bar {x}}}{s_{x}}}}
。
此式呈現了r xy 為預先將自變量與應變量預先標準化 後的迴歸斜率。由於r xy 界於-1 與1 之間,左式的絕對值勢必不大於右式,體現了趨中迴歸 的現象。
以
x
y
¯
{\displaystyle {\overline {xy}}}
表示對應的x 與y 的乘積和,
x
y
¯
=
1
n
∑
i
=
1
n
x
i
y
i
{\displaystyle {\overline {xy}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}y_{i}}
,
可使r xy 簡化成
r
x
y
=
x
y
¯
−
x
¯
y
¯
(
x
2
¯
−
x
¯
2
)
(
y
2
¯
−
y
¯
2
)
{\displaystyle r_{xy}={\frac {{\overline {xy}}-{\bar {x}}{\bar {y}}}{\sqrt {\left({\overline {x^{2}}}-{\bar {x}}^{2}\right)\left({\overline {y^{2}}}-{\bar {y}}^{2}\right)}}}}
。
簡單線性迴歸的判定系數 即為二變量間皮爾森積動差相關系數 的平方:
R
2
=
r
x
y
2
{\displaystyle R^{2}=r_{xy}^{2}}
。
Kenney, J. F. and Keeping, E. S. (1962) "Linear Regression and Correlation." Ch. 15 in Mathematics of Statistics , Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 252–285