在统计学中,线性回归(英語:linear regression)是利用称为线性回归方程的最小平方函數对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归(multivariable linear regression)。[1]
在线性迴归中,数据使用线性预测函数来建模,并且未知的模型参数也是通过数据来估计。这些模型被叫做线性模型。[2]最常用的线性迴归建模是给定X值的y的条件均值是X的仿射函数。不太一般的情况,线性迴归模型可以是一个中位数或一些其他的给定X的条件下y的条件分布的分位数作为X的线性函数表示。像所有形式的迴归分析一样,线性迴归也把焦点放在给定X值的y的条件概率分布,而不是X和y的联合概率分布(多元分析领域)。
线性迴归是迴归分析中第一种经过严格研究并在实际应用中广泛使用的类型。[3]这是因为线性依赖于其未知参数的模型比非线性依赖于其未知参数的模型更容易拟合,而且产生的估计的统计特性也更容易确定。
线性迴归有很多实际用途。分为以下两大类:
- 如果目标是预测或者映射,线性迴归可以用来对观测数据集的和X的值拟合出一个预测模型。当完成这样一个模型以后,对于一个新增的X值,在没有给定与它相配对的y的情况下,可以用这个拟合过的模型预测出一个y值。
- 给定一个变量y和一些变量,...,,这些变量有可能与y相关,线性迴归分析可以用来量化y与Xj之间相关性的强度,评估出与y不相关的,并识别出哪些的子集包含了关于y的冗余信息。
线性迴归模型经常用最小二乘逼近来拟合,但他们也可能用别的方法来拟合,比如用最小化“拟合缺陷”在一些其他规范里(比如最小绝对误差迴归),或者在桥迴归中最小化最小二乘损失函数的惩罚。相反,最小二乘逼近可以用来拟合那些非线性的模型。因此,尽管“最小二乘法”和“线性模型”是紧密相连的,但他们是不能划等号的。
線性迴歸的「迴歸」指的是迴歸到平均值。
給一個随機樣本,一個線性迴歸模型假設迴歸子和迴歸量之間的關係是除了X的影響以外,還有其他的變數存在。我們加入一個誤差項(也是一個随機變量)來捕獲除了之外任何對的影響。所以一個多變量線性迴歸模型表示為以下的形式:
其他的模型可能被認定成非線性模型。一個線性迴歸模型不需要是自變量的線性函數。線性在這裡表示的條件均值在參數裡是線性的。例如:模型在和裡是線性的,但在裡是非線性的,它是的非線性函數。
區分随機變量和這些變量的觀測值是很重要的。通常來說,觀測值或數據(以小寫字母表記)包括了n個值 .
我們有個參數需要決定,為了估計這些參數,使用矩陣表記是很有用的。
其中Y是一個包括了觀測值的列向量,包括了未觀測的随機成份以及迴歸量的觀測值矩陣:
X通常包括一個常數項。
如果X列之間存在線性相關,那麽參數向量就不能以最小二乘法估計除非被限制,比如要求它的一些元素之和為0。
- 樣本是在母體之中随機抽取出來的。
- 因變量Y在實直線上是連續的,
- 殘差項是獨立且相同分佈的(iid),也就是說,殘差是独立随机的,且服從高斯分佈。
這些假設意味著殘差項不依賴自變量的值,所以和自變量X(预測變量)之間是相互獨立的。
在這些假設下,建立一個顯式線性迴歸作為條件预期模型的簡單線性迴歸,可以表示為:
迴歸分析的最初目的是估計模型的參數以便達到對數據的最佳拟合。在決定一個最佳拟合的不同標準之中,最小二乘法是非常優越的。這種估計可以表示為:
對於每一個,我們用代表誤差項的方差。一個無偏誤的估計是:
其中是誤差平方和(殘差平方和)。估計值和實際值之間的關係是:
其中服從卡方分佈,自由度是
對普通方程的解可以寫為:
這表示估計項是因變量的線性組合。進一步地說,如果所觀察的誤差服從正態分佈。參數的估計值將服從聯合正態分佈。在當前的假設之下,估計的參數向量是精確分佈的。
其中表示多變量正態分佈。
參數估計值的標準差是:
參數的置信區間可以用以下式子來計算:
誤差項可以表示為:
單變量線性迴歸,又稱簡單線性迴歸(simple linear regression, SLR),是最簡單但用途很廣的迴歸模型。其迴歸式為:
為了從一組樣本(其中)之中估計最合適(誤差最小)的和,通常採用最小二乘法,其計算目標為最小化殘差平方和:
使用微分法求極值:將上式分别對和做一階偏微分,並令其等於0:
此二元一次線性方程組可用克萊姆法則求解,得解:
協方差矩陣是:
平均響應置信區間為:
預報響應置信區間為:
在方差分析(ANOVA)中,總平方和分解為兩個或更多部分。
總平方和SST (sum of squares for total) 是:
- ,其中:
同等地:
迴歸平方和SSReg (sum of squares for regression。也可寫做模型平方和,SSM,sum of squares for model) 是:
殘差平方和SSE (sum of squares for error) 是:
總平方和SST又可寫做SSReg和SSE的和:
迴歸係數R2是:
廣義最小二乘法可以用在當觀測誤差具有異方差或者自相關的情況下。
將平均絕對誤差最小化,不同於在線性回歸中是將均方誤差最小化。
一條趨勢線代表著時間序列數據的長期走勢。它告訴我們一組特定數據(如GDP、石油價格和股票價格)是否在一段時期内增長或下降。雖然我們可以用肉眼觀察數據點在坐標系的位置大體畫出趨勢線,更恰當的方法是利用線性回歸計算出趨勢線的位置和斜率。
有关吸烟对死亡率和发病率影响的早期证据来自采用了回归分析的观察性研究。为了在分析观测数据时减少伪相关,除最感兴趣的变量之外,通常研究人员还会在他们的回归模型里包括一些额外变量。例如,假设有一个回归模型,在这个回归模型中吸烟行为是我们最感兴趣的独立变量,其相关变量是经数年观察得到的吸烟者寿命。研究人员可能将社会经济地位当成一个额外的独立变量,已确保任何经观察所得的吸烟对寿命的影响不是由于教育或收入差异引起的。然而,我们不可能把所有可能混淆结果的变量都加入到实证分析中。例如,某种不存在的基因可能会增加人死亡的几率,还会让人的吸烟量增加。因此,比起采用观察数据的回归分析得出的结论,随机对照试验常能产生更令人信服的因果关系证据。当可控实验不可行时,回归分析的衍生,如工具变量回归,可尝试用来估计观测数据的因果关系。
資本資產定價模型利用線性回歸以及Beta係數的概念分析和計算投資的系統風險。這是從聯繫投資回報和所有風險性資產回報的模型Beta係數直接得出的。
线性回归是经济学的主要实证工具。例如,它是用来预测消费支出,[4]固定投资支出,存货投资,一国出口产品的购买,[5]进口支出,[5]要求持有流动性资产,[6]劳动力需求、[7]劳动力供给。[7]