迴歸分析 - Wikiwand

回归分析（英语：Regression Analysis）是一种统计学上分析数据的方法，目的在于了解两个或多个变数间是否相关、相关方向与强度，并建立数学模型以便观察特定变数来预测研究者感兴趣的变数。更具体的来说，回归分析可以帮助人们了解在只有一个自变量变化时因变量的变化量。一般来说，通过回归分析我们可以由给出的自变量估计因变量的条件期望。

本条目存在以下问题，请协助改善本条目或在讨论页针对议题发表看法。

此条目需要扩充。 (2018年11月8日)

此条目需要精通或熟悉相关主题的编者参与及协助编辑。 (2018年11月8日)

此条目需要补充更多来源。 (2018年11月8日)

回归分析是建立被解释变数 $Y$ （或称应变数、依变数、反应变数）与解释变数 $X$ （或称自变数、独立变数）之间关系的模型。简单线性回归使用一个自变量 $X$ ，复回归使用超过一个自变量（ $X_{1},X_{2}...X_{i}$ ）。

回归模型主要包括以下变量：

未知参数，记为 $\beta$ ，可以代表一个标量或一个向量。
自变量， $\mathbf {X}$ 。
因变量， $Y$ 。

回归模型将 $Y$ 和一个关于 $\mathbf {X}$ 和 $\beta$ 的函数关联起来。

在不同的应用领域有各自不同的术语代替这里的“自变量”和“因变量”。

Y\approx f(\mathbf {X} ,{\boldsymbol {\beta }})

这个估计值通常写作: $E(X|Y)=f(\mathbf {X} ,{\boldsymbol {\beta }})$ 。

在进行回归分析时，函数 $f$ 的形式必须预先指定。有时函数 $f$ 的形式是在对 $Y$ 和 $\mathbf {X}$ 关系的已有知识上建立的，而不是在数据的基础之上。如果没有这种已有知识，那么就要选择一个灵活和便于回归的 $f$ 的形式。

假设现在未知向量 $\beta$ 的维数为k。为了进行回归分析，必须要先有关于 $Y$ 的信息：

如果以 $(Y,\mathbf {X} )$ 的形式给出了 $N$ 个数据点，当 $N<k$ 时，大多数传统的回归分析方法都不能进行，因为数据量不够导致回归模型的系统方程不能完全确定 $\beta$ 。
如果恰好有 $N=k$ 个数据点，并且函数 $f$ 的形式是线性的，那么方程 $Y=f(\mathbf {X} ,{\boldsymbol {\beta }})$ 能精确求解。这相当于解一个有 $N$ 个未知量和 $N$ 个方程的方程组。在 $\mathbf {X}$ 线性无关的情况下，这个方程组有唯一解。但如果 $f$ 是非线性形式的，解可能有多个或不存在。
实际中 $N>k$ 的情况占大多数。这种情况下，有足够的信息用于估计一个与数据最接近的 $\beta$ 值，这时当回归分析应用于这些数据时，可以看作是解一个关于 $\beta$ 的超定方程（英语：Overdetermined system）。