误差

统计学和最优化中，误差（error）和残差（residual）是两个相近但有区别的概念，二者均是统计样本中某一元素的观测值（英语：observed value）与其“真值”（未必可直接观测得到）之间的离差的度量。观察的误差是观测值与相关量（例如总体平均值）的真值之间的差值。残差是观测值与统计量的估计值（例如样本均值）之间的差值。这种区别在回归分析中至关重要，回归分析中，这些概念有时称为回归误差（regression errors）和回归残差（regression residuals），它们引出了学生化残差（英语：studentized residual）的概念。

计量经济学中，误差也称为扰动（disturbances）。^[1]^[2]^[3]

简介

假设有一系列取自单变量分布（英语：univariate distribution）的观察结果，我们想要估计该分布的平均值。此时，误差是观测值与总体均值的偏差，而残差是观测值与样本均值的偏差。

统计误差（statistical error）是观察值与其期望的差异程度，而期望基于随机选择统计单位的总体。例如，如果21岁男性的平均身高为1.75米，而随机选出的一名男性身高为1.80米，则“误差”为0.05米；如果随机选出男性人身高1.70米，则“误差”为-0.05 米。期望是整个总体的均值，通常是无法观测的，因此统计误差也无从知晓。

而残差（residual）是对无法观测的统计误差的可观测估计。在上述的男性身高的例子中，假设我们随机抽取n个人作为样本。样本均值可以很好地估计总体均值。此时：

样本中每个人的身高与无法观测的总体均值之间的差值是统计误差，
样本中每个人的身高与可观测的样本均值之间的差值是残差。

注意，由于样本均值的定义，随机样本内的残差之和必然为零，因此残差必然不是相互独立的。而统计误差是独立的，它们在随机样本中的总和几乎肯定不为零。

统计误差（尤其是正态分布的）的数值可以用标准分数（或“z分数”）来标准化，而残差可以用t统计量（英语：t-statistic），或更一般的学生化残差（英语：studentized residuals）来标准化。

单变量分布

假定有一个均值为 $μ$ 、标准差为 $σ$ 的正态分布总体，从中随机选择个体，得到样本：

X_{1},\dots ,X_{n}\sim N\left(\mu ,\sigma ^{2}\right)\,

其样本均值为

{\overline {X}}={X_{1}+\cdots +X_{n} \over n}

它是一个随机变量分布，服从：

{\overline {X}}\sim N\left(\mu ,{\frac {\sigma ^{2}}{n}}\right).

其统计误差为：

e_{i}=X_{i}-\mu ,\,

其期望为0，^[4]而残差为：

r_{i}=X_{i}-{\overline {X}}.

统计误差的平方和除以 $σ 2$ ，得到自由度为 $n$ 的卡方分布：

{\frac {1}{\sigma ^{2}}}\sum _{i=1}^{n}e_{i}^{2}\sim \chi _{n}^{2}.

然而，因为总体均值未知，这个数量是不可观测的。但是，残差的平方和是可观测的。该总和除以 $σ 2$ 的商是 $n - 1$ 自由度的卡方分布：

{\frac {1}{\sigma ^{2}}}\sum _{i=1}^{n}r_{i}^{2}\sim \chi _{n-1}^{2}.

自由度为 $n$ 和 $n - 1$ 之间的区别是对总体（均值、方差未知）的方差估计值的贝塞尔校正（英语：Bessel's correction）。若总体均值已知，则无需进行校正。

参见

参考文献

[1]
Kennedy, P. A Guide to Econometrics. Wiley. 2008: 576 [2022-05-13]. ISBN 978-1-4051-8257-7. （原始内容存档于2022-07-12）.
[2]
Wooldridge, J.M. Introductory Econometrics: A Modern Approach. Cengage Learning. 2019: 57 [2022-05-13]. ISBN 978-1-337-67133-0. （原始内容存档于2022-07-12）.
[3]
Das, P. Econometrics in Theory and Practice: Analysis of Cross Section, Time Series and Panel Data with Stata 15.1. Springer Singapore. 2019: 7 [2022-05-13]. ISBN 978-981-329-019-8. （原始内容存档于2022-07-12）.
[4]
Wetherill, G. Barrie. Intermediate statistical methods. London: Chapman and Hall. 1981. ISBN 0-412-16440-X. OCLC 7779780.

Cook, R. Dennis; Weisberg, Sanford. Residuals and Influence in Regression. Repr. New York: Chapman and Hall. 1982 [23 February 2013]. ISBN 041224280X. （原始内容存档于2022-04-06）.
Cox, David R.; Snell, E. Joyce. A general definition of residuals. Journal of the Royal Statistical Society, Series B. 1968, 30 (2): 248–275. JSTOR 2984505.
Weisberg, Sanford. Applied Linear Regression 2nd. New York: Wiley. 1985 [23 February 2013]. ISBN 9780471879572. （原始内容存档于2022-07-12）.
Hazewinkel, Michiel (编), Errors, theory of, 数学百科全书, Springer, 2001, ISBN 978-1-55608-010-4

外部链接

维基共享资源上的相关多媒体资源：误差

[Kennedy_2008_p._576-1] [1]
Kennedy, P. A Guide to Econometrics. Wiley. 2008: 576 [2022-05-13]. ISBN 978-1-4051-8257-7. （原始内容存档于2022-07-12）.

[Wooldridge_2019_p._57-2] [2]
Wooldridge, J.M. Introductory Econometrics: A Modern Approach. Cengage Learning. 2019: 57 [2022-05-13]. ISBN 978-1-337-67133-0. （原始内容存档于2022-07-12）.

[Das_2019_p._7-3] [3]
Das, P. Econometrics in Theory and Practice: Analysis of Cross Section, Time Series and Panel Data with Stata 15.1. Springer Singapore. 2019: 7 [2022-05-13]. ISBN 978-981-329-019-8. （原始内容存档于2022-07-12）.

[4] [4]
Wetherill, G. Barrie. Intermediate statistical methods. London: Chapman and Hall. 1981. ISBN 0-412-16440-X. OCLC 7779780.

[1]

[2]

[3]

[4]