![cover image](https://wikiwandv2-19431.kxcdn.com/_next/image?url=https://upload.wikimedia.org/wikipedia/commons/thumb/3/3a/Linear_regression.svg/langzh-cn-640px-Linear_regression.svg.png&w=640&q=50)
误差
統計概念 / 维基百科,自由的 encyclopedia
统计学和最优化中,误差(error)和残差(residual)是两个相近但有区别的概念,二者均是统计样本中某一元素的观测值(英语:observed value)与其“真值”(未必可直接观测得到)之间的离差的度量。观察的误差是观测值与相关量(例如总体平均值)的真值之间的差值。残差是观测值与统计量的估计值(例如样本均值)之间的差值。这种区别在回归分析中至关重要,回归分析中,这些概念有时称为回归误差(regression errors)和回归残差(regression residuals),它们引出了学生化残差(英语:studentized residual)的概念。
计量经济学中,误差也称为扰动(disturbances)。[1][2][3]
简介
假设有一系列取自单变量分布(英语:univariate distribution)的观察结果,我们想要估计该分布的平均值。此时,误差是观测值与总体均值的偏差,而残差是观测值与样本均值的偏差。
统计误差(statistical error)是观察值与其期望的差异程度,而期望基于随机选择统计单位的总体。例如,如果21岁男性的平均身高为1.75米,而随机选出的一名男性身高为1.80米,则“误差”为0.05米;如果随机选出男性人身高1.70米,则“误差”为-0.05 米。期望是整个总体的均值,通常是无法观测的,因此统计误差也无从知晓。
而残差(residual)是对无法观测的统计误差的可观测估计。在上述的男性身高的例子中,假设我们随机抽取n个人作为样本。样本均值可以很好地估计总体均值。此时:
- 样本中每个人的身高与无法观测的总体均值之间的差值是统计误差,
- 样本中每个人的身高与可观测的样本均值之间的差值是残差。
注意,由于样本均值的定义,随机样本内的残差之和必然为零,因此残差必然不是相互独立的。而统计误差是独立的,它们在随机样本中的总和几乎肯定不为零。
统计误差(尤其是正态分布的)的数值可以用标准分数(或“z分数”)来标准化,而残差可以用t统计量(英语:t-statistic),或更一般的学生化残差(英语:studentized residuals)来标准化。
单变量分布
假定有一个均值为μ、标准差为σ的正态分布总体,从中随机选择个体,得到样本:
其样本均值为
它是一个随机变量分布,服从:
其统计误差为:
统计误差的平方和除以σ2,得到自由度为n的卡方分布:
然而,因为总体均值未知,这个数量是不可观测的。但是,残差的平方和是可观测的。该总和除以σ2的商是n - 1自由度的卡方分布:
自由度为n和n - 1之间的区别是对总体(均值、方差未知)的方差估计值的贝塞尔校正(英语:Bessel's correction)。若总体均值已知,则无需进行校正。
参见
- 离差
- 错误检测与纠正
- 误差范围
- 平均绝对误差
- 测量误差
- 误差传播
- 概然误差(英语:Probable error)
- 回归稀释偏倚(英语:Regression dilution)
- 均方根误差
- 抽样误差
- 标准误差
- 学生化残差(英语:Studentized residual)
- 第一类错误与第二类错误
参考文献
- Kennedy, P. A Guide to Econometrics. Wiley. 2008: 576 [2022-05-13]. ISBN 978-1-4051-8257-7. (原始内容存档于2022-07-12).
- Wooldridge, J.M. Introductory Econometrics: A Modern Approach. Cengage Learning. 2019: 57 [2022-05-13]. ISBN 978-1-337-67133-0. (原始内容存档于2022-07-12).
- Das, P. Econometrics in Theory and Practice: Analysis of Cross Section, Time Series and Panel Data with Stata 15.1. Springer Singapore. 2019: 7 [2022-05-13]. ISBN 978-981-329-019-8. (原始内容存档于2022-07-12).
- Wetherill, G. Barrie. Intermediate statistical methods
. London: Chapman and Hall. 1981. ISBN 0-412-16440-X. OCLC 7779780. 含有内容需登入查看的页面 (link)
- Cook, R. Dennis; Weisberg, Sanford. Residuals and Influence in Regression. Repr. New York: Chapman and Hall. 1982 [23 February 2013]. ISBN 041224280X. (原始内容存档于2022-04-06).
- Cox, David R.; Snell, E. Joyce. A general definition of residuals. Journal of the Royal Statistical Society, Series B. 1968, 30 (2): 248–275. JSTOR 2984505.
- Weisberg, Sanford. Applied Linear Regression 2nd. New York: Wiley. 1985 [23 February 2013]. ISBN 9780471879572. (原始内容存档于2022-07-12).
- Hazewinkel, Michiel (编), Errors, theory of, 数学百科全书, Springer, 2001, ISBN 978-1-55608-010-4