誤差
統計概念 来自维基百科,自由的百科全书
統計概念 来自维基百科,自由的百科全书
統計學和最佳化中,誤差(error)和殘差(residual)是兩個相近但有區別的概念,二者均是統計樣本中某一元素的觀測值與其「真值」(未必可直接觀測得到)之間的離差的度量。觀察的誤差是觀測值與相關量(例如總體平均值)的真值之間的差值。殘差是觀測值與統計量的估計值(例如樣本均值)之間的差值。這種區別在迴歸分析中至關重要,迴歸分析中,這些概念有時稱為迴歸誤差(regression errors)和迴歸殘差(regression residuals),它們引出了學生化殘差的概念。
假設有一系列取自單變量分佈的觀察結果,我們想要估計該分佈的平均值。此時,誤差是觀測值與總體均值的偏差,而殘差是觀測值與樣本均值的偏差。
統計誤差(statistical error)是觀察值與其期望值的差異程度,而期望值基於隨機選擇統計單位的總體。例如,如果21歲男性的平均身高為1.75米,而隨機選出的一名男性身高為1.80米,則「誤差」為0.05米;如果隨機選出男性人身高1.70米,則「誤差」為-0.05 米。期望值是整個總體的均值,通常是無法觀測的,因此統計誤差也無從知曉。
而殘差(residual)是對無法觀測的統計誤差的可觀測估計。在上述的男性身高的例子中,假設我們隨機抽取n個人作為樣本。樣本均值可以很好地估計總體均值。此時:
注意,由於樣本均值的定義,隨機樣本內的殘差之和必然為零,因此殘差必然不是相互獨立的。而統計誤差是獨立的,它們在隨機樣本中的總和幾乎肯定不為零。
統計誤差(尤其是正態分佈的)的數值可以用標準分數(或「z分數」)來標準化,而殘差可以用t統計量,或更一般的學生化殘差來標準化。
假定有一個均值為μ、標準差為σ的正態分佈總體,從中隨機選擇個體,得到樣本:
其樣本均值為
它是一個隨機變量分佈,服從:
其統計誤差為:
統計誤差的平方和除以σ2,得到自由度為n的卡方分佈:
然而,因為總體均值未知,這個數量是不可觀測的。但是,殘差的平方和是可觀測的。該總和除以σ2的商是n - 1自由度的卡方分佈:
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.