Remove ads
統計學名詞 来自维基百科,自由的百科全书
標準誤差(英語:standard error),也稱標準誤,即樣本平均數抽樣分佈的標準差(standard deviation),是描述對應的樣本平均數抽樣分布的離散程度及衡量對應樣本平均數抽樣誤差大小的尺度[1]。
標準誤差針對樣本統計量而言,是某個樣本統計量的標準差。當談及標準誤差時,一般須指明對應的樣本統計量才有意義。以下以樣本均值(樣本均值是一種樣本統計量)作為例子:
例如, 樣本均值是總體均值的無偏估計。但是,來自同一總量的不同樣本可能有不同的均值。
於是,假設可以從總體中隨機選取無限的大小相同的樣本,那每個樣本都可以有一個樣本均值。依此法可以得到一個由無限多樣本均值組成的總體,該總體的標準差即為標準誤差。
在很多實際應用中,標準差的真正值通常是未知的。因此,標準誤這個術語通常運用於代表這一未知量的估計。在這些情況下,需要清楚業已完成的和嘗試去解決的標準誤差僅僅可能是一個估量。然而,這通行上不太可能:人們可能往往採取更好的估量方法,而避免使用標準誤,例如採用最大似然或更形式化的方法去測定信賴區間。第一個眾所周知的方法是在適當條件下可以採用學生t-分布為一個估量平均值提供置信區間。在其他情況下,標準差可以有效地利用於提供一個不確定性空間的示值,但其正式或半正式使用是提供置信區間或測試,並要求樣本總量必須足夠大。其總量大小取決於具體的數量分析[2]。
「樣本均值的估計標準誤差」,簡稱平均值標準誤差(standard error of the mean, SEM),或平均數標準誤差。必須記得在簡稱的背後總是意指「樣本的」。
如果已知總體的標準差(σ),那麼抽取無限多份大小為 n 的樣本,每個樣本各有一個平均值,所有這個大小的樣本之平均值的標準差可證明為(注意!不是一份樣本裡觀察值的標準差(那是下面公式裡的)):
但由於通常σ為未知,此時可以用研究中取得樣本的標準差 (s) 來估計:
其中,s為樣本的標準差,n為樣本數量(大小)。
名詞比較:
注意:
如果數據集服從正態分布,其正態分布函數的分位數、樣本平均數和標準差都可以用來計算合適的平均數信賴區間。
以下公式表示在大於或小於95%的置信區間中, 等於樣本平均數時,S 等於樣本平均數的標準差,1.96 則為服從正態分布的第 0.975百分位數值。
特殊情況下,樣本統計(比如樣本平均數)的標準誤是一個有偏誤的估計標準。換句話說,標準誤是一個樣本統計的樣本分布的標準差。這一標準誤的符號可以是任何、、之一。
標準誤提供一系列在證明數值不確定性的簡單方法,並通常用於:
鑑於對上述標準誤差的公式,假設樣本量遠小於總量規模,所以總量可以被視為足夠大。當取樣比例較大(大約為5%或以上)時,對標準誤的估計必須用「有限總體校正」(finite population correction)[6]:
該公式以考慮到增加所獲得的採樣精度,以接近的人口較大比例。有限總體校正的意義在於:如果樣本大小 n 等於總量大小 N 時,有限總體校正數值為零。
如果實測量 A 的數值不具有統計意義上的獨立性,但是其仍然可以從已知的參數空間 x 中獲取。那麼一個誤差的無偏估計可以通過以下方程獲得:
其中,樣本偏差係數 ρ 為自相關係數 ρij (-1到1之間的數量)的平均值。
相對標準誤差(Relative Standard Error)僅僅是標準誤除以平均值的一種百分比表述。例如,製作兩份家庭收入調查,其平均值為50000美元。如果一個調查的標準誤有10000美元,而另一個則為5000美元,其相對標準誤差分別為20%和10%。直觀地說,擁有較低標準誤差的調查看起來更為可靠。事實上,由於製作數據機構通常預設可信度標準,以使得其統計數據必須滿足此前公布的內容。譬如,美國國家衛生統計中心通常不會報告其數據相對標準誤差超過30%的估計。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.