跳至內容

標準誤差

本頁使用了標題或全文手工轉換
維基百科,自由的百科全書
圖示為服從無偏性正態分布的標準誤

標準誤差(英語:standard error),也稱標準誤,即樣本平均數抽樣分佈英語Sampling distribution標準差standard deviation),是描述對應的樣本平均數抽樣分布的離散程度及衡量對應樣本平均數抽樣誤差大小的尺度[1]

概述

標準誤差針對樣本統計量而言,是某個樣本統計量的標準差。當談及標準誤差時,一般須指明對應的樣本統計量才有意義。以下以樣本均值(樣本均值是一種樣本統計量)作為例子:

例如, 樣本均值總體均值無偏估計。但是,來自同一總量的不同樣本可能有不同的均值。

於是,假設可以從總體中隨機選取無限的大小相同的樣本,那每個樣本都可以有一個樣本均值。依此法可以得到一個由無限多樣本均值組成的總體,該總體的標準差即為標準誤差。

在很多實際應用中,標準差的真正值通常是未知的。因此,標準誤這個術語通常運用於代表這一未知量的估計。在這些情況下,需要清楚業已完成的和嘗試去解決的標準誤差僅僅可能是一個估量。然而,這通行上不太可能:人們可能往往採取更好的估量方法,而避免使用標準誤,例如採用最大似然或更形式化的方法去測定信賴區間。第一個眾所周知的方法是在適當條件下可以採用學生t-分布為一個估量平均值提供置信區間。在其他情況下,標準差可以有效地利用於提供一個不確定性空間的示值,但其正式或半正式使用是提供置信區間或測試,並要求樣本總量必須足夠大。其總量大小取決於具體的數量分析[2]

平均值標準誤差

「樣本均值的估計標準誤差」,簡稱平均值標準誤差standard error of the mean, SEM),或平均數標準誤差。必須記得在簡稱的背後總是意指「樣本的」。

如果已知總體標準差(σ),那麼抽取無限多份大小為 n 的樣本,每個樣本各有一個平均值,所有這個大小的樣本之平均值的標準差可證明為(注意!不是一份樣本裡觀察值的標準差(那是下面公式裡的)):

但由於通常σ為未知,此時可以用研究中取得樣本的標準差 (s) 來估計

其中,s為樣本的標準差,n為樣本數量(大小)。

名詞比較:

:樣本平均值的標準「差」 (standard deviation of sample mean)
 :「樣本的」標準差 (standard deviation of sample)
:樣本平均值的標準「誤」 (standard error of sample mean)。


注意:

  1. 標準誤差也可定義為殘差標準差[3][4]
  2. 無論是標準誤差還是小型樣本的標準差,都往往低估了母體的標準誤差和標準差:平均數的標準誤差是總量標準誤差的一個有偏估計量。當樣本總量 n = 2 時,低估率大概為25% ;但 n = 6 時,低估率只有5%。基於此,古爾蘭(Gurland)和特里帕蒂(Tripathi)對此公式作了改進努力[5]

假設與運用

如果數據集服從正態分布,其正態分布函數的分位數樣本平均數標準差都可以用來計算合適的平均數信賴區間。

以下公式表示在大於或小於95%的置信區間中, 等於樣本平均數時,S 等於樣本平均數的標準差,1.96 則為服從正態分布的第 0.975百分位數值。

95% 置信區間的上限 = + (S ×1.96) ,
95% 置信區間的下限 = - (S ×1.96) .

特殊情況下,樣本統計(比如樣本平均數)的標準誤是一個有偏誤的估計標準。換句話說,標準誤是一個樣本統計的樣本分布的標準差。這一標準誤的符號可以是任何之一。

標準誤提供一系列在證明數值不確定性的簡單方法,並通常用於:

  • 如果一些個體數量的標準誤是已知的,那麼在一些情況下,一些方程的百分位數的標準誤可以被容易運算出來;
  • 當概率分布的數值已知,標準誤可以用來推算精確的置信區間,並且;
  • 當概率分布的數值未知,其他切比雪夫不等式等可以用來推算一個保守的置信區間。
  • 只要樣本總量傾向於無窮大,中心極限定理可以保證其樣本分布漸進地傾向於正態分布

有限總體校正

鑑於對上述標準誤差的公式,假設樣本量遠小於總量規模,所以總量可以被視為足夠大。當取樣比例較大(大約為5%或以上)時,對標準誤的估計必須用「有限總體校正」(finite population correction[6]

FPC() FPC()
樣本元素為不可重復組合 樣本元素為可重復組合
所有可能樣本的數目 = 所有可能樣本的數目 =

該公式以考慮到增加所獲得的採樣精度,以接近的人口較大比例。有限總體校正的意義在於:如果樣本大小 n 等於總量大小 N 時,有限總體校正數值為零。

樣本相關性校正

一個樣本中的預期誤差與樣本誤差係數關係,其無誤差的標準誤,即 ρ=0,函數為圖中紅色直線,係數為-½

如果實測量 A 的數值不具有統計意義上的獨立性,但是其仍然可以從已知的參數空間 x 中獲取。那麼一個誤差的無偏估計可以通過以下方程獲得:

其中,樣本偏差係數 ρ 為自相關係數 ρij (-1到1之間的數量)的平均值。

相對標準誤差

相對標準誤差Relative Standard Error)僅僅是標準誤除以平均值的一種百分比表述。例如,製作兩份家庭收入調查,其平均值為50000美元。如果一個調查的標準誤有10000美元,而另一個則為5000美元,其相對標準誤差分別為20%和10%。直觀地說,擁有較低標準誤差的調查看起來更為可靠。事實上,由於製作數據機構通常預設可信度標準,以使得其統計數據必須滿足此前公布的內容。譬如,美國國家衛生統計中心通常不會報告其數據相對標準誤差超過30%的估計。

相關條目

參考文獻

  1. ^ Everitt, B.S. (2003) The Cambridge Dictionary of Statistics, CUP. ISBN 0-521-81099-X
  2. ^ Isserlis, L. On the value of a mean as calculated from a sample. Journal of the Royal Statistical Society. 1918, 81 (1): 75–81 [2010-03-28]. (原始內容存檔於2021-03-08). 
  3. ^ Kenney, J. and Keeping, E.S. (1963) Mathematics of Statistics, van Nostrand, p. 187
  4. ^ Zwillinger D. (1995), Standard Mathematical Tables and Formulae, Chapman&Hall/CRC. ISBN 0-8493-2479-3 p. 626
  5. ^ Gurland, J; Tripathi RC. A simple approximation for unbiased estimation of the standard deviation. American Statistician. 1971, 25 (4): 30–32. 
  6. ^ Isserlis (1981,equation (1))