跳至內容

三均值

維基百科,自由的百科全書

在統計學中, 三均值(TM)圖基三均值, 是概率分佈中的一個概念, 由如下式定義:

其中, 為數據的兩個四分位點, 為其中位數.


三均值最初由Arthur Bowley英語Arthur Bowley在教學中提出, 而後由統計學家John Tukey在其於1997年出版的書籍中推廣, 並在探索性數據分析英語Exploratory data analysis技術中命名.

中位數中軸數英語Midhinge (上、下四分位數)相似, 而相迥於樣本平均值, 三均值是一個有25%崩潰點英語Breakdown point的具有統計學抗性英語Statistically resistantL-估計英語L-estimator. 三均值的這個屬性十分有用, 正如下面的引述所言.

作為一個分佈的中心的測量值, 三均值的一個優勢是, 它綜合了中位數和中軸數, 既反映了分佈的中心值, 也不失對極端值的注意.

——Herbert F. Weisberg,Central Tendency and Variability[1]

效率

三均值儘管計算簡單, 卻是一個非常有效率的估計人口中值的估計量. 確切而言, 對於從均勻人口中得到的一個大數據集 (超過100個人口數據), 其中位於20%, 50%, 80%百分位數, 是得出人口的L-估計的最高效的3個數, 效率為88%.[2] 相較之下, L-估計中最好的一點估計, 是中位數, 效率為64%或更高; 最高效的兩點估計 (用於一個從均勻人口中獲得的超過100個數據的大數據集), 是用29%中程數英語Midsummary (29%和71%百分位數的平均值), 效率約為81%. 這些最佳估計可以使用中軸數及三均值近似. 當然, 使用相距更遠的點能獲得更高的效率; 總之, 只需要3個點就能獲得較高的計算效率

參考文獻

  1. ^ Weisberg, H. F. (1992). Central Tendency and Variability. Sage University. ISBN 0-8039-4007-6 (p. 39)
  2. ^ Evans 1955,Appendix G: Inefficient statistics, pp. 902–904.

外部聯繫