跳转到内容

费希尔正确概率检验

本页使用了标题或全文手工转换
维基百科,自由的百科全书

费希尔正确概率检验(英文:Fisher's exact test),或称费希尔精确检验,是统计学中的一种假设检验,用于检验列联表英语Contingency table显著性差异,由罗纳德·艾尔默·费希尔于1935年所创。[1][2][3]实务中,该方法常用于样本数较小的情况,但其实不限于小样本情况。它属于一种精确检验英语Exact test,也就是其p值可以由零假设的分布实际计算而不是借由足够的样本数逼近一个特定的概率分布。

据说,费希尔根据缪丽·布里斯托尔英语Muriel Bristol女士声称能够区别奶茶是先加了茶还是牛奶而设计了这项检验。他在女士品茶实验中亦实作了这项检验。[4]

目的与使用情境

受测者是否能够区别冲泡完成的奶茶是先加茶还是先加牛奶?

此检验在考验两种分类结果所产生的类别型变数很有用;它用于检查两种分类结果之间的关联(偶然性)是否显著。在费希尔的原始例题中,一个分类结果是奶茶实际上的冲泡方式(先加牛奶还是茶),另一个分类标准是缪丽·布里斯托尔英语Muriel Bristol认定的冲泡方式,并使用本方法检验这两种分类结果是否具有关联(受测者是否真的可以分辨出先倒入的是牛奶还是茶)。如同女士品茶实验,此检验大多数使用于2 × 2列联表(如下所述)。最终求得的p值是基于列联表边际是固定的,也就是受测者明确知晓八杯茶中有四杯先加牛奶,因此必然只会挑出四杯。这导致表格单元格中数字在独立性零假设下服从超几何分布

若样本数较大,一般使用卡方检验G检验英语G-test,其统计量近似于卡方分布。在样本数较小或是表格中次数差异很大的情况,这样的大样本近似方法不适用。通常可以预先检查表格中各细格的期望是否皆大于5(或是只有一格小于10)以决定可否使用基于卡方分布的大样本近似方法,虽然这样的预先检查已被认定为过度保守。[5]事实上,卡方近似方法的p值在过小、稀疏的或不平衡的数据与精确检验的p值可能南辕北辙而导致相反结论。[6][7]相比之下,费希尔精确检验,正如其名称所述,只要实验过程保持行和列总和固定不变,它就是精确的,因此无论样本特征如何都可以使用。费希尔的方法虽然使用于大样本或平衡良好的表格会使计算变得困难,但幸运的是,这些正是卡方检验适合的条件。

此检验在2 × 2列联表的情况下可以用手计算。然而,此方法其实可以扩展到m × n联表的情况,[8]但计算并不容易,可改用统计软件计算(其中有些使用蒙特卡罗方法来获得p值的近似值)。[9]

此检验还可用于量化两组之间的“重叠程度”。例如,在统计遗传学富集分析英语Gene set enrichment analysis中,可以为特定的表型加注一组基因(A)。使用者可以测试某些感兴趣的基因组(B)与基因组A的重叠程度。在这种情况下,可以归纳成一个2 × 2列联表以表示以下情况的次数:

  1. 同时存在于A基因组与B基因组的基因
  2. 仅存在于A的基因
  3. 仅存在于B的基因
  4. 同时不存在于A与B的基因

该测试的零假设是任一基因组的基因都来自更广泛的基因集,再以费希尔正确概率检验检验是否显著重叠。[10]

例题

以一群青少年样本为例,一方面可以将样本分为男性和女性,另一方面可以分为目前正在或尚未准备统计学考试。样本中正在准备考试的女性多于男性,而目标是检验这项比例差异是否显著。数据如下所示:

男性 女性 列总和
正在准备考试 1 9 10
尚未准备考试 11 3 14
栏总和 12 12 24

这些数据显示这24名青少年中有10名正在准备考试,并且这24名青少年中有12名是女性。若零假设设定为男性和女性的学习比例是相等的,则这10名准备考试的青少年的性别分布是否不同于尚未准备考试者?更具体的说,如果随机选择10位青少年,则能够抽出12位女性中的9位(或更多)女性而12名男性中只抽出1位(或更少)的概率是多少?

在进行检验之前介绍一些符号:以字母abcd表示各细格中的次数,将跨行和跨列的总计称为边际总计,并用n表示总和数。所以上述表格可写成:

男性 女性 列总和
正在准备考试 a b a + b
尚未准备考试 c d c + d
栏总和 a + c b + d a + b + c + d = n

费希尔表明,以表格中列总和与栏总和皆被故定为条件,a超几何分布,其中a + ca+b成功和c+d失败的总体中抽出。获得这样一组结果的概率由下式给出:[3]:136[11]

其中二项式系数,符号“!”表示阶乘运算。我们可以这样理解:若已知所有的边际总和(即a + bc + da + cb + d),则只剩下一个自由度,例如已知a则足以推导出其他数值。现在,是从包含n个元素的更大集合中抽出不放回地随机选择a + c个元素时抽出a元素,这正是超几何分布的定义。由上述资料可得,

上面的公式给出了观察这种特定数据排列的确切超几何概率,其前提是男性和女性具有相同比例进行考试准备比例的零假设以及边际总数为定值。换句话说,如果假设男性与女性准备考试的概率都是p,并且男性和女性都是独立地被采样,无论他们是否正在准备考试,那么这个超几何公式给出了在四个单元格中观察次数abcd条件概率,其中的条件是已知的边缘总数(也就是列与栏总数)。即使男性与女性以不同的概率抽出成为样本(例如总体中性别比例不是1:1),这仍然是正确的。要求仅仅是两个分类特征(性别和是否准备考虑)互为独立事件。例如,假设我们知道概率PQ分别表示男性与女性的边际比例,概率pq分别表示有无准备考试的边际比例,自然存在P + Q = 1与p + q = 1的事实,且性别和是否准备考虑互为独立事件,则上述资料各性别与是否准备考试的概率则分别为

  • 已准备考试的男性概率:PQ
  • 已准备考试的女性概率:pQ
  • 未准备考试的男性概率:Pq
  • 未准备考试的女性概率:pq

之后,若计算给定边缘条件的分布,将可获得上述的公式,其中pP都不在式中。因此24名青少年任意排列到表的四个单元格中的确切概率是可以计算的。费希尔表明,统计显著性的计算只需要考虑边际总和与观测结果相同或更极端的情况即可。(巴纳德检验英语Barnard's test则放宽了对一组边际总数的限制。)在该示例中,有11种排列方式与上述数据在相同的方向上更为极端,并可以简化为1种组合(如下表):

男性 女性 列总和
正在准备考试 0 10 10
尚未准备考试 12 2 14
栏总和 12 12 24

而发生这组资料的概率(在相同前提下)为

零假设为真可以得到单尾检验英语One- and two-tailed tests的p值,即目前资料及更极端的资料的概率总和,约等于0.001346076 + 0.000033652 = 0.001379728。在R语言环境下,这个值可以借由fisher.test(rbind(c(1,9),c(11,3)),alternative="less")$p.value,或者在Python中使用scipy.stats.fisher_exact(table=[[1,9],[11,3]], alternative="less")获取。该p值可以解释为观察数据(或任何更极端的表格)为零假设(男性和女性准备考试的比例没有差异)提供的证据总和。当p值越小,拒绝原假设的证据越多;因此例题中的数据强烈地表明男性和女性准备考试的可能性并不相同。

若考虑的是双尾检验英语One- and two-tailed tests,则需要额外考虑同样极端但方向相反的表格,即对称于目前资料方向的拒绝域。然而,此时“对称处更极端的表格”并没有唯一的定义。R语言提供的fisher.test函数采用的方法是对所有概率小于或等于目前资料概率的总和来计算p值,因此双尾检验的p值不一定是单尾检验的二倍(特别是小样本的情况),与其它具有对称性的概率分布不同。

如上所述,太多数现代统计软件英语List of statistical software可以计算费希尔精确检验的显著性,但此时可改以卡方分布的近似方法,[12]或是利用Γ函数或对数Γ函数。[13]当样本数很大或栏列数超过2时,计算费希尔检验是困难的,例如过程中面对过大的阶乘。[14]但随个人电脑记算能力的进步,主流统计软件英语List of statistical software(诸如SPSS[15]SAS[16]R语言[17]、以及在Python语言环境使用SciPy工具包[18]等)已纳入费希尔法的计算程式。

争议

尽管费希尔的检验方法能精确地计算p值,但一些作者认为它是保守的,也就是统计功效较低。[19][20][21]当离散统计量的特性与选用固定的显著性水平二者结合后可能发生这样的问题。[22][23]更准确地说,费希尔检验加总了在零假设成立时每种相同或更极端的表格之发生概率为p值,但由于所有表格的集合是离散的,可能不存在与实现情况相等的表格。若αe是小于5%的最大p值并存在于某些表格的集合,建议应预先测试有效的αe水平。对于小样本量的清况,αe可能明显低于5%。[19][20][21]虽然这种影响发生在任何离散统计数据中,但有人认为这一事实使费希尔在边际上的检验条件使问题更加复杂。[24]为了避免这个问题,许多作者在处理离散问题时不鼓励使用固定的显著性水平。[22][23]

以表格边缘为条件的决定也存在争议。[25][26]费希尔检验得出的p值来自以列边际总和与栏边际总和被固定。从这个意义上讲,测试仅对条件分布是精确的,而不是原始表格。在原始资料中,边际总数可能因实验而异而不适合使用费希尔检验。当边际总和不固定时,可以考虑使用其他方法以获得2 × 2表格的精确p值。例如,巴纳德检验英语Barnard's test允许随机的边际总和。然而,一些作者(包括后来的巴纳德本人)批评了巴纳德基于此性质的检验。[22][23][26][22]他们认为边际成功总数(即前先表格中的a + b)几乎是辅助统计量英语ancillary statistic[23]几乎不包含有关测试属性的信息。

从2 × 2表格中以边际成功率为条件可能忽略了数据中关于未知胜算比英语Odds ratio的一些信息。[27]边际总数(几乎)是辅助统计量的论点意味着,用于推断这个胜算比的适当似然函数应该以边际成功率为条件。[27]这种被忽略的信息对于推论的目的是否重要仍有争论。[27]

替代方法

巴纳德检验英语Barnard's test可用于代替费希尔检验,[28]特别是在2 × 2表格的情况有更高的统计功效。[29]此外,博世路检验英语Boschloo's test是另一种精确检验,亦比费希尔检验具有更高的统计功效。[30]

对于阶层式的类别资料,必须使用诸如CMH检验英语Cochran–Mantel–Haenszel statistics等考虑采样阶层的方法,而不是费希尔检验。

根据给定边际成功率的胜算比的条件分布可以提出基于似然比检验英语Likelihood-ratio test的p值。[27]此p值在推论上与正态分布数据的经典检验以及基于此条件似然函数的似然比和支持区间一致,并可在R语言上进行运算。[31]

相关条目

参考文献

  1. ^ Fisher, R. A. On the Interpretation of χ2 from Contingency Tables, and the Calculation of P. Journal of the Royal Statistical Society. 1922-01, 85 (1) [2022-12-22]. doi:10.2307/2340521. (原始内容存档于2023-07-21). 
  2. ^ Fisher, Ronald Aylmer, Sir. Statistical methods for research workers. 14th, rev. and enl. Darien, Conn.,: Hafner Pub. Co. 1970. ISBN 0-05-002170-2. OCLC 135627. 
  3. ^ 3.0 3.1 Agresti, Alan. A Survey of Exact Inference for Contingency Tables. Statistical Science. 1992-02-01, 7 (1) [2022-12-22]. ISSN 0883-4237. doi:10.1214/ss/1177011454. (原始内容存档于2023-05-30). 
  4. ^ Newman, James R. Mathematics of a Lady Tasting Tea. The world of mathematics. Mineola, N.Y.: Dover Publications. 2000 [2022-12-22]. ISBN 978-0-486-41153-8. OCLC 43555029. (原始内容存档于2022-05-05). 
  5. ^ Larntz, Kinley. Small-Sample Comparisons of Exact Levels for Chi-Squared Goodness-of-Fit Statistics. Journal of the American Statistical Association. 1978-06, 73 (362) [2022-12-22]. ISSN 0162-1459. doi:10.1080/01621459.1978.10481567. (原始内容存档于2023-01-13) (英语). 
  6. ^ Mehta, Cyrus R.; Patel, Nitin R.; Tsiatis, Anastasios A. Exact Significance Testing to Establish Treatment Equivalence with Ordered Categorical Data. Biometrics. 1984-09, 40 (3) [2022-12-22]. doi:10.2307/2530927. (原始内容存档于2022-12-21). 
  7. ^ Patel, Nitin R.; SPSS Inc. SPSS exact tests 6.1 for Windows. Chicago, Ill.: SPSS Inc. 1995. ISBN 0-13-450891-2. OCLC 34436454. 
  8. ^ Mehta, Cyrus R.; Patel, Nitin R. A Network Algorithm for Performing Fisher's Exact Test in r × c Contingency Tables. Journal of the American Statistical Association. 1983-06, 78 (382) [2022-12-22]. doi:10.2307/2288652. (原始内容存档于2022-12-21). 
  9. ^ Mehta, Cyrus R.; Patel, Nitin R. ALGORITHM 643: FEXACT: a FORTRAN subroutine for Fisher's exact test on unordered r×c contingency tables. ACM Transactions on Mathematical Software. 1986-06, 12 (2) [2022-12-22]. ISSN 0098-3500. doi:10.1145/6497.214326. (原始内容存档于2023-07-21) (英语). 
  10. ^ Mi, Huaiyu; Muruganujan, Anushya; Casagrande, John T; Thomas, Paul D. Large-scale gene function analysis with the PANTHER classification system. Nature Protocols. 2013-08, 8 (8) [2022-12-22]. ISSN 1754-2189. PMC 6519453可免费查阅. PMID 23868073. doi:10.1038/nprot.2013.092. (原始内容存档于2022-11-05) (英语). 
  11. ^ Weisstein, Eric W. (编). Fisher's Exact Test. at MathWorld--A Wolfram Web Resource. Wolfram Research, Inc. [2022-12-26] (英语). 
  12. ^ Zar, Jerrold H. More on Dichotomous Variables. Biostatistical analysis : books a la carte edition.. [Place of publication not identified]: Prentice Hall. 2010. ISBN 0-321-65686-5. OCLC 945142430. 
  13. ^ Zar, Jerrold H. A fast and efficient algorithm for the Fisher exact test. Behavior Research Methods, Instruments, & Computers. 1987-07, 19 (4). ISSN 0743-3808. doi:10.3758/BF03202590 (英语). 
  14. ^ Warner, Pamela. Testing association with Fisher's Exact test. Journal of Family Planning and Reproductive Health Care. 2013-09-23, 39 (4). ISSN 1471-1893. doi:10.1136/jfprhc-2013-100747. 
  15. ^ Mehta, Cyrus R.; Patel, Nitin R. Unordered R x C Contingency Tables. IBM SPSS Exact Tests. Armonk, NY: IBM Corporation. 2011. 
  16. ^ Davis, Charles S.; Koch, Gary G.; SAS Institute. The 2 × 2 Table. Categorical data analysis using SAS 3rd. Cary, N.C.: SAS Instute. 2012. ISBN 978-1-61290-090-2. OCLC 806311987. 
  17. ^ R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. 2022 [2022-12-27]. (原始内容存档于2023-10-05). 
  18. ^ The SciPy community. scipy.stats.fisher_exact. SciPy documentation. [2022-12-27]. (原始内容存档于2023-06-10) (英语). 
  19. ^ 19.0 19.1 Liddell, Douglas. Practical Tests of 2 × 2 Contingency Tables. The Statistician. 1976-12, 25 (4). doi:10.2307/2988087. 
  20. ^ 20.0 20.1 Berkson, Joseph. In dispraise of the exact test. Journal of Statistical Planning and Inference. 1978-01, 2 (1) [2022-12-22]. doi:10.1016/0378-3758(78)90019-8. (原始内容存档于2022-06-18) (英语). 
  21. ^ 21.0 21.1 D'Agostino, Ralph B.; Chase, Warren; Belanger, Albert. The Appropriateness of Some Common Procedures for Testing the Equality of Two Independent Binomial Populations. The American Statistician. 1988-08, 42 (3) [2022-12-22]. doi:10.2307/2685002. (原始内容存档于2022-12-22). 
  22. ^ 22.0 22.1 22.2 22.3 Yates, F. Test of Significance for 2 × 2 Contingency Tables. Journal of the Royal Statistical Society. Series A (General). 1984, 147 (3). doi:10.2307/2981577. 
  23. ^ 23.0 23.1 23.2 23.3 Little, Roderick J. A. Testing the Equality of Two Independent Binomial Proportions. The American Statistician. 1989-11, 43 (4) [2022-12-22]. doi:10.2307/2685390. (原始内容存档于2022-12-22). 
  24. ^ Mehta, Cyrus R.; Senchaudhuri, Pralay. Conditional versus unconditional exact tests for comparing two binomials (PDF). 2003-09-04 [2009-11-20]. (原始内容存档 (PDF)于2022-12-21). 
  25. ^ Barnard, G. A. A New Test for 2 × 2 Tables. Nature. 1945-08, 156 (3954) [2022-12-22]. ISSN 0028-0836. doi:10.1038/156177a0. (原始内容存档于2022-12-22) (英语). 
  26. ^ 26.0 26.1 Fisher, R. A. A New Test for 2 × 2 Tables. Nature. 1945-09, 156 (3961) [2022-12-22]. ISSN 0028-0836. doi:10.1038/156388a0. (原始内容存档于2023-07-21) (英语). 
  27. ^ 27.0 27.1 27.2 27.3 Choi, Leena; Blume, Jeffrey D.; Dupont, William D. Olivier, Jake , 编. Elucidating the Foundations of Statistical Inference with 2 x 2 Tables. PLOS ONE. 2015-04-07, 10 (4). ISSN 1932-6203. PMC 4388855可免费查阅. PMID 25849515. doi:10.1371/journal.pone.0121263 (英语). 
  28. ^ Lydersen, Stian; Fagerland, Morten W.; Laake, Petter. Recommended tests for association in 2×2 tables. Statistics in Medicine. 2009-03-30, 28 (7) [2022-12-22]. doi:10.1002/sim.3531. (原始内容存档于2022-12-22) (英语). 
  29. ^ Berger R.L. Power comparison of exact unconditional tests for comparing two binomial proportions. Institute of Statistics Mimeo Series No. 2266. 1994: 1–19. 
  30. ^ Boschloo, R. D. Raised conditional level of significance for the 2 × 2-table when testing the equality of two probabilities. Statistica Neerlandica. 1970-03, 24 (1) [2022-12-22]. ISSN 0039-0402. doi:10.1111/j.1467-9574.1970.tb00104.x. (原始内容存档于2022-12-22) (英语). 
  31. ^ Choi, Leena. ProfileLikelihood: profile likelihood for a parameter in commonly used statistical models; 2011. R package version 1.1.. 2011 [2022-12-22]. (原始内容存档于2022-12-21). 

外部链接