穩健回歸

在穩健統計中，穩健回歸試圖克服傳統回歸分析的一些局限性。回歸分析對自變量與因變量的關係進行建模。普通最小二乘法等標準類型的回歸，在基本假設為真時有有利的特性，但其他情形下可能產生誤導（即對違背假設的情形不穩健）。穩健回歸法旨在限制底數據生成中違反假設的情形對回歸估計的影響。

例如，最小二乘估計的回歸模型對異常值非常敏感：誤差幅度為典型觀測值2倍的異常值，對平方誤差損失函數的貢獻是典型觀測值的4倍（2倍的平方），因此對回歸估計值的影響更大。休伯損失函數是普通平方誤差損失的一種穩健替代，可減少異常值對平方誤差損失的貢獻，從而限制其對回歸估計值的影響。

應用

異方差誤差

當強烈懷疑存在異方差時，就要考慮採用穩健估計。同方差模型假定誤差項的方差對所有x都是常數。例如，高收入人群的支出方差往往大於低收入人群。軟件包通常默認使用同方差，儘管可能不如異方差模型準確。一種簡單方法（Tofallis, 2008）是對百分誤差應用最小二乘法，與普通最小二乘法相比，這樣可減少因變量的較大值造成的影響。

異常值

使用穩健估計的另一種常見情況是數據包含異常值。若異常值與其他數據的產生過程不同，最小二乘法估算的效率就會很低，且會產生偏差。由於最小二乘預測結果會被拖向異常值，且估計值的方差也會被擴大，結果就是異常值會被掩蓋（在許多時候，包括地理統計和醫學統計的部分領域，待研究的往往是異常值）。

有時有人稱最小二乘法（或一般的經典統計方法）是穩健的，但這只是指在違反模型的情況下第一類錯誤率不會增加。實際上，出現異常值時，第一類錯誤率往往會低於定類水平（nominal level），而第二類錯誤率則會急劇上升。第一類錯誤率的下降被稱為經典方法的保守性。

穩健回歸的歷史與不受歡迎

雖然穩健回歸法在很多時候都比最小二乘法的性能更優越，但仍未得到廣泛應用。不受歡迎的原因有幾個（Hampel et al. 1986, 2005），其一是有多種方法相互競爭，使得領域有多個錯誤的開端；另外，文件回歸的計算量比最小二乘法大得多；近年來，隨着算力的大幅提高，這種反對意見已變得不重要了。另一個原因可能是一些流行統計軟件包還沒有實現這些方法（Stromberg, 2004）。許多統計學家認為經典方法是穩健的，這可能又是一個原因^{[來源請求]}。

儘管穩健方法的應用進展緩慢，但現代的主流統計學教科書通常都有對這些方法的討論（例如，Seber & Lee 及 Faraway 的著作；關於各種穩健回歸方法如何相互發展的概述，請參閱 Andersen 的著作）。

穩健回歸方法

最小二乘的代替

最簡單的方法是使用最小一乘法估計回歸模型中的參數，這種方法對異常值的敏感度低於最小二乘法。即便如此，嚴重的異常值仍會對模型產生相當大的影響，促使人們研究更加穩健的方法。

1964年，休伯引入了M估計，M代表「最大似然」，對響應變量中的異常值很穩健，但對解釋變量（槓桿點）的異常值則無能為力。事實上，這時這種方法與最小二乘相比沒有任何優勢。 1980年代，提出了集中M估計的替代方案，試圖克服缺乏抵抗的問題。可參Rousseeuw、Leroy的著作。最小截平方（LTS）是一種可行的替代，目前(2007)是Rousseeuw & Ryan (1997, 2008)的首選。泰爾-森估算的分解點低於LTS，但在統計上很有效，也很受歡迎。另一種建議的解決方案是S估計，能找到一條線（面或超平面），使殘差規模的穩健估計值（名稱出處）最小化。這種方法對槓桿點有很強抵抗力，對響應中的異常值也很穩健，但往往很低效。 MM估計試圖保留S估計的穩健性，同時獲得M估計的效率。首先要找到一個十分穩健、抗干擾的S估計值，可使殘差尺度的M估計值（第一個M）最小化。然後，在確定參數的M估計值（第二個M）的同時，保持估計值不變。

參數替代方法

另一種穩健估計回歸方法是用重尾分布代替正態分布。據報道，在各種實際情況下，自由度為4~6的T分布都是不錯的選擇。作為完全參數化的貝葉斯穩健回歸，在很大程度上依賴於這種分布。

在殘差為t分布的假設下，分布是一個位置尺度族，即 $x\leftarrow (x-\mu )/\sigma$ 。t分布的自由度，有時也稱為峰度係數。Lange、Little & Taylor (1989)從非貝葉斯的角度深入討論了這一模型；Gelman et al. (2003)對貝葉斯模型進行了闡述。

另一種參數方法是假設殘差遵循混合正態分布（Daemi et al. 2019）；特別是污染正態分布，其中大部分觀測值來自指定的正態分布，小部分來自方差大得多的正態分布。即，殘差來自方差為 $\sigma ^{2}$ 的正態分布的概率為 $1-\varepsilon$ ，其中 $\varepsilon$ 很小，而對某個 $c>1$ ，來自方差為 $c\sigma ^{2}$ 的正態分布的概率為 $\varepsilon$ ：

e_{i}\sim (1-\varepsilon )N(0,\sigma ^{2})+\varepsilon N(0,c\sigma ^{2}).

通常有 $\varepsilon <0.1$ 。這有時被稱為 $\varepsilon$ 污染模型。

參數法的優點是，由似然理論提供了一種「現成」的推斷方法（雖然對 $\varepsilon$ 污染模型之類不適用通常的正則行條件），且可根據擬合結果建立模擬模型。但這種參數模型仍假定基本模型是真實的，因此不能考慮偏移的殘差分布或有限的觀測精度。

單位權

另一種穩健方法是單位權（Wainer & Thissen, 1976），適用於單一結果有多個預測因素的情況。Ernest Burgess (1928)用單位權法預測假釋成功率，對21個積極因素進行評分，分為存在（如「無逮捕前科」= 1）或不存在（「有逮捕前科」= 0），然後求和得出預測得分，結果表明得分是預測假釋成功的有效指標。Samuel S. Wilks (1938)的研究表明，幾乎所有回歸權集的和都是彼此高度相關的，也包括單位權，這一結果被稱為威爾克斯定理（Ree, Carretta, & Earles, 1998）。Robyn Dawes (1979)研究了應用環境下的決策制定，發現使用單位權的簡單模型的結果甚至往往優於人類專家。Bobko、Roth、Buster (2007)回顧了有關單位權的文獻，並得出結論：數十年的經驗研究表明，單位權在交叉驗證中的表現與普通回歸權相似。

另見

參考文獻

Liu, J.; Cosman, P. C.; Rao, B. D. Robust Linear Regression via L0 Regularization. IEEE Transactions on Signal Processing. 2018, 66 (3): 698–713. doi:10.1109/TSP.2017.2771720 .
Andersen, R. Modern Methods for Robust Regression. Sage University Paper Series on Quantitative Applications in the Social Sciences, 07-152. 2008.
Ben-Gal I., Outlier detection （頁面存檔備份，存於網際網路檔案館）, In: Maimon O. and Rockach L. (Eds.) Data Mining and Knowledge Discovery Handbook: A Complete Guide for Practitioners and Researchers," Kluwer Academic Publishers, 2005, ISBN 0-387-24435-2.
Bobko, P., Roth, P. L., & Buster, M. A. (2007). "The usefulness of unit weights in creating composite scores: A literature review, application to content validity, and meta-analysis". Organizational Research Methods, volume 10, pages 689-709. doi:10.1177/1094428106294734
Daemi, Atefeh, Hariprasad Kodamana, and Biao Huang. "Gaussian process modelling with Gaussian mixture likelihood." Journal of Process Control 81 (2019): 209-220. doi:10.1016/j.jprocont.2019.06.007
Breiman, L. Statistical Modeling: the Two Cultures. Statistical Science. 2001, 16 (3): 199–231. JSTOR 2676681. doi:10.1214/ss/1009213725 .
Burgess, E. W. (1928). "Factors determining success or failure on parole". In A. A. Bruce (Ed.), The Workings of the Indeterminate Sentence Law and Parole in Illinois (pp. 205–249). Springfield, Illinois: Illinois State Parole Board. Google books
Dawes, Robyn M. (1979). "The robust beauty of improper linear models in decision making". American Psychologist, volume 34, pages 571-582. doi:10.1037/0003-066X.34.7.571 . archived pdf （頁面存檔備份，存於網際網路檔案館）
Draper, David. Rank-Based Robust Analysis of Linear Models. I. Exposition and Review. Statistical Science. 1988, 3 (2): 239–257. JSTOR 2245578. doi:10.1214/ss/1177012915 .
Faraway, J. J. Linear Models with R. Chapman & Hall/CRC. 2004.
Fornalski, K. W. Applications of the robust Bayesian regression analysis. International Journal of Society Systems Science. 2015, 7 (4): 314–333. doi:10.1504/IJSSS.2015.073223.
Gelman, A.; J. B. Carlin; H. S. Stern; D. B. Rubin. Bayesian Data Analysis Second. Chapman & Hall/CRC. 2003.
Hampel, F. R.; E. M. Ronchetti; P. J. Rousseeuw; W. A. Stahel. Robust Statistics: The Approach Based on Influence Functions. Wiley. 2005 [1986].
Lange, K. L.; R. J. A. Little; J. M. G. Taylor. Robust statistical modeling using the t-distribution. Journal of the American Statistical Association. 1989, 84 (408): 881–896 [2023-10-14]. JSTOR 2290063. doi:10.2307/2290063. （原始內容存檔於2022-12-22）.
Lerman, G.; McCoy, M.; Tropp, J. A.; Zhang T. (2012). "Robust computation of linear models, or how to find a needle in a haystack" （頁面存檔備份，存於網際網路檔案館）,
arXiv:1202.4044
.
Maronna, R.; D. Martin; V. Yohai. Robust Statistics: Theory and Methods. Wiley. 2006.
McKean, Joseph W. Robust Analysis of Linear Models. Statistical Science. 2004, 19 (4): 562–570. JSTOR 4144426. doi:10.1214/088342304000000549 .
Radchenko S.G. Robust methods for statistical models estimation: Monograph. (on Russian language). Kiev: РР «Sanspariel». 2005: 504. ISBN 978-966-96574-0-4.
Ree, M. J., Carretta, T. R., & Earles, J. A. (1998). "In top-down decisions, weighting variables does not matter: A consequence of Wilk's theorem. Organizational Research Methods, volume 1(4), pages 407-420. doi:10.1177/109442819814003
Rousseeuw, P. J.; A. M. Leroy. Robust Regression and Outlier Detection. Wiley. 2003 [1986].
Ryan, T. P. Modern Regression Methods. Wiley. 2008 [1997].
Seber, G. A. F.; A. J. Lee. Linear Regression Analysis Second. Wiley. 2003.
Stromberg, A. J. Why write statistical software? The case of robust statistical methods. Journal of Statistical Software. 2004, 10 (5). doi:10.18637/jss.v010.i05 .
Strutz, T. Data Fitting and Uncertainty (A practical introduction to weighted least squares and beyond). Springer Vieweg. 2016. ISBN 978-3-658-11455-8.
Tofallis, Chris. Least Squares Percentage Regression. Journal of Modern Applied Statistical Methods. 2008, 7: 526–534 [2023-10-14]. SSRN 1406472 . doi:10.2139/ssrn.1406472. （原始內容存檔於2023-08-14）.
Venables, W. N.; B. D. Ripley. Modern Applied Statistics with S. Springer. 2002.
Wainer, H., & Thissen, D. (1976). "Three steps toward robust regression." Psychometrika, volume 41(1), pages 9–34. doi:10.1007/BF02291695
Wilks, S. S. (1938). "Weighting systems for linear functions of correlated variables when there is no dependent variable". Psychometrika, volume 3, pages 23–40. doi:10.1007/BF02287917

外部連結

R programming wikibooks
Brian Ripley's robust statistics course notes.
Nick Fieller's course notes on Statistical Modelling and Computation （頁面存檔備份，存於網際網路檔案館） contain material on robust regression.
Olfa Nasraoui's Overview of Robust Statistics （頁面存檔備份，存於網際網路檔案館）
Olfa Nasraoui's Overview of Robust Clustering （頁面存檔備份，存於網際網路檔案館）
Why write statistical software? The case of robust statistical methods, A. J. Stromberg （頁面存檔備份，存於網際網路檔案館）
Free software (Fortran 95) L1-norm regression. Minimization of absolute deviations instead of least squares.
Free open-source python implementation for robust nonlinear regression. （頁面存檔備份，存於網際網路檔案館）