跳转到内容

多重共线性

维基百科,自由的百科全书

多重共線性(Multicollinearity)是指多變量線性回歸中,變量之間由於存在高度相關關係而使回歸估計不准確。在該情況下,多元回歸的係數可能會因為模型或數據的微小變化發生劇烈改變。在樣本數據集中,多重共線性不會影響模型整體的預測能力或信度,它只會影響單個預測子(predictor)的参数。簡而言之,一個包含有共線預測值的多元回歸模型可以指示出模型整體的預測可靠程度,但可能無法對單個預測值給出有效結果,也可能無法判斷哪些預測值是冗餘的。

需要注意的是,在對回歸分析的敘述中,“沒有多重共線性”多用於指代沒有“完全的多重共線性”,意為預測值之間存在完全線性相關關係。在這種情況下,模型矩陣Χ不是滿秩,因此其矩量矩陣不可逆。在該情況下,對一個普通線性模型來說,普通最小二乘估計值不存在。

示例场景

比如我们要通过房屋面积,房间数,房屋年龄,附近学校的评分这四个变量来预测房价,其中的房屋面积和房间数这两个变量就可能高度相关。

示例

虛擬變量陷阱(英語:Dummy variable trap)有可能觸發多重共線性問題。