1 多重共线性诊断
当线性回归模型中有两个或多个自变量高度线性相关时,使用最小二乘法建立回归方程就有可能失效,甚至会把分析引向歧途,这就是所谓的多重共线性问题。在作多元线性回归分析的时候,应作多重共线性诊断,以期得到较为合理的结果。
1.1 定义
多重共线性(Multicollinearity) 是指线性回归模型中的解释变量之间由于存在较精确相关关系或高度相关关系而使模型估计失真或难以估计准确。完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即 近似共线性。
1.2 出现原因
- 自变量之间相关关系非常强
原本自变量应该是相互独立的,根据回归分析结果,能得知哪些因素对因变量Y有显著影响,哪些没有影响。如果各个自变量x之间有很强的线性关系,就无法固定其他变量,也就找不到x和y之间真实的关系了。 - 样本量太少
分析数据的样本量太少时可能出现多重共线性问题。 - 错误使用虚拟变量
比如将男、女两个虚拟变量都放入模型中,此时必定会出现共线性问题,这样称之为完全共线性。
2 多重共线性诊断常用方法
2.1 自变量的相关系数矩阵R诊断法
研究变量的两两相关分析,如果自变量间的二元相关系数值很大,则认为存在多重共线性。但无确定的标准判断相关系数的大小与共线性的关系。有时,相关系数值不大,