多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。一般来说,由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。
多重共线性产生的原因主要有3各方面:
1、经济变量相关的共同趋势。
2、滞后变量的引入。
3、样本资料的限制。
多重共线性的主要影响:
完全共线性下参数估计量不存在;近似共线性下OLS估计量非有效。
多重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF)。
参数估计量经济含义不合理;变量的显着性检验失去意义,可能将重要的解释变量排除在模型之外。
模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。
多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
一般来说,由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。
主要有3个方面:
(1)经济变量相关的共同趋势
(2)滞后变量的引入
(3)样本资料的限制
多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。一般来说,由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。希望能够给你解决你的问题,能够让你找到正确的方向。
多重共线性形成的原因有很多,可能由于样本量过少所导致,样本量少有可能是数据搜集具有限制性,比如已经完成实验或者经费有限等一些其他原因。还有可能是本身分析项之间就存在某种关系,比如某品牌电脑营业额和销量等。而且我们在建模分析时,为了更好描述分析结果,以及分析项之间的关系,常常倾向于选择有关指标,这可能也会对模型带来多重共线性。
如何判断是否存在多重共线性:
(1)某些自变量的相关系数值较大(比如大于0.8)等,可以利用pearson相关系数检验法一般是利用解释变量之间的线性相关程度判断,一般标准是系数大于0.8则认为可能存在多重共线性。
(2)如果增加一个变量或者删除一个变量,回归系数的观测值变化很大。
(3)如果说F检验通过,并且决定系数值也较大,但是t检验并不显著,也可能存在多重共线性。
(4)回归系数的正负符号与专业知识相反或与实际分析结果不符,也会存在多重共线性的可能。
以上方法可能会存在误差,更多偏向于主观,还有一种正规检验方法,观察回归分析中的VIF值(方差膨胀因子),这个检验方法更为严谨、准确。通常的判断标准是VIF值大于10即具有多重共线性,有的文献也说大于5即有共线性。
多重共线性的处理方法
多重共线性的处理方法
处理多重共线性经验式做法:
(1)删除不重要的共线性变量
但是删除变量后可能会导致模型和原本分析的模型不一样,可能会出现决策错误等现象。
(2)增加样本容量
多重共线性有可能与样本量过少有关,所以如果存在也可以加大样本量。但是加大样本量具有局限性比如实验已经结束或者其它原因。
(3)变量转换
构造一个新的变量,这一新变量是多重共线性变量的函数,然后用这个新的变量代替多重共线性的变量,但是要注意组合后的数据需要有实际意义否则模型不好解释。
岭回归
岭回归分析是一种修正的最小二乘估计法,当自变量系统中存在多重共线性时,它可以提供一个有偏估计量,这个估计量虽有微小偏差,但它的精度却能大大高于无偏估计。
如果使用SPSSAU进行分析岭回归一般有两个步骤:岭回归通过引入k个单位阵,使得回归系数可估计;单位阵引入会导致信息丢失,但同时可换来回归模型的合理估计。针对岭回归:其研究步骤共为2步,分别是结合岭迹图寻找最佳K值;输入K值进行回归建模。
逐步回归
逐步回归分析方法视自变量对因变量的影响显著性大小从大到小逐个引入回归方程,从处理角度来看逐步回归比岭回归和主成分回归要好一些。逐步回归面临着检验的显著性水平的选择困难它通常得不到最优变量子集,可以利用SPSSAU进阶方法中逐步回归进行分析。
主成分回归根据主成分分析的思想提出的。主成分估计和岭回归类似都是一种有偏估计。主成分分析利用降维的思想对数据信息进行浓缩,将多个分析项浓缩成几个关键概括性指标;剔除对系统影响微弱的部分。通过对各个主成分的重点分析,来达到对原始变量进行分析的目的。主成分回归就是用对原变量进行主成分分析后得到的新的指标来代替原变量,再使用最小二乘法进行回归分析。由于对原变量的综合,就可以起到克服多重共线性所造成的信息重叠的作用,从而消除多重共线性对回归建模的影响。
(1)在回归模型中的一些或全部解释变量之间存在一种完全或不完全的线性关系,线性回归模型中,自变量之间的关系可以出现的几种情况,如式1所示:
▪ 1.完全多重共线性:
▪ ƛ1x1+ ƛ2x2+ ƛ3x3i +…+ ƛKxK =0
▪ 则称X1,X2,X3…..XK之间存在着完全多重共线性
▪ 2.不完全多重共线性:
▪ ƛ1x1+ ƛ2x2+ ƛ3x3 +…+ ƛKxK +ui=0
▪ (X1,X2,X3…..XK之间只是一种近似一种线性关系,有扰动项,是不完全多重共线性)
摘自:白玺艳学习什么是重共线性?