岭回归解决多重共线性

一、引言

回归分析是一种比较成熟的预测模型,也是在预测过程中使用较多的模型,在自然科学管理科学和社会经济中有着非常广泛的应用,但是经典的最小二乘估计,必需满足一些假设条件,多重共线性就是其中的一种。实际上,解释变量间完全不相关的情形是非常少见的,大多数变量都在某种程度上存在着一定的共线性,而存在着共线性会给模型带来许多不确定性的结果。

二、认识多重共线性

(一)多重共线性的定义

设回归模型y01x12x2pxp为零的数k0,k1,k2kp使得k0近似的多重共线性。

如果矩阵X的列向量存在一组不全

k1xi1k2xi2kpxip0, i=1,2,„n,则称其存在完全共线性,如果k0k1xi1k2xi2kpxip0, i=1,2,„n,则称其存在

(二)多重共线性的后果

1.理论后果

对于多元线性回归来讲,大多数学者都关注其估计精度不高,但是多重共线性不可

能完全消除,而是要用一定的方法来减少变量之间的相关程度。多重共线性其实是由样本容量太小所造成的后果,在理论上称作“微数缺测性”,所以当样本容量n很小的时候,多重共线性才是非常严重的。

多重共线性的理论后果有以下几点:

(1)保持OLS估计量的BLUE性质;

(2) 戈德伯格提出了近似多重共线性其实是样本观测数刚好超过待估参数个数时出现的

情况。所以多重共线性并不是简单的自变量之间存在的相关性,也包括样本容量的大小问题。

(3)近似的多重共线性中,OLS估计仍然是无偏估计。无偏性是一种多维样本或重复抽样

的性质;如果X变量的取值固定情况下,反复对样本进行取样,并对每个样本计算OLS估计量,随着样本个数的增加,估计量的样本值的均值将收敛于真实值。

(4)多重共线性是由于样本引起的。即使总体中每一个X之间都没有线性关系,但在具体

取样时仍存在样本间的共线性。 2.现实后果

(1)虽然存在多重共线性的情况下,得到的OLS估计是BLUE的,但有较大的方差和协方差,

估计精度不高;

(2)置信区间比原本宽,使得接受H0假设的概率更大;

(3)t统计量不显著;

(4)拟合优度R的平方会很大;

(5)OLS估计量及其标准误对数据微小的变化也会很敏感。

2

(三)多重共线性产生的原因

1.模型参数的选用不当,在我们建立模型时如果变量之间存在着高度的 相关性,我们又没有进行处理建立的模型就有可能存在着共线性。

2. 由于研究的经济变量随时间往往有共同的变化趋势,他们之间存在着共线性。例如当经济繁荣时,反映经济情况的指标有可能按着某种比例关系增长

3. 滞后变量。滞后变量的引入也会产生多重共线行,例如本期的消费水平除了受本期的收入影响之外,还有可能受前期的收入影响,建立模型时,本期的收入水平就有可能和前期的收入水平存在着共线性。

(四) 多重共线性的识别

1.直观的判断方法

(1)在自变量 的相关系数矩阵中,有某些自变量的相关系数值比较大。 (2)回归系数的符号与专业知识或一般经验相反

(3)对重要的自变量的回归系数进行t检验,其结果不显著,但是F检验确得到了显著的

通过

(4)如果增加一个变量或删除一个变量,回归系数的估计值发生了很大的变化 (5)重要变量的回归系数置信区间明显过大 2.方差扩大因子法(VIF)

定义VIFj=(1Rj)其中R2j是以Xj为因变量时对其他自变量的复测定系数。一般认为如果最大的VIFj超过10,常常表示存在多重共线性。事实上VIFj=(1Rj)>10这说明

21R2j0.9。

21

21

3.特征根判定法

根据矩阵行列式的性质,矩阵行列式的值等于其特征根的连乘积。因此,当行列式|XX|≈0时,至少有一个特征根为零,反过来,可以证明矩阵至少有一个特征根近似为零时,X的列向量必存在多重共线性,同样也可证明XX有多少个特征根近似为零矩阵,X

'

'

m其中为最大的特征根,为其他的特就有多少个多重共线性。根据条件数miK

i

征根,通常认为010存在着多重共线性。

i

(五)多重共线性的处理方法

1.增加样本容量

当线性重合是由于测量误差引起的以及他仅是偶然存在于原始样本,而不存在于总体

时,通过增加样本容量可以减少或是避免线性重合,但是在现实的生活中,由于受到各种条件的限制增加样本容量有时又是不现实的。

2.剔除法

对于一些不重要的解释变量进行剔除,主要有向前法和后退法,逐步回归法。理论上这三种方法都是针对不相关的的数据而言的,在多重共线性很严重的情况下,结论的可靠性受到影响,在一些经济模型中,要求一些很重要变量必须包含在里面,这时如果贸然的删除就不符合现实的经济意义。

3.主成分法

当自变量间有较强的线性相关性时,利用p个变量的主成分,所具有的性质,如果他们是互不相关的,可由前m个主成Z1,Z2,Zm来建立回归模型。

由原始变量的观测数据计算前m个主成分的得分值,将其作为主成分的观测值,建立Y与主成分的回归模型即得回归方程。这时p元降为m元,这样既简化了回归方程的结构,且消除了变量间相关性带来的影响

4.PLS(偏最小二乘法)

H.Wold在1975年提出的 偏最小二乘法近年来引起广泛的关注,在解决多重共线性方面,它与主成分回归法,岭回归法一样都能很好的达到目的,但偏最小二乘又与前者又有较大的区别,偏最小二乘法集中了最小二乘法、主成分分析法和典型相关分析的的优点克服了两种方法的缺点。偏最小二乘法吸取了主成分回归提取主成分的思想,但不同的是主成分回归只是从自变量中去寻找主成分与因变量无关,因而主成分与因变量在算法上关系不密切,从而导致最后主成分在实际应用中无法更好的进一步拟合因变量,偏最小二乘法则是从因变量出发,选择与因变量相关性较强而又能方便运算的自变量的线性组合。

5.岭回归法.

岭回归分析是1962年由Heer首先提出的,1970年后他与肯纳德合作,进一步发展了该方法,在多元线性回归模型的矩阵形式YX,参数的普通最小二乘估计为

=(X'X)1X'Y, 岭回归当自变量存在多重共线性|X'X|≈0时,给矩阵加上一个正常

系数矩阵kI,那么=(XXkI)

'

1

X'Y,当时就是普通最小二乘估计。

三、实际的应用

我们对于重庆市1987至2010年的统计数据做一个回归预测模型,选取工业总产值为因变量,固定投资总额、货物周转量、财政支出、能源消耗总量四个变量为自变量。

设模型为Y01X12X23X34X4 (3.1)

(一) 普通的最小二乘法

对模型进行最小二乘估计得到如下的结果:

调整的可决系数R为0.995,F=1198,在置信水平为95%,自由度4,方程通过了显著性的检验,从这里我们可以看出从整体上来说方程得到了很好的拟合, 但是各个系数的检验却并没有通过,而且能源消费的系数为负,这于经济学的原理相反,我们初步断定回归的方程可能存在着多重共线性。

根据方差扩大因子VIF1=455.510, VIF2=68.694, VIF3=224.271, VIF4=37.372.均大于10说明存在多重共线性。

此外我们还可以根据共线性的诊断,来判断多重共线性的存在。为此,利用SPSS软件进行相关处理可以得到下表:

2

从特征值我们可以看到有两个接近于零,条件数我们可以看到最大条件数为71.989,说明存在着共线性,以上的分析说明因变量间存在着多重共线性。

(二)运用岭回归解决多重共线性

用SPSS软件的岭回归功能的语法实现岭回归,做出的结果如下:

表3.5: 岭参数K值表

K RSQ X1 X2 X3 X4 .00000 .99605 .486610 .187544 .349141 -.022974 .05000 .99450 .298761 .231025 .351029 .109212 .10000 .99286 .279395 .234139 .315824 .148780 .15000 .99135 .268288 .234093 .295846 .168122 .20000 .98984 .260456 .232912 .282446 .178951 .25000 .98824 .254302 .231210 .272489 .185418 .30000 .98652 .249140 .229240 .264570 .189368 .35000 .98466 .244625 .227127 .257967 .191744 .40000 .98265 .240562 .224938 .252270 .193079 .45000 .98050 .236833 .222713 .247230 .193695 .50000 .97822 .233363 .220477 .242684 .193798 .55000 .97581 .230101 .218244 .238524 .193528 .60000 .97327 .227009 .216026 .234672 .192980 .65000 .97062 .224062 .213829 .231075 .192222 .70000 .96786 .221240 .211658 .227690 .191305 .75000 .96501 .218527 .209517 .224485 .190265 .80000 .96206 .215912 .207406 .221437 .189132 .85000 .95903 .213385 .205328 .218526 .187927 .90000 .95591 .210938 .203284 .215736 .186667 .95000 .95273 .208564 .201273 .213056 .185366 1.0000 .94948 .206258 .199296 .210473 .184034

图3.1 岭迹图

从岭迹图上看,最小二乘的稳定性很差,当k稍微增大时,系数有较大的变化。对各个

变量分别来看,当k=0, X1、X2和X3对于变量有显著性正的影响,X4对于变量有负的影响,从岭回归的角度来看,变量X1和X3随着k的增大其系数值迅速减小最终趋于稳定,

X2随着k的增加变化不大,对于X4讲,当k逐渐增大时,由负的影响变为正的影响。

由于X1和X4的岭参数都迅速减少,两者之和比较稳定。从岭回归的角度看,X1和X4

只要保留一个就可以了。X2和X3的岭回归系数相对稳定。通过分析,决定剔除X4,对剩下的三个变量进行岭回归。把岭参数步长改为0.02,范围缩小到0.2,在SPSS中用命令生成得到如下结果:

表3.6 :步长为0.02时的岭参数值表

K RSQ X1 X2 X3 .00000 .99604 .436166 .179183 .385799 .02000 .99584 .351867 .262568 .380494 .04000 .99560 .342222 .282832 .363342 .06000 .99531 .336854 .291961 .353101 .08000 .99497 .332900 .296644 .345962 .10000 .99457 .329612 .299105 .340458 .12000 .99410 .326701 .300300 .335921 .14000 .99357 .324028 .300709 .332010 .16000 .99297 .321521 .300600 .328527 .18000 .99231 .319135 .300137 .325355 .20000 .99159 .316844 .299420 .322417

由上表可以看到,剔除了X4后岭回归系数变化幅度减小,从岭迹图看岭参数在0.12到0.20之间时,岭参数已基本稳定,当k=0.16时,R0.99297仍然很大,因而可以选取k=0.16

2

岭参数。然后给定,重新作岭回归,计算结果如下:

表3.7: k = 0.16时的岭回归

Mult R .9964780 RSquare .9929685 Adj RSqu .9919137 SE 210.6252025:

表3.8: 方差分析表

df SS MS F value Sin F Regress 3.000 125295417 41765139 941.44 .000000 Residual 20.000 887259.52 44362.976

表3.9:方程中的变量

B SE(B) Beta B/SE(B) X1 .4110191 .0098800 .3215208 41.6010169 X2 .0399873 .0017557 .3006004 22.7755604 X3 1.1311326 .0405681 .3285272 27.8823490 Constant -451.7066055 69.6480613 .0000000 -6.4855589

得到对Y对X1,X2和X3的标准化岭回归方程为:

ˆ0.3215X0.3006X0.3285X (3.2) Y123

(41.601) (22.776) (27.882 )

R20.993 F=941.44

普通最小二乘法得到的回归方程为

ˆ0.487X0.188X0.349X0.023X (3.3) Y1234

(1.582 ) (1.570) (1.617) ( -0.261)

标准化岭回归得到的T统计量都比OLS估计显著,因此岭回归得到预期的效果。

(三) 主成分分析法

同样利用SPSS软件中的Analyze下拉菜单进行主成分分析。可以得到如下结果:

由上表可以知道,四个主成分的特征值的最大值为3.927,最小值为0.001;前两个因子的累积贡献率已经达到99.657%,故只需要保留前两个主成分。

利用SPSS的主成分分析进入变量计算。对前两主成分作普通最小二乘法: 第一主成分T10.254X10.253X20.252X30.250X4 (3.4) 第二主成分T21.014X10.315X22.408X33.137X4 (3.5)

用Y对T1、T2做普通最小二乘法,得如下回归方程为

ˆ0.995T0.08T (3.6) Y12

因此,可以得出主成分回归方程为

ˆ0.3339X0.2769X0.4434X0.012X (3.7) Y1234

回归方程的的修正的可决系数为 0.996。

由上面的分析我们看到岭回归和主成分的所得到的结果比较接近,各个系数解释也更加的合理,符合现实意义。

五、结论

主成分法和岭回归所估计的参数,都已经不是无偏的估计,主成分分析法作为多元统计分析的一种常用方法在处理多变量问题时具有其一定的优越性,其降维的优势是明显的,主成分回归方法对于一般的多重共线性问题还是适用的,尤其是对共线性较强的变量之间.岭回归估计是通过最小二乘法的改进允许回归系数的有偏估计量存在而补救多重共线性的方法,采用它可以通过允许小的误差而换取高于无偏估计量的精度, 因此它接近真实值的可能性较大。灵活运用岭回归法, 可以对分析各变量之间的作用和关系带来独特而有效的帮助。作为统计方法,每种方法都有其适用范围, 我们应该比较其效果而选用而不是断然否定一种方法。

参考文献

[1] 何晓群.应用回归分析[M].中国人民统计大学出版社:2007,(13). [2] 钱晓莉. 基于特征值的多重共线性处理方法[J]. 统计与决策:2004,(10). [3] 白雪梅, 赵松山. 更深入地认识多重共线性[J]. 东北财经大学学报:2005,(02).

[4] 赵松山, 白雪梅. 关于多重共线性检验方法的研究[J]. 中国煤炭经济学院学报:2001,(04).[5] 高辉. 多重共线性的诊断方法[J]. 统计与信息论坛:2003,(01).

[6] 达摩达尔.N.古扎拉蒂.计量经济学[M].中国人民大学出版社:2004,(6). [ 7] 薛薇.SPSS统计分析方法及应用[M].电子工业出版社:2009,(1).

[8] 秦红兵. 多元回归分析中多重共线性的探讨与实证[J]. 科技信息:2007,(31). [9] 柳丽,魏庆钲.回归分析中多重共线性的诊断与处理[J].中国卫生统计:1994,(11). [10] John S. Y. Chiu . A Simulation Study of Effects of Multicollinearity and Autocorrelation on

Estimates of Parameters[J]. The Journal of Financial and Quantitative Analysis:1996,(6).

[11] Mark Z. Fabrycy.Multicollinearity caused by Specification Errors[J]. Applied

Statistics:1975,(4).

[12] Nityananda sarkar.Mean square error matrix comparision of some estmators in linear

regressions with muillinearity[J].Statistics and Probability letters:1996,(10).

一、引言

回归分析是一种比较成熟的预测模型,也是在预测过程中使用较多的模型,在自然科学管理科学和社会经济中有着非常广泛的应用,但是经典的最小二乘估计,必需满足一些假设条件,多重共线性就是其中的一种。实际上,解释变量间完全不相关的情形是非常少见的,大多数变量都在某种程度上存在着一定的共线性,而存在着共线性会给模型带来许多不确定性的结果。

二、认识多重共线性

(一)多重共线性的定义

设回归模型y01x12x2pxp为零的数k0,k1,k2kp使得k0近似的多重共线性。

如果矩阵X的列向量存在一组不全

k1xi1k2xi2kpxip0, i=1,2,„n,则称其存在完全共线性,如果k0k1xi1k2xi2kpxip0, i=1,2,„n,则称其存在

(二)多重共线性的后果

1.理论后果

对于多元线性回归来讲,大多数学者都关注其估计精度不高,但是多重共线性不可

能完全消除,而是要用一定的方法来减少变量之间的相关程度。多重共线性其实是由样本容量太小所造成的后果,在理论上称作“微数缺测性”,所以当样本容量n很小的时候,多重共线性才是非常严重的。

多重共线性的理论后果有以下几点:

(1)保持OLS估计量的BLUE性质;

(2) 戈德伯格提出了近似多重共线性其实是样本观测数刚好超过待估参数个数时出现的

情况。所以多重共线性并不是简单的自变量之间存在的相关性,也包括样本容量的大小问题。

(3)近似的多重共线性中,OLS估计仍然是无偏估计。无偏性是一种多维样本或重复抽样

的性质;如果X变量的取值固定情况下,反复对样本进行取样,并对每个样本计算OLS估计量,随着样本个数的增加,估计量的样本值的均值将收敛于真实值。

(4)多重共线性是由于样本引起的。即使总体中每一个X之间都没有线性关系,但在具体

取样时仍存在样本间的共线性。 2.现实后果

(1)虽然存在多重共线性的情况下,得到的OLS估计是BLUE的,但有较大的方差和协方差,

估计精度不高;

(2)置信区间比原本宽,使得接受H0假设的概率更大;

(3)t统计量不显著;

(4)拟合优度R的平方会很大;

(5)OLS估计量及其标准误对数据微小的变化也会很敏感。

2

(三)多重共线性产生的原因

1.模型参数的选用不当,在我们建立模型时如果变量之间存在着高度的 相关性,我们又没有进行处理建立的模型就有可能存在着共线性。

2. 由于研究的经济变量随时间往往有共同的变化趋势,他们之间存在着共线性。例如当经济繁荣时,反映经济情况的指标有可能按着某种比例关系增长

3. 滞后变量。滞后变量的引入也会产生多重共线行,例如本期的消费水平除了受本期的收入影响之外,还有可能受前期的收入影响,建立模型时,本期的收入水平就有可能和前期的收入水平存在着共线性。

(四) 多重共线性的识别

1.直观的判断方法

(1)在自变量 的相关系数矩阵中,有某些自变量的相关系数值比较大。 (2)回归系数的符号与专业知识或一般经验相反

(3)对重要的自变量的回归系数进行t检验,其结果不显著,但是F检验确得到了显著的

通过

(4)如果增加一个变量或删除一个变量,回归系数的估计值发生了很大的变化 (5)重要变量的回归系数置信区间明显过大 2.方差扩大因子法(VIF)

定义VIFj=(1Rj)其中R2j是以Xj为因变量时对其他自变量的复测定系数。一般认为如果最大的VIFj超过10,常常表示存在多重共线性。事实上VIFj=(1Rj)>10这说明

21R2j0.9。

21

21

3.特征根判定法

根据矩阵行列式的性质,矩阵行列式的值等于其特征根的连乘积。因此,当行列式|XX|≈0时,至少有一个特征根为零,反过来,可以证明矩阵至少有一个特征根近似为零时,X的列向量必存在多重共线性,同样也可证明XX有多少个特征根近似为零矩阵,X

'

'

m其中为最大的特征根,为其他的特就有多少个多重共线性。根据条件数miK

i

征根,通常认为010存在着多重共线性。

i

(五)多重共线性的处理方法

1.增加样本容量

当线性重合是由于测量误差引起的以及他仅是偶然存在于原始样本,而不存在于总体

时,通过增加样本容量可以减少或是避免线性重合,但是在现实的生活中,由于受到各种条件的限制增加样本容量有时又是不现实的。

2.剔除法

对于一些不重要的解释变量进行剔除,主要有向前法和后退法,逐步回归法。理论上这三种方法都是针对不相关的的数据而言的,在多重共线性很严重的情况下,结论的可靠性受到影响,在一些经济模型中,要求一些很重要变量必须包含在里面,这时如果贸然的删除就不符合现实的经济意义。

3.主成分法

当自变量间有较强的线性相关性时,利用p个变量的主成分,所具有的性质,如果他们是互不相关的,可由前m个主成Z1,Z2,Zm来建立回归模型。

由原始变量的观测数据计算前m个主成分的得分值,将其作为主成分的观测值,建立Y与主成分的回归模型即得回归方程。这时p元降为m元,这样既简化了回归方程的结构,且消除了变量间相关性带来的影响

4.PLS(偏最小二乘法)

H.Wold在1975年提出的 偏最小二乘法近年来引起广泛的关注,在解决多重共线性方面,它与主成分回归法,岭回归法一样都能很好的达到目的,但偏最小二乘又与前者又有较大的区别,偏最小二乘法集中了最小二乘法、主成分分析法和典型相关分析的的优点克服了两种方法的缺点。偏最小二乘法吸取了主成分回归提取主成分的思想,但不同的是主成分回归只是从自变量中去寻找主成分与因变量无关,因而主成分与因变量在算法上关系不密切,从而导致最后主成分在实际应用中无法更好的进一步拟合因变量,偏最小二乘法则是从因变量出发,选择与因变量相关性较强而又能方便运算的自变量的线性组合。

5.岭回归法.

岭回归分析是1962年由Heer首先提出的,1970年后他与肯纳德合作,进一步发展了该方法,在多元线性回归模型的矩阵形式YX,参数的普通最小二乘估计为

=(X'X)1X'Y, 岭回归当自变量存在多重共线性|X'X|≈0时,给矩阵加上一个正常

系数矩阵kI,那么=(XXkI)

'

1

X'Y,当时就是普通最小二乘估计。

三、实际的应用

我们对于重庆市1987至2010年的统计数据做一个回归预测模型,选取工业总产值为因变量,固定投资总额、货物周转量、财政支出、能源消耗总量四个变量为自变量。

设模型为Y01X12X23X34X4 (3.1)

(一) 普通的最小二乘法

对模型进行最小二乘估计得到如下的结果:

调整的可决系数R为0.995,F=1198,在置信水平为95%,自由度4,方程通过了显著性的检验,从这里我们可以看出从整体上来说方程得到了很好的拟合, 但是各个系数的检验却并没有通过,而且能源消费的系数为负,这于经济学的原理相反,我们初步断定回归的方程可能存在着多重共线性。

根据方差扩大因子VIF1=455.510, VIF2=68.694, VIF3=224.271, VIF4=37.372.均大于10说明存在多重共线性。

此外我们还可以根据共线性的诊断,来判断多重共线性的存在。为此,利用SPSS软件进行相关处理可以得到下表:

2

从特征值我们可以看到有两个接近于零,条件数我们可以看到最大条件数为71.989,说明存在着共线性,以上的分析说明因变量间存在着多重共线性。

(二)运用岭回归解决多重共线性

用SPSS软件的岭回归功能的语法实现岭回归,做出的结果如下:

表3.5: 岭参数K值表

K RSQ X1 X2 X3 X4 .00000 .99605 .486610 .187544 .349141 -.022974 .05000 .99450 .298761 .231025 .351029 .109212 .10000 .99286 .279395 .234139 .315824 .148780 .15000 .99135 .268288 .234093 .295846 .168122 .20000 .98984 .260456 .232912 .282446 .178951 .25000 .98824 .254302 .231210 .272489 .185418 .30000 .98652 .249140 .229240 .264570 .189368 .35000 .98466 .244625 .227127 .257967 .191744 .40000 .98265 .240562 .224938 .252270 .193079 .45000 .98050 .236833 .222713 .247230 .193695 .50000 .97822 .233363 .220477 .242684 .193798 .55000 .97581 .230101 .218244 .238524 .193528 .60000 .97327 .227009 .216026 .234672 .192980 .65000 .97062 .224062 .213829 .231075 .192222 .70000 .96786 .221240 .211658 .227690 .191305 .75000 .96501 .218527 .209517 .224485 .190265 .80000 .96206 .215912 .207406 .221437 .189132 .85000 .95903 .213385 .205328 .218526 .187927 .90000 .95591 .210938 .203284 .215736 .186667 .95000 .95273 .208564 .201273 .213056 .185366 1.0000 .94948 .206258 .199296 .210473 .184034

图3.1 岭迹图

从岭迹图上看,最小二乘的稳定性很差,当k稍微增大时,系数有较大的变化。对各个

变量分别来看,当k=0, X1、X2和X3对于变量有显著性正的影响,X4对于变量有负的影响,从岭回归的角度来看,变量X1和X3随着k的增大其系数值迅速减小最终趋于稳定,

X2随着k的增加变化不大,对于X4讲,当k逐渐增大时,由负的影响变为正的影响。

由于X1和X4的岭参数都迅速减少,两者之和比较稳定。从岭回归的角度看,X1和X4

只要保留一个就可以了。X2和X3的岭回归系数相对稳定。通过分析,决定剔除X4,对剩下的三个变量进行岭回归。把岭参数步长改为0.02,范围缩小到0.2,在SPSS中用命令生成得到如下结果:

表3.6 :步长为0.02时的岭参数值表

K RSQ X1 X2 X3 .00000 .99604 .436166 .179183 .385799 .02000 .99584 .351867 .262568 .380494 .04000 .99560 .342222 .282832 .363342 .06000 .99531 .336854 .291961 .353101 .08000 .99497 .332900 .296644 .345962 .10000 .99457 .329612 .299105 .340458 .12000 .99410 .326701 .300300 .335921 .14000 .99357 .324028 .300709 .332010 .16000 .99297 .321521 .300600 .328527 .18000 .99231 .319135 .300137 .325355 .20000 .99159 .316844 .299420 .322417

由上表可以看到,剔除了X4后岭回归系数变化幅度减小,从岭迹图看岭参数在0.12到0.20之间时,岭参数已基本稳定,当k=0.16时,R0.99297仍然很大,因而可以选取k=0.16

2

岭参数。然后给定,重新作岭回归,计算结果如下:

表3.7: k = 0.16时的岭回归

Mult R .9964780 RSquare .9929685 Adj RSqu .9919137 SE 210.6252025:

表3.8: 方差分析表

df SS MS F value Sin F Regress 3.000 125295417 41765139 941.44 .000000 Residual 20.000 887259.52 44362.976

表3.9:方程中的变量

B SE(B) Beta B/SE(B) X1 .4110191 .0098800 .3215208 41.6010169 X2 .0399873 .0017557 .3006004 22.7755604 X3 1.1311326 .0405681 .3285272 27.8823490 Constant -451.7066055 69.6480613 .0000000 -6.4855589

得到对Y对X1,X2和X3的标准化岭回归方程为:

ˆ0.3215X0.3006X0.3285X (3.2) Y123

(41.601) (22.776) (27.882 )

R20.993 F=941.44

普通最小二乘法得到的回归方程为

ˆ0.487X0.188X0.349X0.023X (3.3) Y1234

(1.582 ) (1.570) (1.617) ( -0.261)

标准化岭回归得到的T统计量都比OLS估计显著,因此岭回归得到预期的效果。

(三) 主成分分析法

同样利用SPSS软件中的Analyze下拉菜单进行主成分分析。可以得到如下结果:

由上表可以知道,四个主成分的特征值的最大值为3.927,最小值为0.001;前两个因子的累积贡献率已经达到99.657%,故只需要保留前两个主成分。

利用SPSS的主成分分析进入变量计算。对前两主成分作普通最小二乘法: 第一主成分T10.254X10.253X20.252X30.250X4 (3.4) 第二主成分T21.014X10.315X22.408X33.137X4 (3.5)

用Y对T1、T2做普通最小二乘法,得如下回归方程为

ˆ0.995T0.08T (3.6) Y12

因此,可以得出主成分回归方程为

ˆ0.3339X0.2769X0.4434X0.012X (3.7) Y1234

回归方程的的修正的可决系数为 0.996。

由上面的分析我们看到岭回归和主成分的所得到的结果比较接近,各个系数解释也更加的合理,符合现实意义。

五、结论

主成分法和岭回归所估计的参数,都已经不是无偏的估计,主成分分析法作为多元统计分析的一种常用方法在处理多变量问题时具有其一定的优越性,其降维的优势是明显的,主成分回归方法对于一般的多重共线性问题还是适用的,尤其是对共线性较强的变量之间.岭回归估计是通过最小二乘法的改进允许回归系数的有偏估计量存在而补救多重共线性的方法,采用它可以通过允许小的误差而换取高于无偏估计量的精度, 因此它接近真实值的可能性较大。灵活运用岭回归法, 可以对分析各变量之间的作用和关系带来独特而有效的帮助。作为统计方法,每种方法都有其适用范围, 我们应该比较其效果而选用而不是断然否定一种方法。

参考文献

[1] 何晓群.应用回归分析[M].中国人民统计大学出版社:2007,(13). [2] 钱晓莉. 基于特征值的多重共线性处理方法[J]. 统计与决策:2004,(10). [3] 白雪梅, 赵松山. 更深入地认识多重共线性[J]. 东北财经大学学报:2005,(02).

[4] 赵松山, 白雪梅. 关于多重共线性检验方法的研究[J]. 中国煤炭经济学院学报:2001,(04).[5] 高辉. 多重共线性的诊断方法[J]. 统计与信息论坛:2003,(01).

[6] 达摩达尔.N.古扎拉蒂.计量经济学[M].中国人民大学出版社:2004,(6). [ 7] 薛薇.SPSS统计分析方法及应用[M].电子工业出版社:2009,(1).

[8] 秦红兵. 多元回归分析中多重共线性的探讨与实证[J]. 科技信息:2007,(31). [9] 柳丽,魏庆钲.回归分析中多重共线性的诊断与处理[J].中国卫生统计:1994,(11). [10] John S. Y. Chiu . A Simulation Study of Effects of Multicollinearity and Autocorrelation on

Estimates of Parameters[J]. The Journal of Financial and Quantitative Analysis:1996,(6).

[11] Mark Z. Fabrycy.Multicollinearity caused by Specification Errors[J]. Applied

Statistics:1975,(4).

[12] Nityananda sarkar.Mean square error matrix comparision of some estmators in linear

regressions with muillinearity[J].Statistics and Probability letters:1996,(10).


相关内容

  • 多重共线性的逐步回归检验分析
  • 重庆三峡学院学报-- 2006年第3期 第22卷--No.3. 2006 Vol.22. 多重共线性的逐步回归检验分析 杨 有 1,2 李晓虹 1 (1.重庆师范大学数学及计算机科学学院,重庆 400047: 2.北京航空航天大学计算机学院数字媒体实验室,北京 100083) 摘 要:通过国家财政逐 ...

  • 庞皓计量经济学第二版第四章习题答案
  • 第四章练习题及参考解答 4.1 假设在模型Yi=β1+β2X2i+β3X3i+ui中,X2与X3之间的相关系数为零,于是有人建议你进行如下回归: Yi=α1+α2X2i+u1iY i=γ1+γ3X3i+u2i (1)是否存在αˆ2=βˆ2且γˆ3=βˆ3 ?为什么? (2)βˆ1 会等于αˆ1或γˆ ...

  • Minitab软件在多重共线性修正中的应用
  • 摘要:文章介绍了Minitab软件在多重共线性修正中的应用.通过与EViews软件的比较得出在多重共线性的修正中Minitab软件要优于EViews软件的 结论. 结合具体实例应用Minitab软件进行多重共线性的修正. 二.Minitab软件简介 Minitab软件最初是由美国宾西法尼亚州立大学基 ...

  • 统计学简答题答案修订
  • 统计学简答答案 1.一组数据的分布特征可以从哪几个方面进行描述? 数据分布的特征可以从三个方面进行测度和描述: (1)分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度: (2)分布的离散程度,反映各数据远离其中心值的趋势: (3)分布的形状,反映数据分布的偏态和峰态. 2.影响样本量大小的因素有 ...

  • 计量经济学读书笔记1
  • 读书笔记 经过这么长时间的计量经济学的学习,对计量经济学的一些初浅的轮廓有了基本了解,但是你要问我那些方法的过程,以及怎么样进行操作和检验,坦白说,我又忘记了这是因为你没有想如何用数据与计量方法去检验一个你感兴趣的问题,下周认真结合使用高铁梅那本书<计量经济分析方法与建模:EViews应用及实 ...

  • 多重共线性的处理的方法
  • (一)删除不重要的自变量 自变量之间存在共线性,说明自变量所提供的信息是重叠的,可以删除不重要的自变量减少重复信息.但从模型中删去自变量时应该注意:从实际经济分析确定为相对不重要并从偏相关系数检验证实为共线性原因的那些变量中删除.如果删除不当,会产生模型设定误差,造成参数估计严重有偏的后果. (二) ...

  • 计量经济学习题01
  • 二.单项选择题 1、已知含有截距项的三元线性回归模型估计的残差平方和为e用样本容量为n24,则随机误差项ut的方差估计量为( ). A.33.33 B.40 C.38.09 D.36.36 2.如果模型中出现随机解释变量并且与随机误差项相关时,最常用的估计方法是(). A.普通最小二乘法 B.加 ...

  • 计量经济学知识点(超全版)
  • 1.经济变量:经济变量是用来描述经济因素数量水平的指标.(3分) 2.解释变量:是用来解释作为研究对象的变量(即因变量)为什么变动.如何变动的变量.(2分)它对因变量的变动做出解释,表现为方程所描述的因果关系中的"因".(1分) 3.被解释变量:是作为研究对象的变量.(1分)它的 ...

  • 计量经济学软件期末作业
  • 计量经济学软件期末作业 姓名:徐可乐 学号:20113939 计量经济学软件期末作业 学号:20113939 姓名:徐可乐 本报告数据来自IDC .Gartner .iCharts 官网.中国国家统计局.中国互联网数据资讯中心.百度数据研究中心以及谷歌趋势统计网站,相关网址将在附录中给出.报告以原数 ...