基于杭州出租车保有量的预测模型
摘要
本文主要讨论了如何确定合理的城市出租车的需求量的问题。以杭州为例,通过该市2001年到2008年的各项数据进行分析,建立多元统计回归模型,对未来几年的出租车保有量进行了预测。
首先,我们通过Excel2003软件画出城市出租车保有量和各解释变量之间的关系,然后建立了多元线性回归模型,在回归方程的确定过程中,按照统计检验的要求逐一对各个解释变量进行分析,然后运用EView5.0软件分别对两个线性回归方程进行了检验,模型在置信概率为95%的条件下通过检验,并画出相应模型的的残差图,以便于模型的最优化选择。
同时我们根据线性回归模型的分析,结合实际情况,构造了可线性化非线性模型,同样在置信概率为95%的条件下通过显著性检验。然后进行逐步回归分析,计算出各项的系数。最后通过分析及剔除变量法,并运用Excel2003对可化为线性的非线性回归方程的显著性检验,结合两个线性回归方程,最终得到一个比较合理的非线性回归模型。最终运用得到的回归模型给出了2009年杭州市区合理的出租车保有量为9237辆。
最后,我们对上述模型进行分析评价,提出了一些可能的改进方向。
关键字: 统计回归 线性方程 非线性方程 预测 残差 检验
一、 问题的重述与分析
近年来,随着人民生活水平的不断提高,对出行的要求也逐步提高。出租车作为公共交通的一种特殊方式,由于其快速、便利、舒适、安全等特性,受到越来越多的短途(市内)出行者的青睐,促进了出租车行业的迅速发展。然而,出租车行业蓬勃发展的同时,各式各样的问题也悄然而生,如“打的难”,“黑的”横行,出租车司机集体上访等问题。这些问题很大程度上是由于政府规制不合理导致的。政府规制主要包括出租车投放总量、行业经营模式、运营定价和服务规范等方面,其中如何测定城市出租车的需求量,确定合理的出租车投放量是政府规制的重要内容。
而影响城市出租车需求量的因素有: (1)城市经济发展水平
经济发展水平通过影响人们生产性出行和生活性出行总量以及出行质量影响着城市出租汽车容量。 (2)收入与消费水平
出租车出行需求受收入和消费水平直接影响,人均收入与消费水平高,对选择出租车出行的概率大,反之则较小。 (3)人口数量和结构
客运出租车的运输对象主要是人,因此人口数量的变化必然引起出租车需求的变化。
(4)城市布局
城市规模的扩大改变着居民的出行距离,使中长距离的出行在城市居民总体出行中所占的比重越来越大,一定程度上影响着居民出行方式的选择。 (5)自然旅游资源
随着社会经济的发展,旅游需求在生活需求中的比例也逐步上升,与旅游发展密切相关的就是运输需求的增加。城市旅游需求的增长将促进出租车需求量的增长。
(6)政府对出租汽车的政策
政府是限制还是鼓励发展对城市出租汽车需求量有直接的影响。 (7)城市其他客运方式对出租车需求量的影响
如公共交通,由于其道路利用率高、对城市环境污染少,优先发展大运量公共交通已经成为大城市的共识,作为大运量公共交通的一种有益补充,出租汽车的发展水平必然会受到城市常规公共交通方式的影响。
本文以杭州为例,结合杭州实际情况,综合以上考虑因素,这里我们选取城市的国内生产总值、市区人口数量、城市私家车数量、城市公交客运总量、居民个人可支配收入五个因素作为城市出租车保有量的主要影响因素,对杭州市区01年08年的数据进行分析,进而建立统计回归模型,预测杭州市区未来几年的城市出租车保有量。
二、模型的基本假设
假设1:城市出租车保有量和城市国民生产总值有关,我们认为国民生产总值越高,市民对出租车的需求量也越大。
假设2:城市出租车保有量与城市人口、居民可支配收入存在正相关关系,即城市出租车保有量随着城市人口、居民可支配收入的增加的而增加。
假设3:城市出租车保有量只与城市居民个人可支配收入、城市私家车数量、城市公交客运总量、市区人口数量、城市国民生产总值有关,其他因素在这里视为无关项。
三、符号说明
四、模型的建立与求解
4.1 建模准备
设城市出租车保有量为y,市区人口为x1万人,国民生产总值为x2万元,居民可支配收入为x3元,城市客运总量为x4万人次,私家车数量为x5万人。基于杭州01-08年以上各项数据[1](见附录一),通过各个解释变量各自对应变量的散点图分析,对各个解释变量对出租车保有量影响有个大致了解。
用Excel2003软件绘出出租车保有量和各解释变量的散点图。
表一 市区人口对出租车数量的影响 表二 国民生产总值对出租车数量的影响
表三 个人可支配收入对出租车数量的影响 表四 客运总量对出租车数量的影响
表五 私家车数量对出租车数量的影响
通过散点图的结果,可以初步推断被解释变量(出租车数量)和其他五个解
释变量的关系。
4.2 模型的建立与求解
4.2.1(建立多元线性回归模型) 模型一:五元线性回归模型
基于上述散点图的分析,我们可以看到:市区人口、城市国民生产总值、居民可支配收入、城市公交客运量和私家车数量都对城市出租车需求量有较大的影响,所以我们通过Eviews5.0软件建立基于这五个解释变量的五元线性回归方程。
在命令窗口依次键入以下命令即可:
CREATE U 8
DATA Y X1 X2 X3 X4 X5 输入数据后键入命令:
LS Y C X1 X2 X3 X4 X5
即得如下结果(表六):
表六 五元线性回归模型的Eviews软件求解结果
由上述结果,我们可以得到城市出租车数量和市区人口、城市国民生产总值、居民可支配收入、城市公交客运量、私家车数量的函数关系式:
y33628.567.404x13.853x20.1761x30.5567x40.4668x5
[2]
t= (0.6974) (-0.5954) (1.0515) (-0.4741) (-0.5171) (-0.2410)
R
2
0.9661 R
2
0.7963 F5.6913
结果分析
从模型的求解结果,我们可以看到,市区人口每增加1000人,出租车的保有量就会下降7.4辆;城市国民生产总值每增加10亿元,城市出租车保有量将
增加3.85辆;居民可支配收入、城市公交客运量、私家车数量这三个解释变量的对出租车保有量的边际效益分别是(-0.1761)、(-0.5567)、(-0.4668).
R
2
0.9661
,R20.7963,说明模型的拟合度不错,具有一定的可信性。
模型一的显著性检验
1、F检验:
对于多元线性回归模型:
yib0b1x1ib2x2ibkxiki 假设H0: b1b2bk0 若假设成立,则意味着:
yiai
表明y的变化主要由模型之外的变量来决定,模型的线性关系不显著,所设定的模型没有意义。
在原假设H0成立的情况下,可以证明:
F
yiy
2
2
k
~F(k,nk1)
[2]
ei
(nk1)
所以,对于给定的显著水平,可由F分布表查得临界值F,如果根据样本数据计算得出: FF
则拒绝原假设H0,即回归系数b1,b2,,bk中至少有一个显著地不为0;此时可以认为模型的线性关系式显著的。反之,则接受H0,认为模型的线性关系不显著。
结合该模型数据(图表六),在置信概率为95%的条件下,由F分布表查得临界值F19.30,而实际模型中的F=5.69,即
FF
说明F检验是不显著的,说明市区人口、城市国民生产总值、居民可支配收
入、城市公交客运量、私家车数量对城市出租车保有量的总影响并不显著的。所以我们认为该模型与实际符合情况不是很理想,需要对上述五元线性回归模型作进一步调整,考虑到个人可支配收入的增加会引起私家车需求量的增加,两个解释变量之间存在重复,并且按照统计检验程序,一般剔除t统计量最好的解释变量,这里我们选择剔除城市私家车数量,重新建立回归模型。
模型二:剔除私家车数量后的四元线性回归模型
我们运用EView5.0软件进行求解: 在命令窗口依次键入以下命令即可:
CREATE U 8
DATA Y X1 X2 X3 X4
输入数据后键入命令:
LS Y C X1 X2 X3 X4 即得如下结果(表七)
表七 四元线性回归模型的Eviews5.0求解结果
由上述结果,我们可以得到城市出租车数量和市区人口、城市国民生产总值、居民可支配收入、城市公交客运量的函数关系式:
y46877.8110.69x13.462x20.0035x30.8832x4
t= (1.475) (-1.28) (1.91) (-0.016) (-1.221)
R
2
0.9664 R
2
0.9217 F21.59
由模型的求解结果可以看出,市区人口、城市国民生产总值、居民可支配收
入、城市公交客运量这四个解释变量的对出租车保有量的边际效益分别是(-10.69)、(3.462)、(-0.0035)、(0.8832),这里R20.9664,R20.9217,该模型的拟合度相对于模型一要好。 模型二的显著性检验
1、F检验:
用模型显著性检验的方法,结合图表六的数据,我们可以得到这样的结论:在置信概率为95%的条件下,由F分布表查得临界值F9.28,而实际模型中的F=21.59,即
FF
说明F检验是高度显著的,说明市区人口、城市国民生产总值、居民可支配收入、城市公交客运量对城市出租车保有量的总影响是显著的
2、解释变量的显著性检验(t检验):
如果模型通过了F检验,则表明模型中所有解释变量的“总影响是显著的, 但这并不同时意味着模型中的每一个解释变量对y都有重要的影响,或者说并不是每个解释变量的单独影响都是显著的。因此,有必要对模型中每个解释变量(影响)的显著性进行检验,检验过程仍然采用假设检验方法。
对于多元线性回归模型:
yib0b1x1ib2x2ibkxiki 假设H0: b1b2bk0 即假设xi对y没有显著影响。对于t统计量我们有:
t
bibi
~t(nk1)
[2]
S(bi)
因此,对于给定的显著水平,可以由t分布表查得临界t,若|t|t,则
2
2
表明原假设H0是一个错误假设,应该拒绝,即认为系数bi显著的不等于0,xi对y有显著的影响:反之,则认为影响不显著,应该考虑xi从模型中剔除而重新建
立模型。
用模型显著性检验的方法,结合图表六的数据,我们可以得到这样的结论:在置信概率90%的条件下,由t分布表查得临界值t0.051.474,而实际模型中,除解释变量x2外,其他解释变量都不可以通过t检验。同样,按照统计检验的原则,剔除t统计量最小的解释变量(居民可支配收入),重新建立三元统计回归模型。
模型三:剔除居民可支配收入后的三元线性回归模型
我们运用EView5.0软件进行求解: 在命令窗口依次键入以下命令即可:
CREATE U 8
DATA Y X1 X2 X3
输入数据后键入命令:
LS Y C X1 X2 X3 即可得到以下结果(表八)
表八 四元线性回归模型的Eviews5.0求解结果
由上述结果,我们可以得到城市出租车数量和市区人口、城市国民生产总值、城市公交客运量的函数关系式:
y47161.6110.76763x13.4689x20.8865x4
t= (2.0917) (1.91) (2.30) (-1.48)
R
2
0.9664 R
2
0.9412 F38.38
从上述函数关系中我们可以看到,模型的回归系数的符号和数值是较为合理
的。R20.9664,R20.9412,说明模型的拟合度很好。
1、F检验
用模型显著性检验的方法,结合图表八的数据,我们可以得到这样的结论:在置信概率为95%的条件下,由F分布表查得临界值F6.59,而实际模型中的F=38.38,即
FF
说明F检验是高度显著的,即市区人口、城市国民生产总值、城市公交客运量对城市出租车保有量的总体影响是显著的。
2、t检验
用模型各个解释变量对总体显著性检验的方法,我们得到这样的结论:在信度为90%的条件下,由t分表查得临界值t0.051.397,而实际模型中的各个解释变量的t统计值都大于临界值,即各解释变量都可以通过显著性检验。
为了进一步检验模型的合适性,我们用EViews5.0软件可以得到模型的残差分析图:
表九 模型三的残差分析图
结合以上残差分析图[3],我们可以看到:该模型的各期残差中大多数都落在
的虚线框内,且残差分别不存在明显的规律性。而且从求解结果可以看出,模型的回归系数的符号和数值是较为合理的。同时模型也具有较合理的现实意
ˆ
义,并且都通过了F检验和t检验,说明市区人口x1、城市国民生产总值x2、城市公交客运量x4对出租车需求量的影响是显著的,并且样本数据的拟合度也不错,理论上可以用来描述出租车需求量与各解释变量之间的关系,同时结合相关数据对未来几年的出租车保有量做合理的预测。
4.2.2(建立多元非线性回归模型)
基于上述线性回归模型的分析讨论,结合已知的历年数据和已经画出的城市出租车保有量和各解释变量的散点图,我们发现,应变量y和三个自变量x1、x2、
x4之间存在着复杂的非线性关系,于是对模型三中的线性回归模型进行修改,
并逐步加以分析。
模型四:可线性化的三元非线性回归模型
在从模型三的求解结果中,我们看到,城市出租车保有量随城市人口的增加而有所减少,这与事实不符,所以我们建立如下多元非线性化模型:
y01x12x24x4
1
这是一个可线性化模型。
令 x6x11,即得:
y01x62x24x4
结合相关数据,运用Eviews5.0软件进行求解: 在命令窗口依次键入以下命令:
CREATE U 8
DATA Y X6 X2 X4
输入数据后键入命令:
LS Y C X6 X2 X4 即可得到以下结果(表十)
表十 三元非线性回归模型的Eviews5.0求解结果
y365600.0001x63.4597x20.9491x4
t= (1.959) (2.361) (-1.546420) (-1.75)
R
2
0.9672 R
2
0.9427 F39.419
这个结果表明,在置信概率95%的条件下,由F分布表查得临界值
F0.05(3,4)6.59
,而本模型的F39.419超过临界值,并且p0.001小于0.05,
可以通过显著性检验。
根据R2检验与F检验的关系,即
F
nk1
n
R
22
1R
其中n为样本数据量,k为模型中的自变量。
用F的临界值代入该方程即可求出在较高拟合度下R2的最小值[7] 结合本模型求解结果可得: R2
nFnFnk1
0.9294
而本模型中R20.9672>0.9294,即说明该模型的线性显著性的概率达到了95%(0.05)。
因此这个模型从整体来看是可用的,回归系数的符号和数值是较为合理的。
R
2
0.9672
,说明模型有很高的拟合优度,F检验也是显著的。
同样,为了进一步检验模型的合理性,我们也可以用EViews5.0软件可以得到模型的残差分析图:
表九 模型四的残差分析图
4.3(回归模型的比较及结果分析) 4.3.1回归模型的比较
由于在用回归模型拟合样本数据时,通过比较模型的优劣,选择相对较好的回归模型,我们在估计中必须检验一下内容以便选出最佳模型:
(1)回归系数的符号及数值是否合理; (2)模型的更改是否提高了拟合优度; (3)模型中各个解释变量是否显著;
(4)残差分布情况
对于模型一和模型二,不是所有解释变量都可以通过显著性检验,模型的拟合度相对与模型三、四都比较低,所以舍弃模型一和模型二。而对于模型三和模型四,两者都有较好的拟合度,模型的回归系数的符号和数值是较为合理的。两个模型都具有较合理的现实意义,并且都通过了F检验和t检验,理论上讲都可以描述城市出租车保有量和各解释变量之间的关系。但是通过表十和表八的比较,我们可以看到,两个模型的拟合度很接近,但是模型三的解释变量显著性更高,对于出租车保有量的影响更大,所以我们选择模型三来描述城市合适的出租车保有量。
4.3.1结果分析
根据以上模型比较分析,我们得到这样的结论:城市出租车保有量和城市人口、城市公交客运量和城市国民生产总值显著相关,并且回归模型和现实数据有较高的拟合度。我们可以通过任意年份三个解释变量的具体数值,代入回归模型,
得到该年的出租车保有量。通过该统计回归模型,我们知道,2009杭州的出租车保有量的合理值为9237辆。
五、模型的评价
统计回归模型 优点:
(1) 在回归模型的分析中,运用EViews5.0软件对样本数据进行模拟,将非线
性的转化为线性求解,减少了运算量,从而提高了计算机求解运算的速度。
(2) 在模型选择分析中,运用EViews5.0软件画出残差图,以进行相对准确的
选择最优模型。
(3) 在数据的拟合上,我们通过线性和非线性的综合分析,通过R检验,拟合
度大于90%,显示了较高的精度。
(4) 在多变量的分析中,运用逐项分析法,逐个剔除变量,最后求解出相应的
回归方程。 缺点: (1) (2)
在对样本数据进行拟合和建立非线性的模型时,存在主观上的猜想,可能导致误差的产生。
建模过程相对单一,不能排除变量自相关的现象
六 参考文献
[1]杭州统计年鉴 http://www.hangzhou.gov.cn/main/zjhz/hzlj/2008/index.shtml
[2] 赵卫亚 《计量经济学教程》 上海 上海财经大学出版社 2003.8 ISBN 7-81049-920
[3] 韩中庚 《数学建模方法及其应用》 高等教育出版社 2005年
[4]戴思锐 《计量经济学》 北京 中国农业出版社 2000年
[5] 武欣、刘芳、王凌 城市出租汽车需求量预测模型及应用 2008年8月 第34卷22期
[6] 王树佳、沈增鸿、龚翔 城市出租车需求量的测定及比较标准 深圳大学经济学院 广东深圳 518060
[7] 用Excel进行回归分析的方法 http://www.qtedu.net/sspd/xxjs/200612/59436.html
[8] 尤焕苓、丁德平、王春华、刘伟东、谢庄 应用回归分析和BP神经网络方法模拟北京地区电力负荷
[9] 姜启源 谢金星 叶俊 《数学模型》(第三版)高等教育出版社 2007年6月
七 附录
附录一:杭州01年-08年城市出租车保有量及其相关影响因素的历年数据
基于杭州出租车保有量的预测模型
摘要
本文主要讨论了如何确定合理的城市出租车的需求量的问题。以杭州为例,通过该市2001年到2008年的各项数据进行分析,建立多元统计回归模型,对未来几年的出租车保有量进行了预测。
首先,我们通过Excel2003软件画出城市出租车保有量和各解释变量之间的关系,然后建立了多元线性回归模型,在回归方程的确定过程中,按照统计检验的要求逐一对各个解释变量进行分析,然后运用EView5.0软件分别对两个线性回归方程进行了检验,模型在置信概率为95%的条件下通过检验,并画出相应模型的的残差图,以便于模型的最优化选择。
同时我们根据线性回归模型的分析,结合实际情况,构造了可线性化非线性模型,同样在置信概率为95%的条件下通过显著性检验。然后进行逐步回归分析,计算出各项的系数。最后通过分析及剔除变量法,并运用Excel2003对可化为线性的非线性回归方程的显著性检验,结合两个线性回归方程,最终得到一个比较合理的非线性回归模型。最终运用得到的回归模型给出了2009年杭州市区合理的出租车保有量为9237辆。
最后,我们对上述模型进行分析评价,提出了一些可能的改进方向。
关键字: 统计回归 线性方程 非线性方程 预测 残差 检验
一、 问题的重述与分析
近年来,随着人民生活水平的不断提高,对出行的要求也逐步提高。出租车作为公共交通的一种特殊方式,由于其快速、便利、舒适、安全等特性,受到越来越多的短途(市内)出行者的青睐,促进了出租车行业的迅速发展。然而,出租车行业蓬勃发展的同时,各式各样的问题也悄然而生,如“打的难”,“黑的”横行,出租车司机集体上访等问题。这些问题很大程度上是由于政府规制不合理导致的。政府规制主要包括出租车投放总量、行业经营模式、运营定价和服务规范等方面,其中如何测定城市出租车的需求量,确定合理的出租车投放量是政府规制的重要内容。
而影响城市出租车需求量的因素有: (1)城市经济发展水平
经济发展水平通过影响人们生产性出行和生活性出行总量以及出行质量影响着城市出租汽车容量。 (2)收入与消费水平
出租车出行需求受收入和消费水平直接影响,人均收入与消费水平高,对选择出租车出行的概率大,反之则较小。 (3)人口数量和结构
客运出租车的运输对象主要是人,因此人口数量的变化必然引起出租车需求的变化。
(4)城市布局
城市规模的扩大改变着居民的出行距离,使中长距离的出行在城市居民总体出行中所占的比重越来越大,一定程度上影响着居民出行方式的选择。 (5)自然旅游资源
随着社会经济的发展,旅游需求在生活需求中的比例也逐步上升,与旅游发展密切相关的就是运输需求的增加。城市旅游需求的增长将促进出租车需求量的增长。
(6)政府对出租汽车的政策
政府是限制还是鼓励发展对城市出租汽车需求量有直接的影响。 (7)城市其他客运方式对出租车需求量的影响
如公共交通,由于其道路利用率高、对城市环境污染少,优先发展大运量公共交通已经成为大城市的共识,作为大运量公共交通的一种有益补充,出租汽车的发展水平必然会受到城市常规公共交通方式的影响。
本文以杭州为例,结合杭州实际情况,综合以上考虑因素,这里我们选取城市的国内生产总值、市区人口数量、城市私家车数量、城市公交客运总量、居民个人可支配收入五个因素作为城市出租车保有量的主要影响因素,对杭州市区01年08年的数据进行分析,进而建立统计回归模型,预测杭州市区未来几年的城市出租车保有量。
二、模型的基本假设
假设1:城市出租车保有量和城市国民生产总值有关,我们认为国民生产总值越高,市民对出租车的需求量也越大。
假设2:城市出租车保有量与城市人口、居民可支配收入存在正相关关系,即城市出租车保有量随着城市人口、居民可支配收入的增加的而增加。
假设3:城市出租车保有量只与城市居民个人可支配收入、城市私家车数量、城市公交客运总量、市区人口数量、城市国民生产总值有关,其他因素在这里视为无关项。
三、符号说明
四、模型的建立与求解
4.1 建模准备
设城市出租车保有量为y,市区人口为x1万人,国民生产总值为x2万元,居民可支配收入为x3元,城市客运总量为x4万人次,私家车数量为x5万人。基于杭州01-08年以上各项数据[1](见附录一),通过各个解释变量各自对应变量的散点图分析,对各个解释变量对出租车保有量影响有个大致了解。
用Excel2003软件绘出出租车保有量和各解释变量的散点图。
表一 市区人口对出租车数量的影响 表二 国民生产总值对出租车数量的影响
表三 个人可支配收入对出租车数量的影响 表四 客运总量对出租车数量的影响
表五 私家车数量对出租车数量的影响
通过散点图的结果,可以初步推断被解释变量(出租车数量)和其他五个解
释变量的关系。
4.2 模型的建立与求解
4.2.1(建立多元线性回归模型) 模型一:五元线性回归模型
基于上述散点图的分析,我们可以看到:市区人口、城市国民生产总值、居民可支配收入、城市公交客运量和私家车数量都对城市出租车需求量有较大的影响,所以我们通过Eviews5.0软件建立基于这五个解释变量的五元线性回归方程。
在命令窗口依次键入以下命令即可:
CREATE U 8
DATA Y X1 X2 X3 X4 X5 输入数据后键入命令:
LS Y C X1 X2 X3 X4 X5
即得如下结果(表六):
表六 五元线性回归模型的Eviews软件求解结果
由上述结果,我们可以得到城市出租车数量和市区人口、城市国民生产总值、居民可支配收入、城市公交客运量、私家车数量的函数关系式:
y33628.567.404x13.853x20.1761x30.5567x40.4668x5
[2]
t= (0.6974) (-0.5954) (1.0515) (-0.4741) (-0.5171) (-0.2410)
R
2
0.9661 R
2
0.7963 F5.6913
结果分析
从模型的求解结果,我们可以看到,市区人口每增加1000人,出租车的保有量就会下降7.4辆;城市国民生产总值每增加10亿元,城市出租车保有量将
增加3.85辆;居民可支配收入、城市公交客运量、私家车数量这三个解释变量的对出租车保有量的边际效益分别是(-0.1761)、(-0.5567)、(-0.4668).
R
2
0.9661
,R20.7963,说明模型的拟合度不错,具有一定的可信性。
模型一的显著性检验
1、F检验:
对于多元线性回归模型:
yib0b1x1ib2x2ibkxiki 假设H0: b1b2bk0 若假设成立,则意味着:
yiai
表明y的变化主要由模型之外的变量来决定,模型的线性关系不显著,所设定的模型没有意义。
在原假设H0成立的情况下,可以证明:
F
yiy
2
2
k
~F(k,nk1)
[2]
ei
(nk1)
所以,对于给定的显著水平,可由F分布表查得临界值F,如果根据样本数据计算得出: FF
则拒绝原假设H0,即回归系数b1,b2,,bk中至少有一个显著地不为0;此时可以认为模型的线性关系式显著的。反之,则接受H0,认为模型的线性关系不显著。
结合该模型数据(图表六),在置信概率为95%的条件下,由F分布表查得临界值F19.30,而实际模型中的F=5.69,即
FF
说明F检验是不显著的,说明市区人口、城市国民生产总值、居民可支配收
入、城市公交客运量、私家车数量对城市出租车保有量的总影响并不显著的。所以我们认为该模型与实际符合情况不是很理想,需要对上述五元线性回归模型作进一步调整,考虑到个人可支配收入的增加会引起私家车需求量的增加,两个解释变量之间存在重复,并且按照统计检验程序,一般剔除t统计量最好的解释变量,这里我们选择剔除城市私家车数量,重新建立回归模型。
模型二:剔除私家车数量后的四元线性回归模型
我们运用EView5.0软件进行求解: 在命令窗口依次键入以下命令即可:
CREATE U 8
DATA Y X1 X2 X3 X4
输入数据后键入命令:
LS Y C X1 X2 X3 X4 即得如下结果(表七)
表七 四元线性回归模型的Eviews5.0求解结果
由上述结果,我们可以得到城市出租车数量和市区人口、城市国民生产总值、居民可支配收入、城市公交客运量的函数关系式:
y46877.8110.69x13.462x20.0035x30.8832x4
t= (1.475) (-1.28) (1.91) (-0.016) (-1.221)
R
2
0.9664 R
2
0.9217 F21.59
由模型的求解结果可以看出,市区人口、城市国民生产总值、居民可支配收
入、城市公交客运量这四个解释变量的对出租车保有量的边际效益分别是(-10.69)、(3.462)、(-0.0035)、(0.8832),这里R20.9664,R20.9217,该模型的拟合度相对于模型一要好。 模型二的显著性检验
1、F检验:
用模型显著性检验的方法,结合图表六的数据,我们可以得到这样的结论:在置信概率为95%的条件下,由F分布表查得临界值F9.28,而实际模型中的F=21.59,即
FF
说明F检验是高度显著的,说明市区人口、城市国民生产总值、居民可支配收入、城市公交客运量对城市出租车保有量的总影响是显著的
2、解释变量的显著性检验(t检验):
如果模型通过了F检验,则表明模型中所有解释变量的“总影响是显著的, 但这并不同时意味着模型中的每一个解释变量对y都有重要的影响,或者说并不是每个解释变量的单独影响都是显著的。因此,有必要对模型中每个解释变量(影响)的显著性进行检验,检验过程仍然采用假设检验方法。
对于多元线性回归模型:
yib0b1x1ib2x2ibkxiki 假设H0: b1b2bk0 即假设xi对y没有显著影响。对于t统计量我们有:
t
bibi
~t(nk1)
[2]
S(bi)
因此,对于给定的显著水平,可以由t分布表查得临界t,若|t|t,则
2
2
表明原假设H0是一个错误假设,应该拒绝,即认为系数bi显著的不等于0,xi对y有显著的影响:反之,则认为影响不显著,应该考虑xi从模型中剔除而重新建
立模型。
用模型显著性检验的方法,结合图表六的数据,我们可以得到这样的结论:在置信概率90%的条件下,由t分布表查得临界值t0.051.474,而实际模型中,除解释变量x2外,其他解释变量都不可以通过t检验。同样,按照统计检验的原则,剔除t统计量最小的解释变量(居民可支配收入),重新建立三元统计回归模型。
模型三:剔除居民可支配收入后的三元线性回归模型
我们运用EView5.0软件进行求解: 在命令窗口依次键入以下命令即可:
CREATE U 8
DATA Y X1 X2 X3
输入数据后键入命令:
LS Y C X1 X2 X3 即可得到以下结果(表八)
表八 四元线性回归模型的Eviews5.0求解结果
由上述结果,我们可以得到城市出租车数量和市区人口、城市国民生产总值、城市公交客运量的函数关系式:
y47161.6110.76763x13.4689x20.8865x4
t= (2.0917) (1.91) (2.30) (-1.48)
R
2
0.9664 R
2
0.9412 F38.38
从上述函数关系中我们可以看到,模型的回归系数的符号和数值是较为合理
的。R20.9664,R20.9412,说明模型的拟合度很好。
1、F检验
用模型显著性检验的方法,结合图表八的数据,我们可以得到这样的结论:在置信概率为95%的条件下,由F分布表查得临界值F6.59,而实际模型中的F=38.38,即
FF
说明F检验是高度显著的,即市区人口、城市国民生产总值、城市公交客运量对城市出租车保有量的总体影响是显著的。
2、t检验
用模型各个解释变量对总体显著性检验的方法,我们得到这样的结论:在信度为90%的条件下,由t分表查得临界值t0.051.397,而实际模型中的各个解释变量的t统计值都大于临界值,即各解释变量都可以通过显著性检验。
为了进一步检验模型的合适性,我们用EViews5.0软件可以得到模型的残差分析图:
表九 模型三的残差分析图
结合以上残差分析图[3],我们可以看到:该模型的各期残差中大多数都落在
的虚线框内,且残差分别不存在明显的规律性。而且从求解结果可以看出,模型的回归系数的符号和数值是较为合理的。同时模型也具有较合理的现实意
ˆ
义,并且都通过了F检验和t检验,说明市区人口x1、城市国民生产总值x2、城市公交客运量x4对出租车需求量的影响是显著的,并且样本数据的拟合度也不错,理论上可以用来描述出租车需求量与各解释变量之间的关系,同时结合相关数据对未来几年的出租车保有量做合理的预测。
4.2.2(建立多元非线性回归模型)
基于上述线性回归模型的分析讨论,结合已知的历年数据和已经画出的城市出租车保有量和各解释变量的散点图,我们发现,应变量y和三个自变量x1、x2、
x4之间存在着复杂的非线性关系,于是对模型三中的线性回归模型进行修改,
并逐步加以分析。
模型四:可线性化的三元非线性回归模型
在从模型三的求解结果中,我们看到,城市出租车保有量随城市人口的增加而有所减少,这与事实不符,所以我们建立如下多元非线性化模型:
y01x12x24x4
1
这是一个可线性化模型。
令 x6x11,即得:
y01x62x24x4
结合相关数据,运用Eviews5.0软件进行求解: 在命令窗口依次键入以下命令:
CREATE U 8
DATA Y X6 X2 X4
输入数据后键入命令:
LS Y C X6 X2 X4 即可得到以下结果(表十)
表十 三元非线性回归模型的Eviews5.0求解结果
y365600.0001x63.4597x20.9491x4
t= (1.959) (2.361) (-1.546420) (-1.75)
R
2
0.9672 R
2
0.9427 F39.419
这个结果表明,在置信概率95%的条件下,由F分布表查得临界值
F0.05(3,4)6.59
,而本模型的F39.419超过临界值,并且p0.001小于0.05,
可以通过显著性检验。
根据R2检验与F检验的关系,即
F
nk1
n
R
22
1R
其中n为样本数据量,k为模型中的自变量。
用F的临界值代入该方程即可求出在较高拟合度下R2的最小值[7] 结合本模型求解结果可得: R2
nFnFnk1
0.9294
而本模型中R20.9672>0.9294,即说明该模型的线性显著性的概率达到了95%(0.05)。
因此这个模型从整体来看是可用的,回归系数的符号和数值是较为合理的。
R
2
0.9672
,说明模型有很高的拟合优度,F检验也是显著的。
同样,为了进一步检验模型的合理性,我们也可以用EViews5.0软件可以得到模型的残差分析图:
表九 模型四的残差分析图
4.3(回归模型的比较及结果分析) 4.3.1回归模型的比较
由于在用回归模型拟合样本数据时,通过比较模型的优劣,选择相对较好的回归模型,我们在估计中必须检验一下内容以便选出最佳模型:
(1)回归系数的符号及数值是否合理; (2)模型的更改是否提高了拟合优度; (3)模型中各个解释变量是否显著;
(4)残差分布情况
对于模型一和模型二,不是所有解释变量都可以通过显著性检验,模型的拟合度相对与模型三、四都比较低,所以舍弃模型一和模型二。而对于模型三和模型四,两者都有较好的拟合度,模型的回归系数的符号和数值是较为合理的。两个模型都具有较合理的现实意义,并且都通过了F检验和t检验,理论上讲都可以描述城市出租车保有量和各解释变量之间的关系。但是通过表十和表八的比较,我们可以看到,两个模型的拟合度很接近,但是模型三的解释变量显著性更高,对于出租车保有量的影响更大,所以我们选择模型三来描述城市合适的出租车保有量。
4.3.1结果分析
根据以上模型比较分析,我们得到这样的结论:城市出租车保有量和城市人口、城市公交客运量和城市国民生产总值显著相关,并且回归模型和现实数据有较高的拟合度。我们可以通过任意年份三个解释变量的具体数值,代入回归模型,
得到该年的出租车保有量。通过该统计回归模型,我们知道,2009杭州的出租车保有量的合理值为9237辆。
五、模型的评价
统计回归模型 优点:
(1) 在回归模型的分析中,运用EViews5.0软件对样本数据进行模拟,将非线
性的转化为线性求解,减少了运算量,从而提高了计算机求解运算的速度。
(2) 在模型选择分析中,运用EViews5.0软件画出残差图,以进行相对准确的
选择最优模型。
(3) 在数据的拟合上,我们通过线性和非线性的综合分析,通过R检验,拟合
度大于90%,显示了较高的精度。
(4) 在多变量的分析中,运用逐项分析法,逐个剔除变量,最后求解出相应的
回归方程。 缺点: (1) (2)
在对样本数据进行拟合和建立非线性的模型时,存在主观上的猜想,可能导致误差的产生。
建模过程相对单一,不能排除变量自相关的现象
六 参考文献
[1]杭州统计年鉴 http://www.hangzhou.gov.cn/main/zjhz/hzlj/2008/index.shtml
[2] 赵卫亚 《计量经济学教程》 上海 上海财经大学出版社 2003.8 ISBN 7-81049-920
[3] 韩中庚 《数学建模方法及其应用》 高等教育出版社 2005年
[4]戴思锐 《计量经济学》 北京 中国农业出版社 2000年
[5] 武欣、刘芳、王凌 城市出租汽车需求量预测模型及应用 2008年8月 第34卷22期
[6] 王树佳、沈增鸿、龚翔 城市出租车需求量的测定及比较标准 深圳大学经济学院 广东深圳 518060
[7] 用Excel进行回归分析的方法 http://www.qtedu.net/sspd/xxjs/200612/59436.html
[8] 尤焕苓、丁德平、王春华、刘伟东、谢庄 应用回归分析和BP神经网络方法模拟北京地区电力负荷
[9] 姜启源 谢金星 叶俊 《数学模型》(第三版)高等教育出版社 2007年6月
七 附录
附录一:杭州01年-08年城市出租车保有量及其相关影响因素的历年数据