第34卷第8期2004年8月
数学的实践与认识
V o l 134 N o 18
A ugu st, 2004
一种基于支持向量机预测模型的精度提高方法与应用
李运蒙
(五邑大学管理学院, 广东江门 529020)
摘要: 介绍了支持向量机模型的特点, 针对该模型在经济预测中的应用, 提出了一种提高该模型预测精度
的方法, 并进行了理论分析和实际应用的验证, 说明了该方法能够获得更加准确的预测结果.
关键词: 支持向量机; 模式识别; 经济预测; 国民生产总值
1 引 言
支持向量机[1]是最近几年国际上模式识别研究的热点, 具有全局最优和良好的泛化能力. 而关于支持向量机在经济预测中应用的研究却是刚刚起步, 很多问题有待研究和探索.
经济系统是一个复杂的巨系统, 经济的发展变化受到来自社会各个方面的因素的影响. 经济的发展有其自身的规律, 但这种规律并不象自然科学规律那样严格和精确. 经济规律又常常表现为短期规律, 能够获取的统计数据又较少, 给预测建模造成一定的困难. 支持向量机模型具有对小样本的较强的泛化能力[2], 在经济预测中有良好的应用前景. 如何运用有关的经济学理论和方法, 利用支持向量机模型的优势, 更加准确地找出经济现象和经济过程的发展规律, 是人们所关心的问题.
2 对支持向量机模型预测精度的提高方法
211 基本思路
通常对预测问题的建模过程是:对所要预测的某经济变量y , 经过定性或定量的分析找出若干个影响y 变化的先行相关经济变量x 1, x 2, …, x n , 利用历史数据建立回归预测模型, 再运用该模型预测未来的y 的变化. 关于回归建模有多种算法, 如多元线性回归方法、神经网络回归方法等.
对于提高预测精度问题, 单单靠提高对历史数据的拟合精度往往不能奏效, 如神经网络方法, 可以对历史数据进行任意精度的拟合, 但往往由于拟和精度过高, 降低了模型的泛化能力, 使得对历史数据吻合较好, 但预测结果并不准确, 产生所谓过学习现象.
对于短期经济预测, 考虑到某经济变量受到近期经济环境发展变化影响较大, 受到远期经济变化的影响相对较小, 为适应这一经济现象, 就要求预测模型重视考虑距离预测点近的经济数据. 在一些预测方法中, 可以通过加权的方法来提高近期数据对预测结果的影响.
对上述观点也可以看成, 经济的发展变化既有长期的规律, 又具有短期的变化特点. 如果进行短期经济预测, 则短期变化的特点应着重考虑. 基于这一想法, 本文尝试对短期经济预测做如下处理:对同样的历史数据建立两个预测模型, 一个用近期少量样本建立模型m , 目的是找出经济变量短期的变化特点; 另一个是用较长时期的较多的样本建立模型M , 目
收稿日期:2003206220
20数 学 的 实 践 与 认 识34卷
的是找出经济变量长期变化的规律. 运用两个模型分别进行预测, 再将预测结果进行集成, 得到最终的预测结果. 考虑到支持向量机的较强的泛化能力, 两个模型均采用支持向量机方法建立.
212 基于支持向量机的回规方法介绍[3—5]
为研究支持向量机模型的特点, 考虑其算法建立过程. 为导出支持向量机回归模型, 首先考虑线性回归, 设样本为n +1维向量, 某区域的k 个样本值表示为:
(x 1, y 1) , (x 2, y 2) , …, (x k , y k ) ∈R n ×R
设线性函数为:f (x ) =(w ・x ) +b , 则对Ε的不敏感区如图1所示. 其中误差在Ε范围内是允许的, 超过Ε的部分的
3
正负误差分别用Ν. 对Ε不敏感函数逼近问题可转i , Νi 表示化为以下优化问题:
) =m in 5(w , Ν, Ν
y i -33
(w w ) +C 2
k
i
k
∑Ν+∑Ν
i
i =1
i =1
3
(w x i ) -b ΦΕ+Νi , i =1, 2, …, k i =1, 2, …, k
图1 Ε2不敏感区
3
s . t . (w x i ) +b -y i ΦΕ+Νi ,
Νi , Νi Ε0
其中C 代表对Ε不敏感区外的点的惩罚因子.
通过建立L agrange 方程可推导出其对偶优化问题
k
m ax W (Α, Α) =
3
∑(Α
i
i =1
3
(y i -Ε) -Α) ) i (y i +Ε
k
k
-0ΦΑi ΦC , s . t .
3
0ΦΑi ΦC ,
l
2
∑∑(Α
i
i =1j =1
3
3
-ΑΑi ) (Αj -j ) (x i x j )
(1)
i =1, 2, …, k i =1, 2, …, k
(2)
∑(Α
i
i =1
3
-Αi ) =0
对于非线性逼近, 基本思想是先通过非线性变换x →Υ(x ) , 将输入空间映射成高维的特征
空间(H ilbert 空间) , 然后在特征空间中进行线性逼近, 即f (x ) =(w Υ(x ) ) +b 这样目标函数式(1) 就变为
k
∑(Α
i
i =1
3
(y i -Ε) -Α) ) -i (y i +Ε
2
k k
∑∑(Α
i
i =1j =1
3
3
(x i ) Υ(x j ) ) -ΑΑi ) (Αj -j ) (Υ
进一步设
K (x i , x j ) =(Υ(x i ) Υ(x j ) )
(3)
则目标函数改写为
k
m ax W (Α, Α) =
3
∑(Α
i
i =1
3
(y i -Ε) -Α) ) i (y i +Ε
k
k
-
2
∑∑(Α
i
i =1j =1
3
3
-ΑΑi ) (Αj -j ) K (x i , x j )
(4)
式(3) 中K (x i , x j ) 为核函数, 常用的核函数包括多项式、. 在约束式(2) 径向基、Sigm o id 等
8期李运蒙:一种基于支持向量机预测模型的精度提高方法与应用21
3
下, 对式(4) 进行求解, 可获得参数Αi 和Αi , 最终, 回归函数为
f (x ) =
∑(Α-i
SV s i
3
Αi ) K (x i , x ) +b
其中
b =-
2
∑(Α-SV s
3Αi ) [K (x r , x i ) +K (x s , x i ) ]
SV s 为支持向量集, r , s 为敏感区外的向量指标.
由以上推导过程可以看出, 通过选择不同的Ε和C 可以调整回归曲线的拟合精度.
3 实际应用效果分析
311 问题分析
本文以广东省江门市GD P 短期(一年) 预测为例考虑支持向量机模型预测精度的提高
问题. 根据经济理论[6]可知:消费、投资和净出口是推动GD P 增长的强大动力, 通常被称为是拉动经济增长的“三架马车”.
而对于具有侨乡特色的江门市地区GD P 的拉动, 由于消费的资金一部分来源于海外, 消费产品也大都来源于区域以外, 因此本地的消费对经济有推动作用但不是主要的指标, 主要考虑净出口和投资两项指标对GD P 的影响. 根据当地统计资料提供的数据[7], 综合分析本地区的特点, 最终选择出口、固定资产投资作为预测GD P 的参数指标.
在计算之前对数据进行预处理, 用每个指标的增长比代表该项指标的变化情况, 并且扣除物价影响因素, GD P 采用统计资料中的环比数据. 指标的预处理公式如下:
x 当前年份=
X
X 上一年度上一年度
其中X 表示处理前的指标数据, w 代表物价指数, x 表示处理后的指标数据. 312 预测模型设计
1) 样本的构造. 考虑利用t -1年的出口、固定资产投资数据对t 年的GD P 数据进行
预测, 则一个t -1年的出口、固定资产投资数据和t 年的GD P 数据构成一个学习样本.
2) 两个预测模型的建立. 应用预测点之前的8个样本进行学习建立模型M , 用来对该
期的GD P 进行预测. 应用预测点之前的3个样本进行学习建立模型m , 同样用来对该期的. GD P 进行预测
核函数选用rbf 核. M 模型中取C =100, Ε=01005, 主要目的是找出长期的规律. m 模型中取C =150, Ε=01001, 拟合度较高, 主要目的找出短期的变化特点. 313 组合预测效果
对1998—2002年的GD P 分别用两个模型进行预测, 得到关于GD P 环比的预测值. 考虑到距离预测点越近的样本对预测值的影响越大, 采用以下公式对预测值进行组合
组合计算结果=8个样本计算结果3(115 515) +3个样本计算结果3(4 515) 其中4和115分别表示8个样本和3个样本距离预测点的平均距离. 计算结果如表1所示:
22数 学 的 实 践 与 认 识
表1 两种模型的计算结果和模型组合的结果及误差
34卷
行次
1234567
年份
GD P 实际环比
19981. 09061. 12481. 09841. 10560. 03420. 00780. 0150
19991. 1031. 15331. 08721. 10520. 0503-0. 01580. 0022
20001. 11031. 14551. 1041. 11530. 0352-0. 00630. 0050
20011. 111. 10881. 10261. 1043-0. 0012-0. 0074-0. 0057
20021. 1031. 10651. 10871. 10810. 00350. 00570. 0051
0. 02490. 00860. 0066
误差绝对值合计平均
多样本预测结果小样本预测结果组合计算结果多样本预测结果误差小样本预测结果误差组合计算结果误差
4 结果分析与结论
由以上计算结果可以看出:小样本误差小于0101的预测结果有4个, 多样本只有两个. 说明小样本模型的预测精度超过多样本的结果, 短期规律明显. 组合结果比两个模型的计算结果都精确, 平均误差也大为降低, 表明该方法有明显提高预测精度的效果.
参考文献:
[1] Co rtes C , V apnik V . Suppo rt vecto r netwo rk s [J ]. M ach ine L earning , 1995, 20:1—25, 273—297.
[2] Burges C J C . A tuto rial on suppo rt vecto r m ach ines fo r pattern recogniti on [J ]. D ata M ining and Know ledge
D iscovering , 1998, 2(2) :121—167.
[3] 王景雷, 吴景社, 孙景生. 支持向量机在地下水位预报中的应用研究[J ]. 水利学报, 2003, 5:122—128. [4] 王定成, 方廷健, 高理富等. 支持向量机回归在线建模极其应用[J ]. 控制与决策, 2003, 18(1) :89—92. [5] 陶卿, 曹进德, 孙德敏. 基于支持向量机分类的回归方法[J ]. 软件学报, 2002, 13(5) :1024—1027. [6] 张雪松. 三大需求要素对我国GD P 的贡献[J]. 宏观经济研究, 2003, 3:15—21.
[7] 江门市统计年鉴[M]. 江门:江门市统计局编, 1978—2002; 广东省统计年鉴[M]. 北京:中国统计出版社, 1978—
2002.
A M ethod to I m prove Econom ic Forecasti ng
Prec ision Based on SV M M odel
L I Yun 2m eng
(M anagem en t Schoo l , W uyi U n iversity , J iangm en Guangdong 529020, Ch ina )
Abstract : T h is paper in troduces the characteristics of SVM , con siders the app licati on of SVM in econom ic fo recasting , b rings up a m ethod to i m p rove the fo recasting p recisi on , T hen gives ou t the theo retical analysis and p ractical app licati on examp le , p roves th is m ethod can get mo re . p recisi on fo recasting resu lts
Keywords : suppo rt vecto r m ach ine ; pattern recogn iti on ; econom ic fo recasting ; GD P
第34卷第8期2004年8月
数学的实践与认识
V o l 134 N o 18
A ugu st, 2004
一种基于支持向量机预测模型的精度提高方法与应用
李运蒙
(五邑大学管理学院, 广东江门 529020)
摘要: 介绍了支持向量机模型的特点, 针对该模型在经济预测中的应用, 提出了一种提高该模型预测精度
的方法, 并进行了理论分析和实际应用的验证, 说明了该方法能够获得更加准确的预测结果.
关键词: 支持向量机; 模式识别; 经济预测; 国民生产总值
1 引 言
支持向量机[1]是最近几年国际上模式识别研究的热点, 具有全局最优和良好的泛化能力. 而关于支持向量机在经济预测中应用的研究却是刚刚起步, 很多问题有待研究和探索.
经济系统是一个复杂的巨系统, 经济的发展变化受到来自社会各个方面的因素的影响. 经济的发展有其自身的规律, 但这种规律并不象自然科学规律那样严格和精确. 经济规律又常常表现为短期规律, 能够获取的统计数据又较少, 给预测建模造成一定的困难. 支持向量机模型具有对小样本的较强的泛化能力[2], 在经济预测中有良好的应用前景. 如何运用有关的经济学理论和方法, 利用支持向量机模型的优势, 更加准确地找出经济现象和经济过程的发展规律, 是人们所关心的问题.
2 对支持向量机模型预测精度的提高方法
211 基本思路
通常对预测问题的建模过程是:对所要预测的某经济变量y , 经过定性或定量的分析找出若干个影响y 变化的先行相关经济变量x 1, x 2, …, x n , 利用历史数据建立回归预测模型, 再运用该模型预测未来的y 的变化. 关于回归建模有多种算法, 如多元线性回归方法、神经网络回归方法等.
对于提高预测精度问题, 单单靠提高对历史数据的拟合精度往往不能奏效, 如神经网络方法, 可以对历史数据进行任意精度的拟合, 但往往由于拟和精度过高, 降低了模型的泛化能力, 使得对历史数据吻合较好, 但预测结果并不准确, 产生所谓过学习现象.
对于短期经济预测, 考虑到某经济变量受到近期经济环境发展变化影响较大, 受到远期经济变化的影响相对较小, 为适应这一经济现象, 就要求预测模型重视考虑距离预测点近的经济数据. 在一些预测方法中, 可以通过加权的方法来提高近期数据对预测结果的影响.
对上述观点也可以看成, 经济的发展变化既有长期的规律, 又具有短期的变化特点. 如果进行短期经济预测, 则短期变化的特点应着重考虑. 基于这一想法, 本文尝试对短期经济预测做如下处理:对同样的历史数据建立两个预测模型, 一个用近期少量样本建立模型m , 目的是找出经济变量短期的变化特点; 另一个是用较长时期的较多的样本建立模型M , 目
收稿日期:2003206220
20数 学 的 实 践 与 认 识34卷
的是找出经济变量长期变化的规律. 运用两个模型分别进行预测, 再将预测结果进行集成, 得到最终的预测结果. 考虑到支持向量机的较强的泛化能力, 两个模型均采用支持向量机方法建立.
212 基于支持向量机的回规方法介绍[3—5]
为研究支持向量机模型的特点, 考虑其算法建立过程. 为导出支持向量机回归模型, 首先考虑线性回归, 设样本为n +1维向量, 某区域的k 个样本值表示为:
(x 1, y 1) , (x 2, y 2) , …, (x k , y k ) ∈R n ×R
设线性函数为:f (x ) =(w ・x ) +b , 则对Ε的不敏感区如图1所示. 其中误差在Ε范围内是允许的, 超过Ε的部分的
3
正负误差分别用Ν. 对Ε不敏感函数逼近问题可转i , Νi 表示化为以下优化问题:
) =m in 5(w , Ν, Ν
y i -33
(w w ) +C 2
k
i
k
∑Ν+∑Ν
i
i =1
i =1
3
(w x i ) -b ΦΕ+Νi , i =1, 2, …, k i =1, 2, …, k
图1 Ε2不敏感区
3
s . t . (w x i ) +b -y i ΦΕ+Νi ,
Νi , Νi Ε0
其中C 代表对Ε不敏感区外的点的惩罚因子.
通过建立L agrange 方程可推导出其对偶优化问题
k
m ax W (Α, Α) =
3
∑(Α
i
i =1
3
(y i -Ε) -Α) ) i (y i +Ε
k
k
-0ΦΑi ΦC , s . t .
3
0ΦΑi ΦC ,
l
2
∑∑(Α
i
i =1j =1
3
3
-ΑΑi ) (Αj -j ) (x i x j )
(1)
i =1, 2, …, k i =1, 2, …, k
(2)
∑(Α
i
i =1
3
-Αi ) =0
对于非线性逼近, 基本思想是先通过非线性变换x →Υ(x ) , 将输入空间映射成高维的特征
空间(H ilbert 空间) , 然后在特征空间中进行线性逼近, 即f (x ) =(w Υ(x ) ) +b 这样目标函数式(1) 就变为
k
∑(Α
i
i =1
3
(y i -Ε) -Α) ) -i (y i +Ε
2
k k
∑∑(Α
i
i =1j =1
3
3
(x i ) Υ(x j ) ) -ΑΑi ) (Αj -j ) (Υ
进一步设
K (x i , x j ) =(Υ(x i ) Υ(x j ) )
(3)
则目标函数改写为
k
m ax W (Α, Α) =
3
∑(Α
i
i =1
3
(y i -Ε) -Α) ) i (y i +Ε
k
k
-
2
∑∑(Α
i
i =1j =1
3
3
-ΑΑi ) (Αj -j ) K (x i , x j )
(4)
式(3) 中K (x i , x j ) 为核函数, 常用的核函数包括多项式、. 在约束式(2) 径向基、Sigm o id 等
8期李运蒙:一种基于支持向量机预测模型的精度提高方法与应用21
3
下, 对式(4) 进行求解, 可获得参数Αi 和Αi , 最终, 回归函数为
f (x ) =
∑(Α-i
SV s i
3
Αi ) K (x i , x ) +b
其中
b =-
2
∑(Α-SV s
3Αi ) [K (x r , x i ) +K (x s , x i ) ]
SV s 为支持向量集, r , s 为敏感区外的向量指标.
由以上推导过程可以看出, 通过选择不同的Ε和C 可以调整回归曲线的拟合精度.
3 实际应用效果分析
311 问题分析
本文以广东省江门市GD P 短期(一年) 预测为例考虑支持向量机模型预测精度的提高
问题. 根据经济理论[6]可知:消费、投资和净出口是推动GD P 增长的强大动力, 通常被称为是拉动经济增长的“三架马车”.
而对于具有侨乡特色的江门市地区GD P 的拉动, 由于消费的资金一部分来源于海外, 消费产品也大都来源于区域以外, 因此本地的消费对经济有推动作用但不是主要的指标, 主要考虑净出口和投资两项指标对GD P 的影响. 根据当地统计资料提供的数据[7], 综合分析本地区的特点, 最终选择出口、固定资产投资作为预测GD P 的参数指标.
在计算之前对数据进行预处理, 用每个指标的增长比代表该项指标的变化情况, 并且扣除物价影响因素, GD P 采用统计资料中的环比数据. 指标的预处理公式如下:
x 当前年份=
X
X 上一年度上一年度
其中X 表示处理前的指标数据, w 代表物价指数, x 表示处理后的指标数据. 312 预测模型设计
1) 样本的构造. 考虑利用t -1年的出口、固定资产投资数据对t 年的GD P 数据进行
预测, 则一个t -1年的出口、固定资产投资数据和t 年的GD P 数据构成一个学习样本.
2) 两个预测模型的建立. 应用预测点之前的8个样本进行学习建立模型M , 用来对该
期的GD P 进行预测. 应用预测点之前的3个样本进行学习建立模型m , 同样用来对该期的. GD P 进行预测
核函数选用rbf 核. M 模型中取C =100, Ε=01005, 主要目的是找出长期的规律. m 模型中取C =150, Ε=01001, 拟合度较高, 主要目的找出短期的变化特点. 313 组合预测效果
对1998—2002年的GD P 分别用两个模型进行预测, 得到关于GD P 环比的预测值. 考虑到距离预测点越近的样本对预测值的影响越大, 采用以下公式对预测值进行组合
组合计算结果=8个样本计算结果3(115 515) +3个样本计算结果3(4 515) 其中4和115分别表示8个样本和3个样本距离预测点的平均距离. 计算结果如表1所示:
22数 学 的 实 践 与 认 识
表1 两种模型的计算结果和模型组合的结果及误差
34卷
行次
1234567
年份
GD P 实际环比
19981. 09061. 12481. 09841. 10560. 03420. 00780. 0150
19991. 1031. 15331. 08721. 10520. 0503-0. 01580. 0022
20001. 11031. 14551. 1041. 11530. 0352-0. 00630. 0050
20011. 111. 10881. 10261. 1043-0. 0012-0. 0074-0. 0057
20021. 1031. 10651. 10871. 10810. 00350. 00570. 0051
0. 02490. 00860. 0066
误差绝对值合计平均
多样本预测结果小样本预测结果组合计算结果多样本预测结果误差小样本预测结果误差组合计算结果误差
4 结果分析与结论
由以上计算结果可以看出:小样本误差小于0101的预测结果有4个, 多样本只有两个. 说明小样本模型的预测精度超过多样本的结果, 短期规律明显. 组合结果比两个模型的计算结果都精确, 平均误差也大为降低, 表明该方法有明显提高预测精度的效果.
参考文献:
[1] Co rtes C , V apnik V . Suppo rt vecto r netwo rk s [J ]. M ach ine L earning , 1995, 20:1—25, 273—297.
[2] Burges C J C . A tuto rial on suppo rt vecto r m ach ines fo r pattern recogniti on [J ]. D ata M ining and Know ledge
D iscovering , 1998, 2(2) :121—167.
[3] 王景雷, 吴景社, 孙景生. 支持向量机在地下水位预报中的应用研究[J ]. 水利学报, 2003, 5:122—128. [4] 王定成, 方廷健, 高理富等. 支持向量机回归在线建模极其应用[J ]. 控制与决策, 2003, 18(1) :89—92. [5] 陶卿, 曹进德, 孙德敏. 基于支持向量机分类的回归方法[J ]. 软件学报, 2002, 13(5) :1024—1027. [6] 张雪松. 三大需求要素对我国GD P 的贡献[J]. 宏观经济研究, 2003, 3:15—21.
[7] 江门市统计年鉴[M]. 江门:江门市统计局编, 1978—2002; 广东省统计年鉴[M]. 北京:中国统计出版社, 1978—
2002.
A M ethod to I m prove Econom ic Forecasti ng
Prec ision Based on SV M M odel
L I Yun 2m eng
(M anagem en t Schoo l , W uyi U n iversity , J iangm en Guangdong 529020, Ch ina )
Abstract : T h is paper in troduces the characteristics of SVM , con siders the app licati on of SVM in econom ic fo recasting , b rings up a m ethod to i m p rove the fo recasting p recisi on , T hen gives ou t the theo retical analysis and p ractical app licati on examp le , p roves th is m ethod can get mo re . p recisi on fo recasting resu lts
Keywords : suppo rt vecto r m ach ine ; pattern recogn iti on ; econom ic fo recasting ; GD P