基于关联规则的股票预测方法研究

总第245期2010年第3期

计算机与数字工程

Computer &D ig ital Eng ineer ing V o l. 38No. 3

150

基于关联规则的股票预测方法研究

徐海鹏

(中国地质大学(武汉) 计算机学院武汉 430074)

摘要近年来证券市场迅速发展, 股票信息爆炸式增长, 如何从庞大的数据信息中找到有用的知识为投资者的投资行为提供指导, 已成为一个重要的学术研究方向。股票市场的预测方向多种多样, 主要包括股价趋势、循环周期和持续时间等。从关联规则挖掘技术入手, 引入主观兴趣度约束和客观兴趣度约束, 挖掘股票收益率信息, 实现对股价趋势的预测。同时对比实际股票数据结果, 测试挖掘规则的准确率。

关键词关联规则; 收益率; 兴趣度; 股价趋势中图分类号 T P311

Forecasting Method of Stock Tend Based on Association Rules

X u H aipeng

(School of Computer, China U niv er sity of Geo sciences, Wuhan 430074)

A bstract Recently sto ck market is developing quickly , st ock info rmatio n ex ploit s quickly. H ow to find useful informa -t ion f rom larg e amo unts o f informat ion to give inst ruct ions fo r investment t hat has become an impor tant academic r esear ching direction. T here are sever al methods to for ecast sto ck mar ket, such as stock price tend, cycle per iod and lasting time, ect. Sett ing up f rom association rules, and introducing objective and subjectiv e interest measure, finally dig ging o ut stock y ield rate info rmatio n to for ecast stock price tend. In the end, compared with real sto ck date, testing the precision.

Key Words association rules, y ield r ate, inter est measure, sto ck pr ice t end Class Nu mber T P311

1 引言

随着计算机、数据库和Internet 技术的广泛发展应用, 人们可以更为有效地管理和获取信息, 全球信息量爆炸式增长, 海量信息迫使人们去发现隐含在这些数据背后的规律和知识, 数据挖掘技术应运而生。数据挖掘也称为数据库中的知识发现(KDD) , 即从大规模的数据中抽取非平凡的、未知的、隐含的、有潜在应用价值信息的过程[2]。

中国市场经济深入改革发展, 金融市场渐渐成为国民经济的灵魂, 而股票市场是其中最为重要的组成部分。然而就在中国股票市场快速发展、作用日益凸现的同时, 我们也应该清醒地认识到股票市场的双刃剑特性。目前, 政府面临着如何有效监

[1]

管市场, 如何防范金融风险, 发挥市场积极的一面, 使股票市场健康稳定发展; 投资者则面临着如何最小化风险, 同时最大化投资收益。如果能准确预测股票价格趋势, 所有这些问题都可以迎刃而解。所以, 对股票价格趋势变化的预测是及其重要而有意义的。

如何从庞大的数据信息中找到有用的知识为投资者的投资行为提供指导, 已成为一个重要的学术研究方向。自Agr aw al 等提出关联规则挖掘的Apriori 算法以来, 越来越多的研究应用于股票证券数据。目前这些研究基本集中于两大方面, 一是挖掘各股票的股价涨跌关联, 另一方面则是从股票收益率进行分析。文章集中研究挖掘各股票收益率之间的关联关系。

收稿日期:2009年11月16日, 修回日期:2009年12月10日:,

2 关联规则

2. 1 关联规则相关定义

关联规则是数据挖掘(或称为数据库中的知识发现) 的重要研究方向之一, 它于1993年首次由美国Rabesh Ag raw al 等人提出, 其基本形式为形如 A B 的蕴涵式, A B 中A 被称为规则前项, B 被称为规则后项。关联规则反映的是A 项目出现时, B 项目也与之同时出现。例如在超市中, 购买啤酒的顾客同时趋向于购买婴儿尿布。

Agraw al 等人提出了挖掘事务数据库中项集间的关联规则挖掘问题, 同时给出了一种挖掘算法 Aprior i 算法。A prior i 算法是一种极具影响的挖掘单维布尔关联规则的频繁项集挖掘算法, 此算法的核心是基于频集的递归方法, 它开辟了关联规则数据挖掘的先河, 后来诸多学者对关联规则挖掘算法进行了研究, 都是建立在Apriori 算法基础上。

下面给出一个样本事务数据库, 并对它实施Apriori 算法, 生成频繁项目集。用min _sup 表示支持数(项目集在数据集中出现的次数), 设min _sup =2。

就是分析规则之间的相关性。统计学对数据集中变量间的相关性研究比较透彻, 现在大部分关联规则客观兴趣度的度量都采用了统计学的研究成果。

统计学中, P (A ) 、P (B ) 、P (A , B) 分别表示事件A , B , 以及事件A B 同时发生的概率:

P (A , B) =P (A ) P (B) :事件A 与B 相互独立;

P (A , B) >P(A) P(B) :事件A 与B 正相关; P (A , B)

目前, 关联规则客观兴趣度的度量方法有许多种, 如Gini 指标(Gini Index ) 、PS 公式(Piatetsky -Shapiro 规则兴趣度) 和确信度(Conviction) 等。论文所采用的度量客观兴趣度的方法, 在给定数据集D 上的关联规则X Y 的客观兴趣度为RI [3]:RI =

m ax {conf idence(X Y) , sup p ort(Y) }

(1)

RI 度量规则的客观兴趣度, 其值介于-1和1之间。如果规则的兴趣度大于0, 且越接近于1, 那么它的实际利用价值就越大。2. 3 主观兴趣度约束引入

仅仅根据客观性兴趣度选取用户所关注的规则, 往往难以获得用户真正感兴趣的规则。一个规则是否有用常常取决于用户的主观感觉。这就是规则兴趣度的主观性。

在实际应用中, 挖掘出的关联规则可能会因为以下原因失去有趣性。

1) 挖掘出的规则符合先验知识或期望值;

图1 A priori 算法生成频繁项目集的过程

2) 挖掘出的规则可能涉及非有趣性属性或属性组合;

例如, 挖掘出规则:数据结构离散数学如果用户对与数据结构有关的规则不感兴趣, 那么规则没有意义。

3) 规则冗余。

论文重点针对第二种情况: 挖掘出的规则可能涉及非有趣性属性或属性组合 , 引入了模板匹配的方法来挖掘用户感兴趣的关联规则。将关联规则划分为有趣的和非有趣的两类。模板是形如A 1, A 2, A 3 a 1, a 2, a 3 的表达式, 如果B 1, B 2, B 3 b 1, b 2, b 3 是模板的一个实例, 那么就称规则B 1, B 2, B 3 b 1, b 2, b 3 匹配模板。

关联规则挖掘算法可以从数据集中分析出很多关联规则, 但对用户而言, 可能只有其中的少数部分是有价值的。如果数据挖掘系统向用户提供过多的规则, 用户就不能很好的理解它们, 也就很难把注意力放到真正令人感兴趣的那些规则上。数据挖掘系统应该尽可能只向用户提供对于用户有价值的规则。

如何判定一个规则是否有价值? 它涉及到两种衡量标准, 用户的主观取向和系统的客观性量化。在此基础上, 人们引入了兴趣度这个概念, 从主客观两个方面度量规则令人感兴趣的程度。2. 2 客观兴趣度约束引入

规则后项是否包含选取的待预警课程, 例如选取了课程P 1, P 2, 则有以下四个模板待匹配:

P 1, * *; (*代表任意课程或课程的组合)

* P 1, *; (*代表任意课程或课程的组合)

P 2, * *; (*代表任意课程或课程的组合)

* P 2, *(*代表任意课程或课程的组合)

在具体实现过程中, 为了提高效率和避免重复导出规则, 采取逐步顺序匹配的方法, 对于导出的规则集, 逐个匹配

上述模板, 匹配失败

则继续匹配下一个, 匹配成功则导出规则, 进入下一个规则的匹配。流程如图2所示。

图2 模板匹配流程

下:

算法1 A priori(发现频繁项目集)

输入:数据集D, 最小支持数minsup_count 输出:频繁项集L

1) L 1=f requent 1-itemsets; //频繁1-项集2) fo r(k =2; L k -1 ; k ++) do beg in 3) Ck =aprior i_gen(L k -1) ; //新的候选项集

4) fo r each t ransactions t D do begin //扫描D 中项集

5) o utput Ct =subset (Ck , t ) ; //事务T 中包含的候选项集

6) fo r each candidates c Ct do 7) c. co unt++; 8) end

9) L k ={c Ck |c. count minsup_count}; 10) end

11) return L = L k ;

算法1中调用了apriori_gen(L k -1) , 是为了通过(K -1) -频繁项目集产生K -候选集。

算法2 apriori_gen(L k -1) (候选集的产生)

输入:(K -1) -频繁项目集L k -1输出:K -候选项目集Ck

1) fo r each itemset p L k -1do 2) fo r each itemset q L k -1do

3) if(p . item1=q . it em1) (p . item2=q . item2) (p . item(k -2) =q . item(k -2) ) (p . item(k -1)

4) c =p join q ; //连接步:产生候选项集集合5) if has_infrequent_subset(c , L k -1) then

6) delete c ; //剪枝步:删除含有非频繁项目子集的侯选元素

7) else add c to Ck ; 8) r etur n Ck ;

3 应用关联规则进行数据挖掘

3. 1 股票收益率

迄今为止, 对股票的预测主要还是集中于股价预测。文章集中于对股票收益率的关联规则挖掘研究。早在二十世纪六十年代, 通过研究股票收益率M andelbr ot 提出了分形分布-尖峰胖尾分布。其中分形参数H urst 描述时间序列自相似性及序列发展的相关强度。在分形分布基础上, Pete 提出了分形市场假说, 代替了有效市场假说, 此假说对

理论界和实物界都产生了重大影响。从20世纪90年代起国外学者对其进行了大量的实证研究。研究结论表明, 一些新兴的证券市场明显存在长期记忆的特征。

目前对股票收益率的计算, 有两种常用的技术分析形式:

R t =(P t -P t -1) /P t -1(2) Y t =log (P t ) -log (P t -1) (3) 其中P t 为t 时刻的股票价格或指数。本文使用的股票收益率按式(2) 来计算。3. 2 关联规则算法实现

i [4]

Apriori_gen 函数分为两步。首先在连接步, 做自身的连接; 然后在剪枝步, 对于Ck 中任意候选项集, 如果c 中的某个子集不属于L k -1, 则将c 从Ck 中删除。而Aprior i 算法成功的关键就是设计了函数apriori_gen,该函数引入剪枝技术(Prun -ing) 减少候选项集Ck 的大小。由此显著地改进算法的性能。

算法3 has_infrequent_subset(c , L k -1) (判断候选集元素)

输入:一个K -候选项目集c , (K -1) -频繁项目集Lk -1输出:c 是否从候选集中删除的布尔判断1) fo r each(k -1) -subset s o f c do 2) if s L k -1t hen r T

2010年第3期

4) return FA L SE;

计算机与数字工程 153

则数和基于约束的规则数。可以看出, minsupp 和minconf 设置的越低, 其挖掘出的规则数越多, 挖掘出的知识量越大。而且随着minsupp 或minconf 的增大, 挖掘出的无意义的规则的比例相对越少。

表1 强规则数与基于约束的规则数对比minconf=0. 7

minsup

Str ong rules r ules based

on RI 38282617

2116159

m inco nf=0. 8Str ong rules r ules based

on RI 23211913

121096

minco nf=0. 9Str ong rules rules based

on RI 5443

5443

上面的代码清晰的描述了A priori 算法。它包含两个子过程, 其中Apriori_gen 产生候选项集, has_infrequent_subset进行频繁性检验3. 3 股票数据预处理

在进入挖掘工作之前, 首先需进行数据的预处理和数据转换。数据预处理和数据转换是数据挖掘过程中一个非常重要的环节, 必不可少。世界著名数据挖掘网KDnugg est 的统计报告显示:数据预处理环节的工作量占到数据挖掘总工作量的70%之多。

本文采用中国证券市场2006~2007年共260个交易日近1500支股票的收盘价, 计算出其收益率作为测试值, 并加入主观兴趣度约束和客观兴趣约束, 挖掘出真正感兴趣的关联规则。

由于关联规则挖掘的是布尔型数据, 这里需要实现收益率数据区间的划分, 为增强的便利性与实用性, 文章放弃使用SQL 语句实现数据库中收益率数据区间的划分, 而是选择在程序设计中用代码实现。文章将收益率划分为三个区间, 0~10%(L ) , 11%~25%(M ) , 26%~100(H ) 。并且将所有数据随机均分成两部分, 一部分为训练数据, 一部分为测试数据。

0. 20. 250. 30. 35

图3 支持度和置信度对准确率的影响

由图3可以看出, 本文所设计的方法在上述现实数据源上可达到70%以上的预警准确率, 通过合理设置参数, 最高可达到93%的准确率。随着置信度的增加, 预警准确率总体呈上升趋势; 而支持度的影响就没有那么明显了, 而且在置信度为0. 9时, 支持度与挖掘准确率反而呈反比例趋势。这可能是因为训练阶段导出的规则集, 测试数据源中支持度相对较低的部分, 其置信度反而要高。

参考文献

[1]R. Ramakrishnan, J. Gehkre. Database management

systems[M ]. N ew Yo rk:M cG raw Hill, 2000

[2]Jiaw ei H an, M. K amb. D ata M ining :Concept s and

T echniques[M ].M or gan K aufmann, Elsev ie, 2000[3]苏新宁, 杨建林. 数据仓库和数据挖掘[M ]. 北京:清华

大学出版社, 2006:149

[4]A. 5. Wo ng , W. S. Chan. M ix ture G aussian T ime Se -ries M odeling of L ong -T erm M arket Returns [J ].N or th Amer ican A ctuaria l Journal, 2005, 9(4) :83~94[5]潘洁珠. 基于数据挖掘的预警技术研究[D ].合肥:合肥

工业大学硕士学位论文, 2007:66

[6]吴微, 陈维强, 刘波. 用BP 神经网络预测股票市场涨跌

[J]. 大连理工大学学报, 2001(1)

[7]徐迪, 马大军, 李元熹. 基于神经元网络的股票市场预

测[J]. 系统工程, 1997(6)

4 实验及其结果分析

4. 1 关联规则测试准确率的判断标准

文章采取应用经典Apriori 算法在股票行情数据中挖掘关联规则的方法, 该方法的目标是在股票行情数据中找出类似于 T 天内, 如果A 股票收益率上涨, 则B 股票收益率也上涨的概率是80%。的关联规则。

记DT raning 为训练数据集合, DT est 为测试数据集合, R ={r 1, r 2, , r n }为挖掘出的基于兴趣度约束的预警规则集。测试数据测试挖掘出的规则准确率判断标准为:

定义规则r(X Y) 的预警准确率为PR (r) , 规则集R 的预警准确率为P R (R) PR(r) =

[5]

。

(4) (5)

*100%

{T :X T , T DT est}

r R

PR (R) =

P R (r)

4. 2 试验结果分析

设置最小支持度分别为0. 2、0. 25、0. 3和0. 35, 最小置信度分别为0. 7、0. 8、0. 9、0. 95, 客观兴趣度RI 要求1

总第245期2010年第3期

计算机与数字工程

Computer &D ig ital Eng ineer ing V o l. 38No. 3

150

基于关联规则的股票预测方法研究

徐海鹏

(中国地质大学(武汉) 计算机学院武汉 430074)

关键词关联规则; 收益率; 兴趣度; 股价趋势中图分类号 T P311

Forecasting Method of Stock Tend Based on Association Rules

X u H aipeng

(School of Computer, China U niv er sity of Geo sciences, Wuhan 430074)

Key Words association rules, y ield r ate, inter est measure, sto ck pr ice t end Class Nu mber T P311

1 引言

[1]

收稿日期:2009年11月16日, 修回日期:2009年12月10日:,

2 关联规则

2. 1 关联规则相关定义

下面给出一个样本事务数据库, 并对它实施Apriori 算法, 生成频繁项目集。用min _sup 表示支持数(项目集在数据集中出现的次数), 设min _sup =2。

就是分析规则之间的相关性。统计学对数据集中变量间的相关性研究比较透彻, 现在大部分关联规则客观兴趣度的度量都采用了统计学的研究成果。

统计学中, P (A ) 、P (B ) 、P (A , B) 分别表示事件A , B , 以及事件A B 同时发生的概率:

P (A , B) =P (A ) P (B) :事件A 与B 相互独立;

P (A , B) >P(A) P(B) :事件A 与B 正相关; P (A , B)

m ax {conf idence(X Y) , sup p ort(Y) }

(1)

RI 度量规则的客观兴趣度, 其值介于-1和1之间。如果规则的兴趣度大于0, 且越接近于1, 那么它的实际利用价值就越大。2. 3 主观兴趣度约束引入

在实际应用中, 挖掘出的关联规则可能会因为以下原因失去有趣性。

1) 挖掘出的规则符合先验知识或期望值;

图1 A priori 算法生成频繁项目集的过程

2) 挖掘出的规则可能涉及非有趣性属性或属性组合;

例如, 挖掘出规则:数据结构离散数学如果用户对与数据结构有关的规则不感兴趣, 那么规则没有意义。

3) 规则冗余。

规则后项是否包含选取的待预警课程, 例如选取了课程P 1, P 2, 则有以下四个模板待匹配:

P 1, * *; (*代表任意课程或课程的组合)

* P 1, *; (*代表任意课程或课程的组合)

P 2, * *; (*代表任意课程或课程的组合)

* P 2, *(*代表任意课程或课程的组合)

在具体实现过程中, 为了提高效率和避免重复导出规则, 采取逐步顺序匹配的方法, 对于导出的规则集, 逐个匹配

上述模板, 匹配失败

则继续匹配下一个, 匹配成功则导出规则, 进入下一个规则的匹配。流程如图2所示。

图2 模板匹配流程

下:

算法1 A priori(发现频繁项目集)

输入:数据集D, 最小支持数minsup_count 输出:频繁项集L

1) L 1=f requent 1-itemsets; //频繁1-项集2) fo r(k =2; L k -1 ; k ++) do beg in 3) Ck =aprior i_gen(L k -1) ; //新的候选项集

4) fo r each t ransactions t D do begin //扫描D 中项集

5) o utput Ct =subset (Ck , t ) ; //事务T 中包含的候选项集

6) fo r each candidates c Ct do 7) c. co unt++; 8) end

9) L k ={c Ck |c. count minsup_count}; 10) end

11) return L = L k ;

算法1中调用了apriori_gen(L k -1) , 是为了通过(K -1) -频繁项目集产生K -候选集。

算法2 apriori_gen(L k -1) (候选集的产生)

输入:(K -1) -频繁项目集L k -1输出:K -候选项目集Ck

1) fo r each itemset p L k -1do 2) fo r each itemset q L k -1do

3) if(p . item1=q . it em1) (p . item2=q . item2) (p . item(k -2) =q . item(k -2) ) (p . item(k -1)

4) c =p join q ; //连接步:产生候选项集集合5) if has_infrequent_subset(c , L k -1) then

6) delete c ; //剪枝步:删除含有非频繁项目子集的侯选元素

7) else add c to Ck ; 8) r etur n Ck ;

3 应用关联规则进行数据挖掘

3. 1 股票收益率

目前对股票收益率的计算, 有两种常用的技术分析形式:

R t =(P t -P t -1) /P t -1(2) Y t =log (P t ) -log (P t -1) (3) 其中P t 为t 时刻的股票价格或指数。本文使用的股票收益率按式(2) 来计算。3. 2 关联规则算法实现

i [4]

算法3 has_infrequent_subset(c , L k -1) (判断候选集元素)

输入:一个K -候选项目集c , (K -1) -频繁项目集Lk -1输出:c 是否从候选集中删除的布尔判断1) fo r each(k -1) -subset s o f c do 2) if s L k -1t hen r T

2010年第3期

4) return FA L SE;

计算机与数字工程 153

表1 强规则数与基于约束的规则数对比minconf=0. 7

minsup

Str ong rules r ules based

on RI 38282617

2116159

m inco nf=0. 8Str ong rules r ules based

on RI 23211913

121096

minco nf=0. 9Str ong rules rules based

on RI 5443

5443

上面的代码清晰的描述了A priori 算法。它包含两个子过程, 其中Apriori_gen 产生候选项集, has_infrequent_subset进行频繁性检验3. 3 股票数据预处理

0. 20. 250. 30. 35

图3 支持度和置信度对准确率的影响

参考文献

[1]R. Ramakrishnan, J. Gehkre. Database management

systems[M ]. N ew Yo rk:M cG raw Hill, 2000

[2]Jiaw ei H an, M. K amb. D ata M ining :Concept s and

T echniques[M ].M or gan K aufmann, Elsev ie, 2000[3]苏新宁, 杨建林. 数据仓库和数据挖掘[M ]. 北京:清华

大学出版社, 2006:149

工业大学硕士学位论文, 2007:66

[6]吴微, 陈维强, 刘波. 用BP 神经网络预测股票市场涨跌

[J]. 大连理工大学学报, 2001(1)

[7]徐迪, 马大军, 李元熹. 基于神经元网络的股票市场预

测[J]. 系统工程, 1997(6)

4 实验及其结果分析

4. 1 关联规则测试准确率的判断标准

定义规则r(X Y) 的预警准确率为PR (r) , 规则集R 的预警准确率为P R (R) PR(r) =

[5]

。

(4) (5)

*100%

{T :X T , T DT est}

r R

PR (R) =

P R (r)

4. 2 试验结果分析

设置最小支持度分别为0. 2、0. 25、0. 3和0. 35, 最小置信度分别为0. 7、0. 8、0. 9、0. 95, 客观兴趣度RI 要求1

基于关联规则的股票预测方法研究

相关内容

热门内容

标签