数据库中基于粗糙集的分类和约简

文章编号：1006－1576（2003）05－0018－03

数据库中基于粗糙集的分类和约简

朱宏武，蔡勇，刘自伟

（西南科技大学计算机学院，四川绵阳 621002）

摘要：把粗糙集理论与基于概率统计ID3算法结合建立粗糙集约简模型，可处理不精确和模糊数据集信息。多维属性元组组成的粗糙集数据可用公式描述论域、有限属性、条件属性、决策属性、属性值集和信息函数，用数据表格描述对象以建立知识表达系统。粗糙集分类约简用ID3算法可消除冗余数据集和冲突检测，用粗糙集理论处理不一致和不确定数据集可得到知识等价类。通过ID3算法对比决策树，可导出数据集确定性规则和不确定性约简规则。

关键词：信息处理；粗糙集；分类；约简规则　中图分类号：TP391 文献标识码：A

Classification and Reduction in Database Based on Rough Sets

ZHU Hong-wu, CAI Yong, LIU Zi-wei

(College of Computer, Southwest University of Science and Technology, Mianyang 621002, China)

Abstract: The rough sets reduction model is established by integrating rough sets theory with ID3 algorithm

based on statistics, uncertainty fuzzy data set information can be processed with the model. The rough sets data consisted with multi-valued attributes group can be described by the universe, finite set of attribute, condition attribute, decision attribute, domain of attributes and information function. To build up knowledge expression system which object and attribute can be respectively described with data form. The redundant data sets and conflicting data can be eliminated with rough sets classification and reduction based on ID3 algorithm. Uncertainty data sets is processed with rough sets theory to knowledge equivalent class. Decision tree compared with ID3 algorithm, certainty rules of data sets and uncertainty reduction rules can be induced. Key words: Information processing; Rough sets; Classification; Rule reduction

1 引言

多年来高校积累了学生入学、学习和毕业的大量信息，包括学生的自然状况、接受教育、表现、选修课程及其成绩等。由于系统复杂，评价学生的指标繁多，为了快速挖掘出其中的隐含信息，可用ＳＱＬ语句对感兴趣的数据视图进行泛化，包括属性去除操作，属性阈值控制，数据汇集操作等。原始关系经泛化操作，从较高层次上总结出低层次上的泛化关系。但是在面向大数据集知识的约简和分类中，信息的不一致性和模糊性成为约简的最大障碍，故粗糙集理论提出一种新的数学工具来处理。　

维属性的元组组成，可用公式描述如下：　

S ＝＜U, A, V, F＞

式中：Ｕ－非空的有限个体集（称为论域）　

Ａ－非空有限属性集，Ａ＝Ｃ∪Ｄ　

Ｃ－条件属性　　Ｄ－决策属性　　Ｖ－属性值集　Ｆ：Ｕ×Ａ→Ｖ的一个信息函数　

这种定义方式使对象知识可方便地以数据表格形式描述（如表1），这种数据表称为知识表达系统。

表1 典型的知识表达系统

论域

U x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10

条件属性1 1 1 1 0 0 0 0 0 1 0

C 2 0 1 2 0 1 2 1 2 0 0

决策属性D

0 1 1 0 0 1 1 0 0 0

2 粗糙集约简模型的建立

波兰的Pawlak 针对边界线区域提出了粗糙集的概念，但它不一定能有效地描述不精确或不确定的实际问题，于是融合了基于统计概率的ID3决策树的粗糙集算法应运而生。将其运用到学生数据库，可解决数据集中数据不一致并挖掘隐含信息。　２．１　知识表达系统　

粗糙集理论分析处理的数据一般由若干具有多

2.2 粗糙集理论的基本概念　

不可分辨性是粗糙集理论的一个重要概念，可称为论域中的等价关系，它由不确定关系所引起。　

收稿日期：2003－03－21；修回日期：2003－04－14　作者简介：朱宏武（1978－），男，湖南人，在读硕士研究生，2001年毕业于西南科技大学，从事计算机网络技术与计算机信息管理研究。

・18・

一个等价关系在知识表达系统中可定义为：　

x, y ∈U ，P ∈A ，　

H(X,C)＝－∑P(Ci )logP(Ci )

若ｘ、ｙ是不可分辨的，其等价关系可表示为：　

F ＜x, P＞＝F ＜y, P＞　

在无混淆的情况下将H(X, C)记为H(X)。

H (X /a ) =−∑∑p (C i ; a =a i )log p (C i /a =a j )=

一广义近似空间可定义为一有序对＜Ｕ，　Ｒ＞，关系Ｒ中单个属性的等价关系称为单元素等价类，条件属性构成的等价类称为原子等价类，而由决策属性构成的等价类成为知识等价类。以表１中Ｑ１为例，其：　

单元素等价类为：　

E 1＝{ x1 , x2 , x 3 , x9 } E 2＝{ x4 , x5 , x6 , x7 , x8 , x10 }

−∑p (a =a j ) ∑p C i /a =a j log p C i /a =a j

()()

决策树学习过程就使得决策树对划分的不确定程度逐渐减小的过程。若选择测试属性a 进行测试，在a ＝a j 时属于第i 类的实例个数为C ij 个。记P(Ci ;a ＝a j ) ＝C ij ／｜X ｜，即p(Ci ;a ＝a j ) 为在测试属性a 的取值为a j 时它属于第i 类的概率。此时决策树对分类不确定性程度就是训练实例集对属性X 的条件熵：

H (X j ) =−∑p (C i /a =a j ) log p (C i /a =a j )

原子等价类为：　

A 1＝{x1, x9} A2＝{x2} A3＝{x3} A 4＝{x4, x10} A 5＝{ x5 } A 6＝{ x6 } A 7＝{ x7 } A 8＝{ x8 }

知识等价类为：　

C 1＝{x1, x4, x5, x8, x9, x10}≥Class ＝0 (d＝0) C 2＝{ x2, x3, x6, x7}≥Class ＝1 (d＝1) 　

又因为在选择测试属性a 后延伸的每个a ＝a j

叶节点X j 对于分类信息的信息熵为： H (X /a ) =∑p (a =a j ) H (X j )(∗)

属性a 对于分类提供的信息量I(X, a)为：

I(X, a)＝H(X)＝H(X／a)

从表１可知ｘ５和ｘ７有相同条件属性，但又有不同决策属性。表明二者有冲突（即不可分辨的）。同样，冲突发生在ｘ６和ｘ８，粗糙集理论提出了处理这种不一致信息的方法。排除这些冲突，能明确推导出知识Ｃ的集合称为C(R*(c))下近似：　

R *(C ) =∪{Y ∈U R ：Y ⊆C }

若其中包含这些冲突，推导知识Ｃ有不一致情况的集合称为C(R(c))上近似：　

R (C ) =∪{Y ∈U R ：Y ∩C ≠φ}

在数学理论上又产生了一个边界区域　(BNR ) ，可表示如下：　

BN R =R (C ) −R *(C ) 处在边界区域的数据集不能肯定分在哪一类，故产生了粗糙集的概念，即数据集中具有非空边界区域　（BN R ）的集合。如知识等价类Ｃ１的下近似为：　

R *(C 1)={x 1, x 4, x 9, x 10}

R (C 1)={x 1, x 4, x 5, x 6, x 7, x 8, x 9, x 10} BN R (C 1)=R (C 1)−R *(C 1)={ x 5 , x 6 , x 7 , x 8}　

(*)式的值越小上式越大，说明选择测试属性a

对于分类提供的信息越大，选择a 之后对分类的不确定程度越小。ID3算法就是选择使得I(X，a) 最大的属性作为测试属性，即选择使得(*)最小的属性a 。通过信息熵函数公式得到构造一棵从顶而下的决策树，该算法不但简单而且有效。运用数据的信息熵作用度的大小，在训练集生成的最小决策树能够把信息分类。ＩＤ３算法要求数据集是完整的、一致的，所以又产生了ＩＤ４和ＩＤ５算法，但还不是很好的处理方式。基于粗糙集理论，又提出了LERS 约简学习算法，该算法能处理训练集中不一致数据，但数据量过大时，其算法的复杂度使之变得不切实际，所得到的知识复杂，难于理解。Khoo 理论合并了ＩＤ３算法和粗糙集理论而形成了改进的ＩＤ３算法，它利用了ＩＤ３的简洁有效和粗糙集处理不一致数据的优点。现它运用到变量繁多的学生数据库，使数据集不一致问题得到了改善。

此算法包括数据一致性分析、粗糙集分类、约简３个步骤。数据一致性分析含消除冗余数据集和冲突检测两个任务；粗糙集分类运用粗糙集理论处理不一致、不确定性数据集，据上述粗糙集近似度概念可知，下近似得到肯定知识等价类，上近似得到可能知识等价类；约简采用与ID3相似的基于概率统计算法（借用ID3中信息熵的约简算法选择属性及分类），以确保最小决策树且不会损失精确性。对比决策树，生成规则表达方式更好且更易理解，

・19・

２．３　粗糙集分类约简算法　

采用决策树的Quinlan 　ＩＤ３算法将训练实例分为n 类，设训练实例集为X 、属于第i 类的训练实例个数是C i 、X 中总的训练实例个数为｜X ｜，若记一个实例属于第i 类的概率P(Ci ) ，则：

P(Ci ) ＝C i ／｜X ｜

此时决策树对划分C 的不确定程度为：

还能评价生成这条规则的可信度。通过该方式可推　导出，确定和一致数据集生成的确定性规则，不确定和不一致数据集生成的可能性约简规则。整个算法体系及步骤可用图１表示。　

学科：文科→１；理科→０；　

成绩：及格→０；良好→１；优秀→２；　综合测评：高→１；低→０。　

由表１可见1005和１００７冲突，同为理科且成绩良好，但综合测评却有高有低，显然Quinlan 　ID3算法无法处理。而通过粗糙集理论的上、下近似度和可信度分析，就能分析这些不一致数据，如表３。　

表3 不一致数据的分析　

方法

结果

对表1知识系统无法处理，系统会悬挂，但通过除去

ID3

部分不一致的数据集，可得到粗糙集中的部分规则。确定的规则：

(1) 如成绩为及格的；综合测评低；

粗

(2) 如学科为文科，成绩为良好或优秀，综合测评高。

糙

不确定的规则：集

(1) 如学科为理科，综合测评低的概率为66.7﹪；

(2) 如成绩为良好或优秀，综合测评高的概率为80﹪　

图１中可看到一致性分析的两个任务。在数据集预处理阶段，排除了冗余数据集。然后再对数据集进行一致性分析：如果是一致的，则由分类约简算法归纳为一致规则；如果存在不一致数据集，则用粗糙集理论处理。不一致数据集中的一致性数据集用下近似处理，通过分类约简算法得出一致性规则；而不一致数据集用上近似处理，得出的可能性规则经约简算法评价，通过其可信度分析，得出规则的可信度（可信度以比率的形式表现）。整个分析输出是一棵决策树和一系列一致性规则及不一致规则出现的可信度。　

图1 算法的结构和步骤

利用概率（80％和66.7％）分析这些规则，表明粗糙集的分类是简单而合理的。　

４　　结论　

把粗糙集和基于概率统计的ID3算法的优点结合，应用到泛化后的学生数据库，得到的结果符合现实，最重要的是得到了ID3算法得不到的两条不确定规则。如果简单的用ID3算法，去除不一致数据集，某些规则将会被遗漏。通过引入概率统计和粗糙集，使规则更加完整，这将帮助数据分析者挖掘出更多的规则，做出正确的决策。　

参考文献：　

[1] Quinlan J R. Induction of Decisiontrees [J]. Machine

Learning, 1986, (6): 81－106.

[2] Khoo Tor. A Rough-Set-Based Approach for

Classification and Rule Induction [J]. Advanced Manufacturing Technology, 1999, 15 (6): 438－444. [3] Z Pawlak. Why Rough Sets [A]. IEEE International

Conference on Fuzzy Systems [C]. 1996, 2 (1): 738－743.

[4] Wong Ziarko R. Li Ye. Comparison of Roughest and

Statistical Methods in Inductive Learning [J]. International Journal of Man–Machine Studies, 1986, 24 (5): 53－72.

[5] 史忠植. 知识发现[M]. 北京: 清华大学出版社, 2002.

143－168.

[6] 苗夺谦, 王珏. 基于粗糙集的多变量决策树构造方法[J].

软件学报, 1997, 8 (6): 425－431.

[7] 支天云，张仰森, 等. 基于Rough 集的成人招生系统评

价指标体系的获取[J]. 电脑应用与开发， 2000, 13 (6): 1－4.

[8] 印勇, 曹长修, 等. 基于粗糙集理论的分类规则发现[J].

重庆大学学报，2000, 23 (1): 63－65.

[9] 曾黄麟. 粗集理论及其应用[M]. 重庆: 重庆大学出版

社, 1996. 32－82.

３　　学生数据库中的约简　

在学生数据库挖掘其隐含信息，先通过ＳＱＬ语句对部分属性进行泛化处理，包括属性去除操作、属性阈值控制、数据汇集操作等，可得到其泛化关系，该关系从较高层次上总结了在低层次上的原始关系。如表２。　

表2　　泛化处理后的学生信息表　

学生种类 1001 1002 1003 1004 1005 1006 1007 1008 1009 1010

学生信息学科成绩文科及格文科良好文科优秀理科理科理科理科理科理科文科

及格良好优秀良好优秀及格及格

综合测评低高高低低高高低低低

经过量化处理后可得到与表１一样的知识表达系统。其中使用了下面的量化ａ方案：　

・20・

文章编号：1006－1576（2003）05－0018－03

数据库中基于粗糙集的分类和约简

朱宏武，蔡勇，刘自伟

（西南科技大学计算机学院，四川绵阳 621002）

关键词：信息处理；粗糙集；分类；约简规则　中图分类号：TP391 文献标识码：A

Classification and Reduction in Database Based on Rough Sets

ZHU Hong-wu, CAI Yong, LIU Zi-wei

(College of Computer, Southwest University of Science and Technology, Mianyang 621002, China)

Abstract: The rough sets reduction model is established by integrating rough sets theory with ID3 algorithm

1 引言

维属性的元组组成，可用公式描述如下：　

S ＝＜U, A, V, F＞

式中：Ｕ－非空的有限个体集（称为论域）　

Ａ－非空有限属性集，Ａ＝Ｃ∪Ｄ　

Ｃ－条件属性　　Ｄ－决策属性　　Ｖ－属性值集　Ｆ：Ｕ×Ａ→Ｖ的一个信息函数　

这种定义方式使对象知识可方便地以数据表格形式描述（如表1），这种数据表称为知识表达系统。

表1 典型的知识表达系统

论域

U x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10

条件属性1 1 1 1 0 0 0 0 0 1 0

C 2 0 1 2 0 1 2 1 2 0 0

决策属性D

0 1 1 0 0 1 1 0 0 0

2 粗糙集约简模型的建立

粗糙集理论分析处理的数据一般由若干具有多

2.2 粗糙集理论的基本概念　

不可分辨性是粗糙集理论的一个重要概念，可称为论域中的等价关系，它由不确定关系所引起。　

・18・

一个等价关系在知识表达系统中可定义为：　

x, y ∈U ，P ∈A ，　

H(X,C)＝－∑P(Ci )logP(Ci )

若ｘ、ｙ是不可分辨的，其等价关系可表示为：　

F ＜x, P＞＝F ＜y, P＞　

在无混淆的情况下将H(X, C)记为H(X)。

H (X /a ) =−∑∑p (C i ; a =a i )log p (C i /a =a j )=

单元素等价类为：　

E 1＝{ x1 , x2 , x 3 , x9 } E 2＝{ x4 , x5 , x6 , x7 , x8 , x10 }

−∑p (a =a j ) ∑p C i /a =a j log p C i /a =a j

()()

H (X j ) =−∑p (C i /a =a j ) log p (C i /a =a j )

原子等价类为：　

A 1＝{x1, x9} A2＝{x2} A3＝{x3} A 4＝{x4, x10} A 5＝{ x5 } A 6＝{ x6 } A 7＝{ x7 } A 8＝{ x8 }

知识等价类为：　

C 1＝{x1, x4, x5, x8, x9, x10}≥Class ＝0 (d＝0) C 2＝{ x2, x3, x6, x7}≥Class ＝1 (d＝1) 　

又因为在选择测试属性a 后延伸的每个a ＝a j

叶节点X j 对于分类信息的信息熵为： H (X /a ) =∑p (a =a j ) H (X j )(∗)

属性a 对于分类提供的信息量I(X, a)为：

I(X, a)＝H(X)＝H(X／a)

R *(C ) =∪{Y ∈U R ：Y ⊆C }

若其中包含这些冲突，推导知识Ｃ有不一致情况的集合称为C(R(c))上近似：　

R (C ) =∪{Y ∈U R ：Y ∩C ≠φ}

在数学理论上又产生了一个边界区域　(BNR ) ，可表示如下：　

R *(C 1)={x 1, x 4, x 9, x 10}

R (C 1)={x 1, x 4, x 5, x 6, x 7, x 8, x 9, x 10} BN R (C 1)=R (C 1)−R *(C 1)={ x 5 , x 6 , x 7 , x 8}　

(*)式的值越小上式越大，说明选择测试属性a

・19・

２．３　粗糙集分类约简算法　

P(Ci ) ＝C i ／｜X ｜

此时决策树对划分C 的不确定程度为：

学科：文科→１；理科→０；　

成绩：及格→０；良好→１；优秀→２；　综合测评：高→１；低→０。　

表3 不一致数据的分析　

方法

结果

对表1知识系统无法处理，系统会悬挂，但通过除去

ID3

部分不一致的数据集，可得到粗糙集中的部分规则。确定的规则：

(1) 如成绩为及格的；综合测评低；

粗

(2) 如学科为文科，成绩为良好或优秀，综合测评高。

糙

不确定的规则：集

(1) 如学科为理科，综合测评低的概率为66.7﹪；

(2) 如成绩为良好或优秀，综合测评高的概率为80﹪　

图1 算法的结构和步骤

利用概率（80％和66.7％）分析这些规则，表明粗糙集的分类是简单而合理的。　

４　　结论　

参考文献：　

[1] Quinlan J R. Induction of Decisiontrees [J]. Machine

Learning, 1986, (6): 81－106.

[2] Khoo Tor. A Rough-Set-Based Approach for

Classification and Rule Induction [J]. Advanced Manufacturing Technology, 1999, 15 (6): 438－444. [3] Z Pawlak. Why Rough Sets [A]. IEEE International

Conference on Fuzzy Systems [C]. 1996, 2 (1): 738－743.

[4] Wong Ziarko R. Li Ye. Comparison of Roughest and

Statistical Methods in Inductive Learning [J]. International Journal of Man–Machine Studies, 1986, 24 (5): 53－72.

[5] 史忠植. 知识发现[M]. 北京: 清华大学出版社, 2002.

143－168.

[6] 苗夺谦, 王珏. 基于粗糙集的多变量决策树构造方法[J].

软件学报, 1997, 8 (6): 425－431.

[7] 支天云，张仰森, 等. 基于Rough 集的成人招生系统评

价指标体系的获取[J]. 电脑应用与开发， 2000, 13 (6): 1－4.

[8] 印勇, 曹长修, 等. 基于粗糙集理论的分类规则发现[J].

重庆大学学报，2000, 23 (1): 63－65.

[9] 曾黄麟. 粗集理论及其应用[M]. 重庆: 重庆大学出版

社, 1996. 32－82.

３　　学生数据库中的约简　

表2　　泛化处理后的学生信息表　

学生种类 1001 1002 1003 1004 1005 1006 1007 1008 1009 1010

学生信息学科成绩文科及格文科良好文科优秀理科理科理科理科理科理科文科

及格良好优秀良好优秀及格及格

综合测评低高高低低高高低低低

经过量化处理后可得到与表１一样的知识表达系统。其中使用了下面的量化ａ方案：　

・20・

数据库中基于粗糙集的分类和约简

相关内容

热门内容

标签