数据库中基于粗糙集的分类和约简

文章编号:1006-1576(2003)05-0018-03

数据库中基于粗糙集的分类和约简

朱宏武,蔡勇,刘自伟

(西南科技大学 计算机学院,四川 绵阳 621002)

摘要:把粗糙集理论与基于概率统计ID3算法结合建立粗糙集约简模型,可处理不精确和模糊数据集信息。多维属性元组组成的粗糙集数据可用公式描述论域、有限属性、条件属性、决策属性、属性值集和信息函数,用数据表格描述对象以建立知识表达系统。粗糙集分类约简用ID3算法可消除冗余数据集和冲突检测,用粗糙集理论处理不一致和不确定数据集可得到知识等价类。通过ID3算法对比决策树,可导出数据集确定性规则和不确定性约简规则。

关键词:信息处理;粗糙集;分类;约简规则 中图分类号:TP391 文献标识码:A

Classification and Reduction in Database Based on Rough Sets

ZHU Hong-wu, CAI Yong, LIU Zi-wei

(College of Computer, Southwest University of Science and Technology, Mianyang 621002, China)

Abstract: The rough sets reduction model is established by integrating rough sets theory with ID3 algorithm

based on statistics, uncertainty fuzzy data set information can be processed with the model. The rough sets data consisted with multi-valued attributes group can be described by the universe, finite set of attribute, condition attribute, decision attribute, domain of attributes and information function. To build up knowledge expression system which object and attribute can be respectively described with data form. The redundant data sets and conflicting data can be eliminated with rough sets classification and reduction based on ID3 algorithm. Uncertainty data sets is processed with rough sets theory to knowledge equivalent class. Decision tree compared with ID3 algorithm, certainty rules of data sets and uncertainty reduction rules can be induced. Key words: Information processing; Rough sets; Classification; Rule reduction

1 引言

多年来高校积累了学生入学、学习和毕业的大量信息,包括学生的自然状况、接受教育、表现、选修课程及其成绩等。由于系统复杂,评价学生的指标繁多,为了快速挖掘出其中的隐含信息,可用SQL语句对感兴趣的数据视图进行泛化,包括属性去除操作,属性阈值控制,数据汇集操作等。原始关系经泛化操作,从较高层次上总结出低层次上的泛化关系。但是在面向大数据集知识的约简和分类中,信息的不一致性和模糊性成为约简的最大障碍,故粗糙集理论提出一种新的数学工具来处理。 

维属性的元组组成,可用公式描述如下: 

S =<U, A, V, F>

式中:U-非空的有限个体集(称为论域) 

A-非空有限属性集,A=C∪D 

C-条件属性  D-决策属性  V-属性值集 F:U×A→V的一个信息函数 

这种定义方式使对象知识可方便地以数据表格形式描述(如表1),这种数据表称为知识表达系统。

表1 典型的知识表达系统

论域

U x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10

条件属性1 1 1 1 0 0 0 0 0 1 0

C 2 0 1 2 0 1 2 1 2 0 0

决策属性D

0 1 1 0 0 1 1 0 0 0

2 粗糙集约简模型的建立

波兰的Pawlak 针对边界线区域提出了粗糙集的概念,但它不一定能有效地描述不精确或不确定的实际问题,于是融合了基于统计概率的ID3决策树的粗糙集算法应运而生。将其运用到学生数据库,可解决数据集中数据不一致并挖掘隐含信息。 2.1 知识表达系统 

粗糙集理论分析处理的数据一般由若干具有多

2.2 粗糙集理论的基本概念 

不可分辨性是粗糙集理论的一个重要概念,可称为论域中的等价关系,它由不确定关系所引起。 

收稿日期:2003-03-21;修回日期:2003-04-14 作者简介:朱宏武(1978-),男,湖南人,在读硕士研究生,2001年毕业于西南科技大学,从事计算机网络技术与计算机信息管理研究。

・18・

一个等价关系在知识表达系统中可定义为: 

x, y ∈U ,P ∈A , 

H(X,C)=-∑P(Ci )logP(Ci )

若x、y是不可分辨的,其等价关系可表示为: 

F <x, P>=F <y, P> 

在无混淆的情况下将H(X, C)记为H(X)。

H (X /a ) =−∑∑p (C i ; a =a i )log p (C i /a =a j )=

i

j

一广义近似空间可定义为一有序对<U, R>,关系R中单个属性的等价关系称为单元素等价类,条件属性构成的等价类称为原子等价类,而由决策属性构成的等价类成为知识等价类。以表1中Q1为例,其: 

单元素等价类为: 

E 1={ x1 , x2 , x 3 , x9 } E 2={ x4 , x5 , x6 , x7 , x8 , x10 }

−∑p (a =a j ) ∑p C i /a =a j log p C i /a =a j

j

i

()()

决策树学习过程就使得决策树对划分的不确定程度逐渐减小的过程。若选择测试属性a 进行测试,在a =a j 时属于第i 类的实例个数为C ij 个。记P(Ci ;a =a j ) =C ij /|X |,即p(Ci ;a =a j ) 为在测试属性a 的取值为a j 时它属于第i 类的概率。此时决策树对分类不确定性程度就是训练实例集对属性X 的条件熵:

H (X j ) =−∑p (C i /a =a j ) log p (C i /a =a j )

i

原子等价类为: 

A 1={x1, x9} A2={x2} A3={x3} A 4={x4, x10} A 5={ x5 } A 6={ x6 } A 7={ x7 } A 8={ x8 }

知识等价类为: 

C 1={x1, x4, x5, x8, x9, x10}≥Class =0 (d=0) C 2={ x2, x3, x6, x7}≥Class =1 (d=1)  

又因为在选择测试属性a 后延伸的每个a =a j

叶节点X j 对于分类信息的信息熵为: H (X /a ) =∑p (a =a j ) H (X j )(∗)

j

属性a 对于分类提供的信息量I(X, a)为:

I(X, a)=H(X)=H(X/a)

从表1可知x5和x7有相同条件属性,但又有不同决策属性。表明二者有冲突(即不可分辨的)。同样,冲突发生在x6和x8,粗糙集理论提出了处理这种不一致信息的方法。排除这些冲突,能明确推导出知识C的集合称为C(R*(c))下近似: 

R *(C ) =∪{Y ∈U R :Y ⊆C }

若其中包含这些冲突,推导知识C有不一致情况的集合称为C(R(c))上近似: 

R (C ) =∪{Y ∈U R :Y ∩C ≠φ}

在数学理论上又产生了一个边界区域 (BNR ) ,可表示如下: 

BN R =R (C ) −R *(C ) 处在边界区域的数据集不能肯定分在哪一类,故产生了粗糙集的概念,即数据集中具有非空边界区域 (BN R )的集合。如知识等价类C1的下近似为: 

R *(C 1)={x 1, x 4, x 9, x 10}

R (C 1)={x 1, x 4, x 5, x 6, x 7, x 8, x 9, x 10} BN R (C 1)=R (C 1)−R *(C 1)={ x 5 , x 6 , x 7 , x 8} 

(*)式的值越小上式越大,说明选择测试属性a

对于分类提供的信息越大,选择a 之后对分类的不确定程度越小。ID3算法就是选择使得I(X,a) 最大的属性作为测试属性,即选择使得(*)最小的属性a 。通过信息熵函数公式得到构造一棵从顶而下的决策树,该算法不但简单而且有效。运用数据的信息熵作用度的大小,在训练集生成的最小决策树能够把信息分类。ID3算法要求数据集是完整的、一致的,所以又产生了ID4和ID5算法,但还不是很好的处理方式。基于粗糙集理论,又提出了LERS 约简学习算法,该算法能处理训练集中不一致数据,但数据量过大时,其算法的复杂度使之变得不切实际,所得到的知识复杂,难于理解。Khoo 理论合并了ID3算法和粗糙集理论而形成了改进的ID3算法,它利用了ID3的简洁有效和粗糙集处理不一致数据的优点。现它运用到变量繁多的学生数据库,使数据集不一致问题得到了改善。

此算法包括数据一致性分析、粗糙集分类、约简3个步骤。数据一致性分析含消除冗余数据集和冲突检测两个任务;粗糙集分类运用粗糙集理论处理不一致、不确定性数据集,据上述粗糙集近似度概念可知,下近似得到肯定知识等价类,上近似得到可能知识等价类;约简采用与ID3相似的基于概率统计算法(借用ID3中信息熵的约简算法选择属性及分类),以确保最小决策树且不会损失精确性。对比决策树,生成规则表达方式更好且更易理解,

・19・

2.3 粗糙集分类约简算法 

采用决策树的Quinlan  ID3算法将训练实例分为n 类,设训练实例集为X 、属于第i 类的训练实例个数是C i 、X 中总的训练实例个数为|X |,若记一个实例属于第i 类的概率P(Ci ) ,则:

P(Ci ) =C i /|X |

此时决策树对划分C 的不确定程度为:

还能评价生成这条规则的可信度。通过该方式可推 导出,确定和一致数据集生成的确定性规则,不确定和不一致数据集生成的可能性约简规则。整个算法体系及步骤可用图1表示。 

学科:文科→1;理科→0; 

成绩:及格→0;良好→1;优秀→2; 综合测评:高→1;低→0。 

由表1可见1005和1007冲突,同为理科且成绩良好,但综合测评却有高有低,显然Quinlan  ID3算法无法处理。而通过粗糙集理论的上、下近似度和可信度分析,就能分析这些不一致数据,如表3。 

表3 不一致数据的分析 

方法

结果

对表1知识系统无法处理,系统会悬挂,但通过除去

ID3

部分不一致的数据集,可得到粗糙集中的部分规则。 确定的规则:

(1) 如成绩为及格的;综合测评低;

(2) 如学科为文科,成绩为良好或优秀,综合测评高。

不确定的规则: 集

(1) 如学科为理科,综合测评低的概率为66.7﹪;

(2) 如成绩为良好或优秀,综合测评高的概率为80﹪ 

图1中可看到一致性分析的两个任务。在数据集预处理阶段,排除了冗余数据集。然后再对数据集进行一致性分析:如果是一致的,则由分类约简算法归纳为一致规则;如果存在不一致数据集,则用粗糙集理论处理。不一致数据集中的一致性数据集用下近似处理,通过分类约简算法得出一致性规则;而不一致数据集用上近似处理,得出的可能性规则经约简算法评价,通过其可信度分析,得出规则的可信度(可信度以比率的形式表现)。整个分析输出是一棵决策树和一系列一致性规则及不一致规则出现的可信度。 

图1 算法的结构和步骤

利用概率(80%和66.7%)分析这些规则,表明粗糙集的分类是简单而合理的。 

4  结论 

把粗糙集和基于概率统计的ID3算法的优点结合,应用到泛化后的学生数据库,得到的结果符合现实,最重要的是得到了ID3算法得不到的两条不确定规则。如果简单的用ID3算法,去除不一致数据集,某些规则将会被遗漏。通过引入概率统计和粗糙集,使规则更加完整,这将帮助数据分析者挖掘出更多的规则,做出正确的决策。 

参考文献: 

[1] Quinlan J R. Induction of Decisiontrees [J]. Machine

Learning, 1986, (6): 81-106.

[2] Khoo Tor. A Rough-Set-Based Approach for

Classification and Rule Induction [J]. Advanced Manufacturing Technology, 1999, 15 (6): 438-444. [3] Z Pawlak. Why Rough Sets [A]. IEEE International

Conference on Fuzzy Systems [C]. 1996, 2 (1): 738-743.

[4] Wong Ziarko R. Li Ye. Comparison of Roughest and

Statistical Methods in Inductive Learning [J]. International Journal of Man–Machine Studies, 1986, 24 (5): 53-72.

[5] 史忠植. 知识发现[M]. 北京: 清华大学出版社, 2002.

143-168.

[6] 苗夺谦, 王珏. 基于粗糙集的多变量决策树构造方法[J].

软件学报, 1997, 8 (6): 425-431.

[7] 支天云,张仰森, 等. 基于Rough 集的成人招生系统评

价指标体系的获取[J]. 电脑应用与开发, 2000, 13 (6): 1-4.

[8] 印勇, 曹长修, 等. 基于粗糙集理论的分类规则发现[J].

重庆大学学报,2000, 23 (1): 63-65.

[9] 曾黄麟. 粗集理论及其应用[M]. 重庆: 重庆大学出版

社, 1996. 32-82.

3  学生数据库中的约简 

在学生数据库挖掘其隐含信息,先通过SQL语句对部分属性进行泛化处理,包括属性去除操作、属性阈值控制、数据汇集操作等,可得到其泛化关系,该关系从较高层次上总结了在低层次上的原始关系。如表2。 

表2  泛化处理后的学生信息表 

学生 种类 1001 1002 1003 1004 1005 1006 1007 1008 1009 1010

学生信息 学科 成绩 文科 及格 文科 良好 文科 优秀 理科 理科 理科 理科 理科 理科 文科

及格 良好 优秀 良好 优秀 及格 及格

综合 测评 低 高 高 低 低 高 高 低 低 低

经过量化处理后可得到与表1一样的知识表达系统。其中使用了下面的量化a方案: 

・20・

文章编号:1006-1576(2003)05-0018-03

数据库中基于粗糙集的分类和约简

朱宏武,蔡勇,刘自伟

(西南科技大学 计算机学院,四川 绵阳 621002)

摘要:把粗糙集理论与基于概率统计ID3算法结合建立粗糙集约简模型,可处理不精确和模糊数据集信息。多维属性元组组成的粗糙集数据可用公式描述论域、有限属性、条件属性、决策属性、属性值集和信息函数,用数据表格描述对象以建立知识表达系统。粗糙集分类约简用ID3算法可消除冗余数据集和冲突检测,用粗糙集理论处理不一致和不确定数据集可得到知识等价类。通过ID3算法对比决策树,可导出数据集确定性规则和不确定性约简规则。

关键词:信息处理;粗糙集;分类;约简规则 中图分类号:TP391 文献标识码:A

Classification and Reduction in Database Based on Rough Sets

ZHU Hong-wu, CAI Yong, LIU Zi-wei

(College of Computer, Southwest University of Science and Technology, Mianyang 621002, China)

Abstract: The rough sets reduction model is established by integrating rough sets theory with ID3 algorithm

based on statistics, uncertainty fuzzy data set information can be processed with the model. The rough sets data consisted with multi-valued attributes group can be described by the universe, finite set of attribute, condition attribute, decision attribute, domain of attributes and information function. To build up knowledge expression system which object and attribute can be respectively described with data form. The redundant data sets and conflicting data can be eliminated with rough sets classification and reduction based on ID3 algorithm. Uncertainty data sets is processed with rough sets theory to knowledge equivalent class. Decision tree compared with ID3 algorithm, certainty rules of data sets and uncertainty reduction rules can be induced. Key words: Information processing; Rough sets; Classification; Rule reduction

1 引言

多年来高校积累了学生入学、学习和毕业的大量信息,包括学生的自然状况、接受教育、表现、选修课程及其成绩等。由于系统复杂,评价学生的指标繁多,为了快速挖掘出其中的隐含信息,可用SQL语句对感兴趣的数据视图进行泛化,包括属性去除操作,属性阈值控制,数据汇集操作等。原始关系经泛化操作,从较高层次上总结出低层次上的泛化关系。但是在面向大数据集知识的约简和分类中,信息的不一致性和模糊性成为约简的最大障碍,故粗糙集理论提出一种新的数学工具来处理。 

维属性的元组组成,可用公式描述如下: 

S =<U, A, V, F>

式中:U-非空的有限个体集(称为论域) 

A-非空有限属性集,A=C∪D 

C-条件属性  D-决策属性  V-属性值集 F:U×A→V的一个信息函数 

这种定义方式使对象知识可方便地以数据表格形式描述(如表1),这种数据表称为知识表达系统。

表1 典型的知识表达系统

论域

U x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10

条件属性1 1 1 1 0 0 0 0 0 1 0

C 2 0 1 2 0 1 2 1 2 0 0

决策属性D

0 1 1 0 0 1 1 0 0 0

2 粗糙集约简模型的建立

波兰的Pawlak 针对边界线区域提出了粗糙集的概念,但它不一定能有效地描述不精确或不确定的实际问题,于是融合了基于统计概率的ID3决策树的粗糙集算法应运而生。将其运用到学生数据库,可解决数据集中数据不一致并挖掘隐含信息。 2.1 知识表达系统 

粗糙集理论分析处理的数据一般由若干具有多

2.2 粗糙集理论的基本概念 

不可分辨性是粗糙集理论的一个重要概念,可称为论域中的等价关系,它由不确定关系所引起。 

收稿日期:2003-03-21;修回日期:2003-04-14 作者简介:朱宏武(1978-),男,湖南人,在读硕士研究生,2001年毕业于西南科技大学,从事计算机网络技术与计算机信息管理研究。

・18・

一个等价关系在知识表达系统中可定义为: 

x, y ∈U ,P ∈A , 

H(X,C)=-∑P(Ci )logP(Ci )

若x、y是不可分辨的,其等价关系可表示为: 

F <x, P>=F <y, P> 

在无混淆的情况下将H(X, C)记为H(X)。

H (X /a ) =−∑∑p (C i ; a =a i )log p (C i /a =a j )=

i

j

一广义近似空间可定义为一有序对<U, R>,关系R中单个属性的等价关系称为单元素等价类,条件属性构成的等价类称为原子等价类,而由决策属性构成的等价类成为知识等价类。以表1中Q1为例,其: 

单元素等价类为: 

E 1={ x1 , x2 , x 3 , x9 } E 2={ x4 , x5 , x6 , x7 , x8 , x10 }

−∑p (a =a j ) ∑p C i /a =a j log p C i /a =a j

j

i

()()

决策树学习过程就使得决策树对划分的不确定程度逐渐减小的过程。若选择测试属性a 进行测试,在a =a j 时属于第i 类的实例个数为C ij 个。记P(Ci ;a =a j ) =C ij /|X |,即p(Ci ;a =a j ) 为在测试属性a 的取值为a j 时它属于第i 类的概率。此时决策树对分类不确定性程度就是训练实例集对属性X 的条件熵:

H (X j ) =−∑p (C i /a =a j ) log p (C i /a =a j )

i

原子等价类为: 

A 1={x1, x9} A2={x2} A3={x3} A 4={x4, x10} A 5={ x5 } A 6={ x6 } A 7={ x7 } A 8={ x8 }

知识等价类为: 

C 1={x1, x4, x5, x8, x9, x10}≥Class =0 (d=0) C 2={ x2, x3, x6, x7}≥Class =1 (d=1)  

又因为在选择测试属性a 后延伸的每个a =a j

叶节点X j 对于分类信息的信息熵为: H (X /a ) =∑p (a =a j ) H (X j )(∗)

j

属性a 对于分类提供的信息量I(X, a)为:

I(X, a)=H(X)=H(X/a)

从表1可知x5和x7有相同条件属性,但又有不同决策属性。表明二者有冲突(即不可分辨的)。同样,冲突发生在x6和x8,粗糙集理论提出了处理这种不一致信息的方法。排除这些冲突,能明确推导出知识C的集合称为C(R*(c))下近似: 

R *(C ) =∪{Y ∈U R :Y ⊆C }

若其中包含这些冲突,推导知识C有不一致情况的集合称为C(R(c))上近似: 

R (C ) =∪{Y ∈U R :Y ∩C ≠φ}

在数学理论上又产生了一个边界区域 (BNR ) ,可表示如下: 

BN R =R (C ) −R *(C ) 处在边界区域的数据集不能肯定分在哪一类,故产生了粗糙集的概念,即数据集中具有非空边界区域 (BN R )的集合。如知识等价类C1的下近似为: 

R *(C 1)={x 1, x 4, x 9, x 10}

R (C 1)={x 1, x 4, x 5, x 6, x 7, x 8, x 9, x 10} BN R (C 1)=R (C 1)−R *(C 1)={ x 5 , x 6 , x 7 , x 8} 

(*)式的值越小上式越大,说明选择测试属性a

对于分类提供的信息越大,选择a 之后对分类的不确定程度越小。ID3算法就是选择使得I(X,a) 最大的属性作为测试属性,即选择使得(*)最小的属性a 。通过信息熵函数公式得到构造一棵从顶而下的决策树,该算法不但简单而且有效。运用数据的信息熵作用度的大小,在训练集生成的最小决策树能够把信息分类。ID3算法要求数据集是完整的、一致的,所以又产生了ID4和ID5算法,但还不是很好的处理方式。基于粗糙集理论,又提出了LERS 约简学习算法,该算法能处理训练集中不一致数据,但数据量过大时,其算法的复杂度使之变得不切实际,所得到的知识复杂,难于理解。Khoo 理论合并了ID3算法和粗糙集理论而形成了改进的ID3算法,它利用了ID3的简洁有效和粗糙集处理不一致数据的优点。现它运用到变量繁多的学生数据库,使数据集不一致问题得到了改善。

此算法包括数据一致性分析、粗糙集分类、约简3个步骤。数据一致性分析含消除冗余数据集和冲突检测两个任务;粗糙集分类运用粗糙集理论处理不一致、不确定性数据集,据上述粗糙集近似度概念可知,下近似得到肯定知识等价类,上近似得到可能知识等价类;约简采用与ID3相似的基于概率统计算法(借用ID3中信息熵的约简算法选择属性及分类),以确保最小决策树且不会损失精确性。对比决策树,生成规则表达方式更好且更易理解,

・19・

2.3 粗糙集分类约简算法 

采用决策树的Quinlan  ID3算法将训练实例分为n 类,设训练实例集为X 、属于第i 类的训练实例个数是C i 、X 中总的训练实例个数为|X |,若记一个实例属于第i 类的概率P(Ci ) ,则:

P(Ci ) =C i /|X |

此时决策树对划分C 的不确定程度为:

还能评价生成这条规则的可信度。通过该方式可推 导出,确定和一致数据集生成的确定性规则,不确定和不一致数据集生成的可能性约简规则。整个算法体系及步骤可用图1表示。 

学科:文科→1;理科→0; 

成绩:及格→0;良好→1;优秀→2; 综合测评:高→1;低→0。 

由表1可见1005和1007冲突,同为理科且成绩良好,但综合测评却有高有低,显然Quinlan  ID3算法无法处理。而通过粗糙集理论的上、下近似度和可信度分析,就能分析这些不一致数据,如表3。 

表3 不一致数据的分析 

方法

结果

对表1知识系统无法处理,系统会悬挂,但通过除去

ID3

部分不一致的数据集,可得到粗糙集中的部分规则。 确定的规则:

(1) 如成绩为及格的;综合测评低;

(2) 如学科为文科,成绩为良好或优秀,综合测评高。

不确定的规则: 集

(1) 如学科为理科,综合测评低的概率为66.7﹪;

(2) 如成绩为良好或优秀,综合测评高的概率为80﹪ 

图1中可看到一致性分析的两个任务。在数据集预处理阶段,排除了冗余数据集。然后再对数据集进行一致性分析:如果是一致的,则由分类约简算法归纳为一致规则;如果存在不一致数据集,则用粗糙集理论处理。不一致数据集中的一致性数据集用下近似处理,通过分类约简算法得出一致性规则;而不一致数据集用上近似处理,得出的可能性规则经约简算法评价,通过其可信度分析,得出规则的可信度(可信度以比率的形式表现)。整个分析输出是一棵决策树和一系列一致性规则及不一致规则出现的可信度。 

图1 算法的结构和步骤

利用概率(80%和66.7%)分析这些规则,表明粗糙集的分类是简单而合理的。 

4  结论 

把粗糙集和基于概率统计的ID3算法的优点结合,应用到泛化后的学生数据库,得到的结果符合现实,最重要的是得到了ID3算法得不到的两条不确定规则。如果简单的用ID3算法,去除不一致数据集,某些规则将会被遗漏。通过引入概率统计和粗糙集,使规则更加完整,这将帮助数据分析者挖掘出更多的规则,做出正确的决策。 

参考文献: 

[1] Quinlan J R. Induction of Decisiontrees [J]. Machine

Learning, 1986, (6): 81-106.

[2] Khoo Tor. A Rough-Set-Based Approach for

Classification and Rule Induction [J]. Advanced Manufacturing Technology, 1999, 15 (6): 438-444. [3] Z Pawlak. Why Rough Sets [A]. IEEE International

Conference on Fuzzy Systems [C]. 1996, 2 (1): 738-743.

[4] Wong Ziarko R. Li Ye. Comparison of Roughest and

Statistical Methods in Inductive Learning [J]. International Journal of Man–Machine Studies, 1986, 24 (5): 53-72.

[5] 史忠植. 知识发现[M]. 北京: 清华大学出版社, 2002.

143-168.

[6] 苗夺谦, 王珏. 基于粗糙集的多变量决策树构造方法[J].

软件学报, 1997, 8 (6): 425-431.

[7] 支天云,张仰森, 等. 基于Rough 集的成人招生系统评

价指标体系的获取[J]. 电脑应用与开发, 2000, 13 (6): 1-4.

[8] 印勇, 曹长修, 等. 基于粗糙集理论的分类规则发现[J].

重庆大学学报,2000, 23 (1): 63-65.

[9] 曾黄麟. 粗集理论及其应用[M]. 重庆: 重庆大学出版

社, 1996. 32-82.

3  学生数据库中的约简 

在学生数据库挖掘其隐含信息,先通过SQL语句对部分属性进行泛化处理,包括属性去除操作、属性阈值控制、数据汇集操作等,可得到其泛化关系,该关系从较高层次上总结了在低层次上的原始关系。如表2。 

表2  泛化处理后的学生信息表 

学生 种类 1001 1002 1003 1004 1005 1006 1007 1008 1009 1010

学生信息 学科 成绩 文科 及格 文科 良好 文科 优秀 理科 理科 理科 理科 理科 理科 文科

及格 良好 优秀 良好 优秀 及格 及格

综合 测评 低 高 高 低 低 高 高 低 低 低

经过量化处理后可得到与表1一样的知识表达系统。其中使用了下面的量化a方案: 

・20・


相关内容

  • 项目评价中指标体系选取的有效性及优化
  • 统计数据,而定性指标的评价则由专家根据知识.经验来主观评价.采用粗糙集方 项目评价中指标体系选取的有效性及优化 ■◆ 云 俊 教授 李远远 博士生(武汉理工大学管理学院 武汉 430070)中图分类号:F810 文献标识码:A 内容摘要:指标体系的构建是进行项 目综合评价的基础和关键.本文分析了指标 ...

  • 粗糙集算法
  • DUFE 管理科学与工程研究方法概论 学号: 专业: 姓名: 粗糙集理论 一.粗糙集的来源与发展 智能信息处理是当前信息科学理论和应用研究中的一个热点领域.由于计算机科学与技术的发展,特别是计算机网络的发展,每日每时为人们提供了大量的信息.信息量的不断增长,对信息分析工具的要求也越来越高,人们希望自 ...

  • 基于FC和VPRS的信用风险评价研究
  • 作者:郭军华李帮义 预测 2010年01期 1 引言 信用风险评价是商业银行贷款的重要依据.世界银行对全球银行业危机的研究表明,导致银行破产的主要原因就是信用风险[1].随着2007年我国银行业的全面放开,我国商业银行面临的竞争更加剧烈,如何科学.合理地对企业做出正确的信用风险评价,是一个值得研究的 ...

  • 地下水环境质量评价
  • 摘要:提出用粗糙集(RS)理论的属性约简筛选地下水环境质量评价指标,通过主客观组合赋权确定各评价指标的权重,再利用理想解法(TOPSIS)和灰色关联度相结合的方法确定各样本的相对贴近度,从而建立了地下水环境质量评价的RS-TOPSIS模型.将RS-TOPSIS模型应用于淮河流域某研究区的地下水环境质 ...

  • 融合粒子群优化和遗传算法的基因调控网络构建
  • 摘 要:MicroRNA(miRNA)是一类大小为21-25nt的内源性非编码小核糖核酸(RNA), 通过与mRNA的3'UTR互补结合, 导致mRNA降解或翻译抑制来调控编码基因的表达.为了提高构建基因调控网络的准确度, 提出一种基于粗糙集.融合粒子群(PSO)和遗传算法(GA)的基因调控网络构建 ...

  • 医疗专家系统方法
  • 医生一般是 ①通过询问病史.体格检查.实验室检查和辅助检查手段搜集临床资料:②整理.分析.评价资料:③提出诊断:④给出治疗处理. 医学专家系统的推理方法: 1. 基于规则推理 基于规则的推理是从领域专家那获取问题求解的知识,概括.转化为易于被计算机表示和推理的形式,然后以知识库中已有知识构成的规则为 ...

  • 电网故障诊断方法研究综述
  • 电网故障诊断方法研究综述 何正友12,张耀天1 , (1.西南交通大学电气工程学院,四川省成都市610031 2. 电力系统保护与动态安全监控教育部重点实验室(华北电力大学),北京市昌平区102206) 摘 要:首先,针对电网故障诊断中应用较早的人工智能方 法:专家系统.人工神经网络.Petri网. ...

  • 基于回归分析方法的工件表面质量影响因素研究
  • 摘 要:随着现代化工业生产的不断发展,对产品的质量提出了越来越高的要求.这就对零件表面的物理和几何性能提出了非常苛刻的要求.研究机械加工表面质量的目的就是为了掌握机械加工中各种工艺因素对加工表面质量影响的规律,以便运用这些规律来控制加工过程,最终达到改善表面质量.提高产品使用性能的目的.该文根据切削 ...

  • 遥感影像监督分类与非监督分类的比较
  • 第34卷第3期 2004 年9月河南大学学报(自然科学版)JournalofHenanUniversity(NaturalScience)Vol.34 No.3Sep.2004 遥感影像监督分类与非监督分类的比较 赵春霞,钱乐祥3 (河南大学环境与规划学院,河南开封475001) 摘 要:遥感影像的 ...