数据挖掘研究的现状与发展趋势

第8卷 第2期红河学院学报Vol . 8 No . 2

                  

2010年4月Journal of Honghe University Ap r . 2010

数据挖掘研究的现状与发展趋势

郑继刚, 王边疆

(保山学院数学系, 云南保山678000)

  摘 要:数据挖掘作为提取知识的过程, 概述了数据挖掘研究的过去和现状, 、面临的问题, 并对数据挖掘技术的发展趋势作了展望.

关键词:数据挖掘; 分支; 研究; 现状; 趋势

中图分类号:TP311     文献标识码:A -912802-0045-04

  进入信息时代, , . 小部分有用, , 正面临“数据丰富而知识贫乏”, 所以迫切需要一种新的技术从海量数据中自动、高效地提取所需的有用知识, 这时, 数据挖掘技术由此而生.

数据挖掘(Data M ining, 简称DM ) 所要处理的问题, 就是在庞大的数据库中找出有价值的隐藏事件, 并且加以分析, 其主要的贡献在于从数据库中获取有意义的信息以及对数据归纳出有用的结构, 作为企业进行决策的依据. 此外, 数据挖掘的也是发现数据库拥有者先前关心却未曾知悉的有价值信息. 事实上, 数据挖掘并不只是一种技术或是一套软件, 而是一种

[1]

结合数种专业技术的应用.

数据挖掘是一门交叉学科, 它把人们对数据的应用从低层次的简单查询, 提升到从数据中挖掘知识, 提供决策支持. 是建立在数据库、人工智能、机器学习、神经网络、统计学、模式识别、高性能计算等技术基础上的一门新兴技术. 因此, 在这种需求牵引下, 汇聚了不同领域的研究者, 吸引了数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员投身到数据挖掘这一新兴的研究领域, 形成新的技术热点.

2数据挖掘研究的过去

数据库中发现知识一词首次出现于1989年在美国底特律召开的第十一届国际联合人工智能学术会议上, 到1995年在加拿大蒙特利尔召开的首届K DD &Data M ining 国际学术会议, 再到以后每年都要召开一次的K DD&Data M ining 国际学术会议, 经过十多年的努力, 数据挖掘技术的研究已经取得了丰硕的成果, 不少软件公司已研制出数据挖掘软件产品, 并在

[3]

北美、欧洲等国家得到应用.

数据挖掘可以认为是数据库技术和信息技术自然演变的结果. 在数据库业界, 数据挖掘的进化经历了四个阶段:数据搜集、数据访问、数据仓库和决策支

[4]

持(见表1) .

1数据挖掘的定义

数据挖掘又叫做数据库中发现知识(Knowledge D iscovery in Database, 简称K DD ) , 是20世纪90年代以来发展起来的数据库系统和数据库应用领域一个欣欣向荣的前沿学科, 是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中, 提取隐含在其中

[2]

的但又是潜在有用的信息和知识的过程. 它涉及到对数据库中的大量数据进行抽取、转换、分析以及模型化处理, 从中提取辅助决策的关键性数据. 数据挖掘可以帮助决策者寻找规律, 发现被忽略的要素, 预测趋势, 进行决策, 也是对数据内在和本质的高度抽象与概括, 是对数据从理性认识到感性认识的升

收稿日期:2010-02-26

作者简介:郑继刚(1983-) , 男, 云南保山人, 讲师, 云南大学在读硕士. 研究方向:数据挖掘.

46郑继刚王边疆:数据挖掘研究的现状与发展趋势

表1 数据挖掘研究的进化历程

进化阶段数据搜集

(20世纪60年代)

数据访问(20年代80世纪) 数据仓库、决策支持(20世纪90年代)

数据挖掘(正在流行)

支持技术计算机、磁带和磁盘

关系数据库、结构化查询语言、ODBC 联机分析处理、多维数据库、数据仓库高级算法、多处理器计算机海量数据库

产品厂家

I B M 、CDC O racle 、Sybase 、I nfor m ix 、I B M 、M icr os oft

Pil ot 、Com share 、A rbor 、Cognos 、M icr ostrategy Pil ot 、Lockheed 、I B M 、SGI 、其它初创公司

产品特点提供历史性的、静态的数据信息

在记录级提供历史性的、动态的数据信息在各种层次上提供回溯的、动态的数据信息3数据挖掘研究的现状与成果

在国外, 域, 室与天文科学家合作开发的, ; 生物学研究进行分析; 利用数据挖掘技术识别顾客的购买行为模式, 对客户进行了分析; 对银行或保险公司经常发生的诈骗行为进行预测; I B M 公司开发的AS (Advanced Scout ) 系统针对NBA

[5]

的比赛数据, 帮助教练优化战术组合等.

在学术研究上, 数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了数据挖掘专题或专刊, 如I EEE 的Knowledge and Data Engi 2neering 会刊领先在1993年出版了数据挖掘技术专刊, 在I nternet 上还有不少数据挖掘电子出版物, 其中以半月刊Kno wledge D iscovery Nuggets 最为权威. 另一份在线周刊为DS 3(DS 代表决策支持) , 1997年10月7日开始出版, 可向dstrial@tgc . com 提出免费订阅申请.

与国外相比, 国内对数据挖掘的研究稍晚, 没有形成整体力量. 1993年国家自然科学基金首次支持数据挖掘领域的研究项目, 目前, 国内的许多科研单位和高等院校竞相开展数据挖掘和知识发现的基础理论及其应用研究, 这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等. 例如, 复旦大学施伯乐教授领导开发了数据挖掘工具集AM I N ER; 北京大学智能科学系的唐世渭和杨冬青教授领导开发了基于空间数据挖掘的客户分析系统模型CAS DM. 此外, 清华大学周立柱教授领导的数据挖掘研究小组, 四川大学唐常杰教授领导的针对时间序列方面的数据挖掘研究小组, 中国科技大学蔡庆生教授领导的针对关联规则的研究小组, 复旦大学朱扬勇教授领导的数据挖掘工作组, 云南大学王丽

, 都. 在数据挖掘算法研究方面, 、清华大学石纯一、陆玉昌教授、武汉大学李德仁院士、北京科技大学杨炳儒教授、复旦大学周傲英教授等都取得了许多重要的研究成果. 国内比较重要的会议有全国数据库学术会议(Nati onal Data Base Acade m ic Conference, 简称ND 2BC ) , 权威的杂志有《计算机学报》、《软件学报》和

[6]

《计算机研究与发展》等.

4数据挖掘研究方向

数据挖掘涉及的学科领域和方法很多, 有不同的分类分支. 根据挖掘任务可以分为:分类或预测模型发现、数据总结与聚类发现、关联规则发现、序列模式发现、相似模式发现、混沌模式发现、依赖关系或依赖模型发现、异常和趋势发现等; 根据挖掘对象可以分为:关系型数据库挖掘、面向对象数据库挖掘、空间数据库挖掘、时态数据库挖掘、文本数据源挖掘、多媒体数据库挖掘、异质数据挖掘、遗产数据挖掘、W eb 数据挖掘等; 根据挖掘方法可以分为:机器学习方法、统计方法、聚类分析方法、神经网络方法、遗传算法方法、数据库方法、近似推理和不确定性推理方法、基于证据理论和元模式的方法、现代数学分析方法、粗糙集方法和集成方法等; 根据数据挖掘所发现的知识可以分为:挖掘广义型知识、挖掘差异型知识、挖掘关联型知识、挖掘预测型知识、挖掘异常型知识、挖掘不确定

[7]

性知识等.

4. 1空间数据挖掘

空间数据是从遥感、地理信息系统(GI S ) 、多媒体系统、医学和卫星图像等多种应用中收集而来, 收集到的数据远远超过了人脑的分析能力. 空间数据挖掘技术按功能划分可分为三类:描述、解释、预测. 描述性的模型将空间现象的分布特征化, 如空间聚类; 解释性的模型用于处理空间关系, 如处理一个空间对

红河学院学报 2009. 2/数学47

象和影响其空间分布的因素之间的关系; 预测型的模型用来根据给定的一些属性预测某些属性, 如分类模型和回归模型等.

目前, 主要在空间数据挖掘的体系结构和挖掘过程做了大量研究, 包括面向对象的空间数据库的数据挖掘、模糊空间关联规则的挖掘、不确定性挖掘、聚类挖掘、挖掘空间数据的偏离和演变规则、基于多专题地图的挖掘、交叉概化、基于时空数据的概化、并行数据挖掘、统计分析与数据挖掘的协同和遥感影像的挖掘等, 主要采用了基于统计学和概率论、集合论、机器学习、仿生物学、地球信息学的研究方法. 4. 2多媒体数据挖掘

多媒体数据, 包括图形、图像、文本、文档本、声音、视频和音频数据等, . 息技术的进步, , [8]

据库. 、异构数据, 特征向量通常是数十维甚至数百维, 转化为结构数据和降维成了多媒体数据挖掘的关键技术.

有研究者提出了多媒体数据挖掘的系统原型MDMP, 将多媒体数据的建模表示、存储和检索等多媒体数据库技术与数据挖掘技术有机地结合在一起, 采用多媒体图像数据的相似性搜索、多维分析、关联规则挖掘、分类与聚类分析等挖掘方法, 广泛地应用于医学影像诊断分析、卫星图片分析、地下矿藏预测等各种领域.

4. 3时序数据挖掘

时序数据挖掘通过研究信息的时间特性, 深入洞悉事物进化的机制, 揭示其内在规律(如波动的周期、振幅、趋势的种类等) , 成为获得知识的有效途径. 关键问题是要是寻找一种合适的序列表示方式, 基于点距离和关键点是常用的算法, 但都不能完整表示出序列的动态属性. 时序数据挖掘的主要技术有趋势分析和相似搜索, 在宏观的经济预测、市场营销、客流量分析、太阳黑子数、月降水量、河流流量、股票价格波动等众多领域得到了应用.

国内对于时序数据的研究比较少, 使用的方法和技术主要有人工神经网络技术, 利用它预测和处理混沌观测时间序列能达到较高的精度. 此外还有通过对时序数据进行离散傅立叶变换将其从时域空间变换到频域空间, 将时序数据映射为多维空间的点, 在此基础上, 有学者提出一种新的基于距离的离群数

[10]

据挖掘算法.

[9]

4. 4W eb 数据挖掘

随着I nternet/Web 技术的快速普及和迅猛发展,

使各种信息可以在网络上获得, 但是它是巨大的、分布广泛的、全球性多样的和动态变化的. 面对如此大量的W eb 数据, 如何在这个全球最大的数据集合中发现有用信息成为W eb 数据挖掘研究的热点. 当前, W eb 数据挖掘可分为四类, 即W eb 内容挖掘、W eb 结构挖掘、W eb 使用记录挖掘和W eb 用户性质挖掘. 4. 5不确定数据挖掘

, , , 数据的不确定性是不可避, 存在的不确定性指的是不确定对象或元组的存在与否, 如关系数据库的某个元组和一个概率相关联表示这个元组存在的可信度, 值的不确定指的是一个元组的存在是确定的, 但它的值是不确定的.

现在对不确定数据挖掘的研究已成为热点, 在聚类分析、关联规则、空间挖掘等方面都有突破, 经典的K -means 算法扩展到了UK -means 算法, Ap ri ori 算法扩展到了UAp ri ori 算法等.

5数据挖掘面临的问题

数据挖掘任务、数据挖掘方法、用户交互、性能和各种数据类型的多样性, 给数据挖掘提出了许多挑战性的课题. 数据挖掘语言的设计, 高效而有用的数据挖掘方法和系统的开发, 交互和集成的数据挖掘环境的建立, 以及应用数据挖掘技术解决大型应用问题, 都是目前数据挖掘、系统、研究人员和应用开发人员

[11]

所面临的主要问题.

5. 1挖掘方法和用户交互问题

这反映所挖掘的知识类型、在多粒度上挖掘知识的能力、知识的使用、特定的挖掘和知识可视化. 如, 数据库中挖掘不同类型的知识; 多个抽象层的交互知识挖掘; 结合背景知识; 数据挖掘查询语言和特定的数据挖掘; 数据挖掘结果的表示和可视化; 处理噪声和不完全数据; 模式评估即兴趣度问题. 5. 2性能问题

主要包括数据挖掘算法的有效性、可伸缩性和并行处理等性能问题. 如, 数据挖掘算法的有效性和可伸缩性; 并行、分布式和增量挖掘算法. 5. 3关于数据库类型的多样性问题

如, 关系的和复杂的数据类型的处理; 由异种数

48郑继刚王边疆:数据挖掘研究的现状与发展趋势

据库和全球信息系统挖掘信息.

一定的成果, 但是数据挖掘研究仍然面临着许多问题和挑战, 还存在许多问题等待我们去探索和研究.

6数据挖掘的发展趋势

数据挖掘任务和数据挖掘方法的多样性对数据挖掘提出了许多挑战性的研究问题, 在将来会形成更大的高潮, 研究焦点可能会集中到以下几个方面:研究专门用于知识发现的数据挖掘语言, 走向形式化和标准化; 寻求数据挖掘过程中的可视化方法, 使得知识发现的过程能够被用户理解, 也便于在知识发现过程中的人机交互; 研究在网络与分布式环境下的数据挖掘技术, 特别是在I nternet 上建立数据挖掘服务器, 与数据库服务器配合, 实现数据挖掘; 加强对各种非结构化数据的挖掘, 如文本数据、体数据; , ; , 如金融分析、; 开发适应多数据类型、容噪的挖掘方法, 以解决异质数据集的数据挖掘问题; 动态数据和知识的数据挖掘等.

参考文献:

[1]谢邦昌, 李扬. 数据挖掘与商业智能的现况及未来发

展[J ].统计与信息论坛, 2008(5) :94-96.

[2]Jia wei Han, M icheline Ka mber . 数据挖掘概念与技术

[M].北京:, 2007:25-26.

[3]陈娜. [J ].电脑

2) :46-4, , . ]., 2008.

[, 邵培基, 黄亦潇. 数据挖掘在中国的现状和发

展研究[J ].管理工程学报, 2004(3) :10-15.

[6]徐雪琪. 基于统计视角的数据挖掘研究[D].杭州:浙

江工商大学, 2007.

[7]毛国君, 段立娟, 王实等. 数据挖掘原理与算法[M].

北京:清华大学出版社, 2005.

[8]郑继刚, 谢芳. 多媒体图像挖掘的关联规则挖掘[J ].

红河学院学报, 2009(5) :44-47.

[9]臧洌. 人工神经网络在混沌观测时序数据处理中的应

结语

在这个年轻且充满希望的研究领域, 商业利益的

强大驱动力将会不停地促进数据挖掘技术的发展, 每年都有新的数据挖掘方法和模型问世, 人们对它的研究正日益广泛和深入. 虽然对数据挖掘的研究取得了

用[J ].数据采集与处理, 2001(4) :486-489.

[10]郑斌祥, 杜秀华, 席裕庚. 一种时序数据的离群数据

挖掘新算法[J ].控制与决策, 2002(3) :324-327.

[11]林建勤. 数据挖掘主要问题的对策研究[J ].贵阳学

院学报, 2007(2) :1-4.

[责任编辑 宋焕斌]

Curren t S itua ti on and D evelop m en t Trend of Da t a M in ing

ZHEN G J i -Gang, WAN G B ian -J iang

(Baoshan College, Baoshan 678000, China )

Abstract:This paper outlines the past and p resent situati on of data m ining as a p r ocess of knowledge extracti on . It f ocuses on analyzing the branch of data m ining and Pr oble m of facing, giving an outl ook on the devel opment trend of data m ining technol ogy .

Key words:data m ining; branch; research; current situati on; trendClass No:TP311DocumentMark:A

第8卷 第2期红河学院学报Vol . 8 No . 2

                  

2010年4月Journal of Honghe University Ap r . 2010

数据挖掘研究的现状与发展趋势

郑继刚, 王边疆

(保山学院数学系, 云南保山678000)

  摘 要:数据挖掘作为提取知识的过程, 概述了数据挖掘研究的过去和现状, 、面临的问题, 并对数据挖掘技术的发展趋势作了展望.

关键词:数据挖掘; 分支; 研究; 现状; 趋势

中图分类号:TP311     文献标识码:A -912802-0045-04

  进入信息时代, , . 小部分有用, , 正面临“数据丰富而知识贫乏”, 所以迫切需要一种新的技术从海量数据中自动、高效地提取所需的有用知识, 这时, 数据挖掘技术由此而生.

数据挖掘(Data M ining, 简称DM ) 所要处理的问题, 就是在庞大的数据库中找出有价值的隐藏事件, 并且加以分析, 其主要的贡献在于从数据库中获取有意义的信息以及对数据归纳出有用的结构, 作为企业进行决策的依据. 此外, 数据挖掘的也是发现数据库拥有者先前关心却未曾知悉的有价值信息. 事实上, 数据挖掘并不只是一种技术或是一套软件, 而是一种

[1]

结合数种专业技术的应用.

数据挖掘是一门交叉学科, 它把人们对数据的应用从低层次的简单查询, 提升到从数据中挖掘知识, 提供决策支持. 是建立在数据库、人工智能、机器学习、神经网络、统计学、模式识别、高性能计算等技术基础上的一门新兴技术. 因此, 在这种需求牵引下, 汇聚了不同领域的研究者, 吸引了数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员投身到数据挖掘这一新兴的研究领域, 形成新的技术热点.

2数据挖掘研究的过去

数据库中发现知识一词首次出现于1989年在美国底特律召开的第十一届国际联合人工智能学术会议上, 到1995年在加拿大蒙特利尔召开的首届K DD &Data M ining 国际学术会议, 再到以后每年都要召开一次的K DD&Data M ining 国际学术会议, 经过十多年的努力, 数据挖掘技术的研究已经取得了丰硕的成果, 不少软件公司已研制出数据挖掘软件产品, 并在

[3]

北美、欧洲等国家得到应用.

数据挖掘可以认为是数据库技术和信息技术自然演变的结果. 在数据库业界, 数据挖掘的进化经历了四个阶段:数据搜集、数据访问、数据仓库和决策支

[4]

持(见表1) .

1数据挖掘的定义

数据挖掘又叫做数据库中发现知识(Knowledge D iscovery in Database, 简称K DD ) , 是20世纪90年代以来发展起来的数据库系统和数据库应用领域一个欣欣向荣的前沿学科, 是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中, 提取隐含在其中

[2]

的但又是潜在有用的信息和知识的过程. 它涉及到对数据库中的大量数据进行抽取、转换、分析以及模型化处理, 从中提取辅助决策的关键性数据. 数据挖掘可以帮助决策者寻找规律, 发现被忽略的要素, 预测趋势, 进行决策, 也是对数据内在和本质的高度抽象与概括, 是对数据从理性认识到感性认识的升

收稿日期:2010-02-26

作者简介:郑继刚(1983-) , 男, 云南保山人, 讲师, 云南大学在读硕士. 研究方向:数据挖掘.

46郑继刚王边疆:数据挖掘研究的现状与发展趋势

表1 数据挖掘研究的进化历程

进化阶段数据搜集

(20世纪60年代)

数据访问(20年代80世纪) 数据仓库、决策支持(20世纪90年代)

数据挖掘(正在流行)

支持技术计算机、磁带和磁盘

关系数据库、结构化查询语言、ODBC 联机分析处理、多维数据库、数据仓库高级算法、多处理器计算机海量数据库

产品厂家

I B M 、CDC O racle 、Sybase 、I nfor m ix 、I B M 、M icr os oft

Pil ot 、Com share 、A rbor 、Cognos 、M icr ostrategy Pil ot 、Lockheed 、I B M 、SGI 、其它初创公司

产品特点提供历史性的、静态的数据信息

在记录级提供历史性的、动态的数据信息在各种层次上提供回溯的、动态的数据信息3数据挖掘研究的现状与成果

在国外, 域, 室与天文科学家合作开发的, ; 生物学研究进行分析; 利用数据挖掘技术识别顾客的购买行为模式, 对客户进行了分析; 对银行或保险公司经常发生的诈骗行为进行预测; I B M 公司开发的AS (Advanced Scout ) 系统针对NBA

[5]

的比赛数据, 帮助教练优化战术组合等.

在学术研究上, 数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了数据挖掘专题或专刊, 如I EEE 的Knowledge and Data Engi 2neering 会刊领先在1993年出版了数据挖掘技术专刊, 在I nternet 上还有不少数据挖掘电子出版物, 其中以半月刊Kno wledge D iscovery Nuggets 最为权威. 另一份在线周刊为DS 3(DS 代表决策支持) , 1997年10月7日开始出版, 可向dstrial@tgc . com 提出免费订阅申请.

与国外相比, 国内对数据挖掘的研究稍晚, 没有形成整体力量. 1993年国家自然科学基金首次支持数据挖掘领域的研究项目, 目前, 国内的许多科研单位和高等院校竞相开展数据挖掘和知识发现的基础理论及其应用研究, 这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等. 例如, 复旦大学施伯乐教授领导开发了数据挖掘工具集AM I N ER; 北京大学智能科学系的唐世渭和杨冬青教授领导开发了基于空间数据挖掘的客户分析系统模型CAS DM. 此外, 清华大学周立柱教授领导的数据挖掘研究小组, 四川大学唐常杰教授领导的针对时间序列方面的数据挖掘研究小组, 中国科技大学蔡庆生教授领导的针对关联规则的研究小组, 复旦大学朱扬勇教授领导的数据挖掘工作组, 云南大学王丽

, 都. 在数据挖掘算法研究方面, 、清华大学石纯一、陆玉昌教授、武汉大学李德仁院士、北京科技大学杨炳儒教授、复旦大学周傲英教授等都取得了许多重要的研究成果. 国内比较重要的会议有全国数据库学术会议(Nati onal Data Base Acade m ic Conference, 简称ND 2BC ) , 权威的杂志有《计算机学报》、《软件学报》和

[6]

《计算机研究与发展》等.

4数据挖掘研究方向

数据挖掘涉及的学科领域和方法很多, 有不同的分类分支. 根据挖掘任务可以分为:分类或预测模型发现、数据总结与聚类发现、关联规则发现、序列模式发现、相似模式发现、混沌模式发现、依赖关系或依赖模型发现、异常和趋势发现等; 根据挖掘对象可以分为:关系型数据库挖掘、面向对象数据库挖掘、空间数据库挖掘、时态数据库挖掘、文本数据源挖掘、多媒体数据库挖掘、异质数据挖掘、遗产数据挖掘、W eb 数据挖掘等; 根据挖掘方法可以分为:机器学习方法、统计方法、聚类分析方法、神经网络方法、遗传算法方法、数据库方法、近似推理和不确定性推理方法、基于证据理论和元模式的方法、现代数学分析方法、粗糙集方法和集成方法等; 根据数据挖掘所发现的知识可以分为:挖掘广义型知识、挖掘差异型知识、挖掘关联型知识、挖掘预测型知识、挖掘异常型知识、挖掘不确定

[7]

性知识等.

4. 1空间数据挖掘

空间数据是从遥感、地理信息系统(GI S ) 、多媒体系统、医学和卫星图像等多种应用中收集而来, 收集到的数据远远超过了人脑的分析能力. 空间数据挖掘技术按功能划分可分为三类:描述、解释、预测. 描述性的模型将空间现象的分布特征化, 如空间聚类; 解释性的模型用于处理空间关系, 如处理一个空间对

红河学院学报 2009. 2/数学47

象和影响其空间分布的因素之间的关系; 预测型的模型用来根据给定的一些属性预测某些属性, 如分类模型和回归模型等.

目前, 主要在空间数据挖掘的体系结构和挖掘过程做了大量研究, 包括面向对象的空间数据库的数据挖掘、模糊空间关联规则的挖掘、不确定性挖掘、聚类挖掘、挖掘空间数据的偏离和演变规则、基于多专题地图的挖掘、交叉概化、基于时空数据的概化、并行数据挖掘、统计分析与数据挖掘的协同和遥感影像的挖掘等, 主要采用了基于统计学和概率论、集合论、机器学习、仿生物学、地球信息学的研究方法. 4. 2多媒体数据挖掘

多媒体数据, 包括图形、图像、文本、文档本、声音、视频和音频数据等, . 息技术的进步, , [8]

据库. 、异构数据, 特征向量通常是数十维甚至数百维, 转化为结构数据和降维成了多媒体数据挖掘的关键技术.

有研究者提出了多媒体数据挖掘的系统原型MDMP, 将多媒体数据的建模表示、存储和检索等多媒体数据库技术与数据挖掘技术有机地结合在一起, 采用多媒体图像数据的相似性搜索、多维分析、关联规则挖掘、分类与聚类分析等挖掘方法, 广泛地应用于医学影像诊断分析、卫星图片分析、地下矿藏预测等各种领域.

4. 3时序数据挖掘

时序数据挖掘通过研究信息的时间特性, 深入洞悉事物进化的机制, 揭示其内在规律(如波动的周期、振幅、趋势的种类等) , 成为获得知识的有效途径. 关键问题是要是寻找一种合适的序列表示方式, 基于点距离和关键点是常用的算法, 但都不能完整表示出序列的动态属性. 时序数据挖掘的主要技术有趋势分析和相似搜索, 在宏观的经济预测、市场营销、客流量分析、太阳黑子数、月降水量、河流流量、股票价格波动等众多领域得到了应用.

国内对于时序数据的研究比较少, 使用的方法和技术主要有人工神经网络技术, 利用它预测和处理混沌观测时间序列能达到较高的精度. 此外还有通过对时序数据进行离散傅立叶变换将其从时域空间变换到频域空间, 将时序数据映射为多维空间的点, 在此基础上, 有学者提出一种新的基于距离的离群数

[10]

据挖掘算法.

[9]

4. 4W eb 数据挖掘

随着I nternet/Web 技术的快速普及和迅猛发展,

使各种信息可以在网络上获得, 但是它是巨大的、分布广泛的、全球性多样的和动态变化的. 面对如此大量的W eb 数据, 如何在这个全球最大的数据集合中发现有用信息成为W eb 数据挖掘研究的热点. 当前, W eb 数据挖掘可分为四类, 即W eb 内容挖掘、W eb 结构挖掘、W eb 使用记录挖掘和W eb 用户性质挖掘. 4. 5不确定数据挖掘

, , , 数据的不确定性是不可避, 存在的不确定性指的是不确定对象或元组的存在与否, 如关系数据库的某个元组和一个概率相关联表示这个元组存在的可信度, 值的不确定指的是一个元组的存在是确定的, 但它的值是不确定的.

现在对不确定数据挖掘的研究已成为热点, 在聚类分析、关联规则、空间挖掘等方面都有突破, 经典的K -means 算法扩展到了UK -means 算法, Ap ri ori 算法扩展到了UAp ri ori 算法等.

5数据挖掘面临的问题

数据挖掘任务、数据挖掘方法、用户交互、性能和各种数据类型的多样性, 给数据挖掘提出了许多挑战性的课题. 数据挖掘语言的设计, 高效而有用的数据挖掘方法和系统的开发, 交互和集成的数据挖掘环境的建立, 以及应用数据挖掘技术解决大型应用问题, 都是目前数据挖掘、系统、研究人员和应用开发人员

[11]

所面临的主要问题.

5. 1挖掘方法和用户交互问题

这反映所挖掘的知识类型、在多粒度上挖掘知识的能力、知识的使用、特定的挖掘和知识可视化. 如, 数据库中挖掘不同类型的知识; 多个抽象层的交互知识挖掘; 结合背景知识; 数据挖掘查询语言和特定的数据挖掘; 数据挖掘结果的表示和可视化; 处理噪声和不完全数据; 模式评估即兴趣度问题. 5. 2性能问题

主要包括数据挖掘算法的有效性、可伸缩性和并行处理等性能问题. 如, 数据挖掘算法的有效性和可伸缩性; 并行、分布式和增量挖掘算法. 5. 3关于数据库类型的多样性问题

如, 关系的和复杂的数据类型的处理; 由异种数

48郑继刚王边疆:数据挖掘研究的现状与发展趋势

据库和全球信息系统挖掘信息.

一定的成果, 但是数据挖掘研究仍然面临着许多问题和挑战, 还存在许多问题等待我们去探索和研究.

6数据挖掘的发展趋势

数据挖掘任务和数据挖掘方法的多样性对数据挖掘提出了许多挑战性的研究问题, 在将来会形成更大的高潮, 研究焦点可能会集中到以下几个方面:研究专门用于知识发现的数据挖掘语言, 走向形式化和标准化; 寻求数据挖掘过程中的可视化方法, 使得知识发现的过程能够被用户理解, 也便于在知识发现过程中的人机交互; 研究在网络与分布式环境下的数据挖掘技术, 特别是在I nternet 上建立数据挖掘服务器, 与数据库服务器配合, 实现数据挖掘; 加强对各种非结构化数据的挖掘, 如文本数据、体数据; , ; , 如金融分析、; 开发适应多数据类型、容噪的挖掘方法, 以解决异质数据集的数据挖掘问题; 动态数据和知识的数据挖掘等.

参考文献:

[1]谢邦昌, 李扬. 数据挖掘与商业智能的现况及未来发

展[J ].统计与信息论坛, 2008(5) :94-96.

[2]Jia wei Han, M icheline Ka mber . 数据挖掘概念与技术

[M].北京:, 2007:25-26.

[3]陈娜. [J ].电脑

2) :46-4, , . ]., 2008.

[, 邵培基, 黄亦潇. 数据挖掘在中国的现状和发

展研究[J ].管理工程学报, 2004(3) :10-15.

[6]徐雪琪. 基于统计视角的数据挖掘研究[D].杭州:浙

江工商大学, 2007.

[7]毛国君, 段立娟, 王实等. 数据挖掘原理与算法[M].

北京:清华大学出版社, 2005.

[8]郑继刚, 谢芳. 多媒体图像挖掘的关联规则挖掘[J ].

红河学院学报, 2009(5) :44-47.

[9]臧洌. 人工神经网络在混沌观测时序数据处理中的应

结语

在这个年轻且充满希望的研究领域, 商业利益的

强大驱动力将会不停地促进数据挖掘技术的发展, 每年都有新的数据挖掘方法和模型问世, 人们对它的研究正日益广泛和深入. 虽然对数据挖掘的研究取得了

用[J ].数据采集与处理, 2001(4) :486-489.

[10]郑斌祥, 杜秀华, 席裕庚. 一种时序数据的离群数据

挖掘新算法[J ].控制与决策, 2002(3) :324-327.

[11]林建勤. 数据挖掘主要问题的对策研究[J ].贵阳学

院学报, 2007(2) :1-4.

[责任编辑 宋焕斌]

Curren t S itua ti on and D evelop m en t Trend of Da t a M in ing

ZHEN G J i -Gang, WAN G B ian -J iang

(Baoshan College, Baoshan 678000, China )

Abstract:This paper outlines the past and p resent situati on of data m ining as a p r ocess of knowledge extracti on . It f ocuses on analyzing the branch of data m ining and Pr oble m of facing, giving an outl ook on the devel opment trend of data m ining technol ogy .

Key words:data m ining; branch; research; current situati on; trendClass No:TP311DocumentMark:A


相关内容

  • 2017-2022年中国钢琴培训市场分析报告(目录)
  • 2017-2022年中国钢琴培训市场分析 供需预测报告(目录) www.chyxx.com 公司介绍 北京智研科研咨询有限公司成立于2008年,是一家从事市场调研.产业研究的专业咨询机构,拥有强大的调研团队和数据资源,主要产品有多用户报告.可行性分析.市场调研.IPO 咨询等,公司高覆盖.高效率的服 ...

  • 2015-2020年中国装饰材料行业现状分析
  • 2015-2020年中国装饰材料行业现状 分析及投资策略研究报告 中国产业信息网 什么是行业研究报告 行业研究是通过深入研究某一行业发展动态.规模结构.竞争格局以及综合经济信息等,为企业自身发展或行业投资者等相关客户提供重要的参考依据. 企业通常通过自身的营销网络了解到所在行业的微观市场,但微观市场 ...

  • 2017-2022年中国咖啡行业发展趋势报告(目录)
  • 2017-2022 年中国咖啡行业发展趋势 策略研究报告(目录) www.chyxx.com 公司介绍 北京智研科研咨询有限公司成立于 2008 年,是一家从事市场调研.产业研 究的专业咨询机构,拥有强大的调研团队和数据资源,主要产品有多用户报告. 可行性分析.市场调研.IPO 咨询等,公司高覆盖. ...

  • 2016-2022年中国固体废物报告
  • 2016-2022年中国固体废物处理处置材料市场监测及投资前景评估报告 中国产业信息网 什么是行业研究报告 行业研究是通过深入研究某一行业发展动态.规模结构.竞争格局以及综合经济信息等,为企业自身发展或行业投资者等相关客户提供重要的参考依据. 企业通常通过自身的营销网络了解到所在行业的微观市场,但微 ...

  • 2016-2022年中国辣酱市场发展现状及市场评估报告
  • 2016-2022 年中国辣酱市场发展现状 及市场评估报告 凯德产业经济研究中心 www.cnkaide.com 行业研究报告的定义 行业研究是通过深入研究某一行业发展动态.规模结构.竞争格局以及综合 经济信息等,为企业自身发展或行业投资者等相关客户提供重要的参考依据. 企业通常通过自身的营销网络了 ...

  • 中国差旅管理市场调研报告
  • 中国市场调研在线 行业市场研究属于企业战略研究范畴,作为当前应用最为广泛的咨询服务,其研究成果以报告形式呈现,通常包含以下内容: 一份专业的行业研究报告,注重指导企业或投资者了解该行业整体发展态势及经济运行状况,旨在为企业或投资者提供方向性的思路和参考. 一份有价值的行业研究报告,可以完成对行业系统 ...

  • 2016-2022年中国异丁醇市场深度调研报告
  • 2016-2022年中国异丁醇市场深度调 研与投资战略研究分析报告 中国产业信息网 什么是行业研究报告 行业研究是通过深入研究某一行业发展动态.规模结构.竞争格局以及综合经济信息等,为企业自身发展或行业投资者等相关客户提供重要的参考依据. 企业通常通过自身的营销网络了解到所在行业的微观市场,但微观市 ...

  • 2016-2022年中国雾霾治理市场现状分析报告
  • 2016-2022年中国雾霾治理市场现状 分析报告 www.chyxx.com 什么是行业研究报告 行业研究是通过深入研究某一行业发展动态.规模结构.竞争格局以及综合经济信息等,为企业自身发展或行业投资者等相关客户提供重要的参考依据. 企业通常通过自身的营销网络了解到所在行业的微观市场,但微观市场中 ...

  • 2015-2020年中国小米市场深度调查与未来前景预测报告
  • 2015-2020年中国小米市场深度调查 与未来前景预测报告 什么是行业研究报告 行业研究是通过深入研究某一行业发展动态.规模结构.竞争格局以及综合经济信息等,为企业自身发展或行业投资者等相关客户提供重要的参考依据. 企业通常通过自身的营销网络了解到所在行业的微观市场,但微观市场中的假象经常误导管理 ...

  • 高分子读书报告评分标准及要求
  • 2010-2011年度第二学期 <高分子材料基础>课程读书报告 要求.评分标准及论文题目 一. 要求 1.读书报告不少于4000字. 2.读书报告内容可选定已给出的内容(已给的45个题目),也可自己选择45个题外的有关高分子材料的内容.但不得同时选择同一题目. 3.文献资料可参考引用,但 ...