数据挖掘技术与关联规则挖掘算法探讨

  摘 要决策者想要从浩瀚如烟的数据中寻找有效信息一般会采用数据挖掘技术,该技术大大解放了决策者的劳动力,有效缩减了数据的寻找时间,伴随着科学技术的日渐发达,关联规则挖掘算法被提出,该算法的出现能够有效发现各种有趣的项目集在繁杂的数据之中产生的关联性,决策者在该算法的帮助下能够更加深入的了解数据信息,本文将简要分析和探讨数据挖掘技术与关联规则挖掘算法。   【关键词】数据挖掘 技术 关联规则挖掘 算法   数据挖掘技术的提出使得决策者能够在最短的时间内对数据信息进行高效筛选,进而挑选出对决策最为有用的信息,数据挖掘技术包含着诸多内容,而关联规则挖掘算法就是其中之一,关联规则挖掘算法能够为决策者分析出各数据信息之间的深层关系和隐含信息,帮助决策者作出更加正确科学的决策,由此可见研究数据挖掘技术和关联规则挖掘算法拥有深远的意义。   1 数据挖掘技术的概述   数据挖掘技术顾名思义,就是对信息进行深入挖掘处理的一种新型技术,在数据挖掘技术的推动之下,决策者摒弃了以只能比较低端的进行联机查询为主的传统技术,选用能够合理准确分析和预测数据信息,从而能够使得决策者做出更加准确的判断与合理的决策的数据挖掘技术。数据挖掘技术的构成主要包括预测、关联、差异、广义等范围的知识挖掘。比较常见的数据挖掘方法有当代数学分析法、证据理论法、不确定性推理法、神经网络Neural Network探索性分析法、遗传算法Genetic Algorithm、信息聚类分析法等等。   2 关联规则挖掘算法的概述   2.1 关联规则挖掘算法的定义   数据挖掘技术中的一项重要组成部分就是关联规则挖掘,而关联规则现在也是数据挖掘中最为典型也是最受欢迎的一种。关联规则挖掘算法的概念最早可以追溯到1993年,是由Agrawal等人用来对用户购买模式进行有效反映时创立提出的一种算法。关联规则挖掘现在主要用于寻找和挖掘数据库中各项目集之间关联性以及内在关系,构成关联规则挖掘算法主要有两个极为重要的步骤,分别是找寻所有频繁项集和形成强烈的关联规则,首先找寻所有频繁项集又具体是指寻找满足最小支持度的频繁项目集,而形成强烈的关联规则具体指的是依据频繁项集中的最小可信度进而形成关联规则。在关联规则挖掘算法被提出之后,近十几年中陆陆续续还有无数的专家学者投入到关联规则挖掘算法的研究之中,他们将许多数学思维和方法引入其中,好比说随即采样等等,不仅极大地丰富了关联规则挖掘算法的内容,与此同时还大大提升了算法的准确度和高效性。   2.2 经典频繁集算法   Apriori算法可以算得上是关联规则挖掘中的典型算法,关联规则挖掘中的Apriori算法为了能够尽量简化运算方法减少计算量,将关联规则分为两部分从而完成计算,首先Apriori算法要求所有的频繁项集必须是由迭代检索从数据库搜索得出,其次Apriori算法要求其中所有的频繁项集中需要形成强烈的能够满足用户最低信任度的关联规则。由此我们也可以看出,Apriori算法中的关键其实就是对所有频繁项集进行深入的挖掘或是分析,当然,在Apriori算法中也存在弊端,比如说候选集的数量比较庞大,再比如数据库需要被反复扫描等等,因此该算法并不完美,还有提升与改善的空间。   2.3 数据集划分算法   Partition算法认为只是基于逻辑的角度是可以将整个数据库划分成若干个数据块,且各个数据块之间相互独立并且能够存入内存,使得外存在被访问时所需I/O费用能够被有效缩减。该算法将每一个基于逻辑角度下划分的数据块看成是生成的一个独立的频集,借助频繁项集的性质把这些逻辑角度下的数据块生成的各个独立频繁集,通过合并的方式将其统一成为一个庞大的候选项集,对数据库中所有计算项集的支持度进行扫描从而完成最后的全局计数。虽然在Partition算法仅仅只需要扫描两次数据库,但是最后产生出来的候选项集仍然数量庞大。同样采用数据库划分理念的还有DIC算法,与Partition算法基本相同的是DIC算法也需要对数据库进行划分,但是不是划分为数据块而是划分成为几个分区,但是在这些分区的开始部分上需要仔细进行标记,候选项在进行数据库扫描时将被逐一添加在这些标记上。数据集划分算法的并行度非常高,通常只需要对数据库进行两次左右的扫描即可,这样I/O操作次数将明显减少,算法的效率将得到大大提升。   2.4 增量式更新算法   当各类信息数据之间的隐含内容和内在关联性已经被挖掘出来之后,而在数据库或参数上又发现了信息数据之间又有新的关联性,那么就需要对一致的关联规则进行删除确保数据信息的时效性,此时需要用增量式更新算法完成“除旧更新”的工作,现阶段绝大多数的增量式算法都是在Apriori算法的基础上进行适当的演化创新,例如冯玉才等人提出的IUA和PIUA算法、高峰等人提出的IUAR算法等等均能够看见Apriori算法的影子,所谓的IURA算法就是需要在数据更新之后产生新的关联规则,但是是以数据库DB发生同步变化和最小支持与置信度为基础;而IUA和PIUA算法恰恰与IURA算法相反,虽然也是最小支持度和置信度但是数据库DB没有发生任何变化时,生成全新的关联规则。   3 结论   总而言之,作为决策者的重要帮手之一,数据挖掘技术尤其巨大的作用和意义,随着决策者对数据信息的要求越来越高,关联规则挖掘算法的出现就是为了能够帮助决策者深入挖掘各类信息数据之间的内在关联性,在现阶段数据挖掘技术当中以关联规则挖掘算法最受欢迎,本文就是在此背景下对数据挖掘技术进行简要论述并且简单分析两种常见的关联规则挖掘算法,以期能为相关研究者提供一定的帮助。   参考文献   [1]毛国君.数据挖掘技术与关联规则挖掘算法研究[D].北京工业大学,2014.   [2]张玺.数据挖掘中关联规则算法的研究与改进[D].北京邮电大学,2015.   [3]孔芳.数据挖掘技术中关联规则算法的研究[D].江南大学,2015.

  摘 要决策者想要从浩瀚如烟的数据中寻找有效信息一般会采用数据挖掘技术,该技术大大解放了决策者的劳动力,有效缩减了数据的寻找时间,伴随着科学技术的日渐发达,关联规则挖掘算法被提出,该算法的出现能够有效发现各种有趣的项目集在繁杂的数据之中产生的关联性,决策者在该算法的帮助下能够更加深入的了解数据信息,本文将简要分析和探讨数据挖掘技术与关联规则挖掘算法。   【关键词】数据挖掘 技术 关联规则挖掘 算法   数据挖掘技术的提出使得决策者能够在最短的时间内对数据信息进行高效筛选,进而挑选出对决策最为有用的信息,数据挖掘技术包含着诸多内容,而关联规则挖掘算法就是其中之一,关联规则挖掘算法能够为决策者分析出各数据信息之间的深层关系和隐含信息,帮助决策者作出更加正确科学的决策,由此可见研究数据挖掘技术和关联规则挖掘算法拥有深远的意义。   1 数据挖掘技术的概述   数据挖掘技术顾名思义,就是对信息进行深入挖掘处理的一种新型技术,在数据挖掘技术的推动之下,决策者摒弃了以只能比较低端的进行联机查询为主的传统技术,选用能够合理准确分析和预测数据信息,从而能够使得决策者做出更加准确的判断与合理的决策的数据挖掘技术。数据挖掘技术的构成主要包括预测、关联、差异、广义等范围的知识挖掘。比较常见的数据挖掘方法有当代数学分析法、证据理论法、不确定性推理法、神经网络Neural Network探索性分析法、遗传算法Genetic Algorithm、信息聚类分析法等等。   2 关联规则挖掘算法的概述   2.1 关联规则挖掘算法的定义   数据挖掘技术中的一项重要组成部分就是关联规则挖掘,而关联规则现在也是数据挖掘中最为典型也是最受欢迎的一种。关联规则挖掘算法的概念最早可以追溯到1993年,是由Agrawal等人用来对用户购买模式进行有效反映时创立提出的一种算法。关联规则挖掘现在主要用于寻找和挖掘数据库中各项目集之间关联性以及内在关系,构成关联规则挖掘算法主要有两个极为重要的步骤,分别是找寻所有频繁项集和形成强烈的关联规则,首先找寻所有频繁项集又具体是指寻找满足最小支持度的频繁项目集,而形成强烈的关联规则具体指的是依据频繁项集中的最小可信度进而形成关联规则。在关联规则挖掘算法被提出之后,近十几年中陆陆续续还有无数的专家学者投入到关联规则挖掘算法的研究之中,他们将许多数学思维和方法引入其中,好比说随即采样等等,不仅极大地丰富了关联规则挖掘算法的内容,与此同时还大大提升了算法的准确度和高效性。   2.2 经典频繁集算法   Apriori算法可以算得上是关联规则挖掘中的典型算法,关联规则挖掘中的Apriori算法为了能够尽量简化运算方法减少计算量,将关联规则分为两部分从而完成计算,首先Apriori算法要求所有的频繁项集必须是由迭代检索从数据库搜索得出,其次Apriori算法要求其中所有的频繁项集中需要形成强烈的能够满足用户最低信任度的关联规则。由此我们也可以看出,Apriori算法中的关键其实就是对所有频繁项集进行深入的挖掘或是分析,当然,在Apriori算法中也存在弊端,比如说候选集的数量比较庞大,再比如数据库需要被反复扫描等等,因此该算法并不完美,还有提升与改善的空间。   2.3 数据集划分算法   Partition算法认为只是基于逻辑的角度是可以将整个数据库划分成若干个数据块,且各个数据块之间相互独立并且能够存入内存,使得外存在被访问时所需I/O费用能够被有效缩减。该算法将每一个基于逻辑角度下划分的数据块看成是生成的一个独立的频集,借助频繁项集的性质把这些逻辑角度下的数据块生成的各个独立频繁集,通过合并的方式将其统一成为一个庞大的候选项集,对数据库中所有计算项集的支持度进行扫描从而完成最后的全局计数。虽然在Partition算法仅仅只需要扫描两次数据库,但是最后产生出来的候选项集仍然数量庞大。同样采用数据库划分理念的还有DIC算法,与Partition算法基本相同的是DIC算法也需要对数据库进行划分,但是不是划分为数据块而是划分成为几个分区,但是在这些分区的开始部分上需要仔细进行标记,候选项在进行数据库扫描时将被逐一添加在这些标记上。数据集划分算法的并行度非常高,通常只需要对数据库进行两次左右的扫描即可,这样I/O操作次数将明显减少,算法的效率将得到大大提升。   2.4 增量式更新算法   当各类信息数据之间的隐含内容和内在关联性已经被挖掘出来之后,而在数据库或参数上又发现了信息数据之间又有新的关联性,那么就需要对一致的关联规则进行删除确保数据信息的时效性,此时需要用增量式更新算法完成“除旧更新”的工作,现阶段绝大多数的增量式算法都是在Apriori算法的基础上进行适当的演化创新,例如冯玉才等人提出的IUA和PIUA算法、高峰等人提出的IUAR算法等等均能够看见Apriori算法的影子,所谓的IURA算法就是需要在数据更新之后产生新的关联规则,但是是以数据库DB发生同步变化和最小支持与置信度为基础;而IUA和PIUA算法恰恰与IURA算法相反,虽然也是最小支持度和置信度但是数据库DB没有发生任何变化时,生成全新的关联规则。   3 结论   总而言之,作为决策者的重要帮手之一,数据挖掘技术尤其巨大的作用和意义,随着决策者对数据信息的要求越来越高,关联规则挖掘算法的出现就是为了能够帮助决策者深入挖掘各类信息数据之间的内在关联性,在现阶段数据挖掘技术当中以关联规则挖掘算法最受欢迎,本文就是在此背景下对数据挖掘技术进行简要论述并且简单分析两种常见的关联规则挖掘算法,以期能为相关研究者提供一定的帮助。   参考文献   [1]毛国君.数据挖掘技术与关联规则挖掘算法研究[D].北京工业大学,2014.   [2]张玺.数据挖掘中关联规则算法的研究与改进[D].北京邮电大学,2015.   [3]孔芳.数据挖掘技术中关联规则算法的研究[D].江南大学,2015.


相关内容

  • 数据挖掘在医学上的应用
  • ・746・ 安徽医药AnhuiMedical andPharmaceuticalJournal2008 Aug:12(8) ◇小专论◇ 数据挖掘在医学上的应用 王华1,江启成2,胡学钢3 (安徽医科大学1.计算机中心,2.卫生事业管理学院,安徽合肥230032:3.合肥工业大学计算机与信息学院,安徽 ...

  • 创新实践课程设计要求
  • <创新实践>课程设计基本步骤 1. 需求分析 以无歧义的陈述说明程序设计的任务,强调的是程序要做什么.明确规定:输入的形式和输入值的范围:输出的形式:程序所能达到的功能:测试的数据(包括正确的输入和错误的输入及其相应的输出结果). 2. 概要设计 说明程序中用到的所有抽象数据类型的定义, ...

  • 数据挖掘在超市中的应用与分析
  • 数据挖掘在超市中的应用与分析 摘要:随着我国经济高速发展,人们生活水平的提高,超市在社会中的普及范围越来越广,极大的方便了人们的生活和工作的同时快速的促进了我国社会经济的发展,尤其是近年来的各类大型超市在城市中所占的比例越来越高,其中不乏国外的一些大型超市企业入驻我国,但正因为国内外超市在我国所占的 ...

  • 知识发现与知识挖掘技术及其应用
  • 科技情报开发与经济 (2007)26-0184-02文章编号:1005-6033 SCI-TECHINFORMATIONDEVELOPMENT&ECONOMY2007年第17卷第26期 收稿日期:2007-06-18 知识发现与知识挖掘技术及其应用 戴 泳 (华中师范大学图书馆,湖北武汉,4 ...

  • 决策树C4.5论文
  • 摘 要 数据挖掘(DM)是当前涉及统计学.人工智能.数据库等学科的热门的研究领域,是从数据中提取人们感兴趣的.潜在的.可用的知识,并表示成用户可理解的形式.分类是数据挖掘的一个重要分支,分类能找出描述数据类或概念的模型,以便能使用模型预测类标记未知的对象类. 最早的决策树算法是由Hunt等人于196 ...

  • 机器学习算法及其应用
  • 机器学习方法及应用 1.机器学习 学习是生物中枢神经系统的高级整合技能之一,是人类获取知识的重要途径和人类智能 [1]的重要标志,按照人工智能大师H·Simon的观点:学习就是系统在不断重复的工作中对本 身能力的增强或改进,使得系统在下一次执行同样或相类似的任务时,会比原来做得更好或效率更高. 机器 ...

  • 关于数据挖掘中关联规则挖掘算法的研究
  • 上海交通大学硕士学位论文 关于数据挖掘中关联规则挖掘算法的研究 姓名:马建庆申请学位级别:硕士专业:计算机应用技术指导教师:谢康林 20040101 关于数据挖掘中关联规则挖掘算法的研究 摘 要 关联规则是由Agrawal等人提出也是当前比较热门的研究课题 本人在阅读大量国内外数据挖掘 方面的文献这 ...

  • 基于特征挖掘的电网故障诊断方法
  • 第30卷 第10期 中 国 电 机 工 程 学 报 Vol.30 No.10 Apr. 5, 2010 16 2010年4月5日 Proceedings of the CSEE 2010 Chin.Soc.for Elec.Eng. (2010) 10-0016-07 中图分类号:TM 72 文献标 ...

  • 经典关联算法分析和Weka数据挖掘应用
  • [摘要]Apriori算法是基于关联规则的经典挖掘算法,Weka是一个功能全面的机器学习和数据挖掘应用程序平台,本文在分析了Apriori算法的基本思想的基础上,针对实际例子,利用weka进行关联规则挖掘. [关键词]Apriori算法:关联规则:weka:数据挖掘 1.关联规则 关联规则是数据中蕴 ...