摘 要决策者想要从浩瀚如烟的数据中寻找有效信息一般会采用数据挖掘技术,该技术大大解放了决策者的劳动力,有效缩减了数据的寻找时间,伴随着科学技术的日渐发达,关联规则挖掘算法被提出,该算法的出现能够有效发现各种有趣的项目集在繁杂的数据之中产生的关联性,决策者在该算法的帮助下能够更加深入的了解数据信息,本文将简要分析和探讨数据挖掘技术与关联规则挖掘算法。 【关键词】数据挖掘 技术 关联规则挖掘 算法 数据挖掘技术的提出使得决策者能够在最短的时间内对数据信息进行高效筛选,进而挑选出对决策最为有用的信息,数据挖掘技术包含着诸多内容,而关联规则挖掘算法就是其中之一,关联规则挖掘算法能够为决策者分析出各数据信息之间的深层关系和隐含信息,帮助决策者作出更加正确科学的决策,由此可见研究数据挖掘技术和关联规则挖掘算法拥有深远的意义。 1 数据挖掘技术的概述 数据挖掘技术顾名思义,就是对信息进行深入挖掘处理的一种新型技术,在数据挖掘技术的推动之下,决策者摒弃了以只能比较低端的进行联机查询为主的传统技术,选用能够合理准确分析和预测数据信息,从而能够使得决策者做出更加准确的判断与合理的决策的数据挖掘技术。数据挖掘技术的构成主要包括预测、关联、差异、广义等范围的知识挖掘。比较常见的数据挖掘方法有当代数学分析法、证据理论法、不确定性推理法、神经网络Neural Network探索性分析法、遗传算法Genetic Algorithm、信息聚类分析法等等。 2 关联规则挖掘算法的概述 2.1 关联规则挖掘算法的定义 数据挖掘技术中的一项重要组成部分就是关联规则挖掘,而关联规则现在也是数据挖掘中最为典型也是最受欢迎的一种。关联规则挖掘算法的概念最早可以追溯到1993年,是由Agrawal等人用来对用户购买模式进行有效反映时创立提出的一种算法。关联规则挖掘现在主要用于寻找和挖掘数据库中各项目集之间关联性以及内在关系,构成关联规则挖掘算法主要有两个极为重要的步骤,分别是找寻所有频繁项集和形成强烈的关联规则,首先找寻所有频繁项集又具体是指寻找满足最小支持度的频繁项目集,而形成强烈的关联规则具体指的是依据频繁项集中的最小可信度进而形成关联规则。在关联规则挖掘算法被提出之后,近十几年中陆陆续续还有无数的专家学者投入到关联规则挖掘算法的研究之中,他们将许多数学思维和方法引入其中,好比说随即采样等等,不仅极大地丰富了关联规则挖掘算法的内容,与此同时还大大提升了算法的准确度和高效性。 2.2 经典频繁集算法 Apriori算法可以算得上是关联规则挖掘中的典型算法,关联规则挖掘中的Apriori算法为了能够尽量简化运算方法减少计算量,将关联规则分为两部分从而完成计算,首先Apriori算法要求所有的频繁项集必须是由迭代检索从数据库搜索得出,其次Apriori算法要求其中所有的频繁项集中需要形成强烈的能够满足用户最低信任度的关联规则。由此我们也可以看出,Apriori算法中的关键其实就是对所有频繁项集进行深入的挖掘或是分析,当然,在Apriori算法中也存在弊端,比如说候选集的数量比较庞大,再比如数据库需要被反复扫描等等,因此该算法并不完美,还有提升与改善的空间。 2.3 数据集划分算法 Partition算法认为只是基于逻辑的角度是可以将整个数据库划分成若干个数据块,且各个数据块之间相互独立并且能够存入内存,使得外存在被访问时所需I/O费用能够被有效缩减。该算法将每一个基于逻辑角度下划分的数据块看成是生成的一个独立的频集,借助频繁项集的性质把这些逻辑角度下的数据块生成的各个独立频繁集,通过合并的方式将其统一成为一个庞大的候选项集,对数据库中所有计算项集的支持度进行扫描从而完成最后的全局计数。虽然在Partition算法仅仅只需要扫描两次数据库,但是最后产生出来的候选项集仍然数量庞大。同样采用数据库划分理念的还有DIC算法,与Partition算法基本相同的是DIC算法也需要对数据库进行划分,但是不是划分为数据块而是划分成为几个分区,但是在这些分区的开始部分上需要仔细进行标记,候选项在进行数据库扫描时将被逐一添加在这些标记上。数据集划分算法的并行度非常高,通常只需要对数据库进行两次左右的扫描即可,这样I/O操作次数将明显减少,算法的效率将得到大大提升。 2.4 增量式更新算法 当各类信息数据之间的隐含内容和内在关联性已经被挖掘出来之后,而在数据库或参数上又发现了信息数据之间又有新的关联性,那么就需要对一致的关联规则进行删除确保数据信息的时效性,此时需要用增量式更新算法完成“除旧更新”的工作,现阶段绝大多数的增量式算法都是在Apriori算法的基础上进行适当的演化创新,例如冯玉才等人提出的IUA和PIUA算法、高峰等人提出的IUAR算法等等均能够看见Apriori算法的影子,所谓的IURA算法就是需要在数据更新之后产生新的关联规则,但是是以数据库DB发生同步变化和最小支持与置信度为基础;而IUA和PIUA算法恰恰与IURA算法相反,虽然也是最小支持度和置信度但是数据库DB没有发生任何变化时,生成全新的关联规则。 3 结论 总而言之,作为决策者的重要帮手之一,数据挖掘技术尤其巨大的作用和意义,随着决策者对数据信息的要求越来越高,关联规则挖掘算法的出现就是为了能够帮助决策者深入挖掘各类信息数据之间的内在关联性,在现阶段数据挖掘技术当中以关联规则挖掘算法最受欢迎,本文就是在此背景下对数据挖掘技术进行简要论述并且简单分析两种常见的关联规则挖掘算法,以期能为相关研究者提供一定的帮助。 参考文献 [1]毛国君.数据挖掘技术与关联规则挖掘算法研究[D].北京工业大学,2014. [2]张玺.数据挖掘中关联规则算法的研究与改进[D].北京邮电大学,2015. [3]孔芳.数据挖掘技术中关联规则算法的研究[D].江南大学,2015.
摘 要决策者想要从浩瀚如烟的数据中寻找有效信息一般会采用数据挖掘技术,该技术大大解放了决策者的劳动力,有效缩减了数据的寻找时间,伴随着科学技术的日渐发达,关联规则挖掘算法被提出,该算法的出现能够有效发现各种有趣的项目集在繁杂的数据之中产生的关联性,决策者在该算法的帮助下能够更加深入的了解数据信息,本文将简要分析和探讨数据挖掘技术与关联规则挖掘算法。 【关键词】数据挖掘 技术 关联规则挖掘 算法 数据挖掘技术的提出使得决策者能够在最短的时间内对数据信息进行高效筛选,进而挑选出对决策最为有用的信息,数据挖掘技术包含着诸多内容,而关联规则挖掘算法就是其中之一,关联规则挖掘算法能够为决策者分析出各数据信息之间的深层关系和隐含信息,帮助决策者作出更加正确科学的决策,由此可见研究数据挖掘技术和关联规则挖掘算法拥有深远的意义。 1 数据挖掘技术的概述 数据挖掘技术顾名思义,就是对信息进行深入挖掘处理的一种新型技术,在数据挖掘技术的推动之下,决策者摒弃了以只能比较低端的进行联机查询为主的传统技术,选用能够合理准确分析和预测数据信息,从而能够使得决策者做出更加准确的判断与合理的决策的数据挖掘技术。数据挖掘技术的构成主要包括预测、关联、差异、广义等范围的知识挖掘。比较常见的数据挖掘方法有当代数学分析法、证据理论法、不确定性推理法、神经网络Neural Network探索性分析法、遗传算法Genetic Algorithm、信息聚类分析法等等。 2 关联规则挖掘算法的概述 2.1 关联规则挖掘算法的定义 数据挖掘技术中的一项重要组成部分就是关联规则挖掘,而关联规则现在也是数据挖掘中最为典型也是最受欢迎的一种。关联规则挖掘算法的概念最早可以追溯到1993年,是由Agrawal等人用来对用户购买模式进行有效反映时创立提出的一种算法。关联规则挖掘现在主要用于寻找和挖掘数据库中各项目集之间关联性以及内在关系,构成关联规则挖掘算法主要有两个极为重要的步骤,分别是找寻所有频繁项集和形成强烈的关联规则,首先找寻所有频繁项集又具体是指寻找满足最小支持度的频繁项目集,而形成强烈的关联规则具体指的是依据频繁项集中的最小可信度进而形成关联规则。在关联规则挖掘算法被提出之后,近十几年中陆陆续续还有无数的专家学者投入到关联规则挖掘算法的研究之中,他们将许多数学思维和方法引入其中,好比说随即采样等等,不仅极大地丰富了关联规则挖掘算法的内容,与此同时还大大提升了算法的准确度和高效性。 2.2 经典频繁集算法 Apriori算法可以算得上是关联规则挖掘中的典型算法,关联规则挖掘中的Apriori算法为了能够尽量简化运算方法减少计算量,将关联规则分为两部分从而完成计算,首先Apriori算法要求所有的频繁项集必须是由迭代检索从数据库搜索得出,其次Apriori算法要求其中所有的频繁项集中需要形成强烈的能够满足用户最低信任度的关联规则。由此我们也可以看出,Apriori算法中的关键其实就是对所有频繁项集进行深入的挖掘或是分析,当然,在Apriori算法中也存在弊端,比如说候选集的数量比较庞大,再比如数据库需要被反复扫描等等,因此该算法并不完美,还有提升与改善的空间。 2.3 数据集划分算法 Partition算法认为只是基于逻辑的角度是可以将整个数据库划分成若干个数据块,且各个数据块之间相互独立并且能够存入内存,使得外存在被访问时所需I/O费用能够被有效缩减。该算法将每一个基于逻辑角度下划分的数据块看成是生成的一个独立的频集,借助频繁项集的性质把这些逻辑角度下的数据块生成的各个独立频繁集,通过合并的方式将其统一成为一个庞大的候选项集,对数据库中所有计算项集的支持度进行扫描从而完成最后的全局计数。虽然在Partition算法仅仅只需要扫描两次数据库,但是最后产生出来的候选项集仍然数量庞大。同样采用数据库划分理念的还有DIC算法,与Partition算法基本相同的是DIC算法也需要对数据库进行划分,但是不是划分为数据块而是划分成为几个分区,但是在这些分区的开始部分上需要仔细进行标记,候选项在进行数据库扫描时将被逐一添加在这些标记上。数据集划分算法的并行度非常高,通常只需要对数据库进行两次左右的扫描即可,这样I/O操作次数将明显减少,算法的效率将得到大大提升。 2.4 增量式更新算法 当各类信息数据之间的隐含内容和内在关联性已经被挖掘出来之后,而在数据库或参数上又发现了信息数据之间又有新的关联性,那么就需要对一致的关联规则进行删除确保数据信息的时效性,此时需要用增量式更新算法完成“除旧更新”的工作,现阶段绝大多数的增量式算法都是在Apriori算法的基础上进行适当的演化创新,例如冯玉才等人提出的IUA和PIUA算法、高峰等人提出的IUAR算法等等均能够看见Apriori算法的影子,所谓的IURA算法就是需要在数据更新之后产生新的关联规则,但是是以数据库DB发生同步变化和最小支持与置信度为基础;而IUA和PIUA算法恰恰与IURA算法相反,虽然也是最小支持度和置信度但是数据库DB没有发生任何变化时,生成全新的关联规则。 3 结论 总而言之,作为决策者的重要帮手之一,数据挖掘技术尤其巨大的作用和意义,随着决策者对数据信息的要求越来越高,关联规则挖掘算法的出现就是为了能够帮助决策者深入挖掘各类信息数据之间的内在关联性,在现阶段数据挖掘技术当中以关联规则挖掘算法最受欢迎,本文就是在此背景下对数据挖掘技术进行简要论述并且简单分析两种常见的关联规则挖掘算法,以期能为相关研究者提供一定的帮助。 参考文献 [1]毛国君.数据挖掘技术与关联规则挖掘算法研究[D].北京工业大学,2014. [2]张玺.数据挖掘中关联规则算法的研究与改进[D].北京邮电大学,2015. [3]孔芳.数据挖掘技术中关联规则算法的研究[D].江南大学,2015.