实验报告--关联规则的挖掘

实验题目: 关联规则挖掘 1 问题分析与基本概念

关联规则挖掘寻找给定数据集中项之间的有趣联系。蕴含着一种假设:频繁出现的现象表征系统的某种行为,某种规律,而罕见的现象表征着系统的某种质变。

对于本实验给定的数据集,是以英文26个字母和单引号和空格组成,由于是一段英文摘录,所以本关联规则挖掘实验对项集的选择是有序的,例如:把ab 和ba 认为是2种排列组合。

2 实验步骤

2.1 算法步骤

(1)在第一次迭代中,每个项都是候选1-项集的集合的成员。简单扫描所有的事物,对每个项出现的次数计数。

(2)设定最小支持度,确定频繁1-项集的集合。

(3)每个候选项集都是由上一次的频繁项集生成,通过自然连接。 (4)每个候选集的子集都应该出现在上一次的频繁项集中。 (5)知道产生的候选集为空停止。

2.2 程序流程图

3 实验结果分析

本实验设置最小支持度为4,由于实验结果比较多,此处只显示包括频繁9项集以后的结果。(项集是包括空格和单引号)

本实验数据是一段英文文摘,很明显都是以单词或者短语的形式出现,所以得到的频繁项集最终也是以单词或者短语的形式出现,从表格中可以看出9-频繁项集以及其之后的频繁项集都是以单词 或者短语的一部分出现。

从表格中我们还可以发现很多有趣的问题,对比11-频繁项集和12-频繁项集,data mining 和data mining 的支持度计数不一样。一个之后没有空格,一个带有空格。一般文摘中没有空格的都是句子或者一行的结尾处,也就是说data mining 这个短语有2处是在句子或者一行的结尾。由于data mining 这个短语出现的频度较高,我们也可以认为整个文摘所讲的内容主要是关于data mining的。

4 实验心得体会

该算法显然耗费的时间和空间都是很大的,每次连接和剪枝都要消耗大量的时间,时间复杂度和空间复杂度都较高。由于该算法可能要生成大量的候选集,会重复的扫描数据库,导致时间和空间的浪费。

Apriori 算法采用的是逐层搜索的迭代方法,本实验设定了最小支持度阈值,从而也相对的减少了空间和时间复杂度。

实验题目: 关联规则挖掘 1 问题分析与基本概念

关联规则挖掘寻找给定数据集中项之间的有趣联系。蕴含着一种假设:频繁出现的现象表征系统的某种行为,某种规律,而罕见的现象表征着系统的某种质变。

对于本实验给定的数据集,是以英文26个字母和单引号和空格组成,由于是一段英文摘录,所以本关联规则挖掘实验对项集的选择是有序的,例如:把ab 和ba 认为是2种排列组合。

2 实验步骤

2.1 算法步骤

(1)在第一次迭代中,每个项都是候选1-项集的集合的成员。简单扫描所有的事物,对每个项出现的次数计数。

(2)设定最小支持度,确定频繁1-项集的集合。

(3)每个候选项集都是由上一次的频繁项集生成,通过自然连接。 (4)每个候选集的子集都应该出现在上一次的频繁项集中。 (5)知道产生的候选集为空停止。

2.2 程序流程图

3 实验结果分析

本实验设置最小支持度为4,由于实验结果比较多,此处只显示包括频繁9项集以后的结果。(项集是包括空格和单引号)

本实验数据是一段英文文摘,很明显都是以单词或者短语的形式出现,所以得到的频繁项集最终也是以单词或者短语的形式出现,从表格中可以看出9-频繁项集以及其之后的频繁项集都是以单词 或者短语的一部分出现。

从表格中我们还可以发现很多有趣的问题,对比11-频繁项集和12-频繁项集,data mining 和data mining 的支持度计数不一样。一个之后没有空格,一个带有空格。一般文摘中没有空格的都是句子或者一行的结尾处,也就是说data mining 这个短语有2处是在句子或者一行的结尾。由于data mining 这个短语出现的频度较高,我们也可以认为整个文摘所讲的内容主要是关于data mining的。

4 实验心得体会

该算法显然耗费的时间和空间都是很大的,每次连接和剪枝都要消耗大量的时间,时间复杂度和空间复杂度都较高。由于该算法可能要生成大量的候选集,会重复的扫描数据库,导致时间和空间的浪费。

Apriori 算法采用的是逐层搜索的迭代方法,本实验设定了最小支持度阈值,从而也相对的减少了空间和时间复杂度。


相关内容

  • 数据挖掘实验三报告
  • 实验三:基于 Weka 进行关联规则挖掘 实验步骤 1. 利用Weka 对数据集contact-lenses.arff 进行Apriori 关联规则挖掘.要求: 描述数据集:解释 Apriori 算法及流程:解释 Weka 中有关 Apriori 的参数: 解释输出结果 Apriori 算法: 1. ...

  • 创新实践课程设计要求
  • <创新实践>课程设计基本步骤 1. 需求分析 以无歧义的陈述说明程序设计的任务,强调的是程序要做什么.明确规定:输入的形式和输入值的范围:输出的形式:程序所能达到的功能:测试的数据(包括正确的输入和错误的输入及其相应的输出结果). 2. 概要设计 说明程序中用到的所有抽象数据类型的定义, ...

  • 数据挖掘技术实验报告
  • 数据挖掘技术实验报告 理学院 姓名: 学号: 联系电话: 专业班级: 评分:优□|良□|中□|及格□|不及格□ 24 | income > 43228.2: YES (5.0) Number of Leaves : 14 Size of the tree : 27 Time taken to ...

  • 基于关联规则的个性化推荐系统
  • 第9卷第10期Z 003年10月计算机集成制造系统 C I M S Co m p uter I nte g rated M anuf act uri n g S y Ste m S Vol .9No .10O ct . Z 003 文章编号! 1006-5911 Z 003 10-0891-03 基 ...

  • 数据挖掘实验指导书
  • <数据挖掘>实验指导书 2011年3月1日 长沙学院信息与计算科学系 前言 随着数据库技术的发展,特别是数据仓库以及Web 等新型数据源的日益普及,形成了数据丰富,知识缺乏的严重局面.针对如何有效地利用这些海量的数据信息的挑战,数据挖掘技术应运而生,并显示出强大的生命力.数据挖掘技术使数 ...

  • 基于特征挖掘的电网故障诊断方法
  • 第30卷 第10期 中 国 电 机 工 程 学 报 Vol.30 No.10 Apr. 5, 2010 16 2010年4月5日 Proceedings of the CSEE 2010 Chin.Soc.for Elec.Eng. (2010) 10-0016-07 中图分类号:TM 72 文献标 ...

  • 基于关联规则的股票预测方法研究
  • 总第245期2010年第3期 计算机与数字工程 Computer &D ig ital Eng ineer ing V o l. 38No. 3 150 基于关联规则的股票预测方法研究 徐海鹏 (中国地质大学(武汉) 计算机学院 武汉 430074) * 摘 要 近年来证券市场迅速发展, 股 ...

  • 基于船舶碰撞事故调查报告的人的因素数据挖掘_刘正江
  • 2004年第2期文章编号:1000-4653(2004)02-0001-06 中 国 航 海 No.2Jun.2004基于船舶碰撞事故调查报告的人的因素数据挖掘 刘正江, 吴兆麟 (大连海事大学,辽宁大连116026) 摘 要:船舶碰撞事故发生率居高不下与人为失误有关,而人为失误的发生又受到包括个人 ...

  • 数据挖掘与统计学应用
  • 数据挖掘与统计学应用 一.关键词和摘要 关键词:统计学 数据挖掘 知识发现 摘要: 1.数据挖掘与统计应用之间关系 统计学和数据挖掘有很多共同点,但与此同时它们也有很多差异.本文讨论了两门学科的性质,重点论述它们的异同. 数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息.DM(数据挖掘)是揭示存 ...