实验报告--关联规则的挖掘

实验题目：关联规则挖掘 1 问题分析与基本概念

关联规则挖掘寻找给定数据集中项之间的有趣联系。蕴含着一种假设：频繁出现的现象表征系统的某种行为，某种规律，而罕见的现象表征着系统的某种质变。

对于本实验给定的数据集，是以英文26个字母和单引号和空格组成，由于是一段英文摘录，所以本关联规则挖掘实验对项集的选择是有序的，例如：把ab 和ba 认为是2种排列组合。

2 实验步骤

2.1 算法步骤

（1）在第一次迭代中，每个项都是候选1-项集的集合的成员。简单扫描所有的事物，对每个项出现的次数计数。

（2）设定最小支持度，确定频繁1-项集的集合。

（3）每个候选项集都是由上一次的频繁项集生成，通过自然连接。（4）每个候选集的子集都应该出现在上一次的频繁项集中。（5）知道产生的候选集为空停止。

2.2 程序流程图

3 实验结果分析

本实验设置最小支持度为4，由于实验结果比较多，此处只显示包括频繁9项集以后的结果。（项集是包括空格和单引号）

本实验数据是一段英文文摘，很明显都是以单词或者短语的形式出现，所以得到的频繁项集最终也是以单词或者短语的形式出现，从表格中可以看出9-频繁项集以及其之后的频繁项集都是以单词或者短语的一部分出现。

从表格中我们还可以发现很多有趣的问题，对比11-频繁项集和12-频繁项集，data mining 和data mining 的支持度计数不一样。一个之后没有空格，一个带有空格。一般文摘中没有空格的都是句子或者一行的结尾处，也就是说data mining 这个短语有2处是在句子或者一行的结尾。由于data mining 这个短语出现的频度较高，我们也可以认为整个文摘所讲的内容主要是关于data mining的。

4 实验心得体会

该算法显然耗费的时间和空间都是很大的，每次连接和剪枝都要消耗大量的时间，时间复杂度和空间复杂度都较高。由于该算法可能要生成大量的候选集，会重复的扫描数据库，导致时间和空间的浪费。

Apriori 算法采用的是逐层搜索的迭代方法，本实验设定了最小支持度阈值，从而也相对的减少了空间和时间复杂度。