实验题目: 关联规则挖掘 1 问题分析与基本概念
关联规则挖掘寻找给定数据集中项之间的有趣联系。蕴含着一种假设:频繁出现的现象表征系统的某种行为,某种规律,而罕见的现象表征着系统的某种质变。
对于本实验给定的数据集,是以英文26个字母和单引号和空格组成,由于是一段英文摘录,所以本关联规则挖掘实验对项集的选择是有序的,例如:把ab 和ba 认为是2种排列组合。
2 实验步骤
2.1 算法步骤
(1)在第一次迭代中,每个项都是候选1-项集的集合的成员。简单扫描所有的事物,对每个项出现的次数计数。
(2)设定最小支持度,确定频繁1-项集的集合。
(3)每个候选项集都是由上一次的频繁项集生成,通过自然连接。 (4)每个候选集的子集都应该出现在上一次的频繁项集中。 (5)知道产生的候选集为空停止。
2.2 程序流程图
3 实验结果分析
本实验设置最小支持度为4,由于实验结果比较多,此处只显示包括频繁9项集以后的结果。(项集是包括空格和单引号)
本实验数据是一段英文文摘,很明显都是以单词或者短语的形式出现,所以得到的频繁项集最终也是以单词或者短语的形式出现,从表格中可以看出9-频繁项集以及其之后的频繁项集都是以单词 或者短语的一部分出现。
从表格中我们还可以发现很多有趣的问题,对比11-频繁项集和12-频繁项集,data mining 和data mining 的支持度计数不一样。一个之后没有空格,一个带有空格。一般文摘中没有空格的都是句子或者一行的结尾处,也就是说data mining 这个短语有2处是在句子或者一行的结尾。由于data mining 这个短语出现的频度较高,我们也可以认为整个文摘所讲的内容主要是关于data mining的。
4 实验心得体会
该算法显然耗费的时间和空间都是很大的,每次连接和剪枝都要消耗大量的时间,时间复杂度和空间复杂度都较高。由于该算法可能要生成大量的候选集,会重复的扫描数据库,导致时间和空间的浪费。
Apriori 算法采用的是逐层搜索的迭代方法,本实验设定了最小支持度阈值,从而也相对的减少了空间和时间复杂度。
实验题目: 关联规则挖掘 1 问题分析与基本概念
关联规则挖掘寻找给定数据集中项之间的有趣联系。蕴含着一种假设:频繁出现的现象表征系统的某种行为,某种规律,而罕见的现象表征着系统的某种质变。
对于本实验给定的数据集,是以英文26个字母和单引号和空格组成,由于是一段英文摘录,所以本关联规则挖掘实验对项集的选择是有序的,例如:把ab 和ba 认为是2种排列组合。
2 实验步骤
2.1 算法步骤
(1)在第一次迭代中,每个项都是候选1-项集的集合的成员。简单扫描所有的事物,对每个项出现的次数计数。
(2)设定最小支持度,确定频繁1-项集的集合。
(3)每个候选项集都是由上一次的频繁项集生成,通过自然连接。 (4)每个候选集的子集都应该出现在上一次的频繁项集中。 (5)知道产生的候选集为空停止。
2.2 程序流程图
3 实验结果分析
本实验设置最小支持度为4,由于实验结果比较多,此处只显示包括频繁9项集以后的结果。(项集是包括空格和单引号)
本实验数据是一段英文文摘,很明显都是以单词或者短语的形式出现,所以得到的频繁项集最终也是以单词或者短语的形式出现,从表格中可以看出9-频繁项集以及其之后的频繁项集都是以单词 或者短语的一部分出现。
从表格中我们还可以发现很多有趣的问题,对比11-频繁项集和12-频繁项集,data mining 和data mining 的支持度计数不一样。一个之后没有空格,一个带有空格。一般文摘中没有空格的都是句子或者一行的结尾处,也就是说data mining 这个短语有2处是在句子或者一行的结尾。由于data mining 这个短语出现的频度较高,我们也可以认为整个文摘所讲的内容主要是关于data mining的。
4 实验心得体会
该算法显然耗费的时间和空间都是很大的,每次连接和剪枝都要消耗大量的时间,时间复杂度和空间复杂度都较高。由于该算法可能要生成大量的候选集,会重复的扫描数据库,导致时间和空间的浪费。
Apriori 算法采用的是逐层搜索的迭代方法,本实验设定了最小支持度阈值,从而也相对的减少了空间和时间复杂度。