数据挖掘课后习题

(实验项目) DBLP 数据集包括100万篇发表在计算机科学会议和杂志上的论文项。在这些项中,很多作者都有合著关系。

(a) 提出一种方法,挖掘密切相关的(即,经常一起合写文章) 合著者关系。 解决问题的大致过程:

1. DBLP 数据集是一个XML 文件,先对XML 文件解析,得到一个超过1G 的TXT 文件,处理文件数据格式,并截取前20000行数据,格式如下图:

2. 使用FP-Tree 算法,设置支持度为3,得到的满足条件的频繁项集如下图:

说明:以上结果只是一部分,由于数据集很庞大,限于篇幅,不便全部展示。

(b) 根据挖掘结果和本章讨论的模式评估度量,讨论哪种度量可能比其他度量更令人信服地揭示紧密合作模式。

关于作者A(Dimitris Papadias)和作者B(Yufei Tao)的2×2的相依表(显示期望值)

1. 使用提升度的相关分析

P({A}) = 86/1610139 = 5.28e -5

P({B}) = 85/1610139 = 5.28e -5

P({A,B}) = 26/1610139 = 1.61e -5

提升度为P({A,B})/(P({A})×P({B}) )=1.61e -5/(5.28e -5×5.28e -5)=5775

2. 使用χ2进行相关分析

χ2 = (26-0.0045)2/0.0045 + (60-86)2/86 + (59-84.9955)2/84.9955 + (1609994-1609968)2/1609968 = 150238

3. 全置信度

P(A|B) = 26/85 = 0.306

P(B|A) = 26/86 = 0.302

all_conf(A,B) = min{P(A|B),P(B|A)} = 0.302

4. 最大置信度

max_conf(A,B) = max{P(A|B),P(B|A)} = 0.306

5. Kulczynski

Kulc(A,B) = 1/2 *(P(A|B)+P(B|A)) = 0.304

6. 余弦

Cosine(A,B) =

比较6种模式评估度量:

上述6种模式评估中,提升度和χ2的计算受零事务的影响很大,在上面的例子中,AB 表示零事务的个数。一般,零事务的个数可能大大超过个体购买的个数,因为,A 和B 发表过的论文相对于整个数据库中的论文总数,是很小的一部分。其他四个度量很好地消除了AB 的影响。由于上述例子中P(A|B) 和P(B|A) 近似相等,导致四种评估度量(全置信度,最大置信度,Kulczynski ,余弦) 结果也近似相等,但如果P(A|B) 和P(B|A) 相差很大,例如P(A|B)>>P(B|A),则根据全置信度的结果,得出的结论可能是负相关,根据最大置信度的结果,得P(A|B)×P(B|A) = 0.304

出的结论却是正相关,而根据Kulczynski 和余弦的结果,则两者被视为中性。 (c) 基于以上研究,开发一种方法,它能粗略地预估导师和学生的关系,以及这种指导的周期

1. 根据经验,我们知道,学生发表的论文上往往会署导师的名字,而导师的论文上却不一定有学生的署名,或者说导师发表过的论文要远比学生多,我们可以设置两个参数30和5,例如,作者A 和B 满足频繁项集的要求,并且A 发表过的论文不小于30篇,B 发表过的论文不超过5篇,则我们可以认定A 为导师,B 为学生。

2. 若要求得指导的近似周期,我们需要在求频繁项集时,将发表的日期作为属性假如到事务中,如果我们已确定A 为导师,B 为学生,并且他们的合著次数满足频繁项集的支持度,我们需要计算A 和B 合著论文中的最近日期和最早日期,最近日期-最早日期 = 近似的指导周期

数据挖掘作业

计算机学院 学院:

学号:1403121614 姓名:汪泰利

(实验项目) DBLP 数据集包括100万篇发表在计算机科学会议和杂志上的论文项。在这些项中,很多作者都有合著关系。

(a) 提出一种方法,挖掘密切相关的(即,经常一起合写文章) 合著者关系。 解决问题的大致过程:

1. DBLP 数据集是一个XML 文件,先对XML 文件解析,得到一个超过1G 的TXT 文件,处理文件数据格式,并截取前20000行数据,格式如下图:

2. 使用FP-Tree 算法,设置支持度为3,得到的满足条件的频繁项集如下图:

说明:以上结果只是一部分,由于数据集很庞大,限于篇幅,不便全部展示。

(b) 根据挖掘结果和本章讨论的模式评估度量,讨论哪种度量可能比其他度量更令人信服地揭示紧密合作模式。

关于作者A(Dimitris Papadias)和作者B(Yufei Tao)的2×2的相依表(显示期望值)

1. 使用提升度的相关分析

P({A}) = 86/1610139 = 5.28e -5

P({B}) = 85/1610139 = 5.28e -5

P({A,B}) = 26/1610139 = 1.61e -5

提升度为P({A,B})/(P({A})×P({B}) )=1.61e -5/(5.28e -5×5.28e -5)=5775

2. 使用χ2进行相关分析

χ2 = (26-0.0045)2/0.0045 + (60-86)2/86 + (59-84.9955)2/84.9955 + (1609994-1609968)2/1609968 = 150238

3. 全置信度

P(A|B) = 26/85 = 0.306

P(B|A) = 26/86 = 0.302

all_conf(A,B) = min{P(A|B),P(B|A)} = 0.302

4. 最大置信度

max_conf(A,B) = max{P(A|B),P(B|A)} = 0.306

5. Kulczynski

Kulc(A,B) = 1/2 *(P(A|B)+P(B|A)) = 0.304

6. 余弦

Cosine(A,B) =

比较6种模式评估度量:

上述6种模式评估中,提升度和χ2的计算受零事务的影响很大,在上面的例子中,AB 表示零事务的个数。一般,零事务的个数可能大大超过个体购买的个数,因为,A 和B 发表过的论文相对于整个数据库中的论文总数,是很小的一部分。其他四个度量很好地消除了AB 的影响。由于上述例子中P(A|B) 和P(B|A) 近似相等,导致四种评估度量(全置信度,最大置信度,Kulczynski ,余弦) 结果也近似相等,但如果P(A|B) 和P(B|A) 相差很大,例如P(A|B)>>P(B|A),则根据全置信度的结果,得出的结论可能是负相关,根据最大置信度的结果,得P(A|B)×P(B|A) = 0.304

出的结论却是正相关,而根据Kulczynski 和余弦的结果,则两者被视为中性。 (c) 基于以上研究,开发一种方法,它能粗略地预估导师和学生的关系,以及这种指导的周期

1. 根据经验,我们知道,学生发表的论文上往往会署导师的名字,而导师的论文上却不一定有学生的署名,或者说导师发表过的论文要远比学生多,我们可以设置两个参数30和5,例如,作者A 和B 满足频繁项集的要求,并且A 发表过的论文不小于30篇,B 发表过的论文不超过5篇,则我们可以认定A 为导师,B 为学生。

2. 若要求得指导的近似周期,我们需要在求频繁项集时,将发表的日期作为属性假如到事务中,如果我们已确定A 为导师,B 为学生,并且他们的合著次数满足频繁项集的支持度,我们需要计算A 和B 合著论文中的最近日期和最早日期,最近日期-最早日期 = 近似的指导周期

数据挖掘作业

计算机学院 学院:

学号:1403121614 姓名:汪泰利


相关内容

  • 超多大学课后习题答案与大家分享啦~~
  • 超多大学课后习题答案与大家分享啦~~.txt男人应该感谢20多岁陪在自己身边的女人.因为20岁是男人人生的最低谷,没钱,没事业:而20岁,却是女人一生中最灿烂的季节.只要锄头舞得好,哪有墙角挖不到?2500份课后答案,很值得收藏,这里只介绍了一部分. 还有很多,可以去课后答案网(http://bbs ...

  • 数字电子技术基础第二版(侯建军著)高等教育出版社课后答案
  • 课后答案网(http://www.khdaw.com) 第一章数字逻辑基础 第一节重点与难点 一.重点:1.数制2.编码 (1)二-十进制码(BCD码) 在这种编码中,用四位二进制数表示十进制数中的0~9十个数码.常用的编码有8421BCD码.5421BCD码和余3码. 8421BCD码是由四位二进 ...

  • 数据结构课程 课后习题答案
  • <数据结构简明教程>练习题及参考答案 练习题1 1. 单项选择题 (1)线性结构中数据元素之间是()关系. A. 一对多 B.多对多 C.多对一 D.一对一 答:D (2)数据结构中与所使用的计算机无关的是数据的()结构. A. 存储 B.物理 C.逻辑 D.物理和存储 答:C (3)算 ...

  • 管理信息系统(第二版)课后习题答案--第5章答案
  • 管理信息系统(第二版)课后习题答案--第5章答案 一.单项选择题 1.B 2.A 3.A 4.B 5.C 6.B 7.B 8.D 9.A 10.C 11.D 12.B 13.C 14.A 15.A 16.A 17.B 18.D 19.C 20.D 二.多项选择题 1.ACD 2.ABC 3.ACD ...

  • 大学课后习题答案
  • [大学四年100万份资料大集合] http://www.3che.com/forum.php?mod=viewthread&tid=7083&fromuid=582866 新视野大学英语课后习题答案1-4册全集 http://www.3che.com/forum.php?mod=vi ...

  • 大学课本课后习题答案
  • 注册可用 公共课程 http://www.10xiao.com/forum-6-1.html 新视野大学英语读写教程第四册答案 http://www.10xiao.com/thread-7-1-1.html 新视野大学英语读写教程第三册答案 http://www.10xiao.com/thread- ...

  • 汇编语言课后习题答案
  • 2.1已知DS=2000H.BX=0100H.SI=0002H,存储单元[20100H]-[20103H]依次存放12345678H,[21200H]-[21203H]依次存放2A4CB765H,说明下列每条指令执行完后AX寄存器的内容. (1)movax,1200h(2)movax,bx(3)mo ...

  • 数据结构第一章课后习题与答案
  • The Home of jetmambo - 第 1 章 绪 论 第 1 章 绪 论 (2005-07-14) - 第 1 章 绪 论 课后习题讲解 1. 填空 ⑴( )是数据的基本单位,在计算机程序中通常作为一个整体进行考虑和处理. [解答]数据元素 ⑵( )是数据的最小单位,( )是讨论数据结构 ...

  • 实验设计与数据处理第一章例题及课后习题答案
  • 1. 根据三组数据的绝对误差计算权重: w 1= 111 =10000, w ==25, w ==40000 23222 0.010.20.005 因为w 1:w 2:w 3=400:1:1600 所以 = 1.54⨯400+1.7⨯1+1.537⨯1600 =1.538 400+1+1600 2. ...