流量内容词语相关度的网络热点话题提取

第４１卷第ｌＯ期

２００７年１０月

西安交通大学学报

ＪＯＵＲＮＡＩ。ＯＦＸＩ’ＡＮＪＩＡＯＴＯＮＧＵＮＩＶＥＲＳＩＴＹ

Ｖｏｌ４１№１０Ｏｃｔ．２００７

流量内容词语相关度的网络热点话题提取

周亚东“２，孙钦东“２…，管晓宏１。２３。４，李卫“２，陶敬“２

（１西安交通大学智能网络与网络安全教育部重点实验室，７１００４９，两安；２西安交通大学机械制造系统工程

国家重点实验室，７１００４９，西安；３．清华大学自动化系．１０００８４，北京；４．清华大学信息科学与技术国家窭验室，１０００８４，北京；５．西安理工大学计算机科学与＿＿Ｉ：＝程学院，７１００４８，西安）

摘要：针对网络舆情分析的需求，给出了网络热点话题定义及其形式化描述，分析了流量内容中热点词语与热点话题的关系，提出了流量内容中热点词语的相关度计算算法．在此基础上，采用基于高密度连接区域的密度聚类方法得到热点词语簇，结合热点词语簇相关的网页标题及网站地址信息，得出网络热点话题的属性描述．实验结果表明，该算法能够有效获取当前网络中的热点话题，话题提取有效率达到１６．７％，为网络热点话题传播特性研究提供了基础，与Ｗｅｂ挖掘、话题监测与跟踪方法相比，所提算法通过选取合适的数据源．胄Ｂ更大程度地还原网络用户行为，从而得到了更为准确的网络信息传播状况．

关键词：嘲络热点话题；流量内容；网络舆情分析

中图分类号：ＴＰ３９３．４文献标识码：Ａ文章编号：０２５３—９８７Ｘ（２００７）１０ＩｎｔｅｒｎｅｔＰｏｐｕｌａｒＴｏｐｉｃｓＥｘｔｒａｃｔｉｏｎｏｆＴｒａｆｆｉｃＣｏｎｔｅｎｔ

１１４２—０４

ＷｏｒｄｓＣｏｒｒｅｌａｔｉｏｎ

Ｌａｂ

ＺｈｏｕＹａｄｏｎ９１”，ＳｕｎＱｉｎｄｏｎ９１’２…，ＧｕａｎＸｉａｏｈｏｎ９１’２’３”，ＬｉＷｅｉｌ”，ＴａｏＪｉｎ９１’２

（１．Ｍ（）ＥＫｅｙＬａｂ．ｆｏｒＩｎｔｅｌｌｉｇｅｎｔＮｅｔｗｏ＾ｓａｕｄＮｅｔｗｏｒｋＳｅｃｕｒｉｔｙ，Ｘｉ‘８ｎＪｉａｏｔｏｎｇＵｎｉｖｅｒｓｉｔｙ，Ｘｉ７∞７１００４９．Ｃｈ。；２．ＳｔａｔｅＫｅｙ

ｕ㈣Ｈ，蹦岫１００９８４，Ｃｈｉｎａ

Ａｂｓｔｒａｃｔ：Ａｉｍｉｎｇ

ａｔ

ｆｏｒＭａｎｕｈｃｔｕｒｉｎｇ

Ｓｙｓｔｅｍ，Ｘｉ＋ａｎ

ＪｉａｏｔｏｎｇＵｎｉｖｅｒｓｉｔｙ，Ｘｌ

７ａ１１

４Ｔｓ－ｉｎｇｈｕａＮａｔｉｏａｍｌ

Ｉ．ａｂ．ｈ

Ｉｎｆｅｃｒｎａｈｏｎ＆№ａｎｄＴｅｃｈｎｉＣＳ．，Ｙｇｎｇｈｕａ

７１００４９，Ｃｈｉ”ｔ３ＤｅｐａｒｔｍｅｎｔｏｆＡｕｔｏｍａｔｉｏｎ，Ｔｓｍｇｈｕａ

Ｕｎｉｖｅｒｓｔｙ，

Ｂｅｌｌｉｎ９１０００８４，Ｃｈｉｎａ；ｊＳｃｈｏｏｌｏｆＣｅｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄｇｎｇｉｎｅｅｍｌｇ，Ｘｉ’ａｎＵｎｉｖｅｒｓａｙｏｆＴ∞［ｍｏｌｏｇｙ，Ｘｉ‘ａｎ７１００４８，（＝ｌｌｉｍ）

ｔｈｅｒｅｑｕｉｒｅｍｅｎｔｓｏｆｎｅｔｗｏｒｋｐｕｂｌｉｃｆｅｅｌｉｎｇａｎａｌｙｓｉｓ，ｔｈｅｆｏｒｍａｌｄｅｆｉｎｉｔｉｏｎ

ｏｎ

ａｎｄｄｅ∞ｒｉｐｔｉｏｎｏｆｔｈｅｐｏｐｕｌａｒｔｏｐｉｃ

Ｉｎｔｅｒｎｅｔｉｓ

ａ

ｐｒｅｓｅｎｔｅｄ，ｔｈｅｒｅｌａｔｉｏｎｓｈｉｐｈｅｔｗｅｅｎｈｏｔｗｏｒｄｓ

ａｎｄｐｏｐｕｌａｒｔｏｐｉｃｓｉｓａｎａｌｙｚｅｄ，ａｎｄｆｉｎａｌｌｙｈｏｔｐｏｉｎｔｗｏｒｄｓｃｏｒｒｅｌａｔｉｏｎｃｏｍｐｕｔｉｎｇａｐｐｒｏａｃｈｆｏｒ

ｏｎ

ｅｘｔｒａｃｔｉｎｇｐｏｐｕｌａｒｔｏｐｉｃｓｏｎＩｎｔｅｒｎｅｔｉｓｉｎｔｒｏｄｕｃｅｄｉｎｔｒａｆｆｉｃｃｏｎｔｅｎｔｓ．Ｂａｓｅｄ

ｔｈａｔ，Ｉ）ＢＳＣＡＮ

ｔｏ

（Ｄｅｎｓｉｔｙ－ＢａｓｅｄＳｐａｔｉｃａｌＣｌｕｓｔｅｒｉｎｇｏｆＡｐｐｌｉｃａｔｉｏｎｗｉｔｈＮｏｉｓｅ）ｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｉｓａｄｏｐｔｅｄ

ｅｘｔｒａｃｔ

ｐｏｐｕｌａｒｔｏｐｉｃｓａｎｄｆｏｒｍａｌｉｚｅｄｒｅｓｕｌｔｓ

ａｒｅ

ｇｉｖｅｎ．Ｔｈｅｔｅｓｔｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｉｓｍｅｔｈｏｄ

ｔｏ

ｈａｓ

ａｎ

ａｖａｉｌａｂｉｌｉｔｙｏｆ１６．７％ｉｎｅｘｔｒａｃｔｉｎｇＩｎｔｅｒｎｅｔｐｏｐｕｌａｒｔｏｐｉｃｓ，ｗｈｉｃｈ，ｃｏｍｐａｒｅｄ

ｗｅｂｍｉｎ－ｆｏｒｅｆｆｅｃ—

ｉｎｇａｎｄＴＤ＇Ｉ、（Ｔｏｐｉｃ

Ｄｅｔｅｃｔｉｏｎ

ｏｎ

ａｎｄＴｒａｃｋｉｎｇ），ｃａｎｐｒｏｖｉｄｅ

ａ

ｍｏｒｅｓｕｉｔａｂｌｅｄａｔａ

ｓｏｕｒｃｅ

ｔｉｖｅｒｅｃｏｖｅｒｙｏｆＩｎｔｅｒｎｅｔｐｕｂｌｉｃｏｐｉｎｉｏｎｓ．

Ｋｅｙｗｏｒｄｓ：ｐｏｐｕｌａｒｔｏｐｉｃ

Ｉｎｔｅｒｎｅｔ；ｎｅｔｗｏｒｋｔｒａｆｆｉｃｃｏｎｔｅｎｔ；Ｉｎｔｅｒｎｅｔｐｕｂｌｉｃｏｐｉｎｉｏｎａｎａｌｙｓｉｓ

目前，互联网已经成为人们交流信息的重要渠道．网络舆情分析研究也随之受到广泛关注．网络舆情信息具有规模巨大、凌乱无序等特点，如何从中识别、分析有价值的信息已成为研究热点．

针对这一问题，国内外均开展了相关研究”日，

收稿日期：２００７一０１—１０．

主要包括两类，一类是话题识别与追踪研究：１。“，另一类是Ｗｅｂ数据挖掘研究啪，它们都以Ｗｅｂ站点发布的各类信息为数据源，其结果反映了网络媒体对信息的呈现状况，但却无法有效反映网络用户对信息的关注状况，因此也就很难反映网络舆情的真

基金项目

作者简介：周亚东（１９８２～），男，博士生；管鹿宏（联系人），男，教授，博士生导师．

国家自然科学基金资助项目（６０５７４０８７）；国家高技术研究发展计划资助项目（２００３ＡＡｌ４２０６０）．

万方数据　

第１０期

周亚东＋等：ｊ】ｆ［量内容｛】司语相毙度的网络热点话题提取

实情况．

本文将网络流量作为数据源，这种流量数据能直接对应于用户的网络行为，能更为准确地反映网络舆情的状况．同时，本文着重于研究还原、理解网络用户的各种行为，从中获取用户对网络信息的关注情况，并通过网络热点话题的形式化描述得到更真实的网络舆情状况．１

网络热点话题的形式化描述

在话题识别与追踪研究巾，已对一般意义下的

话题进行了定义…，而在网络信息分析研究中却没有明确定义，为此本文埘网络热点话题作如下定义．定义１网络热点话题指，以网络为传播媒介，被一定人群广泛、持续关注，并能够反映网络舆论状况的信息集合，其中包括对网络热点话题内涵的语义化捕述以及话题的传播方式等．

为了突出人们关注的内容，网络热点话题可被形式化地表示为一个多维向量，并以热点词语、核心标题及信息发布网站等作为基本元素．设当前网络的一个热点话题为

Ｐ＝（Ⅳｌ，％，…，ｍ，Ｌ，五，…，Ｌ，Ｓ，Ｓ，…，Ｓ）

（１）

式中：矸０表示热点词语，即与热点话题直接相关并可用以描述话题含义的词语；Ｌ表示核心标题，为可概括热点话题核心意义的词语或短句；Ｓ：表示信息发布网站，其中包括传播话题的网络站点源名称或地址．

２热点词语相关度计算

网络热点话题是用户广泛关注的信息，是在网络流量中大频度出现的内容，而热点词语可以直接描述热点话题，在网络流量中其必将以较大频度出现．一个热点话题可由多个热点词语来描述，且词语之间具有一定的相关度．基于此，本文提出一种流量内容热点词语相关度计算方法，该方法可量化热点词语之问的相关程度，量化结果可作为网络热点话题提取的中间数据．

在处理网络流量数据时，首先计算内容中各项词语的出现频度，词语按照出现频度又分为高频词语、中频词语和低频词语．词语的统计式为

Ｗ＝（ｗ，，）

（２）

式中：ｗ表示词语的统计值；Ｗ表示某一词语；ｆ表示词语的总频度．通过设定高、中、低频度阈值，贝町基于频度的词语集合

万　

方数据Ｌａ一（让‰ｌ，ｗⅪ，…，叫ｈ）］

Ｌ。＝（ｕⅥ，“ｋ，…，“ｋ。）｝

（３）

Ｌ【＝（”１１，”ｂ，…，ⅡⅡ）

Ｊ

式中：Ｌｈ、Ｌ—Ｌｔ分别表示高、中、低频度词语集合；Ⅱｈ、Ⅵ。、Ｗ，分别表示高、中、低频度词语．

在网络中，热点话题可视为网络文章的集合，在集合中的所有文章都参与讨论特定话题．描述同一个热点话题的多个热点词语，必然出现在网络文章之中，那么当用户查看这些文章时，文章的内容便是构成一次网络连接的传输内容，而热点词语也会同时出现在一次网络连接之中．因此，流量中的任意２个高频度词语同时出现于网络连接之中的次数，可量化衡量词语之间的相关度，即词语同时出现的次数越多，表示它们之间的相关度越大，那么用该词语描述同一热点话题的可能性就越大．

网络流模型包括数据包列车模型”Ｊ、基于ＴＣＰ连接的流模型”Ｊ，而广泛应用于Ｉｎｔｅｒｎｅｔ的流模型是由Ｃｌａｆｆｙ提出的”．本文借鉴网络流的相关研究，定义了话题流，以重现网络连接情况．

定义２话题流是具有相同四元组特征、相互之闻时间间隔小于一定阈值且传输内容为浯义数据的数据包集合．

话题流的表达式为

Ｂ＝（ｉｄ，ｔ，ｉｐ。，ｐ。，ｉｐｄ。，ｐ№。，Ｃ，Ｔ，Ｓ）（４）式中：ｉｄ是流的标志号，一个标志号惟一地对应一条流；ｔ表示流的到达时间；ｉｐ。、ｉ‰。分别表示话题

流的源、端主机地址；ｐ…ｐ“表示话题流的源、端

网络端口；Ｃ表示话题流包含的内容负载特性；１、为流内容对应文本的标题信息；ｓ为发布文本信息的

网站．

基于话题流的定义，流量中的一个热点词语与相关届性可表示为

Ｗ一（ｗ，ｆ，ｉｄ。，Ａ，ｉｄｚ√ｚ，…，斌，＾）

（５）

式中：Ⅳ表示词语集合；，表示词语的总频度；＾表示词语在第ｎ条流中出现的频度；ｉｄ，表示包含某词语的第ｉ条话题流的标志号．

词语之间的相关度ｐ（ｗ，√）与２个词语流相关的程度直接关联：如果２个同语同时出现在一条词语流之中，称这２个词语与１条词语流相关，则这２个词语对象之间的相关度为１；如果２个词语同时出现在ｎ条词语流之中，这２个词语对象之问的相关度为”；如果２个词语没有共同的词语流，其相关度为０．设２个词语对象∞和ｗ’的表达式为＂一（Ⅳ，ｆ，ｉｄ－，＾，池，＾，…，豳，＾）

（６）

酉安变通大学学报第４ｌ卷

缸，７一（Ⅳ７，／，ｉｄ；，一，ｉｄ；，丘，…，ｉ也．丘、

（７）

照式（１）计算网络的热点话题．

４则相关度表达誓尹２析ｉｄ结ｆｉｄＩｉｄ分ｉ晶，：２—２，…，∽＝．，ｉｄａ验实ｉｄ；果

，ｌ

”１…’““。

ｔｈｅｎｐ（ｗ，ｗ’）一ｎ

（８）

式巾：－如、１以分别表示词语Ｗ、ｗ’中的流标志号５ｐ（ｗ，∞７）表示＂与ｗ７的相关度．２个词语的Ｐ（＂，扎，’）值越大，即２个词语的相关度越大，２个、同语同时出现在词语流的次数就越大，则２个词语同属于一个热点话题内容的可能性越大．

３网络热点话题生成

任意２个热点浏语的相关度ｐ（ｗ，ｗ’）可以描述２个词语同属于一个热点话题内容的可能性，从几何角度看，２个热点词语的相关度越大，它们的几何距离越短．闲此，本文采用ＤＢＳＣＡＮ（Ｄｅｎｓｉｔｙ＿

Ｂａｓｅｄ

Ｓｐａｔｉｃａｌ

Ｃｌｕｓｔｅｒｉｎｇ

ｏｆ

Ａｐｐｌｉｃａｔｉｏｎ

ｗｉｔｈ

Ｎｏｉｓｅ）［Ｉ”聚类算法将具有较大相关度（属于同一热点话题的可能性比较大）的热点词语聚合为簇，这些簇可描述各自对应热点话题（见式（１））的第１项，以簇为基础可分析相关网页标题和网站地址，从而得

到如式（１）所描述的网络热点话题．

　由式（１）可知，网络热点话题由３部分元素组成．本文以聚类分析得到的热点词语簇为基础，统“每个类别中的词语流属性的核心标题Ｔ和信息发布地址Ｓ，然后用每个簇中出现次数满足一定闾值的核心标题、信息发布源及该类别的热点词语，来描述一个网络热点话题，即

ｃ＝（ｔ¨，ｕ％，…，议ｋ）

（９）

式中：Ｃ为聚类得到的热点词语簇，它由ｎ个热点词语组成．一个热点词语，其属性可由式（５）描述，其中包括词语流的标号值（每一个标号值对应一个词语流，其属性由式（４）描述）．

对聚类结果Ｃ中的每一个热点词语流集合的了１、Ｓ进行统计，得到核心标题及相应的信息发布网

络地址，即

丁（一（％，＾、，ｉｄｌ，ｉｄ？，…，ｉ屯）

（１０）ｓｃ＝（５＆，＾、，ｉｄｌ，ｉｄ∥“，ｉ也）

（１１）式中：Ｓ耳表示核心标题的字符串；＾表示核心标题

出现的总频度；ｓｓ，表示网站的字符串，浚网址应在ｋ条流中出现；风表示网址出现的总频度；ｉｄ，表示第ｉ条包含网址的流的标忐号．

对统计得到的核心标题及信息发布地址进行排序，选取频度可达到一定阈值的核心标题和信息发布地址，并与式（９）的聚类结果进行组合，就可叭按

万　

方数据４．１实验环境及数据源

将西安交通大学网络巾心的多台Ｈ＋ｒ７１１１服务器出口的镜像流量数据存储到数据分析服务器之ｈ，然后采用离线分析的方法对９０ＧＢ流量数据进行分析、处理．数据分析服务器为Ａｃｅｒ

ＡｌｔｏｓＧ５３０，

硬件配置为Ｐ４

Ｘｅｏｎ３２处理器，内存为ＥＣＣ４

ＧＢ，硬盘为ＳＣＳＩ

３２０

ＧＢ，操作系统为ｗｉｎ

ｄｏｗｓ２００３

Ｓｅｒｖｅｒ，实现程序语言为ｃ＋＋．

４．２实验结果及分析

在实验中，流量内容的分词处理采用了中国科学院计算所自然语言处理研究组提供的中文智能分词系统．选取参数：中频阈值为３０００．高频闽值为

１００００，相应地生成６６５个高频词，１０４７个巾频词．１

８９９个低频词．

利用ＤＢＳＣＡＮ聚类算法，对高频词队列进行分

析，选取的领域半径ｅ＝５００，队列的最小密度阈值

ｒａｉｎ

ｑ－－５，由此获得的聚类类别数为４８，聚类效率

为１６．７％，其中含有语义信息的热点词语类别数为８，无语义信息的热点浏语类别数为４０．在网络热点话题生成的过程中，Ｙｃ＝５００，Ｓｃ一５００，由此得到８个网络热点话题的描述信息．

从聚类结果看出，有８项具有较明晰语义信息的热点话题，包括“交大招生科目信息”、“交大校庆消息”、“交大概况及校史”、“交大电气学院关十电力电工试验课程创新实践的新闻”、“交大长江学者介绍”等．选取其中２项热点话题，通过式（１）的热点话题形式化描述对有效类别进行格式化，结果如表１

所示．

在表１描述的２项网络热点话题中，第１项话题包含ｒ８１个热点词语（由于篇幅所限，不便全部列举）、３个核心标题和１个信息发布网站．通过人工分析可知，热点舌题与交大人才培养及招生录取信息有关，主要内容为交大的学科专业信息，包括一级学科、二级学科及院系名称，它们均通过交大网站向外传播．第２项热点话题包含ｒ３５个热点词语、３个核心标题及２个信息发布网站，主要内容为交大

概况及校史．

表１所示话题的区别有二：其一是第２项话题的热点词语数量只占第ｌ项的４３．２％，这表明第２项话题的内容更为集中；其二是第２项话题通过２个网站传播，这表明关注交大主页信息以及关注交

第１０期

周亚东，等・流量内容词语相关度的网络热点话题提取

袁ｌ网络热点话题提取结果表示

大校庆新闻的很多用户均对交大概况及校史感兴参考文献：

趣，第２项话题主要关注用户对信息的兴趣度．

［１］ＪａｍｅｓＡ，ＪａｉｍｅＣ，Ｇｅｏｒｇｅ

Ｄ，ｅｔ

ａ１．Ｔｏｐｉｃｄｅｔｅｃｔｉｏｎ

可以看出，中文词语语义的丰富性和多义性导ａｎｄｔｒａｃｋｉｎｇｐｉｌｏｔｓｔｕｄｙ：ｆｉｎａｌ

ｒｅｐｏｒｔ

Ｅｃ］“Ｐｒｏｃｅｅｄ

致了中文词语聚类的有效性仅能达到１６．７％，但是ｉｎｇｓ

ｏｆｔｈｅＤＡＲＰＡＢｒｏａｄｃａｓｔＮｅｗｓＴｒａｎｓｃｒｉｐｔｉｏｎａｎｄ

作为一个初步研究的成果，还是较为理想的．通过分ＵｎｄｅｒｓｔａｎｄｉｎｇＷｏｒｋｓｌｌｏｎ

Ｓａｎ

Ｆｒａｎｃｉｓｃｏ：Ｍｏｒｇａｎ

Ｋａｕｆｔｍｎｎ析实验结果发现，从流量内容中提取出的８项热点

Ｐｕｂｌｉｓｈｅｒｓ，１９９８：１９４—２１８．

［２］于满泉，骆卫华，许洪渡，等．话题识别与跟踪中的层

话题，能够在部分程度上描述一定范围内的网络当

　次化话题识别技术研究［ｊ］．计算机研究与发展，

前舆论状况，给网络管理者提供了辅助的管理信息．２００６，４３（３）：４８９—４９５

由于计算机的自然语言理解能力有限，暂时无法得ＹｕＭａｎｑｕａｎ，ＬｕｏＷｄｈｕａ．ＸｕＨｏｎｇｂｏ。ｅｔａｌＲｅ—

到语义更加明确的热点话题信息，还需要由人工来ｓｅａｒｃｈｏｎ

ｈｉｅｒａｒｃｈｉｃａｌｔｏｐｉｃｄｅｔｅｃｔｉｏｎｉｎｔｏｐｉｃｄｅｔｅｃｔｉｏｎ

解析、分析．

ａｎｄ

ｔｒａｃｋｉｎｇ［Ｊ］．Ｊｏｕｒｎａｌ

ｏｆＣｏｍｐｕｔｅｒＲｅｓｅａｒｃｈａｎｄ

Ｄｅｖｅｌｏｐｍｅｎｔ，２００６，４３（３）：４８９—４９５

５结论

［３］ＫｏｓａｌａＲ．Ｂｌｏｃｋｅｄ｝ＬＷｅｂｍｉｎｉｎｇｒｅｓｅａｒｃｈ：ａｓｕｒｖｅｙ

本文根据网络信息特点，定义网络热点话题并［刀．ＳＩＣ，ＫＤＤＥｘｐｌｏｒａｔｉｏｎｓ，２０００，２（１）：Ｉ－１５．

给出了其形式化描述．通过分析流量内容中的热点［４］王泽彬，金飞，李夏，等．ｗｅｂ数据挖掘技术￡！；乏实现

词语与热点话题之间的关系，提出了热点词语的相［Ｊ］晗尔滨工业大学学报，２００５，３７（１０）：１４０３—１４０５．

ＷａｎｇＺｅｂｉｎ，ＪｉｎＦｅｉ—ＩｊＸｉａ．ｅｔａ１．Ｗｅｂｄａｔａｍｉｎｉｎｇ

关度计算算法和网络热点话题的生成方法．该方法ｔｅｃｈｎｉｑｕｅａｎｄｒｅａｌｉｚａｔｉｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆＨａｒｂｉｎＩｎｓｔｉ—

采用了ＤＢＳＣＡＮ聚类算法，再结合与热点词语簇相ｔｕｔｅ

ｏｆＴｅｃｈｎｏｌｏｇｙ，２００５，３７（１０）：１４０３—１４０５

关的网页标题及网站地址信息，得出网络热点话题［５］李保利，俞十汶．话题识别与跟踪研究［Ｊ］．计算机工

的属性描述．实验结果表明，本文方法能够有效地获程与应用，２００３，３９（１７）：７－１０．

取当前网络中的热点话题，通过选取更合适的数据Ｌｉ

Ｅａｏｌｉ，ＹｕＳｈｉｗ．ｎ

Ｒｅｓｅａｒｃｈ

ｏｉｌ

ｔｏｐｉｃｄｅｔｅｃｔｉｏｎａｎｄ源能更大程度地还原网络用户行为，获取用户对网ｔｒａｃｋｉｎｇ［Ｊ］ＣｏｍｐｕｔｅｒＥｎｇｉｕｅｅｒｉｎｇ

ａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，

络信息的关注情况，从而得到更为准确的网络信息２００３，３９（１７）：７—１０．

传播状况．所提方法可作为研究网络热点话题传播［６］Ｔｏｐｉｃ

Ｄｅｔｅｃｔｉｏｎ

ａｎｄＴｒａｃｋｉｎｇ（ＴＤＴ）Ｅｖａｌｕａｔｉｏｎ

特性的基础．

ＷｏｒｋｓｈｏｎＴｈｅ２００２

ｔｏｐｉｃ＆ｔｅｅｔｉｏｎａｎｄｔｒａｃｋｉｎｇｔａｓｋ

ｄｅｆｉｎｉｔｉｏｎａｎｄｅｖａｌｕａｔｉｏｎ

ｐｌａｎ［ＥＢ／（ｗ。］［２００８—０４—

下一步的工作将研究流量内容预处理分析方２０］．ｆｔｐ：∥ｊａｇｕａｎｎｃｓｌ．ｎｉｓｔ．ｇｏｖ／ｔｄｔ／ｔｄｔ２００２／．法，改进网络热点话题提取算法的效率，在热点话题［７］ＪａｉｎＲ，ＲｏｕｔｈｉｅｒＳＡＰａｃｋｅｔｔｒａｉｎｓ：ｍｅａｓｕｒｅｍｅｎｔｓ

内容提取工作的基础上，开展热点话题动态传播规ａｎｄ

ａ

ｎｅｗ

ｍｏｄｅｌ｛ｏｒｃｏｍｐｕｔｅｒｎｅｔｗｏｒｋ

ｔｒａｆｆｉｃ［Ｊ］．

律以及相关社会网络关系的研究．

ＩＥＥＥＪｏｕｒｍｌ

ｏｉｌ

ＳｅｌｅｃｔｅｄＡｒ翩ｓｉｎＣｏｒｍｎｕｎｉｃａｔｉｏｎｓ，

１９８６，４（６）：９８６—９９５．

（下转第１１５０页）

万　

方数据

日安变通大学学报第４１卷

表４蚁群遗传算法在不同参数下的最优

ＬｏｓＡｌａｍｉｔｏｓ，ＵＳＡ：ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙ．２（１０５：

３ｉ６３１９．

Ｆｈｄ…（］ｎｉｔｃ＝１）

嘲

ＨｅＦａｎｇ，Ｕｎｇ

Ｘｉａｅｑｉｎｇ，Ｃｏｍｂｉｎｉｎｇ把ｎ

ｄｕｓｔｅｓｎｇ

ａｎｄｒｅｔｒｉｅｖａｌｆｏｒｃｏｒｐｕｓａｄａｐｔａｔｉｏｎ－Ｃ／ＯＬ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ

ａｐｉ．ｏｒｇ．

ＳＰＩＥ．Ｅ２００７—０１３１１．ｈｔｔｐ：／／ｓｐｉｅｄｉｇｉｔａｌｌｉｂｒａｒｙ．

Ａｍｃｏｌｏｎｙｏｐｔｉｍｉｚａｔｉｏｎ＊ｈｅｏｒｙ

Ｃｏｍｐｕｔｅｒ

田

１１ＭｇｏＭ＋ＢｌｕｍＣ

８

ｓｕｒｖｅｙ［Ｊ］．Ｔｈｅｏｒｅｔｉｃａｌ

（２／３）：２４３—２７８．

Ｓｃｉｅｎｃｅ，２００５，３４４

４结论

遗传算法作为一种自适应全局优化概率搜索算法，在组合优化问题的求解中取得了良好的效果．蚁群算法作为一类模拟生物群体突现聚集行为的非经典算法，已成为近年来研究的热点．本文提出的蚁群一遗传融合聚类算法，将遗传算法融人到蚁群算法之中，利用遗传算法求解组合优化的能力来确定蚁群算法的各个参数的最优组合，并将其应用到文本聚类问题上，结果取得了较好的聚类效果．今后研究的重点是，进一步提高蚁群遗传聚类算法的效率，并基于本文方法对蚁群算法的各个参数取值再做试探

嘲

ＺｈｕＸｉｎｇｌｉａｎｇ，Ｉ．ｉＪｉａｎｚｂａｎｇ．Ａｎｂａｓｅｄｏｐｔｉｍｉｚａｔｉｏｎｓｃｈｅｍｅｏｆｄａｔａ

ａｉｒ

ｃｏｌｏｎｙｓｙｓｔｅｍ

ｍｉｎｉｎｇ：ｃ］／／Ｐｒｏ—

ｏｎ

ｃｅｅｄｉｎｇｓｏｆｔｈｅ６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌｃＤｎ［ｅｒｅｎｅｅ

ｇｅｎｔ

Ｉｎｔｅ／ｌｌ

ＳｙｓｔｅｍｓＤｅｓｉｇａａｎｄＡｐｐｌｉｃａｔｉｏｎｓ．ＬｏｓＡｌａｍｉｔｏｓ，

ＵＳＡ：ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙ，２００６：４００４０３．

嘲忉

ｖａｎ

ｍｊｓｂｅｒｇｅｎＣＪ

Ｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌ［Ｍ］．２ｎｄ

ｅｄ．Ｌｏｎｄｏｎ：Ｂｕｔｔｅｒｗｏｒｔｂｓ．１９７９．

吴春明，陈治，姜明．蚁群算法巾系统初始化驶系统

参数的研究［Ｊ］．电子学报．８００５，３４（８）：１５３０

１５３３

ＷｕＣｈｍｍｆｉｎｇ，ＣｂｅｎＺｈｉ．］ｉａｎｇＭｉｎｇ．Ｔｈｅｒｅｓｅａｒｃｈ

ｏｆｌ

ｉｇｉｔｉａｌｉｚａｔｉｏｎｏｆ

ａ１１＿［Ｓ

ｓｙｓｔｅｍａｎｄｃｏｎｆｉｇｕｒａｔｉｏｎｏｌｐａ—

ａｎｔ

ｒａｍｅｔｅｒｓｆｏｒｄｉｆｆｅｒｅｎｔＴＳＰｐｒｏｂｌｅｍｓｉｎ

ａｌｇｏｒｉｔｈｍ

性的理论研究．

参考文献：

［ｎ

ＡｃｔａＥ］ｅｃｔｒｏｎｉｃａＳｉｎｉｃａ，２００６，３４（８）：１５３０１５３３

嘲

黄永青，梁昌勇，张祥德．基于均匀设计的蚁群算法

参数设定［Ｊ］控制与决策，２００６，２１（１）：９３—９６．

Ｈｕａｎｇ

ＹｏｎｇｑＨ堆，Ｌｉａｎｇ

Ｃｈａｎｇｙｏｎｇ，珏８ｎｇ

ａｎ

ＮＪａｎｇｄｅ．

ｏｉｌ

Ｅｌｉ刘远超，王唬龙，徐志明，等．文档聚类综述［ｊ］＋中

文信息学报，２００６，２０（３）：５５—６２．

ＬｉｕＹｕａｎｅｈａｏ．ＷａｎｇＸｉａｏｌｏｎｇ，ＸｕＺｈｉｍｉｎｇ，ｅｔａｌ

Ａ

Ｐａｒａｍｅｔｅｒｅｓｔａｂｌｉｓｈｍｅｎｔｏｆｕｎｉｆｏｒｍ

ａｎｔ

ｓｙｓｔｅｍｂａｓｅｄ

ｄｅｓｉｇｎ［Ｊ］．ＣｏｎｔｒｏｌａｎｄＤｅｃｉｓｉｏｎ，２００６，２１

（１）：９３—９６．

ｓｍｗｅｙｏｆｄｏｃｕｔｌｔｅｇｌｌＬｃｌｕｓｔｅｒｉｎｇ［ｊ］．ＪｏｕｒｎａｌｏｆＣｈｉｎｅｓｅＩｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇ，２００６，２０（３）：５５６２．

［９］段海滨．蚁群算法原理及其应用ＥＭ］．北京：科学出

版社ｔ

２００５

［２］ＳａｓａｋｉＭ，ＳｈｉｎｎｏｕＨ

Ｓｐｍｄｅｔｅｃｔｉｏｎ

Ｃｏｎｆｅｒｅｎｃｅ

ｕｓｉｎｇ

ｔｅｘｔ

ｃｌｕｓ

（编辑苗凌）

ｔｅｒｉｎｇ［ｑ／／Ｉｎｔｅｒａａｔｉｏｎａｌ

ｏｎ

Ｃｙｂｅｒｗｏｒｌｄｓ．

（上接第１１４５页）

［８］ＭｏｇｕｌＪＣＯｂｓｅｒｖｉｎｇＴＣＰｄｙｔｍｘｎｉｃｓ

ｉｎ

ｒｅａｌｎｅｔｗｏｒｋｓ

阴）］Ｅｓｔｅｒ

Ｍ，ＫｒｉｅｇｅｌＨ

Ｐ，Ｓａｎｄｅｒ

Ｊ，ｅｔａ１．Ａｄｅｎｓｉｔ３＂

［Ｊ］ＡＣＭＳＩＯＣＯｉＶＬＭＣｏｍｐｕｔｅｒ（＿％ｍｍｕｎｉｃａｔｉｏｎＲｅ—

ｖｉｅｗ，１９９２，２２（４）：３０５—３１７．

ｂａｓｅｄａｌｇｏｒｉｔｈｍｆｏｒｄｉｓｃｏｖｅｒｉｎｇｃｌｕｓｔｅｒｓｉｎｌａｒｇｅｓｐａｔｉａｌｄａｔａｂａｓｅｓｗｉｔｈｎｏｉｓｅ［ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２ｎｄＩｎｔｅｒｎａｔｉｏｎＭＣｏｎｆｅｒｅｎｃｅ

０１７１

Ｌ９］ＣｌａｆｆｙＫＣ．Ｂｒａｕｎ

ａｂｌｅｍｅｔｈｏｄｏｌｏｇｙ

Ｈ

Ｗ，ＰｏｌｙｚｏｓＧｅＡｐａｒａｍｅｔｅｒｉｚ—

ｔｒａｆｆｉｃｆｌｏｗｐｒｏｆｄｌｎｇ

ＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄ

Ｄａｔａ

ｆｏｒｉｎｔｅｒｎｅｔ

ｏｌｌ

Ｍｉｎｉｎｇ．ＭｅｎｌｏＰａｒｋ。ＵＳＡ；ＡＡＡｌＰｒｅｓｓ，１９９６：２２６

２３１

［Ｊ］ＩＥＥＥＪｏｕｍａｌ

ＳｅｌｅｃｔｅｄＡｒｅａｓｉｎＣｏｍｍｕｎｉｃａ

ｔｉｏｎｓ．１９９５，１３（８）：１４８１—１４９４

（编辑苗凌）

万方数据　

流量内容词语相关度的网络热点话题提取

作者：作者单位：

周亚东，孙钦东，管晓宏，李卫，陶敬， Zhou Yadong， Sun Qindong， GuanXiaohong， Li Wei， Tao Jing

周亚东,李卫,陶敬,Zhou Yadong,Li Wei,Tao Jing(西安交通大学智能网络与网络安全教育部重点实验室,710049,西安;西安交通大学机械制造系统工程国家重点实验室,710049,西安)，孙钦东,Sun Qindong(西安交通大学智能网络与网络安全教育部重点实验室,710049,西安;西安交通大学机械制造系统工程国家重点实验室,710049,西安;西安理工大学计算机科学与工程学院,710048,西安)，管晓宏,Guan Xiaohong(西安交通大学智能网络与网络安全教育部重点实验室,710049,西安;西安交通大学机械制造系统工程国家重点实验室,710049,西安;清华大学自动化系,100084,北京;清华大学信息科学与技术国家实验室,100084,北京)西安交通大学学报

JOURNAL OF XI'AN JIAOTONG UNIVERSITY2007,41(10)15次

刊名：英文刊名：年，卷(期)：被引用次数：

参考文献(10条)

1.James A;Jaime C;George D Topic detection and tracking pilot study:final report 1998

2.于满泉;骆卫华;许洪波话题识别与跟踪中的层次化话题识别技术研究[期刊论文]-计算机研究与发展 2006(03)3.Kosala R;Blockeel H Web mining research:a survey 2000(01)

4.王泽彬;金飞;李夏 Web数据挖掘技术及实现[期刊论文]-哈尔滨工业大学学报 2005(10)5.李保利;俞士汶话题识别与跟踪研究[期刊论文]-计算机工程与应用 2003(17)

6.The 2002 topic detection and tracking task definition and evaluation plan 2006

7.Jain R;Routhier S A Packet trains:measurements and a new model for computer network traffic1986(06)

8.Mogul J C Observing TCP dynamics in real networks 1992(04)

9.Claffy K C;Braun H W;Polyzos G C A parameterizable methodology for internet traffic flow profiling[外文期刊] 1995(08)

10.Ester M;Kriegel H P;Sander J A densitybased algorithm for discovering clusters in large spatialdatabases with noise 1996

本文读者也读过(3条)

1. 钱爱兵.Qian Aibing 基于主题的网络舆情分析模型及其实现[期刊论文]-现代图书情报技术2008(4)

2. 马慧芳.尹旻.何清.史忠植.Ma Huifang.Yin Min.He Qing.Shi Zhongzhi 一种基于时序窗口的动态热点话题提取模型[期刊论文]-高技术通讯2010,20(6)

3. 王伟.许鑫.Wang Wei.Xu Xin 基于聚类的网络舆情热点发现及分析[期刊论文]-现代图书情报技术2009(3)

引证文献(15条)

1.张召灵.张元林网络信息内容审计研究的现状及趋势[期刊论文]-中国管理信息化 2010(22)

2.迟呈英.李红基于改进 TF*PDF 算法的网络新闻热点话题检测和跟踪[期刊论文]-计算机应用与软件 2013(12)3.黄敏.胡学钢基于复杂网络方法的舆情热点挖掘[期刊论文]-计算机仿真 2011(9)4.李岩.娄云文本聚类算法在舆情监控中的应用分析[期刊论文]-电子设计工程 2013(1)5.严硕.石鑫短信舆情信息处理平台及关键技术[期刊论文]-现代电信科技 2010(7)

6.余传明.张小青.陈雷基于LDA模型的评论热点挖掘:原理与实现[期刊论文]-情报理论与实践 2010(5)

7.殷风景.肖卫东.葛斌.李芳芳一种面向网络话题发现的增量文本聚类算法[期刊论文]-计算机应用研究 2011(1)8.王巍.杨武.齐海凤基于多中心模型的网络热点话题发现算法[期刊论文]-南京理工大学学报（自然科学版）2009(4)

9.杨菲.黄柏雄词共现网络的遗传聚类在话题发现中的应用[期刊论文]-计算机工程与应用 2013(14)10.蒙祖强.黄柏雄一种新的网络热点话题提取方法[期刊论文]-小型微型计算机系统 2013(4)11.彭丹.许波.宋仙磊基于网络评论的网络舆情研究[期刊论文]-现代情报 2009(12)

12.张卫.曹先彬.尹洪章基于多特征融合的聊天室社会网络挖掘方法[期刊论文]-中国科学技术大学学报 2009(5)13.刘林浩网络新闻信息挖掘与分析模型的建立与探讨[期刊论文]-计算机与现代化 2012(4)14.蒙祖强.黄柏雄一种新的网络热点话题提取方法[期刊论文]-小型微型计算机系统 2013(4)

15.孙钦东.管晓宏.周亚东网络信息内容审计研究的现状及趋势[期刊论文]-计算机研究与发展 2009(8)

引用本文格式：周亚东.孙钦东.管晓宏.李卫.陶敬.Zhou Yadong.Sun Qindong.Guan Xiaohong.Li Wei.Tao Jing 流量内容词语相关度的网络热点话题提取[期刊论文]-西安交通大学学报 2007(10)

第４１卷第ｌＯ期

２００７年１０月

西安交通大学学报

ＪＯＵＲＮＡＩ。ＯＦＸＩ’ＡＮＪＩＡＯＴＯＮＧＵＮＩＶＥＲＳＩＴＹ

Ｖｏｌ４１№１０Ｏｃｔ．２００７

流量内容词语相关度的网络热点话题提取

周亚东“２，孙钦东“２…，管晓宏１。２３。４，李卫“２，陶敬“２

（１西安交通大学智能网络与网络安全教育部重点实验室，７１００４９，两安；２西安交通大学机械制造系统工程

关键词：嘲络热点话题；流量内容；网络舆情分析

１１４２—０４

ＷｏｒｄｓＣｏｒｒｅｌａｔｉｏｎ

Ｌａｂ

ＺｈｏｕＹａｄｏｎ９１”，ＳｕｎＱｉｎｄｏｎ９１’２…，ＧｕａｎＸｉａｏｈｏｎ９１’２’３”，ＬｉＷｅｉｌ”，ＴａｏＪｉｎ９１’２

ｕ㈣Ｈ，蹦岫１００９８４，Ｃｈｉｎａ

Ａｂｓｔｒａｃｔ：Ａｉｍｉｎｇ

ａｔ

ｆｏｒＭａｎｕｈｃｔｕｒｉｎｇ

Ｓｙｓｔｅｍ，Ｘｉ＋ａｎ

ＪｉａｏｔｏｎｇＵｎｉｖｅｒｓｉｔｙ，Ｘｌ

７ａ１１

４Ｔｓ－ｉｎｇｈｕａＮａｔｉｏａｍｌ

Ｉ．ａｂ．ｈ

Ｉｎｆｅｃｒｎａｈｏｎ＆№ａｎｄＴｅｃｈｎｉＣＳ．，Ｙｇｎｇｈｕａ

７１００４９，Ｃｈｉ”ｔ３ＤｅｐａｒｔｍｅｎｔｏｆＡｕｔｏｍａｔｉｏｎ，Ｔｓｍｇｈｕａ

Ｕｎｉｖｅｒｓｔｙ，

ｔｈｅｒｅｑｕｉｒｅｍｅｎｔｓｏｆｎｅｔｗｏｒｋｐｕｂｌｉｃｆｅｅｌｉｎｇａｎａｌｙｓｉｓ，ｔｈｅｆｏｒｍａｌｄｅｆｉｎｉｔｉｏｎ

ｏｎ

ａｎｄｄｅ∞ｒｉｐｔｉｏｎｏｆｔｈｅｐｏｐｕｌａｒｔｏｐｉｃ

Ｉｎｔｅｒｎｅｔｉｓ

ａ

ｐｒｅｓｅｎｔｅｄ，ｔｈｅｒｅｌａｔｉｏｎｓｈｉｐｈｅｔｗｅｅｎｈｏｔｗｏｒｄｓ

ｏｎ

ｔｈａｔ，Ｉ）ＢＳＣＡＮ

ｔｏ

ｅｘｔｒａｃｔ

ｐｏｐｕｌａｒｔｏｐｉｃｓａｎｄｆｏｒｍａｌｉｚｅｄｒｅｓｕｌｔｓ

ａｒｅ

ｇｉｖｅｎ．Ｔｈｅｔｅｓｔｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｉｓｍｅｔｈｏｄ

ｔｏ

ｈａｓ

ａｎ

ｗｅｂｍｉｎ－ｆｏｒｅｆｆｅｃ—

ｉｎｇａｎｄＴＤ＇Ｉ、（Ｔｏｐｉｃ

Ｄｅｔｅｃｔｉｏｎ

ｏｎ

ａｎｄＴｒａｃｋｉｎｇ），ｃａｎｐｒｏｖｉｄｅ

ａ

ｍｏｒｅｓｕｉｔａｂｌｅｄａｔａ

ｓｏｕｒｃｅ

ｔｉｖｅｒｅｃｏｖｅｒｙｏｆＩｎｔｅｒｎｅｔｐｕｂｌｉｃｏｐｉｎｉｏｎｓ．

Ｋｅｙｗｏｒｄｓ：ｐｏｐｕｌａｒｔｏｐｉｃ

Ｉｎｔｅｒｎｅｔ；ｎｅｔｗｏｒｋｔｒａｆｆｉｃｃｏｎｔｅｎｔ；Ｉｎｔｅｒｎｅｔｐｕｂｌｉｃｏｐｉｎｉｏｎａｎａｌｙｓｉｓ

针对这一问题，国内外均开展了相关研究”日，

收稿日期：２００７一０１—１０．

基金项目

作者简介：周亚东（１９８２～），男，博士生；管鹿宏（联系人），男，教授，博士生导师．

国家自然科学基金资助项目（６０５７４０８７）；国家高技术研究发展计划资助项目（２００３ＡＡｌ４２０６０）．

万方数据　

第１０期

周亚东＋等：ｊ】ｆ［量内容｛】司语相毙度的网络热点话题提取

实情况．

网络热点话题的形式化描述

在话题识别与追踪研究巾，已对一般意义下的

Ｐ＝（Ⅳｌ，％，…，ｍ，Ｌ，五，…，Ｌ，Ｓ，Ｓ，…，Ｓ）

（１）

２热点词语相关度计算

在处理网络流量数据时，首先计算内容中各项词语的出现频度，词语按照出现频度又分为高频词语、中频词语和低频词语．词语的统计式为

Ｗ＝（ｗ，，）

（２）

式中：ｗ表示词语的统计值；Ｗ表示某一词语；ｆ表示词语的总频度．通过设定高、中、低频度阈值，贝町基于频度的词语集合

万　

方数据Ｌａ一（让‰ｌ，ｗⅪ，…，叫ｈ）］

Ｌ。＝（ｕⅥ，“ｋ，…，“ｋ。）｝

（３）

Ｌ【＝（”１１，”ｂ，…，ⅡⅡ）

Ｊ

式中：Ｌｈ、Ｌ—Ｌｔ分别表示高、中、低频度词语集合；Ⅱｈ、Ⅵ。、Ｗ，分别表示高、中、低频度词语．

定义２话题流是具有相同四元组特征、相互之闻时间间隔小于一定阈值且传输内容为浯义数据的数据包集合．

话题流的表达式为

流的源、端主机地址；ｐ…ｐ“表示话题流的源、端

网络端口；Ｃ表示话题流包含的内容负载特性；１、为流内容对应文本的标题信息；ｓ为发布文本信息的

网站．

基于话题流的定义，流量中的一个热点词语与相关届性可表示为

Ｗ一（ｗ，ｆ，ｉｄ。，Ａ，ｉｄｚ√ｚ，…，斌，＾）

（５）

式中：Ⅳ表示词语集合；，表示词语的总频度；＾表示词语在第ｎ条流中出现的频度；ｉｄ，表示包含某词语的第ｉ条话题流的标志号．

（６）

酉安变通大学学报第４ｌ卷

缸，７一（Ⅳ７，／，ｉｄ；，一，ｉｄ；，丘，…，ｉ也．丘、

（７）

照式（１）计算网络的热点话题．

４则相关度表达誓尹２析ｉｄ结ｆｉｄＩｉｄ分ｉ晶，：２—２，…，∽＝．，ｉｄａ验实ｉｄ；果

，ｌ

”１…’““。

ｔｈｅｎｐ（ｗ，ｗ’）一ｎ

（８）

３网络热点话题生成

Ｂａｓｅｄ

Ｓｐａｔｉｃａｌ

Ｃｌｕｓｔｅｒｉｎｇ

ｏｆ

Ａｐｐｌｉｃａｔｉｏｎ

ｗｉｔｈ

到如式（１）所描述的网络热点话题．

ｃ＝（ｔ¨，ｕ％，…，议ｋ）

（９）

对聚类结果Ｃ中的每一个热点词语流集合的了１、Ｓ进行统计，得到核心标题及相应的信息发布网

络地址，即

丁（一（％，＾、，ｉｄｌ，ｉｄ？，…，ｉ屯）

（１０）ｓｃ＝（５＆，＾、，ｉｄｌ，ｉｄ∥“，ｉ也）

（１１）式中：Ｓ耳表示核心标题的字符串；＾表示核心标题

出现的总频度；ｓｓ，表示网站的字符串，浚网址应在ｋ条流中出现；风表示网址出现的总频度；ｉｄ，表示第ｉ条包含网址的流的标忐号．

对统计得到的核心标题及信息发布地址进行排序，选取频度可达到一定阈值的核心标题和信息发布地址，并与式（９）的聚类结果进行组合，就可叭按

万　

方数据４．１实验环境及数据源

ＡｌｔｏｓＧ５３０，

硬件配置为Ｐ４

Ｘｅｏｎ３２处理器，内存为ＥＣＣ４

ＧＢ，硬盘为ＳＣＳＩ

３２０

ＧＢ，操作系统为ｗｉｎ

ｄｏｗｓ２００３

Ｓｅｒｖｅｒ，实现程序语言为ｃ＋＋．

４．２实验结果及分析

在实验中，流量内容的分词处理采用了中国科学院计算所自然语言处理研究组提供的中文智能分词系统．选取参数：中频阈值为３０００．高频闽值为

１００００，相应地生成６６５个高频词，１０４７个巾频词．１

８９９个低频词．

利用ＤＢＳＣＡＮ聚类算法，对高频词队列进行分

析，选取的领域半径ｅ＝５００，队列的最小密度阈值

ｒａｉｎ

ｑ－－５，由此获得的聚类类别数为４８，聚类效率

所示．

概况及校史．

第１０期

周亚东，等・流量内容词语相关度的网络热点话题提取

袁ｌ网络热点话题提取结果表示

大校庆新闻的很多用户均对交大概况及校史感兴参考文献：

趣，第２项话题主要关注用户对信息的兴趣度．

［１］ＪａｍｅｓＡ，ＪａｉｍｅＣ，Ｇｅｏｒｇｅ

Ｄ，ｅｔ

ａ１．Ｔｏｐｉｃｄｅｔｅｃｔｉｏｎ

可以看出，中文词语语义的丰富性和多义性导ａｎｄｔｒａｃｋｉｎｇｐｉｌｏｔｓｔｕｄｙ：ｆｉｎａｌ

ｒｅｐｏｒｔ

Ｅｃ］“Ｐｒｏｃｅｅｄ

致了中文词语聚类的有效性仅能达到１６．７％，但是ｉｎｇｓ

ｏｆｔｈｅＤＡＲＰＡＢｒｏａｄｃａｓｔＮｅｗｓＴｒａｎｓｃｒｉｐｔｉｏｎａｎｄ

作为一个初步研究的成果，还是较为理想的．通过分ＵｎｄｅｒｓｔａｎｄｉｎｇＷｏｒｋｓｌｌｏｎ

Ｓａｎ

Ｆｒａｎｃｉｓｃｏ：Ｍｏｒｇａｎ

Ｋａｕｆｔｍｎｎ析实验结果发现，从流量内容中提取出的８项热点

Ｐｕｂｌｉｓｈｅｒｓ，１９９８：１９４—２１８．

［２］于满泉，骆卫华，许洪渡，等．话题识别与跟踪中的层

话题，能够在部分程度上描述一定范围内的网络当

　次化话题识别技术研究［ｊ］．计算机研究与发展，

前舆论状况，给网络管理者提供了辅助的管理信息．２００６，４３（３）：４８９—４９５

由于计算机的自然语言理解能力有限，暂时无法得ＹｕＭａｎｑｕａｎ，ＬｕｏＷｄｈｕａ．ＸｕＨｏｎｇｂｏ。ｅｔａｌＲｅ—

到语义更加明确的热点话题信息，还需要由人工来ｓｅａｒｃｈｏｎ

ｈｉｅｒａｒｃｈｉｃａｌｔｏｐｉｃｄｅｔｅｃｔｉｏｎｉｎｔｏｐｉｃｄｅｔｅｃｔｉｏｎ

解析、分析．

ａｎｄ

ｔｒａｃｋｉｎｇ［Ｊ］．Ｊｏｕｒｎａｌ

ｏｆＣｏｍｐｕｔｅｒＲｅｓｅａｒｃｈａｎｄ

Ｄｅｖｅｌｏｐｍｅｎｔ，２００６，４３（３）：４８９—４９５

５结论

［３］ＫｏｓａｌａＲ．Ｂｌｏｃｋｅｄ｝ＬＷｅｂｍｉｎｉｎｇｒｅｓｅａｒｃｈ：ａｓｕｒｖｅｙ

本文根据网络信息特点，定义网络热点话题并［刀．ＳＩＣ，ＫＤＤＥｘｐｌｏｒａｔｉｏｎｓ，２０００，２（１）：Ｉ－１５．

给出了其形式化描述．通过分析流量内容中的热点［４］王泽彬，金飞，李夏，等．ｗｅｂ数据挖掘技术￡！；乏实现

词语与热点话题之间的关系，提出了热点词语的相［Ｊ］晗尔滨工业大学学报，２００５，３７（１０）：１４０３—１４０５．

ＷａｎｇＺｅｂｉｎ，ＪｉｎＦｅｉ—ＩｊＸｉａ．ｅｔａ１．Ｗｅｂｄａｔａｍｉｎｉｎｇ

采用了ＤＢＳＣＡＮ聚类算法，再结合与热点词语簇相ｔｕｔｅ

ｏｆＴｅｃｈｎｏｌｏｇｙ，２００５，３７（１０）：１４０３—１４０５

关的网页标题及网站地址信息，得出网络热点话题［５］李保利，俞十汶．话题识别与跟踪研究［Ｊ］．计算机工

的属性描述．实验结果表明，本文方法能够有效地获程与应用，２００３，３９（１７）：７－１０．

取当前网络中的热点话题，通过选取更合适的数据Ｌｉ

Ｅａｏｌｉ，ＹｕＳｈｉｗ．ｎ

Ｒｅｓｅａｒｃｈ

ｏｉｌ

ａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，

络信息的关注情况，从而得到更为准确的网络信息２００３，３９（１７）：７—１０．

传播状况．所提方法可作为研究网络热点话题传播［６］Ｔｏｐｉｃ

Ｄｅｔｅｃｔｉｏｎ

ａｎｄＴｒａｃｋｉｎｇ（ＴＤＴ）Ｅｖａｌｕａｔｉｏｎ

特性的基础．

ＷｏｒｋｓｈｏｎＴｈｅ２００２

ｔｏｐｉｃ＆ｔｅｅｔｉｏｎａｎｄｔｒａｃｋｉｎｇｔａｓｋ

ｄｅｆｉｎｉｔｉｏｎａｎｄｅｖａｌｕａｔｉｏｎ

ｐｌａｎ［ＥＢ／（ｗ。］［２００８—０４—

内容提取工作的基础上，开展热点话题动态传播规ａｎｄ

ａ

ｎｅｗ

ｍｏｄｅｌ｛ｏｒｃｏｍｐｕｔｅｒｎｅｔｗｏｒｋ

ｔｒａｆｆｉｃ［Ｊ］．

律以及相关社会网络关系的研究．

ＩＥＥＥＪｏｕｒｍｌ

ｏｉｌ

ＳｅｌｅｃｔｅｄＡｒ翩ｓｉｎＣｏｒｍｎｕｎｉｃａｔｉｏｎｓ，

１９８６，４（６）：９８６—９９５．

（下转第１１５０页）

万　

方数据

日安变通大学学报第４１卷

表４蚁群遗传算法在不同参数下的最优

ＬｏｓＡｌａｍｉｔｏｓ，ＵＳＡ：ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙ．２（１０５：

３ｉ６３１９．

Ｆｈｄ…（］ｎｉｔｃ＝１）

嘲

ＨｅＦａｎｇ，Ｕｎｇ

Ｘｉａｅｑｉｎｇ，Ｃｏｍｂｉｎｉｎｇ把ｎ

ｄｕｓｔｅｓｎｇ

ａｎｄｒｅｔｒｉｅｖａｌｆｏｒｃｏｒｐｕｓａｄａｐｔａｔｉｏｎ－Ｃ／ＯＬ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ

ａｐｉ．ｏｒｇ．

ＳＰＩＥ．Ｅ２００７—０１３１１．ｈｔｔｐ：／／ｓｐｉｅｄｉｇｉｔａｌｌｉｂｒａｒｙ．

Ａｍｃｏｌｏｎｙｏｐｔｉｍｉｚａｔｉｏｎ＊ｈｅｏｒｙ

Ｃｏｍｐｕｔｅｒ

田

１１ＭｇｏＭ＋ＢｌｕｍＣ

８

ｓｕｒｖｅｙ［Ｊ］．Ｔｈｅｏｒｅｔｉｃａｌ

（２／３）：２４３—２７８．

Ｓｃｉｅｎｃｅ，２００５，３４４

４结论

嘲

ＺｈｕＸｉｎｇｌｉａｎｇ，Ｉ．ｉＪｉａｎｚｂａｎｇ．Ａｎｂａｓｅｄｏｐｔｉｍｉｚａｔｉｏｎｓｃｈｅｍｅｏｆｄａｔａ

ａｉｒ

ｃｏｌｏｎｙｓｙｓｔｅｍ

ｍｉｎｉｎｇ：ｃ］／／Ｐｒｏ—

ｏｎ

ｃｅｅｄｉｎｇｓｏｆｔｈｅ６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌｃＤｎ［ｅｒｅｎｅｅ

ｇｅｎｔ

Ｉｎｔｅ／ｌｌ

ＳｙｓｔｅｍｓＤｅｓｉｇａａｎｄＡｐｐｌｉｃａｔｉｏｎｓ．ＬｏｓＡｌａｍｉｔｏｓ，

ＵＳＡ：ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙ，２００６：４００４０３．

嘲忉

ｖａｎ

ｍｊｓｂｅｒｇｅｎＣＪ

Ｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌ［Ｍ］．２ｎｄ

ｅｄ．Ｌｏｎｄｏｎ：Ｂｕｔｔｅｒｗｏｒｔｂｓ．１９７９．

吴春明，陈治，姜明．蚁群算法巾系统初始化驶系统

参数的研究［Ｊ］．电子学报．８００５，３４（８）：１５３０

１５３３

ＷｕＣｈｍｍｆｉｎｇ，ＣｂｅｎＺｈｉ．］ｉａｎｇＭｉｎｇ．Ｔｈｅｒｅｓｅａｒｃｈ

ｏｆｌ

ｉｇｉｔｉａｌｉｚａｔｉｏｎｏｆ

ａ１１＿［Ｓ

ｓｙｓｔｅｍａｎｄｃｏｎｆｉｇｕｒａｔｉｏｎｏｌｐａ—

ａｎｔ

ｒａｍｅｔｅｒｓｆｏｒｄｉｆｆｅｒｅｎｔＴＳＰｐｒｏｂｌｅｍｓｉｎ

ａｌｇｏｒｉｔｈｍ

性的理论研究．

参考文献：

［ｎ

ＡｃｔａＥ］ｅｃｔｒｏｎｉｃａＳｉｎｉｃａ，２００６，３４（８）：１５３０１５３３

嘲

黄永青，梁昌勇，张祥德．基于均匀设计的蚁群算法

参数设定［Ｊ］控制与决策，２００６，２１（１）：９３—９６．

Ｈｕａｎｇ

ＹｏｎｇｑＨ堆，Ｌｉａｎｇ

Ｃｈａｎｇｙｏｎｇ，珏８ｎｇ

ａｎ

ＮＪａｎｇｄｅ．

ｏｉｌ

Ｅｌｉ刘远超，王唬龙，徐志明，等．文档聚类综述［ｊ］＋中

文信息学报，２００６，２０（３）：５５—６２．

ＬｉｕＹｕａｎｅｈａｏ．ＷａｎｇＸｉａｏｌｏｎｇ，ＸｕＺｈｉｍｉｎｇ，ｅｔａｌ

Ａ

Ｐａｒａｍｅｔｅｒｅｓｔａｂｌｉｓｈｍｅｎｔｏｆｕｎｉｆｏｒｍ

ａｎｔ

ｓｙｓｔｅｍｂａｓｅｄ

ｄｅｓｉｇｎ［Ｊ］．ＣｏｎｔｒｏｌａｎｄＤｅｃｉｓｉｏｎ，２００６，２１

（１）：９３—９６．

［９］段海滨．蚁群算法原理及其应用ＥＭ］．北京：科学出

版社ｔ

２００５

［２］ＳａｓａｋｉＭ，ＳｈｉｎｎｏｕＨ

Ｓｐｍｄｅｔｅｃｔｉｏｎ

Ｃｏｎｆｅｒｅｎｃｅ

ｕｓｉｎｇ

ｔｅｘｔ

ｃｌｕｓ

（编辑苗凌）

ｔｅｒｉｎｇ［ｑ／／Ｉｎｔｅｒａａｔｉｏｎａｌ

ｏｎ

Ｃｙｂｅｒｗｏｒｌｄｓ．

（上接第１１４５页）

［８］ＭｏｇｕｌＪＣＯｂｓｅｒｖｉｎｇＴＣＰｄｙｔｍｘｎｉｃｓ

ｉｎ

ｒｅａｌｎｅｔｗｏｒｋｓ

阴）］Ｅｓｔｅｒ

Ｍ，ＫｒｉｅｇｅｌＨ

Ｐ，Ｓａｎｄｅｒ

Ｊ，ｅｔａ１．Ａｄｅｎｓｉｔ３＂

［Ｊ］ＡＣＭＳＩＯＣＯｉＶＬＭＣｏｍｐｕｔｅｒ（＿％ｍｍｕｎｉｃａｔｉｏｎＲｅ—

ｖｉｅｗ，１９９２，２２（４）：３０５—３１７．

０１７１

Ｌ９］ＣｌａｆｆｙＫＣ．Ｂｒａｕｎ

ａｂｌｅｍｅｔｈｏｄｏｌｏｇｙ

Ｈ

Ｗ，ＰｏｌｙｚｏｓＧｅＡｐａｒａｍｅｔｅｒｉｚ—

ｔｒａｆｆｉｃｆｌｏｗｐｒｏｆｄｌｎｇ

ＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄ

Ｄａｔａ

ｆｏｒｉｎｔｅｒｎｅｔ

ｏｌｌ

Ｍｉｎｉｎｇ．ＭｅｎｌｏＰａｒｋ。ＵＳＡ；ＡＡＡｌＰｒｅｓｓ，１９９６：２２６

２３１

［Ｊ］ＩＥＥＥＪｏｕｍａｌ

ＳｅｌｅｃｔｅｄＡｒｅａｓｉｎＣｏｍｍｕｎｉｃａ

ｔｉｏｎｓ．１９９５，１３（８）：１４８１—１４９４

（编辑苗凌）

万方数据　

流量内容词语相关度的网络热点话题提取

作者：作者单位：

周亚东，孙钦东，管晓宏，李卫，陶敬， Zhou Yadong， Sun Qindong， GuanXiaohong， Li Wei， Tao Jing

JOURNAL OF XI'AN JIAOTONG UNIVERSITY2007,41(10)15次

刊名：英文刊名：年，卷(期)：被引用次数：

参考文献(10条)

1.James A;Jaime C;George D Topic detection and tracking pilot study:final report 1998

2.于满泉;骆卫华;许洪波话题识别与跟踪中的层次化话题识别技术研究[期刊论文]-计算机研究与发展 2006(03)3.Kosala R;Blockeel H Web mining research:a survey 2000(01)

6.The 2002 topic detection and tracking task definition and evaluation plan 2006

7.Jain R;Routhier S A Packet trains:measurements and a new model for computer network traffic1986(06)

8.Mogul J C Observing TCP dynamics in real networks 1992(04)

9.Claffy K C;Braun H W;Polyzos G C A parameterizable methodology for internet traffic flow profiling[外文期刊] 1995(08)

10.Ester M;Kriegel H P;Sander J A densitybased algorithm for discovering clusters in large spatialdatabases with noise 1996

本文读者也读过(3条)

1. 钱爱兵.Qian Aibing 基于主题的网络舆情分析模型及其实现[期刊论文]-现代图书情报技术2008(4)

2. 马慧芳.尹旻.何清.史忠植.Ma Huifang.Yin Min.He Qing.Shi Zhongzhi 一种基于时序窗口的动态热点话题提取模型[期刊论文]-高技术通讯2010,20(6)

3. 王伟.许鑫.Wang Wei.Xu Xin 基于聚类的网络舆情热点发现及分析[期刊论文]-现代图书情报技术2009(3)

引证文献(15条)

1.张召灵.张元林网络信息内容审计研究的现状及趋势[期刊论文]-中国管理信息化 2010(22)

6.余传明.张小青.陈雷基于LDA模型的评论热点挖掘:原理与实现[期刊论文]-情报理论与实践 2010(5)

15.孙钦东.管晓宏.周亚东网络信息内容审计研究的现状及趋势[期刊论文]-计算机研究与发展 2009(8)

流量内容词语相关度的网络热点话题提取

相关内容

热门内容

标签