第41卷第lO期
2007年10月
西安交通大学学报
JOURNAI。OFXI’ANJIAOTONGUNIVERSITY
Vol41№10Oct.2007
流量内容词语相关度的网络热点话题提取
周亚东“2,孙钦东“2…,管晓宏1。23。4,李卫“2,陶敬“2
(1西安交通大学智能网络与网络安全教育部重点实验室,710049,两安;2西安交通大学机械制造系统工程
国家重点实验室,710049,西安;3.清华大学自动化系.100084,北京;4.清华大学信息科学与技术国家窭验室,100084,北京;5.西安理工大学计算机科学与__I:=程学院,710048,西安)
摘要:针对网络舆情分析的需求,给出了网络热点话题定义及其形式化描述,分析了流量内容中热点词语与热点话题的关系,提出了流量内容中热点词语的相关度计算算法.在此基础上,采用基于高密度连接区域的密度聚类方法得到热点词语簇,结合热点词语簇相关的网页标题及网站地址信息,得出网络热点话题的属性描述.实验结果表明,该算法能够有效获取当前网络中的热点话题,话题提取有效率达到16.7%,为网络热点话题传播特性研究提供了基础,与Web挖掘、话题监测与跟踪方法相比,所提算法通过选取合适的数据源.胄B更大程度地还原网络用户行为,从而得到了更为准确的网络信息传播状况.
关键词:嘲络热点话题;流量内容;网络舆情分析
中图分类号:TP393.4文献标识码:A文章编号:0253—987X(2007)10InternetPopularTopicsExtractionofTrafficContent
1142—04
WordsCorrelation
Lab
ZhouYadon91”,SunQindon91’2…,GuanXiaohon91’2’3”,LiWeil”,TaoJin91’2
(1.M()EKeyLab.forIntelligentNetwo^saudNetworkSecurity,Xi‘8nJiaotongUniversity,Xi7∞710049.Ch。;2.StateKey
u㈣H,蹦岫100984,China
Abstract:Aiming
at
forManuhcturing
System,Xi+an
JiaotongUniversity,Xl
7a11
4Ts-inghuaNatioaml
I.ab.h
Infecrnahon&№andTechniCS.,Ygnghua
710049,Chi”t3DepartmentofAutomation,Tsmghua
Universty,
Bellin9100084,China;jSchoolofCemputerScienceandgngineemlg,Xi’anUniversayofT∞[mology,Xi‘an710048,(=llim)
therequirementsofnetworkpublicfeelinganalysis,theformaldefinition
on
andde∞riptionofthepopulartopic
Internetis
a
presented,therelationshiphetweenhotwords
andpopulartopicsisanalyzed,andfinallyhotpointwordscorrelationcomputingapproachfor
on
extractingpopulartopicsonInternetisintroducedintrafficcontents.Based
that,I)BSCAN
to
(Density-BasedSpaticalClusteringofApplicationwithNoise)clusteringalgorithmisadopted
extract
populartopicsandformalizedresults
are
given.Thetestresultsshowthatthismethod
to
has
an
availabilityof16.7%inextractingInternetpopulartopics,which,compared
webmin-foreffec—
ingandTD'I、(Topic
Detection
on
andTracking),canprovide
a
moresuitabledata
source
tiverecoveryofInternetpublicopinions.
Keywords:populartopic
Internet;networktrafficcontent;Internetpublicopinionanalysis
目前,互联网已经成为人们交流信息的重要渠道.网络舆情分析研究也随之受到广泛关注.网络舆情信息具有规模巨大、凌乱无序等特点,如何从中识别、分析有价值的信息已成为研究热点.
针对这一问题,国内外均开展了相关研究”日,
收稿日期:2007一01—10.
主要包括两类,一类是话题识别与追踪研究:1。“,另一类是Web数据挖掘研究啪,它们都以Web站点发布的各类信息为数据源,其结果反映了网络媒体对信息的呈现状况,但却无法有效反映网络用户对信息的关注状况,因此也就很难反映网络舆情的真
基金项目
作者简介:周亚东(1982~),男,博士生;管鹿宏(联系人),男,教授,博士生导师.
国家自然科学基金资助项目(60574087);国家高技术研究发展计划资助项目(2003AAl42060).
万方数据
第10期
周亚东+等:j】f[量内容{】司语相毙度的网络热点话题提取
实情况.
本文将网络流量作为数据源,这种流量数据能直接对应于用户的网络行为,能更为准确地反映网络舆情的状况.同时,本文着重于研究还原、理解网络用户的各种行为,从中获取用户对网络信息的关注情况,并通过网络热点话题的形式化描述得到更真实的网络舆情状况.1
网络热点话题的形式化描述
在话题识别与追踪研究巾,已对一般意义下的
话题进行了定义…,而在网络信息分析研究中却没有明确定义,为此本文埘网络热点话题作如下定义.定义1网络热点话题指,以网络为传播媒介,被一定人群广泛、持续关注,并能够反映网络舆论状况的信息集合,其中包括对网络热点话题内涵的语义化捕述以及话题的传播方式等.
为了突出人们关注的内容,网络热点话题可被形式化地表示为一个多维向量,并以热点词语、核心标题及信息发布网站等作为基本元素.设当前网络的一个热点话题为
P=(Ⅳl,%,…,m,L,五,…,L,S,S,…,S)
(1)
式中:矸0表示热点词语,即与热点话题直接相关并可用以描述话题含义的词语;L表示核心标题,为可概括热点话题核心意义的词语或短句;S:表示信息发布网站,其中包括传播话题的网络站点源名称或地址.
2热点词语相关度计算
网络热点话题是用户广泛关注的信息,是在网络流量中大频度出现的内容,而热点词语可以直接描述热点话题,在网络流量中其必将以较大频度出现.一个热点话题可由多个热点词语来描述,且词语之间具有一定的相关度.基于此,本文提出一种流量内容热点词语相关度计算方法,该方法可量化热点词语之问的相关程度,量化结果可作为网络热点话题提取的中间数据.
在处理网络流量数据时,首先计算内容中各项词语的出现频度,词语按照出现频度又分为高频词语、中频词语和低频词语.词语的统计式为
W=(w,,)
(2)
式中:w表示词语的统计值;W表示某一词语;f表示词语的总频度.通过设定高、中、低频度阈值,贝町基于频度的词语集合
万
方数据La一(让‰l,wⅪ,…,叫h)]
L。=(uⅥ,“k,…,“k。)}
(3)
L【=(”11,”b,…,ⅡⅡ)
J
式中:Lh、L—Lt分别表示高、中、低频度词语集合;Ⅱh、Ⅵ。、W,分别表示高、中、低频度词语.
在网络中,热点话题可视为网络文章的集合,在集合中的所有文章都参与讨论特定话题.描述同一个热点话题的多个热点词语,必然出现在网络文章之中,那么当用户查看这些文章时,文章的内容便是构成一次网络连接的传输内容,而热点词语也会同时出现在一次网络连接之中.因此,流量中的任意2个高频度词语同时出现于网络连接之中的次数,可量化衡量词语之间的相关度,即词语同时出现的次数越多,表示它们之间的相关度越大,那么用该词语描述同一热点话题的可能性就越大.
网络流模型包括数据包列车模型”J、基于TCP连接的流模型”J,而广泛应用于Internet的流模型是由Claffy提出的”.本文借鉴网络流的相关研究,定义了话题流,以重现网络连接情况.
定义2话题流是具有相同四元组特征、相互之闻时间间隔小于一定阈值且传输内容为浯义数据的数据包集合.
话题流的表达式为
B=(id,t,ip。,p。,ipd。,p№。,C,T,S)(4)式中:id是流的标志号,一个标志号惟一地对应一条流;t表示流的到达时间;ip。、i‰。分别表示话题
流的源、端主机地址;p…p“表示话题流的源、端
网络端口;C表示话题流包含的内容负载特性;1、为流内容对应文本的标题信息;s为发布文本信息的
网站.
基于话题流的定义,流量中的一个热点词语与相关届性可表示为
W一(w,f,id。,A,idz√z,…,斌,^)
(5)
式中:Ⅳ表示词语集合;,表示词语的总频度;^表示词语在第n条流中出现的频度;id,表示包含某词语的第i条话题流的标志号.
词语之间的相关度p(w,√)与2个词语流相关的程度直接关联:如果2个同语同时出现在一条词语流之中,称这2个词语与1条词语流相关,则这2个词语对象之间的相关度为1;如果2个词语同时出现在n条词语流之中,这2个词语对象之问的相关度为”;如果2个词语没有共同的词语流,其相关度为0.设2个词语对象∞和w’的表达式为"一(Ⅳ,f,id-,^,池,^,…,豳,^)
(6)
酉安变通大学学报第4l卷
缸,7一(Ⅳ7,/,id;,一,id;,丘,…,i也.丘、
(7)
照式(1)计算网络的热点话题.
4则相关度表达誓尹2析id结fidIid分i晶,:2—2,…,∽=.,ida验实id;果
,l
”1…’““。
thenp(w,w’)一n
(8)
式巾:-如、1以分别表示词语W、w’中的流标志号5p(w,∞7)表示"与w7的相关度.2个词语的P(",扎,’)值越大,即2个词语的相关度越大,2个、同语同时出现在词语流的次数就越大,则2个词语同属于一个热点话题内容的可能性越大.
3网络热点话题生成
任意2个热点浏语的相关度p(w,w’)可以描述2个词语同属于一个热点话题内容的可能性,从几何角度看,2个热点词语的相关度越大,它们的几何距离越短.闲此,本文采用DBSCAN(Density_
Based
Spatical
Clustering
of
Application
with
Noise)[I”聚类算法将具有较大相关度(属于同一热点话题的可能性比较大)的热点词语聚合为簇,这些簇可描述各自对应热点话题(见式(1))的第1项,以簇为基础可分析相关网页标题和网站地址,从而得
到如式(1)所描述的网络热点话题.
由式(1)可知,网络热点话题由3部分元素组成.本文以聚类分析得到的热点词语簇为基础,统“每个类别中的词语流属性的核心标题T和信息发布地址S,然后用每个簇中出现次数满足一定闾值的核心标题、信息发布源及该类别的热点词语,来描述一个网络热点话题,即
c=(t¨,u%,…,议k)
(9)
式中:C为聚类得到的热点词语簇,它由n个热点词语组成.一个热点词语,其属性可由式(5)描述,其中包括词语流的标号值(每一个标号值对应一个词语流,其属性由式(4)描述).
对聚类结果C中的每一个热点词语流集合的了1、S进行统计,得到核心标题及相应的信息发布网
络地址,即
丁(一(%,^、,idl,id?,…,i屯)
(10)sc=(5&,^、,idl,id∥“,i也)
(11)式中:S耳表示核心标题的字符串;^表示核心标题
出现的总频度;ss,表示网站的字符串,浚网址应在k条流中出现;风表示网址出现的总频度;id,表示第i条包含网址的流的标忐号.
对统计得到的核心标题及信息发布地址进行排序,选取频度可达到一定阈值的核心标题和信息发布地址,并与式(9)的聚类结果进行组合,就可叭按
万
方数据4.1实验环境及数据源
将西安交通大学网络巾心的多台H+r7111服务器出口的镜像流量数据存储到数据分析服务器之h,然后采用离线分析的方法对90GB流量数据进行分析、处理.数据分析服务器为Acer
AltosG530,
硬件配置为P4
Xeon32处理器,内存为ECC4
GB,硬盘为SCSI
320
GB,操作系统为win
dows2003
Server,实现程序语言为c++.
4.2实验结果及分析
在实验中,流量内容的分词处理采用了中国科学院计算所自然语言处理研究组提供的中文智能分词系统.选取参数:中频阈值为3000.高频闽值为
10000,相应地生成665个高频词,1047个巾频词.1
899个低频词.
利用DBSCAN聚类算法,对高频词队列进行分
析,选取的领域半径e=500,队列的最小密度阈值
rain
q--5,由此获得的聚类类别数为48,聚类效率
为16.7%,其中含有语义信息的热点词语类别数为8,无语义信息的热点浏语类别数为40.在网络热点话题生成的过程中,Yc=500,Sc一500,由此得到8个网络热点话题的描述信息.
从聚类结果看出,有8项具有较明晰语义信息的热点话题,包括“交大招生科目信息”、“交大校庆消息”、“交大概况及校史”、“交大电气学院关十电力电工试验课程创新实践的新闻”、“交大长江学者介绍”等.选取其中2项热点话题,通过式(1)的热点话题形式化描述对有效类别进行格式化,结果如表1
所示.
在表1描述的2项网络热点话题中,第1项话题包含r81个热点词语(由于篇幅所限,不便全部列举)、3个核心标题和1个信息发布网站.通过人工分析可知,热点舌题与交大人才培养及招生录取信息有关,主要内容为交大的学科专业信息,包括一级学科、二级学科及院系名称,它们均通过交大网站向外传播.第2项热点话题包含r35个热点词语、3个核心标题及2个信息发布网站,主要内容为交大
概况及校史.
表1所示话题的区别有二:其一是第2项话题的热点词语数量只占第l项的43.2%,这表明第2项话题的内容更为集中;其二是第2项话题通过2个网站传播,这表明关注交大主页信息以及关注交
第10期
周亚东,等・流量内容词语相关度的网络热点话题提取
袁l网络热点话题提取结果表示
大校庆新闻的很多用户均对交大概况及校史感兴参考文献:
趣,第2项话题主要关注用户对信息的兴趣度.
[1]JamesA,JaimeC,George
D,et
a1.Topicdetection
可以看出,中文词语语义的丰富性和多义性导andtrackingpilotstudy:final
report
Ec]“Proceed
致了中文词语聚类的有效性仅能达到16.7%,但是ings
oftheDARPABroadcastNewsTranscriptionand
作为一个初步研究的成果,还是较为理想的.通过分UnderstandingWorksllon
San
Francisco:Morgan
Kauftmnn析实验结果发现,从流量内容中提取出的8项热点
Publishers,1998:194—218.
[2]于满泉,骆卫华,许洪渡,等.话题识别与跟踪中的层
话题,能够在部分程度上描述一定范围内的网络当
次化话题识别技术研究[j].计算机研究与发展,
前舆论状况,给网络管理者提供了辅助的管理信息.2006,43(3):489—495
由于计算机的自然语言理解能力有限,暂时无法得YuManquan,LuoWdhua.XuHongbo。etalRe—
到语义更加明确的热点话题信息,还需要由人工来searchon
hierarchicaltopicdetectionintopicdetection
解析、分析.
and
tracking[J].Journal
ofComputerResearchand
Development,2006,43(3):489—495
5结论
[3]KosalaR.Blocked}LWebminingresearch:asurvey
本文根据网络信息特点,定义网络热点话题并[刀.SIC,KDDExplorations,2000,2(1):I-15.
给出了其形式化描述.通过分析流量内容中的热点[4]王泽彬,金飞,李夏,等.web数据挖掘技术£!;乏实现
词语与热点话题之间的关系,提出了热点词语的相[J]晗尔滨工业大学学报,2005,37(10):1403—1405.
WangZebin,JinFei—IjXia.eta1.Webdatamining
关度计算算法和网络热点话题的生成方法.该方法techniqueandrealization[J].JournalofHarbinInsti—
采用了DBSCAN聚类算法,再结合与热点词语簇相tute
ofTechnology,2005,37(10):1403—1405
关的网页标题及网站地址信息,得出网络热点话题[5]李保利,俞十汶.话题识别与跟踪研究[J].计算机工
的属性描述.实验结果表明,本文方法能够有效地获程与应用,2003,39(17):7-10.
取当前网络中的热点话题,通过选取更合适的数据Li
Eaoli,YuShiw.n
Research
oil
topicdetectionand源能更大程度地还原网络用户行为,获取用户对网tracking[J]ComputerEngiueering
andApplications,
络信息的关注情况,从而得到更为准确的网络信息2003,39(17):7—10.
传播状况.所提方法可作为研究网络热点话题传播[6]Topic
Detection
andTracking(TDT)Evaluation
特性的基础.
WorkshonThe2002
topic&teetionandtrackingtask
definitionandevaluation
plan[EB/(w。][2008—04—
下一步的工作将研究流量内容预处理分析方20].ftp:∥jaguanncsl.nist.gov/tdt/tdt2002/.法,改进网络热点话题提取算法的效率,在热点话题[7]JainR,RouthierSAPackettrains:measurements
内容提取工作的基础上,开展热点话题动态传播规and
a
new
model{orcomputernetwork
traffic[J].
律以及相关社会网络关系的研究.
IEEEJourml
oil
SelectedAr翩sinCormnunications,
1986,4(6):986—995.
(下转第1150页)
万
方数据
日安变通大学学报第41卷
表4蚁群遗传算法在不同参数下的最优
LosAlamitos,USA:IEEEComputerSociety.2(105:
3i6319.
Fhd…(]nitc=1)
嘲
HeFang,Ung
Xiaeqing,Combining把n
dustesng
andretrievalforcorpusadaptation-C/OL]//Proceedingsof
api.org.
SPIE.E2007—01311.http://spiedigitallibrary.
Amcolonyoptimization*heory
Computer
田
11MgoM+BlumC
8
survey[J].Theoretical
(2/3):243—278.
Science,2005,344
4结论
遗传算法作为一种自适应全局优化概率搜索算法,在组合优化问题的求解中取得了良好的效果.蚁群算法作为一类模拟生物群体突现聚集行为的非经典算法,已成为近年来研究的热点.本文提出的蚁群一遗传融合聚类算法,将遗传算法融人到蚁群算法之中,利用遗传算法求解组合优化的能力来确定蚁群算法的各个参数的最优组合,并将其应用到文本聚类问题上,结果取得了较好的聚类效果.今后研究的重点是,进一步提高蚁群遗传聚类算法的效率,并基于本文方法对蚁群算法的各个参数取值再做试探
嘲
ZhuXingliang,I.iJianzbang.Anbasedoptimizationschemeofdata
air
colonysystem
mining:c]//Pro—
on
ceedingsofthe6thInternationalcDn[erenee
gent
Inte/ll
SystemsDesigaandApplications.LosAlamitos,
USA:IEEEComputerSociety,2006:400403.
嘲忉
van
mjsbergenCJ
Informationretrieval[M].2nd
ed.London:Butterwortbs.1979.
吴春明,陈治,姜明.蚁群算法巾系统初始化驶系统
参数的研究[J].电子学报.8005,34(8):1530
1533
WuChmmfing,CbenZhi.]iangMing.Theresearch
ofl
igitializationof
a11_[S
systemandconfigurationolpa—
ant
rametersfordifferentTSPproblemsin
algorithm
性的理论研究.
参考文献:
[n
ActaE]ectronicaSinica,2006,34(8):15301533
嘲
黄永青,梁昌勇,张祥德.基于均匀设计的蚁群算法
参数设定[J]控制与决策,2006,21(1):93—96.
Huang
YongqH堆,Liang
Changyong,珏8ng
an
NJangde.
oil
Eli刘远超,王唬龙,徐志明,等.文档聚类综述[j]+中
文信息学报,2006,20(3):55—62.
LiuYuanehao.WangXiaolong,XuZhiming,etal
A
Parameterestablishmentofuniform
ant
systembased
design[J].ControlandDecision,2006,21
(1):93—96.
smweyofdocutltegllLclustering[j].JournalofChineseInformationprocessing,2006,20(3):5562.
[9]段海滨.蚁群算法原理及其应用EM].北京:科学出
版社t
2005
[2]SasakiM,ShinnouH
Spmdetection
Conference
using
text
clus
(编辑苗凌)
tering[q//Interaational
on
Cyberworlds.
(上接第1145页)
[8]MogulJCObservingTCPdytmxnics
in
realnetworks
阴)]Ester
M,KriegelH
P,Sander
J,eta1.Adensit3"
[J]ACMSIOCOiVLMComputer(_%mmunicationRe—
view,1992,22(4):305—317.
basedalgorithmfordiscoveringclustersinlargespatialdatabaseswithnoise[c]∥Proceedingsof2ndInternationMConference
0171
L9]ClaffyKC.Braun
ablemethodology
H
W,PolyzosGeAparameteriz—
trafficflowprofdlng
KnowledgeDiscoveryand
Data
forinternet
oll
Mining.MenloPark。USA;AAAlPress,1996:226
231
[J]IEEEJoumal
SelectedAreasinCommunica
tions.1995,13(8):1481—1494
(编辑苗凌)
万方数据
流量内容词语相关度的网络热点话题提取
作者:作者单位:
周亚东, 孙钦东, 管晓宏, 李卫, 陶敬, Zhou Yadong, Sun Qindong, GuanXiaohong, Li Wei, Tao Jing
周亚东,李卫,陶敬,Zhou Yadong,Li Wei,Tao Jing(西安交通大学智能网络与网络安全教育部重点实验室,710049,西安;西安交通大学机械制造系统工程国家重点实验室,710049,西安), 孙钦东,Sun Qindong(西安交通大学智能网络与网络安全教育部重点实验室,710049,西安;西安交通大学机械制造系统工程国家重点实验室,710049,西安;西安理工大学计算机科学与工程学院,710048,西安), 管晓宏,Guan Xiaohong(西安交通大学智能网络与网络安全教育部重点实验室,710049,西安;西安交通大学机械制造系统工程国家重点实验室,710049,西安;清华大学自动化系,100084,北京;清华大学信息科学与技术国家实验室,100084,北京)西安交通大学学报
JOURNAL OF XI'AN JIAOTONG UNIVERSITY2007,41(10)15次
刊名:英文刊名:年,卷(期):被引用次数:
参考文献(10条)
1.James A;Jaime C;George D Topic detection and tracking pilot study:final report 1998
2.于满泉;骆卫华;许洪波 话题识别与跟踪中的层次化话题识别技术研究[期刊论文]-计算机研究与发展 2006(03)3.Kosala R;Blockeel H Web mining research:a survey 2000(01)
4.王泽彬;金飞;李夏 Web数据挖掘技术及实现[期刊论文]-哈尔滨工业大学学报 2005(10)5.李保利;俞士汶 话题识别与跟踪研究[期刊论文]-计算机工程与应用 2003(17)
6.The 2002 topic detection and tracking task definition and evaluation plan 2006
7.Jain R;Routhier S A Packet trains:measurements and a new model for computer network traffic1986(06)
8.Mogul J C Observing TCP dynamics in real networks 1992(04)
9.Claffy K C;Braun H W;Polyzos G C A parameterizable methodology for internet traffic flow profiling[外文期刊] 1995(08)
10.Ester M;Kriegel H P;Sander J A densitybased algorithm for discovering clusters in large spatialdatabases with noise 1996
本文读者也读过(3条)
1. 钱爱兵.Qian Aibing 基于主题的网络舆情分析模型及其实现[期刊论文]-现代图书情报技术2008(4)
2. 马慧芳.尹旻.何清.史忠植.Ma Huifang.Yin Min.He Qing.Shi Zhongzhi 一种基于时序窗口的动态热点话题提取模型[期刊论文]-高技术通讯2010,20(6)
3. 王伟.许鑫.Wang Wei.Xu Xin 基于聚类的网络舆情热点发现及分析[期刊论文]-现代图书情报技术2009(3)
引证文献(15条)
1.张召灵.张元林 网络信息内容审计研究的现状及趋势[期刊论文]-中国管理信息化 2010(22)
2.迟呈英.李红 基于改进 TF*PDF 算法的网络新闻热点话题检测和跟踪[期刊论文]-计算机应用与软件 2013(12)3.黄敏.胡学钢 基于复杂网络方法的舆情热点挖掘[期刊论文]-计算机仿真 2011(9)4.李岩.娄云 文本聚类算法在舆情监控中的应用分析[期刊论文]-电子设计工程 2013(1)5.严硕.石鑫 短信舆情信息处理平台及关键技术[期刊论文]-现代电信科技 2010(7)
6.余传明.张小青.陈雷 基于LDA模型的评论热点挖掘:原理与实现[期刊论文]-情报理论与实践 2010(5)
7.殷风景.肖卫东.葛斌.李芳芳 一种面向网络话题发现的增量文本聚类算法[期刊论文]-计算机应用研究 2011(1)8.王巍.杨武.齐海凤 基于多中心模型的网络热点话题发现算法[期刊论文]-南京理工大学学报(自然科学版)2009(4)
9.杨菲.黄柏雄 词共现网络的遗传聚类在话题发现中的应用[期刊论文]-计算机工程与应用 2013(14)10.蒙祖强.黄柏雄 一种新的网络热点话题提取方法[期刊论文]-小型微型计算机系统 2013(4)11.彭丹.许波.宋仙磊 基于网络评论的网络舆情研究[期刊论文]-现代情报 2009(12)
12.张卫.曹先彬.尹洪章 基于多特征融合的聊天室社会网络挖掘方法[期刊论文]-中国科学技术大学学报 2009(5)13.刘林浩 网络新闻信息挖掘与分析模型的建立与探讨[期刊论文]-计算机与现代化 2012(4)14.蒙祖强.黄柏雄 一种新的网络热点话题提取方法[期刊论文]-小型微型计算机系统 2013(4)
15.孙钦东.管晓宏.周亚东 网络信息内容审计研究的现状及趋势[期刊论文]-计算机研究与发展 2009(8)
引用本文格式:周亚东.孙钦东.管晓宏.李卫.陶敬.Zhou Yadong.Sun Qindong.Guan Xiaohong.Li Wei.Tao Jing 流量内容词语相关度的网络热点话题提取[期刊论文]-西安交通大学学报 2007(10)
第41卷第lO期
2007年10月
西安交通大学学报
JOURNAI。OFXI’ANJIAOTONGUNIVERSITY
Vol41№10Oct.2007
流量内容词语相关度的网络热点话题提取
周亚东“2,孙钦东“2…,管晓宏1。23。4,李卫“2,陶敬“2
(1西安交通大学智能网络与网络安全教育部重点实验室,710049,两安;2西安交通大学机械制造系统工程
国家重点实验室,710049,西安;3.清华大学自动化系.100084,北京;4.清华大学信息科学与技术国家窭验室,100084,北京;5.西安理工大学计算机科学与__I:=程学院,710048,西安)
摘要:针对网络舆情分析的需求,给出了网络热点话题定义及其形式化描述,分析了流量内容中热点词语与热点话题的关系,提出了流量内容中热点词语的相关度计算算法.在此基础上,采用基于高密度连接区域的密度聚类方法得到热点词语簇,结合热点词语簇相关的网页标题及网站地址信息,得出网络热点话题的属性描述.实验结果表明,该算法能够有效获取当前网络中的热点话题,话题提取有效率达到16.7%,为网络热点话题传播特性研究提供了基础,与Web挖掘、话题监测与跟踪方法相比,所提算法通过选取合适的数据源.胄B更大程度地还原网络用户行为,从而得到了更为准确的网络信息传播状况.
关键词:嘲络热点话题;流量内容;网络舆情分析
中图分类号:TP393.4文献标识码:A文章编号:0253—987X(2007)10InternetPopularTopicsExtractionofTrafficContent
1142—04
WordsCorrelation
Lab
ZhouYadon91”,SunQindon91’2…,GuanXiaohon91’2’3”,LiWeil”,TaoJin91’2
(1.M()EKeyLab.forIntelligentNetwo^saudNetworkSecurity,Xi‘8nJiaotongUniversity,Xi7∞710049.Ch。;2.StateKey
u㈣H,蹦岫100984,China
Abstract:Aiming
at
forManuhcturing
System,Xi+an
JiaotongUniversity,Xl
7a11
4Ts-inghuaNatioaml
I.ab.h
Infecrnahon&№andTechniCS.,Ygnghua
710049,Chi”t3DepartmentofAutomation,Tsmghua
Universty,
Bellin9100084,China;jSchoolofCemputerScienceandgngineemlg,Xi’anUniversayofT∞[mology,Xi‘an710048,(=llim)
therequirementsofnetworkpublicfeelinganalysis,theformaldefinition
on
andde∞riptionofthepopulartopic
Internetis
a
presented,therelationshiphetweenhotwords
andpopulartopicsisanalyzed,andfinallyhotpointwordscorrelationcomputingapproachfor
on
extractingpopulartopicsonInternetisintroducedintrafficcontents.Based
that,I)BSCAN
to
(Density-BasedSpaticalClusteringofApplicationwithNoise)clusteringalgorithmisadopted
extract
populartopicsandformalizedresults
are
given.Thetestresultsshowthatthismethod
to
has
an
availabilityof16.7%inextractingInternetpopulartopics,which,compared
webmin-foreffec—
ingandTD'I、(Topic
Detection
on
andTracking),canprovide
a
moresuitabledata
source
tiverecoveryofInternetpublicopinions.
Keywords:populartopic
Internet;networktrafficcontent;Internetpublicopinionanalysis
目前,互联网已经成为人们交流信息的重要渠道.网络舆情分析研究也随之受到广泛关注.网络舆情信息具有规模巨大、凌乱无序等特点,如何从中识别、分析有价值的信息已成为研究热点.
针对这一问题,国内外均开展了相关研究”日,
收稿日期:2007一01—10.
主要包括两类,一类是话题识别与追踪研究:1。“,另一类是Web数据挖掘研究啪,它们都以Web站点发布的各类信息为数据源,其结果反映了网络媒体对信息的呈现状况,但却无法有效反映网络用户对信息的关注状况,因此也就很难反映网络舆情的真
基金项目
作者简介:周亚东(1982~),男,博士生;管鹿宏(联系人),男,教授,博士生导师.
国家自然科学基金资助项目(60574087);国家高技术研究发展计划资助项目(2003AAl42060).
万方数据
第10期
周亚东+等:j】f[量内容{】司语相毙度的网络热点话题提取
实情况.
本文将网络流量作为数据源,这种流量数据能直接对应于用户的网络行为,能更为准确地反映网络舆情的状况.同时,本文着重于研究还原、理解网络用户的各种行为,从中获取用户对网络信息的关注情况,并通过网络热点话题的形式化描述得到更真实的网络舆情状况.1
网络热点话题的形式化描述
在话题识别与追踪研究巾,已对一般意义下的
话题进行了定义…,而在网络信息分析研究中却没有明确定义,为此本文埘网络热点话题作如下定义.定义1网络热点话题指,以网络为传播媒介,被一定人群广泛、持续关注,并能够反映网络舆论状况的信息集合,其中包括对网络热点话题内涵的语义化捕述以及话题的传播方式等.
为了突出人们关注的内容,网络热点话题可被形式化地表示为一个多维向量,并以热点词语、核心标题及信息发布网站等作为基本元素.设当前网络的一个热点话题为
P=(Ⅳl,%,…,m,L,五,…,L,S,S,…,S)
(1)
式中:矸0表示热点词语,即与热点话题直接相关并可用以描述话题含义的词语;L表示核心标题,为可概括热点话题核心意义的词语或短句;S:表示信息发布网站,其中包括传播话题的网络站点源名称或地址.
2热点词语相关度计算
网络热点话题是用户广泛关注的信息,是在网络流量中大频度出现的内容,而热点词语可以直接描述热点话题,在网络流量中其必将以较大频度出现.一个热点话题可由多个热点词语来描述,且词语之间具有一定的相关度.基于此,本文提出一种流量内容热点词语相关度计算方法,该方法可量化热点词语之问的相关程度,量化结果可作为网络热点话题提取的中间数据.
在处理网络流量数据时,首先计算内容中各项词语的出现频度,词语按照出现频度又分为高频词语、中频词语和低频词语.词语的统计式为
W=(w,,)
(2)
式中:w表示词语的统计值;W表示某一词语;f表示词语的总频度.通过设定高、中、低频度阈值,贝町基于频度的词语集合
万
方数据La一(让‰l,wⅪ,…,叫h)]
L。=(uⅥ,“k,…,“k。)}
(3)
L【=(”11,”b,…,ⅡⅡ)
J
式中:Lh、L—Lt分别表示高、中、低频度词语集合;Ⅱh、Ⅵ。、W,分别表示高、中、低频度词语.
在网络中,热点话题可视为网络文章的集合,在集合中的所有文章都参与讨论特定话题.描述同一个热点话题的多个热点词语,必然出现在网络文章之中,那么当用户查看这些文章时,文章的内容便是构成一次网络连接的传输内容,而热点词语也会同时出现在一次网络连接之中.因此,流量中的任意2个高频度词语同时出现于网络连接之中的次数,可量化衡量词语之间的相关度,即词语同时出现的次数越多,表示它们之间的相关度越大,那么用该词语描述同一热点话题的可能性就越大.
网络流模型包括数据包列车模型”J、基于TCP连接的流模型”J,而广泛应用于Internet的流模型是由Claffy提出的”.本文借鉴网络流的相关研究,定义了话题流,以重现网络连接情况.
定义2话题流是具有相同四元组特征、相互之闻时间间隔小于一定阈值且传输内容为浯义数据的数据包集合.
话题流的表达式为
B=(id,t,ip。,p。,ipd。,p№。,C,T,S)(4)式中:id是流的标志号,一个标志号惟一地对应一条流;t表示流的到达时间;ip。、i‰。分别表示话题
流的源、端主机地址;p…p“表示话题流的源、端
网络端口;C表示话题流包含的内容负载特性;1、为流内容对应文本的标题信息;s为发布文本信息的
网站.
基于话题流的定义,流量中的一个热点词语与相关届性可表示为
W一(w,f,id。,A,idz√z,…,斌,^)
(5)
式中:Ⅳ表示词语集合;,表示词语的总频度;^表示词语在第n条流中出现的频度;id,表示包含某词语的第i条话题流的标志号.
词语之间的相关度p(w,√)与2个词语流相关的程度直接关联:如果2个同语同时出现在一条词语流之中,称这2个词语与1条词语流相关,则这2个词语对象之间的相关度为1;如果2个词语同时出现在n条词语流之中,这2个词语对象之问的相关度为”;如果2个词语没有共同的词语流,其相关度为0.设2个词语对象∞和w’的表达式为"一(Ⅳ,f,id-,^,池,^,…,豳,^)
(6)
酉安变通大学学报第4l卷
缸,7一(Ⅳ7,/,id;,一,id;,丘,…,i也.丘、
(7)
照式(1)计算网络的热点话题.
4则相关度表达誓尹2析id结fidIid分i晶,:2—2,…,∽=.,ida验实id;果
,l
”1…’““。
thenp(w,w’)一n
(8)
式巾:-如、1以分别表示词语W、w’中的流标志号5p(w,∞7)表示"与w7的相关度.2个词语的P(",扎,’)值越大,即2个词语的相关度越大,2个、同语同时出现在词语流的次数就越大,则2个词语同属于一个热点话题内容的可能性越大.
3网络热点话题生成
任意2个热点浏语的相关度p(w,w’)可以描述2个词语同属于一个热点话题内容的可能性,从几何角度看,2个热点词语的相关度越大,它们的几何距离越短.闲此,本文采用DBSCAN(Density_
Based
Spatical
Clustering
of
Application
with
Noise)[I”聚类算法将具有较大相关度(属于同一热点话题的可能性比较大)的热点词语聚合为簇,这些簇可描述各自对应热点话题(见式(1))的第1项,以簇为基础可分析相关网页标题和网站地址,从而得
到如式(1)所描述的网络热点话题.
由式(1)可知,网络热点话题由3部分元素组成.本文以聚类分析得到的热点词语簇为基础,统“每个类别中的词语流属性的核心标题T和信息发布地址S,然后用每个簇中出现次数满足一定闾值的核心标题、信息发布源及该类别的热点词语,来描述一个网络热点话题,即
c=(t¨,u%,…,议k)
(9)
式中:C为聚类得到的热点词语簇,它由n个热点词语组成.一个热点词语,其属性可由式(5)描述,其中包括词语流的标号值(每一个标号值对应一个词语流,其属性由式(4)描述).
对聚类结果C中的每一个热点词语流集合的了1、S进行统计,得到核心标题及相应的信息发布网
络地址,即
丁(一(%,^、,idl,id?,…,i屯)
(10)sc=(5&,^、,idl,id∥“,i也)
(11)式中:S耳表示核心标题的字符串;^表示核心标题
出现的总频度;ss,表示网站的字符串,浚网址应在k条流中出现;风表示网址出现的总频度;id,表示第i条包含网址的流的标忐号.
对统计得到的核心标题及信息发布地址进行排序,选取频度可达到一定阈值的核心标题和信息发布地址,并与式(9)的聚类结果进行组合,就可叭按
万
方数据4.1实验环境及数据源
将西安交通大学网络巾心的多台H+r7111服务器出口的镜像流量数据存储到数据分析服务器之h,然后采用离线分析的方法对90GB流量数据进行分析、处理.数据分析服务器为Acer
AltosG530,
硬件配置为P4
Xeon32处理器,内存为ECC4
GB,硬盘为SCSI
320
GB,操作系统为win
dows2003
Server,实现程序语言为c++.
4.2实验结果及分析
在实验中,流量内容的分词处理采用了中国科学院计算所自然语言处理研究组提供的中文智能分词系统.选取参数:中频阈值为3000.高频闽值为
10000,相应地生成665个高频词,1047个巾频词.1
899个低频词.
利用DBSCAN聚类算法,对高频词队列进行分
析,选取的领域半径e=500,队列的最小密度阈值
rain
q--5,由此获得的聚类类别数为48,聚类效率
为16.7%,其中含有语义信息的热点词语类别数为8,无语义信息的热点浏语类别数为40.在网络热点话题生成的过程中,Yc=500,Sc一500,由此得到8个网络热点话题的描述信息.
从聚类结果看出,有8项具有较明晰语义信息的热点话题,包括“交大招生科目信息”、“交大校庆消息”、“交大概况及校史”、“交大电气学院关十电力电工试验课程创新实践的新闻”、“交大长江学者介绍”等.选取其中2项热点话题,通过式(1)的热点话题形式化描述对有效类别进行格式化,结果如表1
所示.
在表1描述的2项网络热点话题中,第1项话题包含r81个热点词语(由于篇幅所限,不便全部列举)、3个核心标题和1个信息发布网站.通过人工分析可知,热点舌题与交大人才培养及招生录取信息有关,主要内容为交大的学科专业信息,包括一级学科、二级学科及院系名称,它们均通过交大网站向外传播.第2项热点话题包含r35个热点词语、3个核心标题及2个信息发布网站,主要内容为交大
概况及校史.
表1所示话题的区别有二:其一是第2项话题的热点词语数量只占第l项的43.2%,这表明第2项话题的内容更为集中;其二是第2项话题通过2个网站传播,这表明关注交大主页信息以及关注交
第10期
周亚东,等・流量内容词语相关度的网络热点话题提取
袁l网络热点话题提取结果表示
大校庆新闻的很多用户均对交大概况及校史感兴参考文献:
趣,第2项话题主要关注用户对信息的兴趣度.
[1]JamesA,JaimeC,George
D,et
a1.Topicdetection
可以看出,中文词语语义的丰富性和多义性导andtrackingpilotstudy:final
report
Ec]“Proceed
致了中文词语聚类的有效性仅能达到16.7%,但是ings
oftheDARPABroadcastNewsTranscriptionand
作为一个初步研究的成果,还是较为理想的.通过分UnderstandingWorksllon
San
Francisco:Morgan
Kauftmnn析实验结果发现,从流量内容中提取出的8项热点
Publishers,1998:194—218.
[2]于满泉,骆卫华,许洪渡,等.话题识别与跟踪中的层
话题,能够在部分程度上描述一定范围内的网络当
次化话题识别技术研究[j].计算机研究与发展,
前舆论状况,给网络管理者提供了辅助的管理信息.2006,43(3):489—495
由于计算机的自然语言理解能力有限,暂时无法得YuManquan,LuoWdhua.XuHongbo。etalRe—
到语义更加明确的热点话题信息,还需要由人工来searchon
hierarchicaltopicdetectionintopicdetection
解析、分析.
and
tracking[J].Journal
ofComputerResearchand
Development,2006,43(3):489—495
5结论
[3]KosalaR.Blocked}LWebminingresearch:asurvey
本文根据网络信息特点,定义网络热点话题并[刀.SIC,KDDExplorations,2000,2(1):I-15.
给出了其形式化描述.通过分析流量内容中的热点[4]王泽彬,金飞,李夏,等.web数据挖掘技术£!;乏实现
词语与热点话题之间的关系,提出了热点词语的相[J]晗尔滨工业大学学报,2005,37(10):1403—1405.
WangZebin,JinFei—IjXia.eta1.Webdatamining
关度计算算法和网络热点话题的生成方法.该方法techniqueandrealization[J].JournalofHarbinInsti—
采用了DBSCAN聚类算法,再结合与热点词语簇相tute
ofTechnology,2005,37(10):1403—1405
关的网页标题及网站地址信息,得出网络热点话题[5]李保利,俞十汶.话题识别与跟踪研究[J].计算机工
的属性描述.实验结果表明,本文方法能够有效地获程与应用,2003,39(17):7-10.
取当前网络中的热点话题,通过选取更合适的数据Li
Eaoli,YuShiw.n
Research
oil
topicdetectionand源能更大程度地还原网络用户行为,获取用户对网tracking[J]ComputerEngiueering
andApplications,
络信息的关注情况,从而得到更为准确的网络信息2003,39(17):7—10.
传播状况.所提方法可作为研究网络热点话题传播[6]Topic
Detection
andTracking(TDT)Evaluation
特性的基础.
WorkshonThe2002
topic&teetionandtrackingtask
definitionandevaluation
plan[EB/(w。][2008—04—
下一步的工作将研究流量内容预处理分析方20].ftp:∥jaguanncsl.nist.gov/tdt/tdt2002/.法,改进网络热点话题提取算法的效率,在热点话题[7]JainR,RouthierSAPackettrains:measurements
内容提取工作的基础上,开展热点话题动态传播规and
a
new
model{orcomputernetwork
traffic[J].
律以及相关社会网络关系的研究.
IEEEJourml
oil
SelectedAr翩sinCormnunications,
1986,4(6):986—995.
(下转第1150页)
万
方数据
日安变通大学学报第41卷
表4蚁群遗传算法在不同参数下的最优
LosAlamitos,USA:IEEEComputerSociety.2(105:
3i6319.
Fhd…(]nitc=1)
嘲
HeFang,Ung
Xiaeqing,Combining把n
dustesng
andretrievalforcorpusadaptation-C/OL]//Proceedingsof
api.org.
SPIE.E2007—01311.http://spiedigitallibrary.
Amcolonyoptimization*heory
Computer
田
11MgoM+BlumC
8
survey[J].Theoretical
(2/3):243—278.
Science,2005,344
4结论
遗传算法作为一种自适应全局优化概率搜索算法,在组合优化问题的求解中取得了良好的效果.蚁群算法作为一类模拟生物群体突现聚集行为的非经典算法,已成为近年来研究的热点.本文提出的蚁群一遗传融合聚类算法,将遗传算法融人到蚁群算法之中,利用遗传算法求解组合优化的能力来确定蚁群算法的各个参数的最优组合,并将其应用到文本聚类问题上,结果取得了较好的聚类效果.今后研究的重点是,进一步提高蚁群遗传聚类算法的效率,并基于本文方法对蚁群算法的各个参数取值再做试探
嘲
ZhuXingliang,I.iJianzbang.Anbasedoptimizationschemeofdata
air
colonysystem
mining:c]//Pro—
on
ceedingsofthe6thInternationalcDn[erenee
gent
Inte/ll
SystemsDesigaandApplications.LosAlamitos,
USA:IEEEComputerSociety,2006:400403.
嘲忉
van
mjsbergenCJ
Informationretrieval[M].2nd
ed.London:Butterwortbs.1979.
吴春明,陈治,姜明.蚁群算法巾系统初始化驶系统
参数的研究[J].电子学报.8005,34(8):1530
1533
WuChmmfing,CbenZhi.]iangMing.Theresearch
ofl
igitializationof
a11_[S
systemandconfigurationolpa—
ant
rametersfordifferentTSPproblemsin
algorithm
性的理论研究.
参考文献:
[n
ActaE]ectronicaSinica,2006,34(8):15301533
嘲
黄永青,梁昌勇,张祥德.基于均匀设计的蚁群算法
参数设定[J]控制与决策,2006,21(1):93—96.
Huang
YongqH堆,Liang
Changyong,珏8ng
an
NJangde.
oil
Eli刘远超,王唬龙,徐志明,等.文档聚类综述[j]+中
文信息学报,2006,20(3):55—62.
LiuYuanehao.WangXiaolong,XuZhiming,etal
A
Parameterestablishmentofuniform
ant
systembased
design[J].ControlandDecision,2006,21
(1):93—96.
smweyofdocutltegllLclustering[j].JournalofChineseInformationprocessing,2006,20(3):5562.
[9]段海滨.蚁群算法原理及其应用EM].北京:科学出
版社t
2005
[2]SasakiM,ShinnouH
Spmdetection
Conference
using
text
clus
(编辑苗凌)
tering[q//Interaational
on
Cyberworlds.
(上接第1145页)
[8]MogulJCObservingTCPdytmxnics
in
realnetworks
阴)]Ester
M,KriegelH
P,Sander
J,eta1.Adensit3"
[J]ACMSIOCOiVLMComputer(_%mmunicationRe—
view,1992,22(4):305—317.
basedalgorithmfordiscoveringclustersinlargespatialdatabaseswithnoise[c]∥Proceedingsof2ndInternationMConference
0171
L9]ClaffyKC.Braun
ablemethodology
H
W,PolyzosGeAparameteriz—
trafficflowprofdlng
KnowledgeDiscoveryand
Data
forinternet
oll
Mining.MenloPark。USA;AAAlPress,1996:226
231
[J]IEEEJoumal
SelectedAreasinCommunica
tions.1995,13(8):1481—1494
(编辑苗凌)
万方数据
流量内容词语相关度的网络热点话题提取
作者:作者单位:
周亚东, 孙钦东, 管晓宏, 李卫, 陶敬, Zhou Yadong, Sun Qindong, GuanXiaohong, Li Wei, Tao Jing
周亚东,李卫,陶敬,Zhou Yadong,Li Wei,Tao Jing(西安交通大学智能网络与网络安全教育部重点实验室,710049,西安;西安交通大学机械制造系统工程国家重点实验室,710049,西安), 孙钦东,Sun Qindong(西安交通大学智能网络与网络安全教育部重点实验室,710049,西安;西安交通大学机械制造系统工程国家重点实验室,710049,西安;西安理工大学计算机科学与工程学院,710048,西安), 管晓宏,Guan Xiaohong(西安交通大学智能网络与网络安全教育部重点实验室,710049,西安;西安交通大学机械制造系统工程国家重点实验室,710049,西安;清华大学自动化系,100084,北京;清华大学信息科学与技术国家实验室,100084,北京)西安交通大学学报
JOURNAL OF XI'AN JIAOTONG UNIVERSITY2007,41(10)15次
刊名:英文刊名:年,卷(期):被引用次数:
参考文献(10条)
1.James A;Jaime C;George D Topic detection and tracking pilot study:final report 1998
2.于满泉;骆卫华;许洪波 话题识别与跟踪中的层次化话题识别技术研究[期刊论文]-计算机研究与发展 2006(03)3.Kosala R;Blockeel H Web mining research:a survey 2000(01)
4.王泽彬;金飞;李夏 Web数据挖掘技术及实现[期刊论文]-哈尔滨工业大学学报 2005(10)5.李保利;俞士汶 话题识别与跟踪研究[期刊论文]-计算机工程与应用 2003(17)
6.The 2002 topic detection and tracking task definition and evaluation plan 2006
7.Jain R;Routhier S A Packet trains:measurements and a new model for computer network traffic1986(06)
8.Mogul J C Observing TCP dynamics in real networks 1992(04)
9.Claffy K C;Braun H W;Polyzos G C A parameterizable methodology for internet traffic flow profiling[外文期刊] 1995(08)
10.Ester M;Kriegel H P;Sander J A densitybased algorithm for discovering clusters in large spatialdatabases with noise 1996
本文读者也读过(3条)
1. 钱爱兵.Qian Aibing 基于主题的网络舆情分析模型及其实现[期刊论文]-现代图书情报技术2008(4)
2. 马慧芳.尹旻.何清.史忠植.Ma Huifang.Yin Min.He Qing.Shi Zhongzhi 一种基于时序窗口的动态热点话题提取模型[期刊论文]-高技术通讯2010,20(6)
3. 王伟.许鑫.Wang Wei.Xu Xin 基于聚类的网络舆情热点发现及分析[期刊论文]-现代图书情报技术2009(3)
引证文献(15条)
1.张召灵.张元林 网络信息内容审计研究的现状及趋势[期刊论文]-中国管理信息化 2010(22)
2.迟呈英.李红 基于改进 TF*PDF 算法的网络新闻热点话题检测和跟踪[期刊论文]-计算机应用与软件 2013(12)3.黄敏.胡学钢 基于复杂网络方法的舆情热点挖掘[期刊论文]-计算机仿真 2011(9)4.李岩.娄云 文本聚类算法在舆情监控中的应用分析[期刊论文]-电子设计工程 2013(1)5.严硕.石鑫 短信舆情信息处理平台及关键技术[期刊论文]-现代电信科技 2010(7)
6.余传明.张小青.陈雷 基于LDA模型的评论热点挖掘:原理与实现[期刊论文]-情报理论与实践 2010(5)
7.殷风景.肖卫东.葛斌.李芳芳 一种面向网络话题发现的增量文本聚类算法[期刊论文]-计算机应用研究 2011(1)8.王巍.杨武.齐海凤 基于多中心模型的网络热点话题发现算法[期刊论文]-南京理工大学学报(自然科学版)2009(4)
9.杨菲.黄柏雄 词共现网络的遗传聚类在话题发现中的应用[期刊论文]-计算机工程与应用 2013(14)10.蒙祖强.黄柏雄 一种新的网络热点话题提取方法[期刊论文]-小型微型计算机系统 2013(4)11.彭丹.许波.宋仙磊 基于网络评论的网络舆情研究[期刊论文]-现代情报 2009(12)
12.张卫.曹先彬.尹洪章 基于多特征融合的聊天室社会网络挖掘方法[期刊论文]-中国科学技术大学学报 2009(5)13.刘林浩 网络新闻信息挖掘与分析模型的建立与探讨[期刊论文]-计算机与现代化 2012(4)14.蒙祖强.黄柏雄 一种新的网络热点话题提取方法[期刊论文]-小型微型计算机系统 2013(4)
15.孙钦东.管晓宏.周亚东 网络信息内容审计研究的现状及趋势[期刊论文]-计算机研究与发展 2009(8)
引用本文格式:周亚东.孙钦东.管晓宏.李卫.陶敬.Zhou Yadong.Sun Qindong.Guan Xiaohong.Li Wei.Tao Jing 流量内容词语相关度的网络热点话题提取[期刊论文]-西安交通大学学报 2007(10)