流量内容词语相关度的网络热点话题提取

第41卷第lO期

2007年10月

西安交通大学学报

JOURNAI。OFXI’ANJIAOTONGUNIVERSITY

Vol41№10Oct.2007

流量内容词语相关度的网络热点话题提取

周亚东“2,孙钦东“2…,管晓宏1。23。4,李卫“2,陶敬“2

(1西安交通大学智能网络与网络安全教育部重点实验室,710049,两安;2西安交通大学机械制造系统工程

国家重点实验室,710049,西安;3.清华大学自动化系.100084,北京;4.清华大学信息科学与技术国家窭验室,100084,北京;5.西安理工大学计算机科学与__I:=程学院,710048,西安)

摘要:针对网络舆情分析的需求,给出了网络热点话题定义及其形式化描述,分析了流量内容中热点词语与热点话题的关系,提出了流量内容中热点词语的相关度计算算法.在此基础上,采用基于高密度连接区域的密度聚类方法得到热点词语簇,结合热点词语簇相关的网页标题及网站地址信息,得出网络热点话题的属性描述.实验结果表明,该算法能够有效获取当前网络中的热点话题,话题提取有效率达到16.7%,为网络热点话题传播特性研究提供了基础,与Web挖掘、话题监测与跟踪方法相比,所提算法通过选取合适的数据源.胄B更大程度地还原网络用户行为,从而得到了更为准确的网络信息传播状况.

关键词:嘲络热点话题;流量内容;网络舆情分析

中图分类号:TP393.4文献标识码:A文章编号:0253—987X(2007)10InternetPopularTopicsExtractionofTrafficContent

1142—04

WordsCorrelation

 

Lab

ZhouYadon91”,SunQindon91’2…,GuanXiaohon91’2’3”,LiWeil”,TaoJin91’2

(1.M()EKeyLab.forIntelligentNetwo^saudNetworkSecurity,Xi‘8nJiaotongUniversity,Xi7∞710049.Ch。;2.StateKey

u㈣H,蹦岫100984,China

Abstract:Aiming

at

forManuhcturing

System,Xi+an

JiaotongUniversity,Xl

7a11

4Ts-inghuaNatioaml

I.ab.h

Infecrnahon&№andTechniCS.,Ygnghua

710049,Chi”t3DepartmentofAutomation,Tsmghua

Universty,

Bellin9100084,China;jSchoolofCemputerScienceandgngineemlg,Xi’anUniversayofT∞[mology,Xi‘an710048,(=llim)

therequirementsofnetworkpublicfeelinganalysis,theformaldefinition

on

andde∞riptionofthepopulartopic

Internetis

presented,therelationshiphetweenhotwords

andpopulartopicsisanalyzed,andfinallyhotpointwordscorrelationcomputingapproachfor

on

extractingpopulartopicsonInternetisintroducedintrafficcontents.Based

that,I)BSCAN

to

(Density-BasedSpaticalClusteringofApplicationwithNoise)clusteringalgorithmisadopted

extract

populartopicsandformalizedresults

are

given.Thetestresultsshowthatthismethod

to

has

an

availabilityof16.7%inextractingInternetpopulartopics,which,compared

webmin-foreffec—

ingandTD'I、(Topic

Detection

on

andTracking),canprovide

moresuitabledata

source

tiverecoveryofInternetpublicopinions.

Keywords:populartopic

Internet;networktrafficcontent;Internetpublicopinionanalysis

目前,互联网已经成为人们交流信息的重要渠道.网络舆情分析研究也随之受到广泛关注.网络舆情信息具有规模巨大、凌乱无序等特点,如何从中识别、分析有价值的信息已成为研究热点.

针对这一问题,国内外均开展了相关研究”日,

收稿日期:2007一01—10.

主要包括两类,一类是话题识别与追踪研究:1。“,另一类是Web数据挖掘研究啪,它们都以Web站点发布的各类信息为数据源,其结果反映了网络媒体对信息的呈现状况,但却无法有效反映网络用户对信息的关注状况,因此也就很难反映网络舆情的真

基金项目

作者简介:周亚东(1982~),男,博士生;管鹿宏(联系人),男,教授,博士生导师.

国家自然科学基金资助项目(60574087);国家高技术研究发展计划资助项目(2003AAl42060).

万方数据 

第10期

周亚东+等:j】f[量内容{】司语相毙度的网络热点话题提取

实情况.

本文将网络流量作为数据源,这种流量数据能直接对应于用户的网络行为,能更为准确地反映网络舆情的状况.同时,本文着重于研究还原、理解网络用户的各种行为,从中获取用户对网络信息的关注情况,并通过网络热点话题的形式化描述得到更真实的网络舆情状况.1

网络热点话题的形式化描述

在话题识别与追踪研究巾,已对一般意义下的

话题进行了定义…,而在网络信息分析研究中却没有明确定义,为此本文埘网络热点话题作如下定义.定义1网络热点话题指,以网络为传播媒介,被一定人群广泛、持续关注,并能够反映网络舆论状况的信息集合,其中包括对网络热点话题内涵的语义化捕述以及话题的传播方式等.

为了突出人们关注的内容,网络热点话题可被形式化地表示为一个多维向量,并以热点词语、核心标题及信息发布网站等作为基本元素.设当前网络的一个热点话题为

P=(Ⅳl,%,…,m,L,五,…,L,S,S,…,S)

 

(1)

式中:矸0表示热点词语,即与热点话题直接相关并可用以描述话题含义的词语;L表示核心标题,为可概括热点话题核心意义的词语或短句;S:表示信息发布网站,其中包括传播话题的网络站点源名称或地址.

2热点词语相关度计算

网络热点话题是用户广泛关注的信息,是在网络流量中大频度出现的内容,而热点词语可以直接描述热点话题,在网络流量中其必将以较大频度出现.一个热点话题可由多个热点词语来描述,且词语之间具有一定的相关度.基于此,本文提出一种流量内容热点词语相关度计算方法,该方法可量化热点词语之问的相关程度,量化结果可作为网络热点话题提取的中间数据.

在处理网络流量数据时,首先计算内容中各项词语的出现频度,词语按照出现频度又分为高频词语、中频词语和低频词语.词语的统计式为

W=(w,,)

(2)

式中:w表示词语的统计值;W表示某一词语;f表示词语的总频度.通过设定高、中、低频度阈值,贝町基于频度的词语集合

万 

方数据La一(让‰l,wⅪ,…,叫h)]

L。=(uⅥ,“k,…,“k。)}

(3)

L【=(”11,”b,…,ⅡⅡ)

式中:Lh、L—Lt分别表示高、中、低频度词语集合;Ⅱh、Ⅵ。、W,分别表示高、中、低频度词语.

在网络中,热点话题可视为网络文章的集合,在集合中的所有文章都参与讨论特定话题.描述同一个热点话题的多个热点词语,必然出现在网络文章之中,那么当用户查看这些文章时,文章的内容便是构成一次网络连接的传输内容,而热点词语也会同时出现在一次网络连接之中.因此,流量中的任意2个高频度词语同时出现于网络连接之中的次数,可量化衡量词语之间的相关度,即词语同时出现的次数越多,表示它们之间的相关度越大,那么用该词语描述同一热点话题的可能性就越大.

网络流模型包括数据包列车模型”J、基于TCP连接的流模型”J,而广泛应用于Internet的流模型是由Claffy提出的”.本文借鉴网络流的相关研究,定义了话题流,以重现网络连接情况.

定义2话题流是具有相同四元组特征、相互之闻时间间隔小于一定阈值且传输内容为浯义数据的数据包集合.

话题流的表达式为

B=(id,t,ip。,p。,ipd。,p№。,C,T,S)(4)式中:id是流的标志号,一个标志号惟一地对应一条流;t表示流的到达时间;ip。、i‰。分别表示话题

流的源、端主机地址;p…p“表示话题流的源、端

网络端口;C表示话题流包含的内容负载特性;1、为流内容对应文本的标题信息;s为发布文本信息的

网站.

基于话题流的定义,流量中的一个热点词语与相关届性可表示为

W一(w,f,id。,A,idz√z,…,斌,^)

(5)

式中:Ⅳ表示词语集合;,表示词语的总频度;^表示词语在第n条流中出现的频度;id,表示包含某词语的第i条话题流的标志号.

词语之间的相关度p(w,√)与2个词语流相关的程度直接关联:如果2个同语同时出现在一条词语流之中,称这2个词语与1条词语流相关,则这2个词语对象之间的相关度为1;如果2个词语同时出现在n条词语流之中,这2个词语对象之问的相关度为”;如果2个词语没有共同的词语流,其相关度为0.设2个词语对象∞和w’的表达式为"一(Ⅳ,f,id-,^,池,^,…,豳,^)

(6)

酉安变通大学学报第4l卷

缸,7一(Ⅳ7,/,id;,一,id;,丘,…,i也.丘、

(7)

照式(1)计算网络的热点话题.

4则相关度表达誓尹2析id结fidIid分i晶,:2—2,…,∽=.,ida验实id;果

,l

”1…’““。

thenp(w,w’)一n

(8)

式巾:-如、1以分别表示词语W、w’中的流标志号5p(w,∞7)表示"与w7的相关度.2个词语的P(",扎,’)值越大,即2个词语的相关度越大,2个、同语同时出现在词语流的次数就越大,则2个词语同属于一个热点话题内容的可能性越大.

3网络热点话题生成

任意2个热点浏语的相关度p(w,w’)可以描述2个词语同属于一个热点话题内容的可能性,从几何角度看,2个热点词语的相关度越大,它们的几何距离越短.闲此,本文采用DBSCAN(Density_

Based

Spatical

Clustering

of

Application

with

Noise)[I”聚类算法将具有较大相关度(属于同一热点话题的可能性比较大)的热点词语聚合为簇,这些簇可描述各自对应热点话题(见式(1))的第1项,以簇为基础可分析相关网页标题和网站地址,从而得

到如式(1)所描述的网络热点话题.

 由式(1)可知,网络热点话题由3部分元素组成.本文以聚类分析得到的热点词语簇为基础,统“每个类别中的词语流属性的核心标题T和信息发布地址S,然后用每个簇中出现次数满足一定闾值的核心标题、信息发布源及该类别的热点词语,来描述一个网络热点话题,即

c=(t¨,u%,…,议k)

(9)

式中:C为聚类得到的热点词语簇,它由n个热点词语组成.一个热点词语,其属性可由式(5)描述,其中包括词语流的标号值(每一个标号值对应一个词语流,其属性由式(4)描述).

对聚类结果C中的每一个热点词语流集合的了1、S进行统计,得到核心标题及相应的信息发布网

络地址,即

丁(一(%,^、,idl,id?,…,i屯)

(10)sc=(5&,^、,idl,id∥“,i也)

(11)式中:S耳表示核心标题的字符串;^表示核心标题

出现的总频度;ss,表示网站的字符串,浚网址应在k条流中出现;风表示网址出现的总频度;id,表示第i条包含网址的流的标忐号.

对统计得到的核心标题及信息发布地址进行排序,选取频度可达到一定阈值的核心标题和信息发布地址,并与式(9)的聚类结果进行组合,就可叭按

万 

方数据4.1实验环境及数据源

将西安交通大学网络巾心的多台H+r7111服务器出口的镜像流量数据存储到数据分析服务器之h,然后采用离线分析的方法对90GB流量数据进行分析、处理.数据分析服务器为Acer

AltosG530,

硬件配置为P4

Xeon32处理器,内存为ECC4

GB,硬盘为SCSI

320

GB,操作系统为win

dows2003

Server,实现程序语言为c++.

4.2实验结果及分析

在实验中,流量内容的分词处理采用了中国科学院计算所自然语言处理研究组提供的中文智能分词系统.选取参数:中频阈值为3000.高频闽值为

10000,相应地生成665个高频词,1047个巾频词.1

899个低频词.

利用DBSCAN聚类算法,对高频词队列进行分

析,选取的领域半径e=500,队列的最小密度阈值

rain

q--5,由此获得的聚类类别数为48,聚类效率

为16.7%,其中含有语义信息的热点词语类别数为8,无语义信息的热点浏语类别数为40.在网络热点话题生成的过程中,Yc=500,Sc一500,由此得到8个网络热点话题的描述信息.

从聚类结果看出,有8项具有较明晰语义信息的热点话题,包括“交大招生科目信息”、“交大校庆消息”、“交大概况及校史”、“交大电气学院关十电力电工试验课程创新实践的新闻”、“交大长江学者介绍”等.选取其中2项热点话题,通过式(1)的热点话题形式化描述对有效类别进行格式化,结果如表1

所示.

在表1描述的2项网络热点话题中,第1项话题包含r81个热点词语(由于篇幅所限,不便全部列举)、3个核心标题和1个信息发布网站.通过人工分析可知,热点舌题与交大人才培养及招生录取信息有关,主要内容为交大的学科专业信息,包括一级学科、二级学科及院系名称,它们均通过交大网站向外传播.第2项热点话题包含r35个热点词语、3个核心标题及2个信息发布网站,主要内容为交大

概况及校史.

表1所示话题的区别有二:其一是第2项话题的热点词语数量只占第l项的43.2%,这表明第2项话题的内容更为集中;其二是第2项话题通过2个网站传播,这表明关注交大主页信息以及关注交

第10期

周亚东,等・流量内容词语相关度的网络热点话题提取

袁l网络热点话题提取结果表示

大校庆新闻的很多用户均对交大概况及校史感兴参考文献:

趣,第2项话题主要关注用户对信息的兴趣度.

[1]JamesA,JaimeC,George

D,et

a1.Topicdetection

可以看出,中文词语语义的丰富性和多义性导andtrackingpilotstudy:final

report

Ec]“Proceed

致了中文词语聚类的有效性仅能达到16.7%,但是ings

oftheDARPABroadcastNewsTranscriptionand

作为一个初步研究的成果,还是较为理想的.通过分UnderstandingWorksllon

San

Francisco:Morgan

Kauftmnn析实验结果发现,从流量内容中提取出的8项热点

Publishers,1998:194—218.

[2]于满泉,骆卫华,许洪渡,等.话题识别与跟踪中的层

话题,能够在部分程度上描述一定范围内的网络当

 次化话题识别技术研究[j].计算机研究与发展,

前舆论状况,给网络管理者提供了辅助的管理信息.2006,43(3):489—495

由于计算机的自然语言理解能力有限,暂时无法得YuManquan,LuoWdhua.XuHongbo。etalRe—

到语义更加明确的热点话题信息,还需要由人工来searchon

hierarchicaltopicdetectionintopicdetection

解析、分析.

and

tracking[J].Journal

ofComputerResearchand

Development,2006,43(3):489—495

5结论

[3]KosalaR.Blocked}LWebminingresearch:asurvey

本文根据网络信息特点,定义网络热点话题并[刀.SIC,KDDExplorations,2000,2(1):I-15.

给出了其形式化描述.通过分析流量内容中的热点[4]王泽彬,金飞,李夏,等.web数据挖掘技术£!;乏实现

词语与热点话题之间的关系,提出了热点词语的相[J]晗尔滨工业大学学报,2005,37(10):1403—1405.

WangZebin,JinFei—IjXia.eta1.Webdatamining

关度计算算法和网络热点话题的生成方法.该方法techniqueandrealization[J].JournalofHarbinInsti—

采用了DBSCAN聚类算法,再结合与热点词语簇相tute

ofTechnology,2005,37(10):1403—1405

关的网页标题及网站地址信息,得出网络热点话题[5]李保利,俞十汶.话题识别与跟踪研究[J].计算机工

的属性描述.实验结果表明,本文方法能够有效地获程与应用,2003,39(17):7-10.

取当前网络中的热点话题,通过选取更合适的数据Li

Eaoli,YuShiw.n

Research

oil

topicdetectionand源能更大程度地还原网络用户行为,获取用户对网tracking[J]ComputerEngiueering

andApplications,

络信息的关注情况,从而得到更为准确的网络信息2003,39(17):7—10.

传播状况.所提方法可作为研究网络热点话题传播[6]Topic

Detection

andTracking(TDT)Evaluation

特性的基础.

WorkshonThe2002

topic&teetionandtrackingtask

definitionandevaluation

plan[EB/(w。][2008—04—

下一步的工作将研究流量内容预处理分析方20].ftp:∥jaguanncsl.nist.gov/tdt/tdt2002/.法,改进网络热点话题提取算法的效率,在热点话题[7]JainR,RouthierSAPackettrains:measurements

内容提取工作的基础上,开展热点话题动态传播规and

new

model{orcomputernetwork

traffic[J].

律以及相关社会网络关系的研究.

IEEEJourml

oil

SelectedAr翩sinCormnunications,

1986,4(6):986—995.

(下转第1150页)

万 

方数据

日安变通大学学报第41卷

表4蚁群遗传算法在不同参数下的最优

LosAlamitos,USA:IEEEComputerSociety.2(105:

3i6319.

Fhd…(]nitc=1)

HeFang,Ung

Xiaeqing,Combining把n

dustesng

andretrievalforcorpusadaptation-C/OL]//Proceedingsof

api.org.

SPIE.E2007—01311.http://spiedigitallibrary.

Amcolonyoptimization*heory

Computer

11MgoM+BlumC

survey[J].Theoretical

(2/3):243—278.

Science,2005,344

4结论

遗传算法作为一种自适应全局优化概率搜索算法,在组合优化问题的求解中取得了良好的效果.蚁群算法作为一类模拟生物群体突现聚集行为的非经典算法,已成为近年来研究的热点.本文提出的蚁群一遗传融合聚类算法,将遗传算法融人到蚁群算法之中,利用遗传算法求解组合优化的能力来确定蚁群算法的各个参数的最优组合,并将其应用到文本聚类问题上,结果取得了较好的聚类效果.今后研究的重点是,进一步提高蚁群遗传聚类算法的效率,并基于本文方法对蚁群算法的各个参数取值再做试探

ZhuXingliang,I.iJianzbang.Anbasedoptimizationschemeofdata

air

colonysystem

mining:c]//Pro—

on

ceedingsofthe6thInternationalcDn[erenee

gent

Inte/ll

SystemsDesigaandApplications.LosAlamitos,

USA:IEEEComputerSociety,2006:400403.

嘲忉

van

mjsbergenCJ

Informationretrieval[M].2nd

ed.London:Butterwortbs.1979.

吴春明,陈治,姜明.蚁群算法巾系统初始化驶系统

参数的研究[J].电子学报.8005,34(8):1530

1533

WuChmmfing,CbenZhi.]iangMing.Theresearch

ofl

igitializationof

a11_[S

systemandconfigurationolpa—

ant

rametersfordifferentTSPproblemsin

algorithm

 

性的理论研究.

参考文献:

[n

ActaE]ectronicaSinica,2006,34(8):15301533

黄永青,梁昌勇,张祥德.基于均匀设计的蚁群算法

参数设定[J]控制与决策,2006,21(1):93—96.

Huang

YongqH堆,Liang

Changyong,珏8ng

an

NJangde.

oil

Eli刘远超,王唬龙,徐志明,等.文档聚类综述[j]+中

文信息学报,2006,20(3):55—62.

LiuYuanehao.WangXiaolong,XuZhiming,etal

Parameterestablishmentofuniform

ant

systembased

design[J].ControlandDecision,2006,21

(1):93—96.

smweyofdocutltegllLclustering[j].JournalofChineseInformationprocessing,2006,20(3):5562.

[9]段海滨.蚁群算法原理及其应用EM].北京:科学出

版社t

2005

[2]SasakiM,ShinnouH

Spmdetection

Conference

using

text

clus

(编辑苗凌)

tering[q//Interaational

on

Cyberworlds.

(上接第1145页)

[8]MogulJCObservingTCPdytmxnics

in

realnetworks

阴)]Ester

M,KriegelH

P,Sander

J,eta1.Adensit3"

[J]ACMSIOCOiVLMComputer(_%mmunicationRe—

view,1992,22(4):305—317.

basedalgorithmfordiscoveringclustersinlargespatialdatabaseswithnoise[c]∥Proceedingsof2ndInternationMConference

0171

L9]ClaffyKC.Braun

ablemethodology

W,PolyzosGeAparameteriz—

trafficflowprofdlng

KnowledgeDiscoveryand

Data

forinternet

oll

Mining.MenloPark。USA;AAAlPress,1996:226

231

[J]IEEEJoumal

SelectedAreasinCommunica

tions.1995,13(8):1481—1494

(编辑苗凌)

万方数据 

流量内容词语相关度的网络热点话题提取

作者:作者单位:

周亚东, 孙钦东, 管晓宏, 李卫, 陶敬, Zhou Yadong, Sun Qindong, GuanXiaohong, Li Wei, Tao Jing

周亚东,李卫,陶敬,Zhou Yadong,Li Wei,Tao Jing(西安交通大学智能网络与网络安全教育部重点实验室,710049,西安;西安交通大学机械制造系统工程国家重点实验室,710049,西安), 孙钦东,Sun Qindong(西安交通大学智能网络与网络安全教育部重点实验室,710049,西安;西安交通大学机械制造系统工程国家重点实验室,710049,西安;西安理工大学计算机科学与工程学院,710048,西安), 管晓宏,Guan Xiaohong(西安交通大学智能网络与网络安全教育部重点实验室,710049,西安;西安交通大学机械制造系统工程国家重点实验室,710049,西安;清华大学自动化系,100084,北京;清华大学信息科学与技术国家实验室,100084,北京)西安交通大学学报

JOURNAL OF XI'AN JIAOTONG UNIVERSITY2007,41(10)15次

刊名:英文刊名:年,卷(期):被引用次数:

参考文献(10条)

1.James A;Jaime C;George D Topic detection and tracking pilot study:final report 1998

2.于满泉;骆卫华;许洪波 话题识别与跟踪中的层次化话题识别技术研究[期刊论文]-计算机研究与发展 2006(03)3.Kosala R;Blockeel H Web mining research:a survey 2000(01)

4.王泽彬;金飞;李夏 Web数据挖掘技术及实现[期刊论文]-哈尔滨工业大学学报 2005(10)5.李保利;俞士汶 话题识别与跟踪研究[期刊论文]-计算机工程与应用 2003(17)

6.The 2002 topic detection and tracking task definition and evaluation plan 2006

7.Jain R;Routhier S A Packet trains:measurements and a new model for computer network traffic1986(06)

8.Mogul J C Observing TCP dynamics in real networks 1992(04)

9.Claffy K C;Braun H W;Polyzos G C A parameterizable methodology for internet traffic flow profiling[外文期刊] 1995(08)

10.Ester M;Kriegel H P;Sander J A densitybased algorithm for discovering clusters in large spatialdatabases with noise 1996

本文读者也读过(3条)

1. 钱爱兵.Qian Aibing 基于主题的网络舆情分析模型及其实现[期刊论文]-现代图书情报技术2008(4)

2. 马慧芳.尹旻.何清.史忠植.Ma Huifang.Yin Min.He Qing.Shi Zhongzhi 一种基于时序窗口的动态热点话题提取模型[期刊论文]-高技术通讯2010,20(6)

3. 王伟.许鑫.Wang Wei.Xu Xin 基于聚类的网络舆情热点发现及分析[期刊论文]-现代图书情报技术2009(3)

引证文献(15条)

1.张召灵.张元林 网络信息内容审计研究的现状及趋势[期刊论文]-中国管理信息化 2010(22)

2.迟呈英.李红 基于改进 TF*PDF 算法的网络新闻热点话题检测和跟踪[期刊论文]-计算机应用与软件 2013(12)3.黄敏.胡学钢 基于复杂网络方法的舆情热点挖掘[期刊论文]-计算机仿真 2011(9)4.李岩.娄云 文本聚类算法在舆情监控中的应用分析[期刊论文]-电子设计工程 2013(1)5.严硕.石鑫 短信舆情信息处理平台及关键技术[期刊论文]-现代电信科技 2010(7)

6.余传明.张小青.陈雷 基于LDA模型的评论热点挖掘:原理与实现[期刊论文]-情报理论与实践 2010(5)

7.殷风景.肖卫东.葛斌.李芳芳 一种面向网络话题发现的增量文本聚类算法[期刊论文]-计算机应用研究 2011(1)8.王巍.杨武.齐海凤 基于多中心模型的网络热点话题发现算法[期刊论文]-南京理工大学学报(自然科学版)2009(4)

9.杨菲.黄柏雄 词共现网络的遗传聚类在话题发现中的应用[期刊论文]-计算机工程与应用 2013(14)10.蒙祖强.黄柏雄 一种新的网络热点话题提取方法[期刊论文]-小型微型计算机系统 2013(4)11.彭丹.许波.宋仙磊 基于网络评论的网络舆情研究[期刊论文]-现代情报 2009(12)

12.张卫.曹先彬.尹洪章 基于多特征融合的聊天室社会网络挖掘方法[期刊论文]-中国科学技术大学学报 2009(5)13.刘林浩 网络新闻信息挖掘与分析模型的建立与探讨[期刊论文]-计算机与现代化 2012(4)14.蒙祖强.黄柏雄 一种新的网络热点话题提取方法[期刊论文]-小型微型计算机系统 2013(4)

15.孙钦东.管晓宏.周亚东 网络信息内容审计研究的现状及趋势[期刊论文]-计算机研究与发展 2009(8)

引用本文格式:周亚东.孙钦东.管晓宏.李卫.陶敬.Zhou Yadong.Sun Qindong.Guan Xiaohong.Li Wei.Tao Jing 流量内容词语相关度的网络热点话题提取[期刊论文]-西安交通大学学报 2007(10)

第41卷第lO期

2007年10月

西安交通大学学报

JOURNAI。OFXI’ANJIAOTONGUNIVERSITY

Vol41№10Oct.2007

流量内容词语相关度的网络热点话题提取

周亚东“2,孙钦东“2…,管晓宏1。23。4,李卫“2,陶敬“2

(1西安交通大学智能网络与网络安全教育部重点实验室,710049,两安;2西安交通大学机械制造系统工程

国家重点实验室,710049,西安;3.清华大学自动化系.100084,北京;4.清华大学信息科学与技术国家窭验室,100084,北京;5.西安理工大学计算机科学与__I:=程学院,710048,西安)

摘要:针对网络舆情分析的需求,给出了网络热点话题定义及其形式化描述,分析了流量内容中热点词语与热点话题的关系,提出了流量内容中热点词语的相关度计算算法.在此基础上,采用基于高密度连接区域的密度聚类方法得到热点词语簇,结合热点词语簇相关的网页标题及网站地址信息,得出网络热点话题的属性描述.实验结果表明,该算法能够有效获取当前网络中的热点话题,话题提取有效率达到16.7%,为网络热点话题传播特性研究提供了基础,与Web挖掘、话题监测与跟踪方法相比,所提算法通过选取合适的数据源.胄B更大程度地还原网络用户行为,从而得到了更为准确的网络信息传播状况.

关键词:嘲络热点话题;流量内容;网络舆情分析

中图分类号:TP393.4文献标识码:A文章编号:0253—987X(2007)10InternetPopularTopicsExtractionofTrafficContent

1142—04

WordsCorrelation

 

Lab

ZhouYadon91”,SunQindon91’2…,GuanXiaohon91’2’3”,LiWeil”,TaoJin91’2

(1.M()EKeyLab.forIntelligentNetwo^saudNetworkSecurity,Xi‘8nJiaotongUniversity,Xi7∞710049.Ch。;2.StateKey

u㈣H,蹦岫100984,China

Abstract:Aiming

at

forManuhcturing

System,Xi+an

JiaotongUniversity,Xl

7a11

4Ts-inghuaNatioaml

I.ab.h

Infecrnahon&№andTechniCS.,Ygnghua

710049,Chi”t3DepartmentofAutomation,Tsmghua

Universty,

Bellin9100084,China;jSchoolofCemputerScienceandgngineemlg,Xi’anUniversayofT∞[mology,Xi‘an710048,(=llim)

therequirementsofnetworkpublicfeelinganalysis,theformaldefinition

on

andde∞riptionofthepopulartopic

Internetis

presented,therelationshiphetweenhotwords

andpopulartopicsisanalyzed,andfinallyhotpointwordscorrelationcomputingapproachfor

on

extractingpopulartopicsonInternetisintroducedintrafficcontents.Based

that,I)BSCAN

to

(Density-BasedSpaticalClusteringofApplicationwithNoise)clusteringalgorithmisadopted

extract

populartopicsandformalizedresults

are

given.Thetestresultsshowthatthismethod

to

has

an

availabilityof16.7%inextractingInternetpopulartopics,which,compared

webmin-foreffec—

ingandTD'I、(Topic

Detection

on

andTracking),canprovide

moresuitabledata

source

tiverecoveryofInternetpublicopinions.

Keywords:populartopic

Internet;networktrafficcontent;Internetpublicopinionanalysis

目前,互联网已经成为人们交流信息的重要渠道.网络舆情分析研究也随之受到广泛关注.网络舆情信息具有规模巨大、凌乱无序等特点,如何从中识别、分析有价值的信息已成为研究热点.

针对这一问题,国内外均开展了相关研究”日,

收稿日期:2007一01—10.

主要包括两类,一类是话题识别与追踪研究:1。“,另一类是Web数据挖掘研究啪,它们都以Web站点发布的各类信息为数据源,其结果反映了网络媒体对信息的呈现状况,但却无法有效反映网络用户对信息的关注状况,因此也就很难反映网络舆情的真

基金项目

作者简介:周亚东(1982~),男,博士生;管鹿宏(联系人),男,教授,博士生导师.

国家自然科学基金资助项目(60574087);国家高技术研究发展计划资助项目(2003AAl42060).

万方数据 

第10期

周亚东+等:j】f[量内容{】司语相毙度的网络热点话题提取

实情况.

本文将网络流量作为数据源,这种流量数据能直接对应于用户的网络行为,能更为准确地反映网络舆情的状况.同时,本文着重于研究还原、理解网络用户的各种行为,从中获取用户对网络信息的关注情况,并通过网络热点话题的形式化描述得到更真实的网络舆情状况.1

网络热点话题的形式化描述

在话题识别与追踪研究巾,已对一般意义下的

话题进行了定义…,而在网络信息分析研究中却没有明确定义,为此本文埘网络热点话题作如下定义.定义1网络热点话题指,以网络为传播媒介,被一定人群广泛、持续关注,并能够反映网络舆论状况的信息集合,其中包括对网络热点话题内涵的语义化捕述以及话题的传播方式等.

为了突出人们关注的内容,网络热点话题可被形式化地表示为一个多维向量,并以热点词语、核心标题及信息发布网站等作为基本元素.设当前网络的一个热点话题为

P=(Ⅳl,%,…,m,L,五,…,L,S,S,…,S)

 

(1)

式中:矸0表示热点词语,即与热点话题直接相关并可用以描述话题含义的词语;L表示核心标题,为可概括热点话题核心意义的词语或短句;S:表示信息发布网站,其中包括传播话题的网络站点源名称或地址.

2热点词语相关度计算

网络热点话题是用户广泛关注的信息,是在网络流量中大频度出现的内容,而热点词语可以直接描述热点话题,在网络流量中其必将以较大频度出现.一个热点话题可由多个热点词语来描述,且词语之间具有一定的相关度.基于此,本文提出一种流量内容热点词语相关度计算方法,该方法可量化热点词语之问的相关程度,量化结果可作为网络热点话题提取的中间数据.

在处理网络流量数据时,首先计算内容中各项词语的出现频度,词语按照出现频度又分为高频词语、中频词语和低频词语.词语的统计式为

W=(w,,)

(2)

式中:w表示词语的统计值;W表示某一词语;f表示词语的总频度.通过设定高、中、低频度阈值,贝町基于频度的词语集合

万 

方数据La一(让‰l,wⅪ,…,叫h)]

L。=(uⅥ,“k,…,“k。)}

(3)

L【=(”11,”b,…,ⅡⅡ)

式中:Lh、L—Lt分别表示高、中、低频度词语集合;Ⅱh、Ⅵ。、W,分别表示高、中、低频度词语.

在网络中,热点话题可视为网络文章的集合,在集合中的所有文章都参与讨论特定话题.描述同一个热点话题的多个热点词语,必然出现在网络文章之中,那么当用户查看这些文章时,文章的内容便是构成一次网络连接的传输内容,而热点词语也会同时出现在一次网络连接之中.因此,流量中的任意2个高频度词语同时出现于网络连接之中的次数,可量化衡量词语之间的相关度,即词语同时出现的次数越多,表示它们之间的相关度越大,那么用该词语描述同一热点话题的可能性就越大.

网络流模型包括数据包列车模型”J、基于TCP连接的流模型”J,而广泛应用于Internet的流模型是由Claffy提出的”.本文借鉴网络流的相关研究,定义了话题流,以重现网络连接情况.

定义2话题流是具有相同四元组特征、相互之闻时间间隔小于一定阈值且传输内容为浯义数据的数据包集合.

话题流的表达式为

B=(id,t,ip。,p。,ipd。,p№。,C,T,S)(4)式中:id是流的标志号,一个标志号惟一地对应一条流;t表示流的到达时间;ip。、i‰。分别表示话题

流的源、端主机地址;p…p“表示话题流的源、端

网络端口;C表示话题流包含的内容负载特性;1、为流内容对应文本的标题信息;s为发布文本信息的

网站.

基于话题流的定义,流量中的一个热点词语与相关届性可表示为

W一(w,f,id。,A,idz√z,…,斌,^)

(5)

式中:Ⅳ表示词语集合;,表示词语的总频度;^表示词语在第n条流中出现的频度;id,表示包含某词语的第i条话题流的标志号.

词语之间的相关度p(w,√)与2个词语流相关的程度直接关联:如果2个同语同时出现在一条词语流之中,称这2个词语与1条词语流相关,则这2个词语对象之间的相关度为1;如果2个词语同时出现在n条词语流之中,这2个词语对象之问的相关度为”;如果2个词语没有共同的词语流,其相关度为0.设2个词语对象∞和w’的表达式为"一(Ⅳ,f,id-,^,池,^,…,豳,^)

(6)

酉安变通大学学报第4l卷

缸,7一(Ⅳ7,/,id;,一,id;,丘,…,i也.丘、

(7)

照式(1)计算网络的热点话题.

4则相关度表达誓尹2析id结fidIid分i晶,:2—2,…,∽=.,ida验实id;果

,l

”1…’““。

thenp(w,w’)一n

(8)

式巾:-如、1以分别表示词语W、w’中的流标志号5p(w,∞7)表示"与w7的相关度.2个词语的P(",扎,’)值越大,即2个词语的相关度越大,2个、同语同时出现在词语流的次数就越大,则2个词语同属于一个热点话题内容的可能性越大.

3网络热点话题生成

任意2个热点浏语的相关度p(w,w’)可以描述2个词语同属于一个热点话题内容的可能性,从几何角度看,2个热点词语的相关度越大,它们的几何距离越短.闲此,本文采用DBSCAN(Density_

Based

Spatical

Clustering

of

Application

with

Noise)[I”聚类算法将具有较大相关度(属于同一热点话题的可能性比较大)的热点词语聚合为簇,这些簇可描述各自对应热点话题(见式(1))的第1项,以簇为基础可分析相关网页标题和网站地址,从而得

到如式(1)所描述的网络热点话题.

 由式(1)可知,网络热点话题由3部分元素组成.本文以聚类分析得到的热点词语簇为基础,统“每个类别中的词语流属性的核心标题T和信息发布地址S,然后用每个簇中出现次数满足一定闾值的核心标题、信息发布源及该类别的热点词语,来描述一个网络热点话题,即

c=(t¨,u%,…,议k)

(9)

式中:C为聚类得到的热点词语簇,它由n个热点词语组成.一个热点词语,其属性可由式(5)描述,其中包括词语流的标号值(每一个标号值对应一个词语流,其属性由式(4)描述).

对聚类结果C中的每一个热点词语流集合的了1、S进行统计,得到核心标题及相应的信息发布网

络地址,即

丁(一(%,^、,idl,id?,…,i屯)

(10)sc=(5&,^、,idl,id∥“,i也)

(11)式中:S耳表示核心标题的字符串;^表示核心标题

出现的总频度;ss,表示网站的字符串,浚网址应在k条流中出现;风表示网址出现的总频度;id,表示第i条包含网址的流的标忐号.

对统计得到的核心标题及信息发布地址进行排序,选取频度可达到一定阈值的核心标题和信息发布地址,并与式(9)的聚类结果进行组合,就可叭按

万 

方数据4.1实验环境及数据源

将西安交通大学网络巾心的多台H+r7111服务器出口的镜像流量数据存储到数据分析服务器之h,然后采用离线分析的方法对90GB流量数据进行分析、处理.数据分析服务器为Acer

AltosG530,

硬件配置为P4

Xeon32处理器,内存为ECC4

GB,硬盘为SCSI

320

GB,操作系统为win

dows2003

Server,实现程序语言为c++.

4.2实验结果及分析

在实验中,流量内容的分词处理采用了中国科学院计算所自然语言处理研究组提供的中文智能分词系统.选取参数:中频阈值为3000.高频闽值为

10000,相应地生成665个高频词,1047个巾频词.1

899个低频词.

利用DBSCAN聚类算法,对高频词队列进行分

析,选取的领域半径e=500,队列的最小密度阈值

rain

q--5,由此获得的聚类类别数为48,聚类效率

为16.7%,其中含有语义信息的热点词语类别数为8,无语义信息的热点浏语类别数为40.在网络热点话题生成的过程中,Yc=500,Sc一500,由此得到8个网络热点话题的描述信息.

从聚类结果看出,有8项具有较明晰语义信息的热点话题,包括“交大招生科目信息”、“交大校庆消息”、“交大概况及校史”、“交大电气学院关十电力电工试验课程创新实践的新闻”、“交大长江学者介绍”等.选取其中2项热点话题,通过式(1)的热点话题形式化描述对有效类别进行格式化,结果如表1

所示.

在表1描述的2项网络热点话题中,第1项话题包含r81个热点词语(由于篇幅所限,不便全部列举)、3个核心标题和1个信息发布网站.通过人工分析可知,热点舌题与交大人才培养及招生录取信息有关,主要内容为交大的学科专业信息,包括一级学科、二级学科及院系名称,它们均通过交大网站向外传播.第2项热点话题包含r35个热点词语、3个核心标题及2个信息发布网站,主要内容为交大

概况及校史.

表1所示话题的区别有二:其一是第2项话题的热点词语数量只占第l项的43.2%,这表明第2项话题的内容更为集中;其二是第2项话题通过2个网站传播,这表明关注交大主页信息以及关注交

第10期

周亚东,等・流量内容词语相关度的网络热点话题提取

袁l网络热点话题提取结果表示

大校庆新闻的很多用户均对交大概况及校史感兴参考文献:

趣,第2项话题主要关注用户对信息的兴趣度.

[1]JamesA,JaimeC,George

D,et

a1.Topicdetection

可以看出,中文词语语义的丰富性和多义性导andtrackingpilotstudy:final

report

Ec]“Proceed

致了中文词语聚类的有效性仅能达到16.7%,但是ings

oftheDARPABroadcastNewsTranscriptionand

作为一个初步研究的成果,还是较为理想的.通过分UnderstandingWorksllon

San

Francisco:Morgan

Kauftmnn析实验结果发现,从流量内容中提取出的8项热点

Publishers,1998:194—218.

[2]于满泉,骆卫华,许洪渡,等.话题识别与跟踪中的层

话题,能够在部分程度上描述一定范围内的网络当

 次化话题识别技术研究[j].计算机研究与发展,

前舆论状况,给网络管理者提供了辅助的管理信息.2006,43(3):489—495

由于计算机的自然语言理解能力有限,暂时无法得YuManquan,LuoWdhua.XuHongbo。etalRe—

到语义更加明确的热点话题信息,还需要由人工来searchon

hierarchicaltopicdetectionintopicdetection

解析、分析.

and

tracking[J].Journal

ofComputerResearchand

Development,2006,43(3):489—495

5结论

[3]KosalaR.Blocked}LWebminingresearch:asurvey

本文根据网络信息特点,定义网络热点话题并[刀.SIC,KDDExplorations,2000,2(1):I-15.

给出了其形式化描述.通过分析流量内容中的热点[4]王泽彬,金飞,李夏,等.web数据挖掘技术£!;乏实现

词语与热点话题之间的关系,提出了热点词语的相[J]晗尔滨工业大学学报,2005,37(10):1403—1405.

WangZebin,JinFei—IjXia.eta1.Webdatamining

关度计算算法和网络热点话题的生成方法.该方法techniqueandrealization[J].JournalofHarbinInsti—

采用了DBSCAN聚类算法,再结合与热点词语簇相tute

ofTechnology,2005,37(10):1403—1405

关的网页标题及网站地址信息,得出网络热点话题[5]李保利,俞十汶.话题识别与跟踪研究[J].计算机工

的属性描述.实验结果表明,本文方法能够有效地获程与应用,2003,39(17):7-10.

取当前网络中的热点话题,通过选取更合适的数据Li

Eaoli,YuShiw.n

Research

oil

topicdetectionand源能更大程度地还原网络用户行为,获取用户对网tracking[J]ComputerEngiueering

andApplications,

络信息的关注情况,从而得到更为准确的网络信息2003,39(17):7—10.

传播状况.所提方法可作为研究网络热点话题传播[6]Topic

Detection

andTracking(TDT)Evaluation

特性的基础.

WorkshonThe2002

topic&teetionandtrackingtask

definitionandevaluation

plan[EB/(w。][2008—04—

下一步的工作将研究流量内容预处理分析方20].ftp:∥jaguanncsl.nist.gov/tdt/tdt2002/.法,改进网络热点话题提取算法的效率,在热点话题[7]JainR,RouthierSAPackettrains:measurements

内容提取工作的基础上,开展热点话题动态传播规and

new

model{orcomputernetwork

traffic[J].

律以及相关社会网络关系的研究.

IEEEJourml

oil

SelectedAr翩sinCormnunications,

1986,4(6):986—995.

(下转第1150页)

万 

方数据

日安变通大学学报第41卷

表4蚁群遗传算法在不同参数下的最优

LosAlamitos,USA:IEEEComputerSociety.2(105:

3i6319.

Fhd…(]nitc=1)

HeFang,Ung

Xiaeqing,Combining把n

dustesng

andretrievalforcorpusadaptation-C/OL]//Proceedingsof

api.org.

SPIE.E2007—01311.http://spiedigitallibrary.

Amcolonyoptimization*heory

Computer

11MgoM+BlumC

survey[J].Theoretical

(2/3):243—278.

Science,2005,344

4结论

遗传算法作为一种自适应全局优化概率搜索算法,在组合优化问题的求解中取得了良好的效果.蚁群算法作为一类模拟生物群体突现聚集行为的非经典算法,已成为近年来研究的热点.本文提出的蚁群一遗传融合聚类算法,将遗传算法融人到蚁群算法之中,利用遗传算法求解组合优化的能力来确定蚁群算法的各个参数的最优组合,并将其应用到文本聚类问题上,结果取得了较好的聚类效果.今后研究的重点是,进一步提高蚁群遗传聚类算法的效率,并基于本文方法对蚁群算法的各个参数取值再做试探

ZhuXingliang,I.iJianzbang.Anbasedoptimizationschemeofdata

air

colonysystem

mining:c]//Pro—

on

ceedingsofthe6thInternationalcDn[erenee

gent

Inte/ll

SystemsDesigaandApplications.LosAlamitos,

USA:IEEEComputerSociety,2006:400403.

嘲忉

van

mjsbergenCJ

Informationretrieval[M].2nd

ed.London:Butterwortbs.1979.

吴春明,陈治,姜明.蚁群算法巾系统初始化驶系统

参数的研究[J].电子学报.8005,34(8):1530

1533

WuChmmfing,CbenZhi.]iangMing.Theresearch

ofl

igitializationof

a11_[S

systemandconfigurationolpa—

ant

rametersfordifferentTSPproblemsin

algorithm

 

性的理论研究.

参考文献:

[n

ActaE]ectronicaSinica,2006,34(8):15301533

黄永青,梁昌勇,张祥德.基于均匀设计的蚁群算法

参数设定[J]控制与决策,2006,21(1):93—96.

Huang

YongqH堆,Liang

Changyong,珏8ng

an

NJangde.

oil

Eli刘远超,王唬龙,徐志明,等.文档聚类综述[j]+中

文信息学报,2006,20(3):55—62.

LiuYuanehao.WangXiaolong,XuZhiming,etal

Parameterestablishmentofuniform

ant

systembased

design[J].ControlandDecision,2006,21

(1):93—96.

smweyofdocutltegllLclustering[j].JournalofChineseInformationprocessing,2006,20(3):5562.

[9]段海滨.蚁群算法原理及其应用EM].北京:科学出

版社t

2005

[2]SasakiM,ShinnouH

Spmdetection

Conference

using

text

clus

(编辑苗凌)

tering[q//Interaational

on

Cyberworlds.

(上接第1145页)

[8]MogulJCObservingTCPdytmxnics

in

realnetworks

阴)]Ester

M,KriegelH

P,Sander

J,eta1.Adensit3"

[J]ACMSIOCOiVLMComputer(_%mmunicationRe—

view,1992,22(4):305—317.

basedalgorithmfordiscoveringclustersinlargespatialdatabaseswithnoise[c]∥Proceedingsof2ndInternationMConference

0171

L9]ClaffyKC.Braun

ablemethodology

W,PolyzosGeAparameteriz—

trafficflowprofdlng

KnowledgeDiscoveryand

Data

forinternet

oll

Mining.MenloPark。USA;AAAlPress,1996:226

231

[J]IEEEJoumal

SelectedAreasinCommunica

tions.1995,13(8):1481—1494

(编辑苗凌)

万方数据 

流量内容词语相关度的网络热点话题提取

作者:作者单位:

周亚东, 孙钦东, 管晓宏, 李卫, 陶敬, Zhou Yadong, Sun Qindong, GuanXiaohong, Li Wei, Tao Jing

周亚东,李卫,陶敬,Zhou Yadong,Li Wei,Tao Jing(西安交通大学智能网络与网络安全教育部重点实验室,710049,西安;西安交通大学机械制造系统工程国家重点实验室,710049,西安), 孙钦东,Sun Qindong(西安交通大学智能网络与网络安全教育部重点实验室,710049,西安;西安交通大学机械制造系统工程国家重点实验室,710049,西安;西安理工大学计算机科学与工程学院,710048,西安), 管晓宏,Guan Xiaohong(西安交通大学智能网络与网络安全教育部重点实验室,710049,西安;西安交通大学机械制造系统工程国家重点实验室,710049,西安;清华大学自动化系,100084,北京;清华大学信息科学与技术国家实验室,100084,北京)西安交通大学学报

JOURNAL OF XI'AN JIAOTONG UNIVERSITY2007,41(10)15次

刊名:英文刊名:年,卷(期):被引用次数:

参考文献(10条)

1.James A;Jaime C;George D Topic detection and tracking pilot study:final report 1998

2.于满泉;骆卫华;许洪波 话题识别与跟踪中的层次化话题识别技术研究[期刊论文]-计算机研究与发展 2006(03)3.Kosala R;Blockeel H Web mining research:a survey 2000(01)

4.王泽彬;金飞;李夏 Web数据挖掘技术及实现[期刊论文]-哈尔滨工业大学学报 2005(10)5.李保利;俞士汶 话题识别与跟踪研究[期刊论文]-计算机工程与应用 2003(17)

6.The 2002 topic detection and tracking task definition and evaluation plan 2006

7.Jain R;Routhier S A Packet trains:measurements and a new model for computer network traffic1986(06)

8.Mogul J C Observing TCP dynamics in real networks 1992(04)

9.Claffy K C;Braun H W;Polyzos G C A parameterizable methodology for internet traffic flow profiling[外文期刊] 1995(08)

10.Ester M;Kriegel H P;Sander J A densitybased algorithm for discovering clusters in large spatialdatabases with noise 1996

本文读者也读过(3条)

1. 钱爱兵.Qian Aibing 基于主题的网络舆情分析模型及其实现[期刊论文]-现代图书情报技术2008(4)

2. 马慧芳.尹旻.何清.史忠植.Ma Huifang.Yin Min.He Qing.Shi Zhongzhi 一种基于时序窗口的动态热点话题提取模型[期刊论文]-高技术通讯2010,20(6)

3. 王伟.许鑫.Wang Wei.Xu Xin 基于聚类的网络舆情热点发现及分析[期刊论文]-现代图书情报技术2009(3)

引证文献(15条)

1.张召灵.张元林 网络信息内容审计研究的现状及趋势[期刊论文]-中国管理信息化 2010(22)

2.迟呈英.李红 基于改进 TF*PDF 算法的网络新闻热点话题检测和跟踪[期刊论文]-计算机应用与软件 2013(12)3.黄敏.胡学钢 基于复杂网络方法的舆情热点挖掘[期刊论文]-计算机仿真 2011(9)4.李岩.娄云 文本聚类算法在舆情监控中的应用分析[期刊论文]-电子设计工程 2013(1)5.严硕.石鑫 短信舆情信息处理平台及关键技术[期刊论文]-现代电信科技 2010(7)

6.余传明.张小青.陈雷 基于LDA模型的评论热点挖掘:原理与实现[期刊论文]-情报理论与实践 2010(5)

7.殷风景.肖卫东.葛斌.李芳芳 一种面向网络话题发现的增量文本聚类算法[期刊论文]-计算机应用研究 2011(1)8.王巍.杨武.齐海凤 基于多中心模型的网络热点话题发现算法[期刊论文]-南京理工大学学报(自然科学版)2009(4)

9.杨菲.黄柏雄 词共现网络的遗传聚类在话题发现中的应用[期刊论文]-计算机工程与应用 2013(14)10.蒙祖强.黄柏雄 一种新的网络热点话题提取方法[期刊论文]-小型微型计算机系统 2013(4)11.彭丹.许波.宋仙磊 基于网络评论的网络舆情研究[期刊论文]-现代情报 2009(12)

12.张卫.曹先彬.尹洪章 基于多特征融合的聊天室社会网络挖掘方法[期刊论文]-中国科学技术大学学报 2009(5)13.刘林浩 网络新闻信息挖掘与分析模型的建立与探讨[期刊论文]-计算机与现代化 2012(4)14.蒙祖强.黄柏雄 一种新的网络热点话题提取方法[期刊论文]-小型微型计算机系统 2013(4)

15.孙钦东.管晓宏.周亚东 网络信息内容审计研究的现状及趋势[期刊论文]-计算机研究与发展 2009(8)

引用本文格式:周亚东.孙钦东.管晓宏.李卫.陶敬.Zhou Yadong.Sun Qindong.Guan Xiaohong.Li Wei.Tao Jing 流量内容词语相关度的网络热点话题提取[期刊论文]-西安交通大学学报 2007(10)


相关内容

  • 网络舆情热点发现综述
  • 2015年8月 第16期总第338期 Inner 内蒙古科技与经济 MongoliaScienceTechnology8LEconomy August2015 No.16TotalNo・338 网络舆情热点发现综述 王玉珍 (内蒙古财经大学监察审计处,内蒙古呼和浩特010051) 摘 要:介绍了网络 ...

  • 电子商务之搜索引擎
  • 电子商务中的搜索引擎营销(SEM)策略分析 摘要:诺贝尔奖获得者赫伯特·西蒙指出:随着信息的发展,有价值的不再是信息,而是注意力.注意力经济已成为网络时代发展必不可少的组成部分.电子商务日益成为人们生活中不可或缺的购物方式,用户带有强烈目的性且具有理性,通过搜索引擎进行电子商务产品的搜索比较.搜索引 ...

  • 物流公司企业网站策划书
  • 现在的互联网时代,公司的发展不仅仅是靠现实中宣传,在网络上扩大影响力也是十分重要的,在不断的进步中,很多公司都会建立自己公司的门户网站,这些都是非常有必要的,网络上的宣传对公司的发展是很有帮助的,这些也是我们一直以来不断进步的成果,所以我们公司也要成立属于自己的网站. 一.项目目标 1.网站设计风格 ...

  • 物流公司企业网站策划书范文
  • 现在的互联网时代,公司的发展不仅仅是靠现实中宣传,在网络上扩大影响力也是十分重要的,在不断的进步中,很多公司都会建立自己公司的门户网站,这些都是非常有必要的,网络上的宣传对公司的发展是很有帮助的,这些也是我们一直以来不断进步的成果,所以我们公司也要成立属于自己的网站. 一.项目目标 1.网站设计风格 ...

  • 面向高校网络舆情安全的监管与预警研究
  • 62 l sYssEcuRITY 系统安全 面向高校网络舆情安全的监管与预警研究 徐楠1 (1助教北京财贸职业学院1 01101 戴媛2 2助理工程师中国科学院计算技术研究所100190) 摘要:高度开放的互联网以其交流便捷.传播迅速等显著特征成为反映社情民意最常用的窗口.但网络舆情的自由化与多元化 ...

  • 句子关键词提取算法设计
  • _________________________________________________________________________www.paper.edu.cn 句子关键词提取算法设计 李明浩1 (厦门大学 计算机科学系,福建 厦门 361005) 摘 要:本文从网络答疑系统的设计 ...

  • 关于微博信息传播影响因素的研究--以新浪微博为例
  • 关于微博信息传播影响因素的研究 --以新浪微博为例 2012年3月20日 [摘要]网络时代的信息狂潮中,信息的分享度的差异巨大.了解信息传播的影响因素有着理论上和现实上的重要性,而目前对这一问题的研究比较零散,大都停留在简单观察总结的阶段,本研究以被广泛接受的流行三要素理论为出发点,依托微博,对影响 ...

  • 一种基于直方图统计与多帧平均混合算法的车流量检测模型
  • 一种基于直方图统计与多帧平均混合算法的车流量检测模型 摘要 新一代智能视觉监控技术的研究是一个极具挑战性的前沿课题,它旨在赋予监控系统观察分析场景内容的能力,实现监控的自动化和智能化,因而具有巨大的应用潜力.在智能视频监控系统中,对包含运动目标的图像序列进行的分析处理主要由运动目标检测.分类.跟踪和 ...

  • 情感倾向性分析调研
  • 意见挖掘研究的目的 目前 , 互联网上的信息与日剧增 , 蕴藏着巨大的信息量.但是 , 要想在很短的时间内获得人们对于诸如人物.事件.传媒.产品等有价值的评价信息 , 往往是十分困难的.例如 , 对产品的各种评价出现在各大论坛.电子公告板以及门户网站上 , 厂商需要了解顾客使用其产品的反馈意见 , ...