关于微博信息传播影响因素的研究--以新浪微博为例

关于微博信息传播影响因素的研究

——以新浪微博为例

2012年3月20日

【摘要】网络时代的信息狂潮中，信息的分享度的差异巨大。了解信息传播的影响因素有着理论上和现实上的重要性，而目前对这一问题的研究比较零散，大都停留在简单观察总结的阶段，本研究以被广泛接受的流行三要素理论为出发点，依托微博，对影响信息传播的诸要素进行实证研究。数据样本来自合理抓取的微博，利用计算语言学的方法进行切词、过滤等操作，并对数据样本进行量化，采用网络计量模型进行实证分析。本研究发现对于微博类平台上的信息传播，流行三要素理论同样适用，但其独有的特点是用户特征的影响显著大于内容特征。本研究从实证上加深了对微博信息传播特性的理解，对于微博营销策略、识别僵尸粉等实际问题给出了指导意见，并对未来的研究方向进行了展望。

【关键词】信息传播微博网络计量

Research on InﬂuencingFactors of information disseminationg on Micro-blog

–takingSina Micro-blog as an example

2012.3

Abstract In the frenzy of the Internet age, the degree of diﬀerenceon sharing of infor-mation is enormous. Understanding of inﬂuencingfactors of the information dissemination is of both theoretical and realistical importance,but current reasearches on this issue remain in the ﬁeldof simple observation summary. In view of the widely accepted prevalence of The Three Rules of Epidemics , we use it as our assumption, relying on Sina micro-blog to carry out an em-pirical research on the various factors aﬀectingthe dissemination of information. Data samples are from a reasonable selected micro-blogging, and we use computational linguistics methods of segmentation, ﬁlteringand other operations to quantify the data samples. Afterwards, we use the data samples to build a webometrics model for empirical analysis. This study found that the celebrated “Three Rules of Epidemics ”is equally applicable for the dissemination of information on the micro-blogg platform, while its unique feature is that the impact of user characteristics is signiﬁcantlygreater than the content features. Theoretically, this study has deepened our understanding of the characteristics of the dissemination of information on the micro-blogg; Empirically, this study oﬀerssuggestions about micro-blog marketing strategy and zombie fan identifying . In the end,implications of future research are given .

Key Words Information Dissemination Micro-blog Webmetrics

目录2

目录1引言

2文献综述

2.1流行三要素理论. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.1.1

2.1.2

2.1.3关键人物法则. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 附着力法则. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 环境威力法则. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444566

2.2信息计量学和网络计量学. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3研究方法

3.1数据的提取与初步分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.1.1原始数据提取. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.1.2简单数据提取. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.1.3热门词汇分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.1.4情绪处理. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.2数据分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.2.1研究变量. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.2.2回归分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.2.3回归结果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.2.4数据解释. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4相关讨论

4.1关键人物的影响. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.1.1粉丝数的影响. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.1.2用户活跃程度的影响. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.1.3身份认证的影响. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.2外部环境的影响. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.3内容附着力的影响. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.3.1关键词影响指数. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.3.2微博内容的字数. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.3.3微博携带的图像信息. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.3.4情绪. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.3.5链接因素. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5结论

6实践意义

6.1微博营销. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.2微博水军和僵尸粉的发现. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . [***********][***********][1**********]

7不足与展望

7.1

7.2317本研究所存在的不足. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17后续研究的展望. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

20A 附录：情绪词表

1引言4

1引言

每个人都有与他人分享故事、新闻等信息乃至自己的心情的欲望。网络出现以前，我们的的信息渠道是平面媒体，尽管我们可以在咖啡厅、洗手间和饮水机前进行小范围的信息交流，但主流的信息发布方式是不平等的，话语权不向无名群体开放，这个时候的信息传播遵循帕累托（Pareto ）提出的“80/20”定律[1]；

网络出现以后，信息的传播进入了新的时代，最早出现的是web1.0模式，其合流的结果就是提供前所未有的巨大信息流的门户网站，然后出现了BBS ，百度贴吧，将信息发布的权力送到每个可互联的人手中。而今天则是Web2.0的时代，信息发布的主动权完全开放，我们每天都有大量的时间投放在人人、微博、Facebook 上，网络互动使得与他人分享信息变得无比快捷。但与此而来的问题却是严重的：网络的平等化使得我们之中的任何一个人都有能力上传自己的信息，便捷的信息发送方式释放了我们发送信息的惊人能力，每分钟都有数以百万计的信息上传到各种SNS 网站，传统的“80/20”定律被安德森（Anderson ）提出的“长尾理论”

[2][3]所取代，在信息分布的长尾部分我们的信息面临沉重的竞争压力：在令人咂舌的信息狂潮中，信息的分享度的差异同样巨大：有的帖子会被疯狂转发，甚至引导一周内的话题走向；与之相较，另一些帖子默默无闻，引不起一丝波澜。

那么究竟是什么主导了信息的传播？果壳网上曾挂出一个著名的疑问(http://www.guokr.com/article/49912/) ：“郭美美的故事为何在网络上迅速传播？一条“豆腐脑是甜是咸”的微博为何被疯狂转发？为何‘我们爱讲冷笑话’长期稳坐微博‘草根榜’榜首？”作为生活中的普通人，我们关心自己的微博状态、人人状态怎样才能被好友关注，自己的体验和情绪怎样才能感染到他人；作为社会意见表达者的热血青年，我们关心自己的质疑、呼吁如何被更大范围的人感知，从而引起社会层面的反响；作为产品推广的营销人员，我们关心自己的广告描述如何被大量转载，从而到达自己的目标客户...

这样的问题现实而又紧迫，但是相关研究往往是零散的、简单的观察总结，而定量化的研究因为驱动力的因素往往倾向于商业化，并且其中最重要的成果既不公之于众，又有特别局限的针对性。同时考虑到目前被广泛接受并在传统电视媒体中得到实证验证的流行三要素理论对这一课题的适应性，以及信息计量学和网络计量学所发展出的成熟的理论分析技术，所以我们决定采用上述两种理论，并在受众最为广泛的SNS 网站方面进行定量化的实证研究，以期找到影响信息传播的关键因素。

2.1流行三要素理论文献综述

流行三要素理论在Malcolm Gladwell 所写的Tipping Point [4]一书中有着系统的阐述，三种要素分别被称为：关键人物法则(TheLaw of the Few) 、附着力法则(StickinessFactor) 、环境威力法则(Powerof Context) ，下面分别予以阐述：

关键人物法则指出了这样的社会信息交流的事实：社会上绝大多数人构成的社会主体在进行决策时所依据的信息只来自于一小部分影响者组成的群体，而这个影响者群体在社会网络中与其他人没有明显的等级差别。这个结果在社会网络理论中有着重要的意义，从而得到了广泛而深入的研究, 哥伦比亚大学的Andrea Galeotti 和Sanjeev Goyal 对这法则给出一个博弈论的模型，并进行了严格的数学证明[5]。

具体到信息传播，该法则指出有3类人在整个传播中起到关键性作用：内行（Mavens ）、联系员（Connectors ）和推销员（Salesmen ），是他们发起并带动了整个传播过程：内行们相当于数据库，为大家提供信息；联系员是粘合剂，将信息传播到各处；推销员则负责“最后一公里”，说服人们接受该信息。

内行是指那些在某些领域积累有丰富知识的人，他们的丰富经历和权威认证提高了信息阅读者对信息的信任度，很多被大量转载的微博状态都来自某种意义上的“内行”，他们或是某行业的知名从业人员，发布关于该行业的内部信息，或是人们所关心话题的公认专家，发布对于该话题的权威意见，或是相关部门的发言代表，发布热点问题的官方意见... 内行们聚集并提供了最重要的信息，开始形成数据库。在微博这个具体的信息发布平台上，我们可以清晰地看到内行的作用——名人效应，事实上，新浪微博的成功在一定程度上来自于名人微博的创意

[6]，各个领域的名人受到高度的关注，其发布的信息往往迅速传播，并成为一定时间内的话题导向。

联系员是那类富有社交天赋的人，其人际关系可能同时涉及到几大领域。关于这个问题有著名的“六度分隔(SixDegrees of Seperation) ”理论[7]，该理论指出世界上任何两个人之间的间隔平均仅为六度；但作者指出，并不是每一个人都与其他人之间仅存在六度之隔，它的实际意义是有个别一些人与其他所有人相隔仅几度，而大部分人就是通过这几个人与世界联系起来的。“一个思想或一种产品离联系员越近，这种想法或产品推广的势头或可能性也就越大。”同样的，一条信息在发布之后被联系员角色转发之后就会迅速扩展其受众面，实际经验也表明，很多情况下，一条信息在某个关键人物的转发之后，其传播速度和广度发生跳跃，这就是联系员的作用。此外，在Web2.0的理念下，SNS 网站充分显示了六度分隔理论中所谓“弱纽带”的威力，事实上，网络社交平台就是依赖“弱纽带”关系建立起来的[8]，微博让永远无法相遇的人跟踪彼此的动态，人人网使人们有效地管理不常联系的熟人，社会学家格兰诺维特（Mark Granovetter ）指出，弱纽带是新信息和新思想的主要来源[9], 这是我们信息传播极为重要的一环。

推销员是指那些能说服你的人，他们或许不是知识丰富的内行、也不是社交广泛的联系员（当然也有可能同时兼有内行或联系员的身份，甚至三者合一），但他们能解决这“最后一公里”，说服人们接受信息。信息能不能真正病毒式的扩散出去，最最重要的一点是有多少强有力（说服力）的推销员在为此努力，对应到微博状态的传播，就是阅读人的评论。正如我们在网上购物时要查阅顾客评价，我们在考虑是否认真阅读甚至转发一条状态时，他人的意见是很重要的一环，这种从众的潜意识在某种程度上左右了我们的一部分信息传播行为，这也是很多微博谣言之所以能够借由推手策划得以迅速散播的原因[10]。

流行三要素理论的第二个法则是附着力法则。个别人物法则揭示的是人们传播信息的行为，而附着力法则则阐述了被传播信息的本身特征；在同等条件下，附着力越高的信息引爆流行的可能性越大。所谓附着力，就是人们得到信息后，对其留下了多大的印象、有没有采取相应的行动、以及采取行动的程度如何。信息时代产生的巨大信息量使得信息的附着力成了难题。在Tipping Point 一书中，作者重点分析的一个实证研究就是在附着力方面，这个实证研究就是著名的“芝麻街（Sesame Street ）”电视媒体实验[11]。

学界对信息附着力的研究，将其中最重要的要素概括为六个方面（Six character-istics of sticky messages ）：简洁性（simplicity ）、不可预期性（unexpectedness ）、具体性（concreteness ）、可信性（credibility ）、情绪性（emotions ）、叙事性（stories ）[12]。附着力的六个要素在我们阅读信息时都能深切体会到：简短的信息更容易被认真阅读，爆炸性的新闻会引起强烈的关注，热点高频新闻词的出现更加吸引眼球，还有各种咆哮体、凡客体、淘宝体等等，我们的信息接收行为被这六个因素强烈地引导，相关的调查研究也在实证上确认了这一点。

2.1.3环境威力法则

流行三要素理论的最后一个要素是环境威力法则。根据环境因素的差异，环境威力法则可分为“破窗理论”和“150法则”两部分。破窗理论（Break Pane Law ）[13]阐述的是具体情境对人的行为的影响，进而产生对信息传播的影响，其理论核心是“犯罪是秩序混乱的必然结果”。该理论指出人们习惯于从内在特征来解释事物，而忽略了具体情境所起的作用，但是人的行为是社会环境的作用，外部环境决定着我们的心态。在微博类信息的阅读转发行为中，一些环境因素尤为突出，比如信息转发在一天中的固定时段、在一周的周末产生高峰，在这些信息阅读转发的高峰段发布信息，被关注和传播的可能性将大大提高。此外，一些网站版面的设计，比如分享按钮的设置，信息呈现的形式，都强烈地影响信息的传播特性。

与破窗理论阐述的相对共性环境影响不同，150法则（Rule of 150）[14]揭示了相对个别环境的影响－－群体环境。心理学家指出，人们在人群中考虑得出的结论，往往与他们独自一人时得出的结论截然不同－－这是因为当人们成为群体中的一员时，就很容易感受到来自身边众人的压力、社会规范和任何其他形式的影响。任何新兴的、意识形态的传播都要借助于这种群体力量，例如BBS 社区就是其中一种方式。

150法则进一步指出，群体环境的影响力并不是无止境的，所谓“群体”，它存在一个极限数量－－150, 这个数量在科学上的解释是，因为受“社会通路容量”制约，人类大脑只能处理大约150人左右的群体关系[15]；也就是说，当一个“群体”的活跃人数超过了150人时，群体对成员的影响力开始下降。对应于本课题的研究，150法则的意义在于解释信息传播的起伏模式，信息传播爆发点和衰落点的出现。这将在google trends 的研究中有鲜明的体现

2.2信息计量学和网络计量学

信息计量学也叫情报计量学，最初是由前联邦德国学者奥托纳克(Nacke,O)在1979年提出的[16]。目前分为4个大的分支–文献计量学、科学计量学、信息计量学、网络计量学。

3研究方法71997年T.C. 阿曼德(TomasC. Almind) 首次提出了“网络计量学(Web/Cybermetrics)”概念[17]，将传统文献计量方法使用在Web 分析上。网络计量学是应用文献计量学及网络挖掘等信息技术，对网上信息的组织、存储、分布、传递、相互引用和开发利用等进行定量描述和统计分析，以揭示其数量特征和内在规律的一门新兴分支学科。

网络计量学通常可统计诸如语言、单词、词汇、频次、作者特征、作者合作的能力和程度，还有对作者的引文分析，学科或数据库增长的测量，新概念、新定义的增长、信息的测量、信息措施的形式与特征等信息。

网络信息的急速膨胀为网络计量学提供了广阔的“用武之地”，统计与分析结果对于指导信息资源的组织管理、完善网络信息检索、满足用户需求等许多方面都有实践意义。

3.1

3.1.1研究方法数据的提取与初步分析原始数据提取

我们的数据来源为新浪微博。原始数据分为两部分：普通微博和热门微博。普通微博即为在一段时间内的所有微博中随机抓取了一部分，作者和题材都很分散，可以代表整个微博数据的状态。热门微博来自新浪微博官方统计的转发数热门排行榜，转发量从几百到十余万不等，主要来自于名人言论，官方发布，热门事件和一些大众话题等。之所以使用两种数据来源，是因为官方的统计资料分布于转发数比较大的区域，不能反映一般用户的真实情况；而如果只随意抓取数据，则获得的资料可利用性又较低，可能混入过多的垃圾数据。而且两种来源的数据，为之后进行的分组别统计和研究提供了直接分类法，即考察在转发数分布较高处和较低处的不同规律。以下的数据提取和分析，如未说明则都是把这两个样本分别做的。

由于新浪微博本身的限制和出于对服务器的礼貌协议，我们仅抓取了自2010年12月29日至2012年2月14日的热门微博30381条，以及普通微博7858条。抓取过程采用了Python 脚本和PyQuery 开源库作为支持。详细抓取算法这里不再赘述。

3.1.2简单数据提取

从原始数据中，我们提取出了如下几个数据：

1. 微博发布人信息，包括：发布人的粉丝数、关注人数、已发微博数、是否“加V ”（意为是否是新浪认证用户）。

2. 微博发布时间信息，包括：微博发布的年、月、日、时、分、星期几、距2012.2.14的天数。

3. 微博基本信息，包括：微博的转发数、评论数、是否包含“@”（意为提及某个新浪用户）、包含“#”（意为标签）的数量、是否包含图片、是否包含网址、微博长度(并不是所占字节数，而是本身的内容长度，即：每个汉字、英文字母、标点符号都算作一个字) 。

3研究方法

3.1.3热门词汇分析8

为了能够量化地度量热门词汇的量进而分析热门词汇和转发量的关系，我们使用了Google Trends 作为指标。然而出于对GoogleTrends 服务器的礼貌控制，我们只能对有限数量的词取出其Trends 值。于是这里面需要对最能影响内容的词语进行一个判断与过滤。同时，热门词汇是以词为单位的处理，而把微博的内容转换为词语，需要用到中文分词技术。

1. 中文分词

与英语等拉丁语言不同，汉语没有空格这种自然的词语划分间隔，所以需要使用分词系统来将句子转化为词语的集合。我们使用的是SCWS(http://www.ftphp.com/scws/) 开源中文分词系统，把微博切分成单独的词，并且得到了词的词性。初步分词后，我们得到了76220个词汇。这个词汇量过多，并且有很多没有价值的，需要进行过滤。

2. 初步过滤

对于数词、代词、助词等常用但无核心意义的词语，我们会首先滤掉。这部分词在信息检索中被称为停留词(StopWord) 。在这部分被过滤的词如：的（目的这样的词不会因为这个被过滤）、大家、么等等。进行初步过滤后，剩下了69313个词汇。

3. 进一步排序

然而这样的规模还是过大，我们需要对这批词汇进行一个排序，已得到最应该优先获取其Trends 值的列表。这里面需要介绍一个非常重要的概念:IDF(InversedDocument Frequence) 。首先介绍一下总词频(N)和文档频率(df)。

N:总词频。是指某个词在所有文档里面出现的次数。这能从很重要的一方面说明一个词语的重要程度。但这样，一些很常用的词语也会被算入，比如“的”这样的词，在我们抓取的微博里面出现了十万次左右。根据Salton 的工作[18][19]，我们需要使用另一个量来使得这种级别的常用词不会如此明显。

df:文档频率。指出现了某个词的文档数目。这里的每一个文档，在我们的研究中就是一条微博。

于是，有重要的经验公式定义idf:

id f =ln N

d f (1)

这个idf 就能够表征一个词真实的重要程度。而我们这里，为了同时反映其热门程度，使用了idf ·log(N)作为排序依据。

4. Google Trends

由此，我们编排除了一份2000词的热门关键词列表。我们从http://www.google.com/trends/获取了这份热门关键词列表的Google Trends 值，用此值来衡量关键词在一段时间内的热度。

Google Trends 是Google 公司推出的一个产品，它用来分析关键词在Google 上的搜索量随时间地点的变化趋势。我们采用的具体数值是“ﬁxedmode ”下，Google Trends 值在最近一段时间内的平均值。“ﬁxedmode ”是指对数据做了这样的定标：设1.0为一个

特定月份的平均搜索量，其他月份的搜索量除以此固定月份的搜索量即可得出该月的Google Trends 值。因此由这样得出的Google Trends 值即可反应出关键词在最近一段时间内的搜索热度，用来代表该关键词在网络上出现的热度是合理的。

最后，我们把每条微博中出现的热门词汇的Trends 值加起来，得到了其内容的关键词热度。另外，因为人名以及地名也会对结果有影响，但是关键词列表中无法包含所有的人名地名，故把词性为nr （人名）和ns （地名）的词的Trends 值直接定为0.1一起加到总的Trends 和当中。

3.1.4情绪处理

我们依据情绪状态问卷POMS 对情绪的分类将其分为正性情绪与负性情绪[20]，并综合微博中出现的全部表情词汇，列出相应的情绪词表。例如，高兴、好受、开心等为正性情绪词；怒、愤慨、愤怒等为负性情绪词。完整词表见附录1。我们对所有微博分别统计了出现正性情绪词和负性情绪词的次数，作为2个参量。

3.2数据分析

根据前文所依据的“流行三法则”理论，我们将因变量分为三大类：分别是与发微博人（关键人物）有关的因素，与微博内容无关的外在属性（环境威力）因素，微博的内容和技巧（附着力）因素。

利用统计和信息计量方法，对各变量进行模型设定和回归实证，探讨微博转发数与以上三大类因素是否有关及相关系数的大小，并且研究在不同的用户人群中这种关系的不同。

3.2.1研究变量

本研究依据流行三要素理论，分别考察三种要素对信息传播程度的影响。其中，关键人物包含微博发布人的社会影响、活跃程度以及是否获得认证三个维度；环境威力包含微博发布时间、发布日期以及距今时间三个维度；附着力包含微博内容的影响力指数、微博字数、以及情绪三个维度。

因变量：微博转发数TransNum

如何衡量一条微博所携带的信息的传播程度？其转发数无疑是最直接和罪有说服力的考量，并且十分容易取得。纵观采集到的的数据，转发数从0到几百上千分布，其中所反映的信息传播的畸形差距也显然可见。

与转发量相似的还有“评论量”这一特殊的因素，并且其本身也体现了以上三大因素的作用，即评论量与转发量是同一类型的数据，但由于其对信息传播的贡献并不大，反而更体现了用户作为个体的交流，因此不是我们选择的首要观察因素。

“关键人物”–微博作者因素

1. 发布微博人的社会影响Fans ：统计量是发布微博人的粉丝数。粉丝数是表征一个用户受关注程度以及其自身社会认知的最直接客观的变量。由于发布的微博只能被自己的粉丝

及时看到，因此粉丝数代表了有可能转发此微博的用户数目，是我们考核的转发数的基数变量，十分重要。

2. 发布微博人的活跃程度Act ：统计量是发布微博人的已发帖量。一个用户越活跃，则其可能获得的关注也越多，并且发布的微博数越多，用户有可能在内容和技巧等方面有更多经验，因此也会和转发数产生关系。

3. 发布微博人的认证Iden ：虚拟变量，根据是发布人是否被新浪官方加V 标志，加V 时取1。该虚拟变量从一个侧面反映了发布微博人的社会威信，并且考量新浪加V 的影响也是有意义的。

“环境威力”因素–与微博内容无关的外在属性

1. 发布微博的时间WorkT 和SleepT ：将一天中的24小时根据一般生活习惯分为三个区间段–工作时间9:00到17:00，晚上活动时间17:00到凌晨1:00，睡眠时间是1:00到9:00。因此设置两个虚拟变量WorkT 和SleepT ，取1时代表处于工作时间段和睡眠时间段，根据结果比较三个时间段的不同影响。

2. 发布微博的日期Weekend ：对1的一个修正，因为在周末人们的活动并不严格受1中划分的限制，因此加入一个虚拟变量Weekend 表征是否发帖时间在周末（周六和周日），取1时在周末。

3. 发布微博距今时间T ：一条微博内容在某一时刻的转发数应当与其自发出到该时刻的时间有关，以天数计量T 。

“附着力”因素–微博的内容和技巧因素

1. 微博内容的关键词影响指数Key ：这是比较关键的因素，较大程度上反映了该微博的主题指向、涵盖范围和涉及面等。首先利用中文分词算法对收集来的微博语料进行处理，切分出核心词汇（具体算法和思路见上文所述）；之后对这些词汇中的高频部分进行人工筛选，目的是排除一些由于算法不完善导致的问题，如与具体内容无关的高频词汇等；再通过由google 公司提供的trends 搜索功能，获得某个关键词的社会影响度，一个词被人群搜索的频率足够反应其受关注程度；最后对一条微博内容的所有关键词影响度进行加总，作为其总关键词影响指数Key 。

2. 微博内容的附加信息：关键词只衡量了微博的文字信息内容，除此之外一条微博还包括许多附加信息，如图像、链接和对他人的引用（微博系统特有的@功能）等，从而增加以下三个虚拟变量:

Img ：取1代表该微博内容含有图片或视频信息

Link ：取1代表该微博内容含有向外的网页链接

At ：取1代表该微博内容中有@了其他用户

3. 微博内容的字数Words ：考虑到微博限制了140字的篇幅，因此信息的聚集量比较大，我们猜测字数的差别影响也会比较大，因此将其作为一个考量。

3研究方法11

4. 微博内容的情绪色彩Pos_Emo和Neg_Emo：信息所携带的情绪也对其传播特征有很大影响，如人群容易受到“讥讽”“愤怒”等情绪的感染。我们依据情绪的效价，将微博涉及的情绪词分为正性情绪词与负性情绪词两个自变量，并依据每条微博中情绪词出现的个数判定其情绪程度。

以上变量中，我们对于数值比较大的粉丝数采取除以1000的处理，方便系数值的观察。3.2.2

回归分析

出于样本量的限制，我们筛选出了约8000条一般微博和约10000条热门微博数据进行实证分析。

分别对一般微博数据、热门微博数据以及总体数据三组进行以下多元线性回归和显著性检验：

TransNum =a 1

Fans

+a 2Act +a 3Iden +b 1WorkT +b 2SleepT +1000

b 3Weekend +b 4T +c 1Key +c 2Img +c 3Link +

c 4At +c 5Words +c 6Pos _Emo +c 7Neg _Emo (2)

3.2.3

回归结果Variable Fans/1000Act Iden WorkT SleepT Weekend T Key Img Link At Words Pos_EmoNeg_EmoConstant Observatons R-squared

总体数据TransNum 0.457***0.107***-622.476***462.833***100.329-371.772**15.042***15.082***Omitted -388.652**1543.403***24.412***102.80137.531558.145***175110.204

热门微博TransNum 0.162***-0.029***-1788.913***2225.468***1228.554***-523.159*-3.871***1.910　1285.136***-663.769***771.912***11.909***-189.70353.2619201.414***96530.0325

一般微博TransNum 0.207***-0.009***32.569***-1.840-0.03841.9540.038-0.043Omitted -18.523**-2.4870.353***-4.415-6.844-9.283*78580.0689

F-test 344.89***23.15***44.68****

注：p 代表拒绝零假设的概率，显著性程度***p

4相关讨论3.2.4

数据解释

由表中可知：

1. 微博用户粉丝数对于转发数的影响最为显著，无论是对于热门微博还是一般微博都是如此，一般而言每增加一万个粉丝，微博平均多转发2∼4次。

2. 微博用户的活跃度和认证对于转发数的影响虽然显著，但是影响系数较小或是影响方向并不确定。有趣的一个现象是，官方认证对于微博尤其是热门微博的影响反而是负向的。3. 发布微博的时间分布和星期分布对于转发数的影响并不显著，之所以有的系数显著可能是大样本与虚拟变量之下的假设检验系统性缺陷导致。不过可以看到的是，在白天发布的微博平均转发数高于半夜发布的微博。

4. 发布微博距今的时间对于转发数的影响也并不明显，之所以有的系数显著可能是大样本与虚拟变量之下的假设检验系统性缺陷导致。5. 关键词影响指数对于转发数的影响不明显。

6. 微博携带有影像对于转发数的影响明显，有图片或者视频的微博平均转发数比没有图像的微博多1285条，但是这只是针对于热门微博的分析，一般性微博中携带图片的很少，可以忽略。

7. 微博携带有链接对于转发数有负的显著性影响。

8. 微博@其他用户对于转发数的影响存在差异性，之所以有的系数显著可能是大样本与虚拟变量之下的假设检验系统性缺陷导致。

9. 微博的字数对于转发数有显著的正效应，多一个字可能带来十余条的转发增加。10. 情绪对于微博的转发影响很不明显。11. 整体检验显示回归联合显著。

4.1

4.1.1

相关讨论

关键人物的影响

粉丝数的影响

经过我们的统计分析，微博用户的粉丝数是与微博信息的传递关系最直接最显著的因素。这与我们日常的观察也很吻合，对于动辄成百上千万粉丝的热门用户而言，几乎每一条微博都有上千次转发，而粉丝只有几十到几百的普通用户则往往是转发寥寥。其中的主要原因可以归结为以下两点：

1. 微博用户的粉丝一大部分是喜爱或关心该用户的人，尤其是对于热门明星或是某个特定爱好群体的代表性微博等，因此粉丝数也可以理解为大众对于和其有关的新闻的关心程度，而且粉丝有比较大的动力去转发，目的是为了表征自己的喜好或引起微博作者关注等。

2. 粉丝这一群体在微博特殊的浏览设置下，可以理解或抽象为一个平台，每个用户所面对的平台并不相同，而粉丝数就是这个平台的大小。因而尽管是在同一个网络系统中，但是用户信息传递的起点就是“不公平”的，而且这种平台效应会随着转发的深入以指数的形式影响着信息的传递，即粉丝中的用户也有粉丝，并且热门用户的粉丝中也会存在热门用户，这种传递效应会不断深入下去，甚至一个重磅消息在短短一天内就可以遍布整个信息网络。热门用户的微博就比如刊登在全国性报纸上的新闻或是核心电视台发布的消息，有着广大的受众和潜在的信息传递者。

而其余两个与微博作者有关的因素则对于信息的传递效用不明显：4.1.2

用户活跃程度的影响

用户的活跃程度是一个历史累计统计，越是活跃的用户，其信息的形成可能越有经验，同时积累的关注度可能更高。但是之所以在分析中不显著，主要原因在于：

1. 普通用户的活跃程度与热门用户差异并不大，由结果而言活跃程度也许更多的是与一个人对微博的依赖程度或是其表达自我的诉求多少有关，而普通的用户在表达自我方面的限制反而更少。

2. 活跃程度对转发数存在理论上的一定的负作用，受众肯接受或认真阅读的消息是有限的，发布的信息过多可能使得用户的选择分散。有的名人用户发布信息的频率很低，但是也许正是由于这种低，使得一旦信息出现，粉丝大多选择转发。4.1.3

身份认证的影响

身份认证这一虚拟变量对于转发数的负作用看似很难理解，但经过对数据的人工观察后，发现了以下两个引起该效果的原因：

1. 新浪官方对于用户认证的门槛较低，加V 的用户只有数百粉丝的大有人在，无法将此作为一个划分用户影响力的主要因素。

2. 用户认证一般是针对于实体人的用户，而许多热门微博如“可爱动物中心”“我们爱讲冷笑话”“微博搞笑排行榜”等用户则是不加认证的，这些以一种共同的兴趣诉求等建立起来的抽象用户无法获得认证，但其信息的传递效果却很显著。

4.2外部环境的影响

由于提取数据的限制，能够定量研究的外部环境只有时间相关的变量，主要包括的是发布

微博的时间点和微博进行转发的时间段。而两者的影响并不很显著，这与网络媒介的特殊是分不开的：

1. 半夜发出的微博并不意味着不会有转发，因为第二天它还是会出现在粉丝们的页面上，并且考虑到信息传递是不断有时延的，则具体的时间点对其传播特征不会有很大影响。这与传统的媒体是不同的，一则电视上的广告播出结束后就无法再与观众接触，但网络时代的信息却是不断累积或者说是膨胀的，其存储量与并发性惊人，因此时间的点效应有所消减。

2. 正是由于信息传递的时延特性，微博的转发数与发布微博距当时的时间段长度应当存在关联。但之所以表现的不明显，可能的原因是抓取到的微博发布时间范围比较大，由于当间隔时间大于一定值时可能影响就会逐渐消减，因此其中的关联受到双向作用而不明显。

3. 对于数据的统计显示，微博转发数与月份、日期、周几、小时等时间因素似乎都没有明显的关系，呈现出一种均匀分布的趋势，这也验证了网络信息系统特性消减时间点效用的观点。有趣的是，唯一波动比较明显的是在3月份和7、8月份的转发数呈现一个小的波峰，我们怀疑这与学生群体的寒暑假有关系。

转发量与各个时间参数的关系图，请见图1至图5。

图1:转发量与月份关系图

图2:转发量与周几关系图

图3:转发量与日期关系图图4:转发量与小时关系图

4.3

4.3.1

内容附着力的影响

关键词影响指数

出乎我们的预料，反映一条微博内容因素的关键词影响指数竟然对转发数并没有显著的作用，在控制了关键人物和外部环境的影响后，内容的作用并不向理论指出的那样重要。转发量与Google Trends 和的散点图见图6。这其中有关的原因大致可以分为两部分：

1. 与研究观测有关的原因：一段文本资料的影响力和吸引力是难以衡量的，采用文本分割的方式获取所有的名词并进行手工筛除后的词汇大致可以反应微博内容的主题，而利

4相关讨论

图5:

转发量与分钟关系图图6:转发量与Google Trends 和的散点关系图

用搜索引擎关注度排行度量其具体影响也是目前最为合理的方法之一。但是，这样度量出来的文本内容，无法体现文本的语言技巧和可能隐藏的内在涵义，如热门的“凡客体”“咆哮体”等是一种语言文体的创新而非语言内容。中文语言博大精深，受到用户追捧的微博经常体现了中文双关、蕴涵、指代等幽默元素，这也是现有的文本分析技术无法探及的。

2. 与网络时代特性有关的原因：网络时代是一个信息爆炸的时代，也是一个信息泛滥的时代。互联网的开放性和人们言论自由的表达诉求，使得每一个话题在微博上都能产生亿万计的观点，而这些微博内容的关键词差异并不大，根据简单的文本分析获得的指数也会相似。这反映了网络社区的一个特点，越是热门的话题和事物，参与讨论和评价的用户便越多，因此决定一条特定的热门信息传播的关键因素已经不再是其本质内容，而是发出它的用户的用户特征。例如同样是对于慈善活动的宣传和呼吁，普通人发布的微博影响力远远不及公众名人。而很多普通用户中产生的热门微博，往往是经过热门用户的转发后才获得了广泛传播，热门用户起到了间接的第二作者的作用。4.3.2

微博内容的字数

微博内容的字数对于其转发数有显著性的正影响：

这与微博内容的字数限制密不可分，由于140字的严格文本限制，微博的文字信息密度很大，这也使字数增加带来的信息增加相应增长。而信息传递中的个体，更倾向于选择结构完整、信息携带量大的内容，这也是我们从热门微博文本数据中观察到的结果。此外，随着长微博工具的使用，我们对于字数的统计也存在一定偏差，但是这种长微博的出现也从侧面说明了用户对于一次性传递更多信息量的需求。4.3.3

微博携带的图像信息

微博携带图像信息对于转发数的正效应，见图7：：

在文本信息受限和视觉信息日益膨胀的环境下，图片和视频对于微博内容的补充甚至是以图像信息为主的微博无疑会受到用户的欢迎，这种选择偏好与传统媒介中图像的作用是类似的。

5结论

图7:转发量与是否包含图片的关系图

4.3.4

情绪

图8:转发量与是否包含链接关系图

依据流行三要素理论，情绪性作为附着力的一个因素会对信息的流行性产生影响，但分析结果与假设结果不符，这可能由以下两个因素导致。第一，由于情绪是微博内容的一个组成部分，因此不可避免地在网络用户特征大于内容特征的背景下无法体现其作用。其二，每条微博中出现的情绪词个数不能够完全体现其情绪的唤醒程度，如微博中咆哮体等具有较高情绪唤醒程度的文字格式，我们并未能在分析中有所体现。4.3.5

链接因素

首先向外链接的负作用看似无法解释（如图8），但通过对数据的统计后发现，带有链接的微博只占很小一部分，这是导致其负作用的主要因素，也表明其对于研究转发数的意义并不大。

5结论

在影响转发数（微博信息传递）的诸多因素中，我们发现：1. 受众的多少比内容的热门程度影响更大，用户特征大于内容特征。2. 由于网络媒介的累积效应，信息发布的点时间影响并不大。3. 与传统媒介类似，携带信息量的多少和途径丰富性对传递影响较大。

6.1

微博营销

实践意义

微博营销是当前广告和营销界最新兴和热门的研究，与传统营销的区别在于，其互动性更强，可能的受众更广，同时成本更低。

根据本研究的结果，微博营销的关键在于吸引更多的粉丝，虽然内容本身会对粉丝的积累有正作用，但更重要的结论是粉丝的特征对于转发行为的影响要大于广告内容的技巧。此外，根据研究发现，字数所表征的信息量在微博这种平台上对转发行为有重要影响，图片也对转发有重要正作用。据此，可以提出以下关于微博营销的策略。

7不足与展望

（一）增加粉丝数

根据一些成功的微博营销案例可以总结出增加粉丝数的常见策略：1. 执行力，微博要高频率地更新，增加“曝光率”2. 名人效应的利用，请明星做微博软广告3. 通过特定微博内容吸引粉丝，然后穿插进行广告4. “互粉”策略，通过关注别人而引起别人关注（二）粉丝的特征

这就是所谓质量粉丝的培养，培养质量粉丝的意图在于通过优质粉丝的二期转发行为扩大微博信息的接触域，并且根据理论，关键人物的二期转发行为将有可能“引爆”信息的传播。所以微博营销要重视质量粉丝的识别和争取。

（三）信息量和图片

微博营销应当尽可能传达丰富的信息，并且附以精心选取的图片，因为生动的图片说明不但提高了信息密度，还增加了生动性，更易诱导信任和转发。

6.2微博水军和僵尸粉的发现

使用微博水军和僵尸粉是一种破坏网络信息秩序的行为，最近这种行为的频繁出现对有效

识别它们的方法提出了迫切的要求。

新浪官方对微博水军的定义如下：

水军的帐号基本上都是机器（如一些微博营销软件）在维护，这些帐号从帐号本身的属性和他的访问行为及操作行为上都有一些明显的特征，如帐号的昵称、头像等都具有批量性，访问行为都与正常的浏览器访问行为有明显差异。

对僵尸粉定义如下：

僵尸粉一般指极度不活跃的用户，多是被人注册来人为增加粉丝数或制造垃圾微博的账户。界定标准有三条：已注销的用户、粉丝数低于5个、微博数低于5条。只要满足其中任何一条，就可认定为僵尸粉。

针对以上界定标准，借由我们在研究过程中发展的相关技术手段，提取用户账号的昵称、粉丝数、微博数和转发行为，并统计高转发量微博的各项指标数据，从而可以判断账户及其转发现象是否合理，由此自动甄别出可疑的粉丝和微博内容，大大缩小人工排查的范围，可以在一定程度上满足识别网络水军和僵尸粉的需求。

7不足与展望

7.1

本研究所存在的不足

1. 尽管采集了数万条的微博数据，但是这些相对于微博系统而言只是沧海一粟，因此代表性有所限制。

2. 考虑的影响因素有所局限，还存在很多思考不到或是数据采集不到的地方。

3. 对于微博内容影响指数的量化不够完善，有许多现有自然语言处理技术无法分析的因素。

7.2后续研究的展望

1. 本研究所抓取的微博时间跨度较大，是在较大时间尺度上的综合分析，未来有更加细致数据的情况下，可以缩小时间跨度，从而更好地研究微博的转发数与发布微博距当时的时间段长度的关联效用。

2. 我们在研究中发现一个有趣的现象：3月份和7、8月份的转发数呈现一个明显的波峰。猜想这与学生群体的寒暑假有关，关于这一点的实证问题还有待研究。

3. 由于现有技术手段的限制，尤其是受限于现有文本分析技术和中文语言特点之间的鸿沟，我们无法对文本的语言技巧和可能隐藏的内在涵义进行细致可靠地分析，所以相关方面的研究还有待未来的技术手段发展。

4. 本研究发现用户特征的影响远大于内容特征，从而使得内容特征的作用被相当程度地掩盖，未来的研究可以通过剔除用户特征的作用进行回归或者通过问卷调查、个案分析等手段，对内容特征的作用进行更加细致的分析。

参考文献

[1]Reed, W. J. “The Pareto, Zipf and other power laws ”, Economics Letters, 2001, 74(1):

15–19.

[2]Anderson, Chris. “The Long Tail ”Wired, 2004.

[3]Anderson, Chris. The Long Tail:Why the Future of Business is Selling Less of More. New

York, NY:Hyperion, 2006.

[4]Malcolm Gladwell. “The Tipping Point:How Little Things Can Make a Big Diﬀerence”

, 2002.

[5]Galeotti, Andrea, and Sanjeev Goyal. “The Law of the Few. ”American Economic Review,

2010, 100(4):1468–92.

[6]戴丽娟. 微博名人战略研究, 《暨南大学》, 2011.

[7]Reza Bakhshandeh, Mehdi Samadi, Zohreh Azimifar, Jonathan Schaeﬀer.“Degrees of

Separation in Social Networks ”, Fourth Annual Symposium on Combinatorial Search, 2011.

[8]Caroline Haythornthwaite, “Strong, Weak, and Latent Ties and the Impact of New Media ”

,The Information Society:An International Journal,Volume 18, Issue 5, 2002.

[9]The Strength of Weak Ties. Mark S. Granovetter. American Journal of Sociology, Volume

78, Issue 6, 1973, 1360-1380.

[10]孙海文，微博谣言，从众流瀑中的虚假信息传播，传媒观察，2011.

[11]Huston, Aletha C; Daniel R. Anderson, John C. Wright, Deborah Linebarger, Kelly L.

Schmidt. “Sesame Street Viewers as Adolescents:The Recontact Study ”. In Shalom M. Fisch, Rosemarie T. Truglio. “G ”is for Growing:Thirty Years of Research on Children and Sesame Street. Mahweh, New Jersey:Lawrence Erlbaum Publishers, 2001:p.133. [12]Chip Heath,Dan Heath, “Made to Stick:Why Some Ideas Survive and Others Die ”,

Random House; 1st edition, 2007.

[13]Philip Zimbardo,InﬂuencingAttitudes and Changing Behavior. Reading, MA:Addison

Wesley Publishing Co., 1969.

[14]A. Hernando, D. Villuendas, C. Vesperinas, M. Abad, A. Plastino,Unravelling the

size distribution of social groups with information theory on complex network-s,http://arxiv.org/abs/0905.3704v3

[15]Dunbar, Robin. Grooming, Gossip, and the Evolution of Language. Harvard University

Press, 1998.

[16]Nacke, O. “Informetrie:eine neuer Name füreine neue Disziplin ”. Nachrichten für

Dokumentation, 1979, 30(6):219–226.

[17]Tomas C. Almind and Peter Ingwersen. “Informetric analyses on the World Wide Web:

Methodological approaches to ‘webometrics ’”. Journal of Documentation, 1997, 53(4):404–426.

[18]Salton, G. and McGill, M. J. Introduction to modern information retrieva. McGraw-Hill,

1983.

[19]Salton, G., Fox, E. A. and Wu, H. Extended Boolean information retrieval. Commun. AC,

1983, 26:1022–1036.

[20]祝蓓里，POMS 量表及简式中国常模简介，《天津体育学院学报》，1995.

A 附录：情绪词表20

A 附录：情绪词表

1. 正性情绪词：

高兴、好受、开心、快活、快乐、庆幸、舒畅、舒服、舒坦、爽快、甜美、甜蜜、甜丝丝、痛快、喜出望外、喜悦、喜滋滋、心花怒放、心旷神怡、幸灾乐祸、愉快、入迷、着迷、入神、喜欢、心醉、快慰、愉悦、畅快、大喜、欣喜、喜洋洋、兴冲冲、乐融融、乐陶陶、乐呵呵、乐悠悠、甜滋滋、兴高采烈、兴致勃勃、欢呼雀跃、兴趣盎然、手舞足蹈、欢天喜地、称心如意、心满意足、欢欣鼓舞、喜出望外、喜上眉梢、喜笑颜开、喜形于色、眉飞色舞、乐不可支、心旷神怡、心花怒放、欣喜若狂、洋洋自得、满面春风、自得其乐、满意、如意、如愿、顺心、随意、幸福、圆满、精力旺盛、动人心魄、欢喜、渴望、销魂、有活力、狂热、悦耳、兴奋、幻想、飘飘然、有希望、扬声欢呼、无忧无虑、可爱、幸运、惊奇、乐观、满意、积极、太棒了、激动、自豪、赞赏、有吸引力、美丽、有胆量、自信、无惧、英雄、独立、聪明、无敌、胜过、可爱、强大、有力、顺利、蓄意、尊敬、坚定、确信、有才、得胜、智慧、值得、精力充沛、主动、机敏、活跃、野心勃勃、生气蓬勃、沸腾、自由、活力、生气勃勃、有动力、精神抖擞、复活、恢复生气、有朝气、震颤、生龙活虎、有生气。2. 负性情绪词：

怒、愤慨、愤怒、生气、恼火、气不过、气不忿、气愤、愤恨、激怒、激动、痛苦、挑战、不高兴、不满意、暴怒、怒气冲冲、挫折、盛怒、讨厌、残酷、敌意、激发怒气、发怒、不愉快、厌恶、烦躁、发狂、恼羞成怒、不舒服、暴乱、狂怒、恼怒、叛逆、愤慨、反抗、无情、怀恨、不可原谅、激烈、报复、记仇、残暴、恶毒、悲伤、抓狂、心情低落、挫败、气馁、堕落、忧郁、丧气、失去勇气、心情不佳、抑郁、阴沉、哀伤、闷闷不乐、落魄、悲哀、悲惨、哀恸、麻木、悲观、听天由命、心情不好、郁闷、可悲、悲伤、不快乐、害怕、焦虑、畏惧、吃惊、挂虑、失去、不设防、绝望、挂念、易怒、惧怕、烦躁、发狂、惊骇、惧怕、歇斯底里、不安、不耐烦、危险、神经质、恐慌、失控、被情感淹没、惊慌、茫然若失、紧张、不耐烦、无法镇定、吓到、压迫、紧绷、恐惧、威胁、不舒服、担心、脆弱、担忧、支配、恐吓、打扰、征服、批评、压榨、羞耻、罪恶、歉意、过失、不好、贬低、受责、责备、堕落、没面子、尴尬、暴露、不智、卑微、屈辱、受辱、没规矩、归咎、嘲笑、懊悔、懊恼、可笑、腐败、轻蔑、抱歉、愚蠢、卑贱、奸诈、可耻、阴暗、卑劣、侮辱、淫秽、丑陋、猖狂、疏远、独自、分离、断绝、忽视、冷淡、空虚、想家、忽略、孤立、排斥、孤独、寂寞、不理睬、疏忽、拒绝、不在乎、不重要、不受欢迎、不被想要、不欢迎、虐待、非难、轻视、背叛、被责备、欺骗、批评、堕落、剥夺、破坏、受伤、虐待、误解、疏忽、痛苦、归咎、拒绝、无动于衷、无聊、漠不关心、精力耗尽、疲惫、身心疲乏、不重视、不关心、听天由命、衰弱、懒惰、疲劳、担忧、冷淡、疲倦、困惑、混乱、冲突、混淆不清、杂乱无章、怀疑、慌乱、犹豫、不知所措、错乱、纠缠、迷惑、卡住、哭泣、忌妒、不信任、妄想、怀疑、消沉、哀愁、苦闷、郁闷、恼火、沮丧、失意、自卑讨厌、敌人、厌恶、痛恨、虚伪、报复、仇恨、嫉妒、战争、惊讶、惊愕、不动、麻木、麻痹、震惊、目瞪口呆、惊吓、茫然。