基于标签类型的社会化标签质量测评研究

基于标签类型的社会化标签质量测评研究

南京理工大学信息管理系 李蕾 章成志

(南京理工大学信息管理系,南京 210094)

摘要:随着互联网的发展,Web2.0网站为互联网用户的信息生成、信息共享及信息获取提供了便利

的平台。用户已经从过去的被动接受信息转变到现在的主动发布信息,产生了许多的用户生成内容,

标签就是其中的一种。标签可以用于Web 资源的自动分类、信息检索、信息推荐等不同应用场合,

用户可以根据自己的意愿给标注对象添加标签,而标签多采取自由标引方式,部分标签并不能有效

地揭示资源的内容或主题,就产生了许多低质量的标签,干扰了社会标注系统中资源组织的秩序,

降低了标签在应用场合中的质量和用户满意度。所以本研究开发了标签质量测评网站,用于志愿者

对博文标签、图书标签、图片标签、视频标签、音乐标签进行打分,收集标签质量评估的训练数据

集与测试数据集,并对标签的类型进行划分,收集标签类型分类用的训练数据集和测试集,为以后

基于标签类型的标签质量评估提供数据支持。

关键词:UGC ;标签;标签质量;标签质量测评网站

分类号:TP311 1

Abstract: With the development of the Internet, Web2.0 website provides a convenient platform for Internet users to conduct information generation, information sharing and access to information .The users have shift from passive acceptance of information in the past to take the initiative to publish information, and created a lot of user-generated content, the label is one of them. Tags can be used for automatic classification of Web resources, information retrieval, information recommendation, and users can add tags to label objects according to their wishes. But tags take a more free indexing way , part of the tags do not reveal the content or subject matter of the resources ,so a lot of low-quality tags generated to interfere the order of the social tagging system resource organizations, reduce the tags’ quality in the application and customer satisfaction. Therefore, this study developed a label quality evaluation site for volunteers to rate blog Bowen tags, book tags, picture tags, video tags, music tags to collect training data set and test data set of label quality assessment. And then divided the type of tags to collect the training data set and test set of tags types, in order to provide data to support future research based on tag type label quality assessment. Keywords: UGC; tags; the quality of social tags; social tagging quality evaluation website Quality evaluation of social tagging based on the type of tag

1 引言

社会化标签系统为互联网用户提供了一个便捷的资源描述方式。社会化标签融合了大众智慧,

已有研究表明社会化标签对Web 页面的浏览、组织与索引非常有效[1]。目前有不少学者利用社会化

标签特性,将其用于Web 资源的自动分类、信息检索、信息推荐等不同应用场合,取得了很好的效

果[2-4]。与使用受控词汇来组织资源的方式不同,基于社会化标签的数字资源标注和组织资源的方式,

成本小并且易扩展。由于互联网用户使用的标签多采取自由标引方式,部分标签并不能有效地揭示

资源的内容或主题。社会化标签的质量问题已成为影响其应用效果的重要因素之一,常见的低质量

标签包括:过于个性化的标签、泛滥的垃圾标签和缺乏语义控制的冗余标签等。低质量的标签干扰

了社会标注系统中资源组织的秩序,降低了标签在应用场合中的质量和用户满意度。例如,在利用

社会化标签辅助Web 页面自动标引时标签质量问题会对标引质量产生影响[5]。 本文系教育部人文社科基金规划项目(No.13YJA870020),中央高校基本科研业务费专项资金项目资助(No.[1**********]013)的研究成果之一。

1

目前关于社会化标签质量评估方面的研究还未引起学术界的重视,仅有少数学者对此问题进行

研究,缺少社会化标签质量评估的公开测试数据集。本工作的目的就是开发让志愿者对标签质量进

练数据集与测试数据集。 行打分,对标签类型进行划分的公开网站。通过测试数据的收集,对未来的标签质量的评估提供训

2 研究现状

2.1 社会化标签质量评估研究概述

社会化标签的质量问题主要体现在社会标签的多义词问题、社会标签的同义词问题、社会标签

的主观性、标签拼写错误以及垃圾标签等方面[6],低质量的标签干扰了社会标注系统中资源组织的

秩序,降低了标签的应用效果。

针对此问题,已有研究者提出一些标签质量评估方法。标签质量评估方法总体上可以分为人工

评价和自动评价两类方法。其中:人工评价方法是在用户参与下通过人工评估系统进行;自动评价

可以从无参照评估和有参照评估两个方面进行,自动评价方法既可以只通过标签自身进行无参照评

价,也可以将标签和其他的资源结合进行评估。

标签的人工评价方法利用用户打分来评判标签质量。在2007年Lee 等学者就提出了利用标注用

户的直接在线评价来对标签进行评估,Lee 等学者提出用户在给某一个资源打标签的同时对资源已

经存在的标签添加一个支持或者是反对的态度[7];同年Sen 等学者比较了不同的标签评价的场景,

对一些标签网站的设计方式进行了总结[8]。

标签的自动评价方法中无参照的方法是基于标签自身统计属性来评估标签的质量,2009年

Shaoke Zhang 等学者提出标签的三个统计属性中心性、频率、熵可以用来衡量标签的质量[9];2010

年Fabiano Belém、Eder Martins等学者提出为了提高标签的质量,应用的几个指标包括:标签共现、

标签稳定性、标签描述力[10]。

标签的自动评价方法中有参照的方法可以分为一下六个方面:依据规范词语进行隐含的质量评

估,2006年Guy and Tonkin建议给用户一些打标签的指导,来提高标签的质量[11]。2011年卢章提出

了系统可以显性化提示用户,包括正确拼写,注意单复数,注意同义词等问题,提供一些优良标签

的推荐,适当的时候增加输入限制,来避免垃圾标签[12]。依据标签和主题词的比较进行评估,Karen

G. Lawson[14]、Marliese Thomas[15]、Caimei Lu[16]等学者将标签和美国国会图书馆的主题词进行重合

度的比较;依据用户标签与专家标注结果的比较结果进行评估,2011年Catherine Hall & Michael Zarr

学者将专业人士使用受控词汇对资源进行标引的结果和用户标签进行对比[17];2011年Shu-Jiun Chen

学者将商业机构和用户对资源打的标签作比较[18];依据标签与文本内容关键词的比较进行评估,2006

年Hend S. Al-Khalifa and Hugh C. Davis学者将机器自动抽取的关键字和社会标签进行重合比例的计

算 [19] 。2011年Victoria Lai, Christopher Rajashekar, William Rand利用Amazon 上的用户给出的标签

和twitter 上的大众评论信息抽取的关键词进行比较[20];基于信息检索的方式来评估标签质量,2007

年Koutrika et al等学者提出基于标签和每个资源的共现,利用在搜索引擎中检索标签时返回的网页

排名来评判标签的质量[21];2012年Kwan Yi,Chan Yun Yoo学者提出将搜索引擎的查询词和标签结

合,调查两者之间的形似性和重合度[22];基于用户、资源、标签三者关系来评估标签质量,2010年

覃希等学者利用向量空间模型表征用户特征,检测出隐藏在正常用户群体中的垃圾投放人,以此减

少垃圾标签数量[23]。2011年Xiwu Gu等学者将网页标签的信度定义为打标签者的可信度、网页之间

的语义相似性、标签之间的语义相似性三者之间的关系[24]。

2.2 社会化标签类型研究概述

在社会化媒体网站上,社会化标签具有不同的类型和功能,并不是所有类型的标签在信息组织

与检索中都能发挥正面作用,在不同的应用场合下标签的作用也不尽相同。特别是在标签质量的评

估中,应该针对标签的类型,对社会化标签进行更有针对性的质量评估,因此,事先对标签类型进

行有效划分,发现适用于特定任务的某一或某些类型的标签,然后再将这些标签运用于实际,可以

提高社会化标签的应用效果。社会化标签的类型划分是标签及其应用研究中的一个基础问题。

目前,已有部分关于标签类型划分的研究工作,但尚缺乏一个统一的类型划分标准。目前相关

的工作主要包括:2006 年, Sen & Lam等将标签划分为客观标签、主观标签和个人标签[25];同年,

Xu & Fu 等的将标签划分为描述内容、提供资源一些额外信息(如时间、地点等)、外部属性(如拥

有者类型)、表达对资源评价、用于自我组织的一些个人词汇等[26];2007 年,Melenhorst & Setten 等

将标签划分为内容标签、态度标签、自我提醒标签等[27];2009 年,Bischoff & Firan 等将标签细分

为主题、类型、作者或拥有者、评价、目的、自身任务需要、地点、时间等类型[28];2010 年,Heymann

& Paepcke 等将标签划分为客观和基于内容的、物理属性、意见、个人、缩写词、垃圾标签等类型[29];

2011 年,Böhnstedt & Lehmann 等将标签分为人物或者组织、资源作者或涉及到的人、地点、资源

的类型、资源所涉及事件、主题、目标或任务等类型[30]。

总体来说,标签可以分为四大类型,即:客观标签,描述标注对象的客观信息;主观标签,用

户标记对于资源的主观评价;自我组织的标签,用于自身信息组织与提醒;其他类型的标签,只有

一个学者提出包括缩写词和垃圾标签。目前,学术界对于以上分类的进一步划分还没有一个统一的

标准,而且绝大部分研究都没有针对标签的外部因素或实际应用场景来进行划分。此外,目前尚缺

乏标签类型分类用的公开训练数据集和测试集,在一定程度上也阻碍了社会化标签自动分类的研究。

2.3 现有的社会化标签在线评估系统概述

早在2007年就有学者提出利用在线评价网站收集用户对资源标签的打分,用于得到高质量的标

签,进而可以将评估出的高质量的标签推荐给用户。

2007年,Sen & Lee等就提出了利用标注用户的直接在线评价来对标签质量进行评估,Lee & Han

提出用户在给某一个资源打标签的同时对资源已经存在的标签添加一个支持或者是反对的态度,支

持或者是反对的态度利用一个加号或者是减号来表示,进而可以从用户的态度中得出用户对于此资

源各种客观的描述 [31]。

2007年,Sen & Harpe 等也提出利用用户来提高标签的质量,根据一致性理论用户从别的用户

那看到的标签将会影响用户打的标签,研究显示一旦一个标签受欢迎就会一直受欢迎,用户创建的

标签与他们在社区里看到的标签是相似的,并且进一步比较了不同的人工评估系统,对一些标签网

站的设计方式进行了总结[32]。

此方法准确性高,可以基于用户的需求来评判出高质量的标签,但是此方法需要很多的用户参

以后进一步利用机器学习进行标签质量自动评估提供数据支持。 与,实施起来复杂费时,不能进行大规模的应用,但是我们可以利用此方法进行测试集的收集,为

3 研究思路及网站设计实现

3.1 研究思路

目前关于标签质量的研究基本上是针对标签的单一属性,割裂了标签内容属性与社会化属性之

间的相互影响关系。因此,如何将标签的人工评估与自动评估相结合,将自动评估中的无参照评估

和有参照评估相结合,对社会化标签进行全面的评估,是值得深入探索的问题。现有研究没有区分

应用场合对标签进行质量评估,在不同的应用场合,标签质量的判别标准是不同的,例如:Librarything

上用户根据自己的要求对图书进行标注,这种场景下,情感类标签被认为是低质量标签,而对于淘

宝上图书标签来说,由于情感类标签词汇对用户购买决策产生影响,这个场景下被认为是高质量标

签。此外,目前尚缺乏用于社会化标签质量评估的公开测试数据集,也在一定程度上阻碍了标签质

量评估的研究。最后,目前研究没有针对标签的类型,对社会化标签进行更有针对性的质量评估,

在不同的应用场景下需要不同类型的标签,在标签质量的评估中应该根据实际需要,选择合适类型

的标签,然后再进行标签的质量评估。

基于此我们利用jsp.net 技术开发标签质量测评网站,用于志愿者对博文标签、图书标签、图片

标签、视频标签、音乐标签进行打分,收集标签质量评估的训练数据集与测试数据集,并对标签的

提供数据支持。 类型进行划分,收集标签类型分类用的训练数据集和测试集,为以后基于标签类型的标签质量评估

3.2 网站设计

表1 标签类型说明与举例 标签类型 描述 作者 资源相时间 关(外围地点 信息) 来源 容相内容描述 (内部) 内容领域

内容编码

自我组织标签

举例 罗贝托-波拉尼奥、张小娴、三毛日本、哥伦比亚 赠送、购买 劳工研究、养生、改造研究、 外国文学、随笔、小说 要读、要买 收集新浪博文名称、内容和每一篇博文对应的标签,豆瓣图书的书名、内容简介和每一本书对

应的标签,土豆网视频的名称、简介和每一个视频对应的标签,flickr 图片名称、图片和每一个图片

对应的标签,豆瓣音乐的名称、简介和每一个音乐对应的标签。

网站包括用户注册界面、用户登录界面、用户打分界面,以及管理员登录、管理员查看用户评

价过的所有标签以及对用户的管理。每一个用户登录后随机从数据库中抽取出一条内容,并在其下

显示该资源所有标签,对每个标签进行打分以及类型的选择。标签质量打分,根据标签与资源的相

关程度,利用5分规则对标签进行打分,从1分到5分利用描述的相符程度进行排序,其中1分表

示标签与标注对象完全无关,没有描述资源的任何信息;5分表示标签与标注对象完全相关,描述

的就是资源相关信息。标签类型划分为与主题相关的和与主题无关的,其中与主题相关的又划分为

与资源相关标签和与内容相关标签,与主题无关的又划分为主观情感标签、自我组织标签和垃圾标

签,具体说明并举例如上表1所示。

一3.3 网站实现与结果分析

(1)系统框架流程设计 3.3.1网站设计

对系统需要的功能理解基础上,具体设计系统的流程,具体来说标签质量测评网站包括两个部

分,一个是用户部分,一个是管理员部分。用户部分包括用户注册、用户登录、用户测评、用户查

看已评价过的标签;管理员部分包括管理员登录、管理员查看所有用户评价过的标签。具体流程如

(2)关键界面展示 茵圉 上图1所示。

首先用户需要进行注册,注册成功后,点击左侧菜单栏选择用户登录,进入下图2进行用户登

录操作。

第二十七届全国计算机信息管理学术交流会论文集 标签质量评测系统

用户登录成功后,便会进入标签质量评价页面。首先,系统会向用户解释标签打分规则和标签

id=....1file类型选择的说明表,用户阅读完之后便可以点击左侧菜单栏的“科学网博客”hldefocus/进行标签质量评价,显J』口me=file图2 用户登录界面 onchange=forvleⅢh∞J—this∞Jue,

示如下图3所示: /td

/t‘

td∞d“_=35%

nbsP一

/td

td

nbsPw一“65%“

/td

/tr

td∞女^=3w

nbsP

/td

td在进入标签评价页面后用户还需要查看标签打分规则的文档,可以点击页面中的帮助,就会在

新的窗口显示帮助文档。如果用户没有完成对所有的标签打分就点击“继续评分”的话,就会弹出提示窗口提醒用户。标签打分的功能是由单选按钮组完成的,标签类型选择的功能是由三级联动下拉框完成。当用户完成标签打分以及标签类型选择,点击“继续评分”后,系统便会把打分用户测评结果提交到后台页面,存入数据库,同时将这条记录的“已评”字段的值改为1,然后再为用户显示一条新的未评的博文。如果用户点击“结束评分”就会直接返回系统首页,即登录页面。用户可以点击菜单栏中的fj;女!:“我评的标签”查看已评价的所有标签,显示结果如下图4所示: i。』:一。二o、;z二#ij二E一~■!一.iiⅡ,ijfⅢ口color=#F74A2,size=2iw一“65%“图3 标签测评界面 7E÷:H:』i一、一—i∑=卫』一二二二{∑—1

图4 查看已评标签

管理员成功登录后,可以查看所有用户评价过的标签,同时还可以查看系统有多少个用户。显示结果如下图5所示:

图5 管理员查看已评的标签

3.3.2 结果分析

网站完成后,我们邀请志愿者注册登录网站进行标签评分和标签类型选择,共标注2003个土豆网视频标签、2052个flickr 图片标签、2253个豆瓣网图书标签、2002个新浪博客博文标签、2001个豆瓣音乐标签、578个IT 中文博客标签。首先我们对不同标注对象的标签类型进行统计分析,结果如下表2所示: 表2 标签类型统计

标签类型 视频标签 图片标签 图书标签 新浪博文标签 音乐标签 作者 %%% 资源类型 1 资源相关时间 0 (外围信地点 6 主息) 来源 相语言 容相关内容描述 内部信内容领域

) 内容类别 内容编码 0 主主观情感 0 无自我组织标签 垃圾标签 IT 博文标签 从上表中我们可以看到(1)在不同的资源类型中内容描述型标签均是所有标签类型中占比最大的标签类型,从此我们也可以看出用户打标签的目的很大一部分是出于对标注对象的描述。(2)除了图片标签,占比第二位的是有关内容领域的标签类型,同样的我们可以看出用户打标签的目的一部分是出于对标注对象的分类。(3)在不同的资源类型中普遍存在垃圾标签,说明我们进行标签质量的评估的必要性。(4)不同的资源类型有着自己独特的标签类型特点,例如在图片标签中地点类型的标签占比处于第二位,因为用户在标注图片标签时图片拍摄地点信息是普遍需要标注的。

进而我们对不同标注资源类型标签质量得分进行统计分析如下表3所示:

标签质量 视频标签图片标签图书标签新浪博文标签音乐标签IT 博文标签

标签质量的打分是由打分用户在对标注对象充分了解的情况下,根据标签是否能更好的反映对象来作为打分标准,其中最好的标签的得分是5分,最差的标签的得分是1分。我们可以看到不同资源类型的标签普遍存在用户判别的质量低的标签,但是由于不同用户的需求不同,所以对标签质量的判别标准也不同,所以仅仅过滤掉垃圾标签并不能满足用户对高质量标签的需求,所以我们需要对其它的标签类型进行进一步的标签质量评估,最终过滤出用户满意的高质量标签。

4 总结与展望

在对中外标签质量评估方法的调研中发现目前的标签质量评估仅仅是基于标签自身,并没有将标签质量与实际应用相结合。例如:在不同的应用环境下需要不同的标签类型,在标签质量的评估中应该根据实际的要求,剔除不符合要求的标签类型,提高标签质量评估的效率。

鉴于此,我们已经开发了标签质量测评网站,用于志愿者对对博文标签、图书标签、图片标签、视频标签、音乐标签进行打分,收集标签质量评估的训练数据集与测试数据集,并对标签的类型进行划分,收集标签类型分类用的训练数据集和测试集,通过数据分析我们可以发现不同的资源类型普遍存在低质量标签。

未来希望利用此系统收集的标签质量评估数据集,对不同标注对象类型,包括图书、博客、图片、视频、音乐的标签类型进行分析与比较,区分标签的类型,建立社会化标签的质量评估框架体系与评估模型,对社会化标签质量进行评估,得到高质量标签,提高社会化标签在信息检索、推荐系统等具体应用领域的使用效果。

参考文献:

[1] Anusua T., Piyush R., Hal D., Scott L. D. Leveraging Social Bookmarks from Partially Tagged Corpus for Improved Webpage Clustering [J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): 111-130.

[2] Zubiaga, A., Martinez, R., and Fresno, V . Getting the most out of social annotations for web page classification[C]. In: Proceedings of the 9th ACM Symposium on Document Engineering (DocEng2009), Munich, Germany, 2009: 74-83.

[3] Zhou, D., Bian, J., Zheng, S., Zha, H., and Giles, C. L. Exploring social annotations for information retrieval[C]. In: Proceedings of the 17th International World Wide Web Conference (WWW2008). Beijing, China, 2008: 715-724.

[4] Zhao S. W., Du N., Nauerz A., Zhang X. T., Yuan Q., Fu R. Y. Improved recommendation based on collaborative tagging behaviors[C]. In: Proceedings of the 13th international conference on intelligent user interfaces, Gran Canaria, Spain, 2008:413-416.

[5] Goh D H, Chua A, Lee C S, et al. Resource discovery through social tagging: a classification and content analytic approach [J]. Online Information Review, 2009, 33(3):568 - 583.

[6] Gu X, Wang X, Li R, et al. Measuring Social Tag Confidence: Is It a Good or Bad Tag?[J]. Web-Age Information Management Lecture Notes in Computer Science, 2011, 6897:94-105.

[7] Lee, S., Han, S.Qtag: introducing the qualitative tagging system.ACM Publishing. 2007: 35-36.

[8] Sen, S., Harper, F., LaPitz,A., Riedl,J.The Quest for Quality Tags.ACM Publishing, 2007:361-370.

[9] Shaoke Zhang,Umer Farooq,John M. Carroll.Enhancing Information Scent: Identifying and Recommending Quality Tags[J].ACM.2009(5):1-10

[10] Fabiano Belém, Eder Martins, Jussara Almeida, Marcos Gonçalves, Gisele L. Pappa.Exploiting Co-Occurrence and Information Quality Metrics to Recommend Tags in Web 2.0 Applications[J].ACM.2010(10):26-30

[11] Guy, M., Tonkin, E. Tidying up Tags?;.D-Lib Magazine,2006.12(1)

[12] 徐静, 卢章平. 基于folksonomy 的信息组织及其优化[J].新世纪图书馆.2011(4):34-37

[13] 吴方枝.Flickr 网站用户标签的质量控制对策[J].图 书 馆 学 研 究.2012(11):26-28

[14] Karen G. Lawson.Mining Social Tagging Data for Enhanced Subject Access for Readers and Researchers[J].The Journal of Academic Librarianship .2009.6(35):574-582

[15] Marliese Thomas, Dana M. Caudle and Cecilia M. Schmitz.To tag or not to tag?[J].Library Hi Tech.2009.3(27):411-434

[16] Caimei Lu, Jung-ran Park and Xiaohua Hu .User tags versus expert-assigned subject terms: A comparison of LibraryThing tags and Library of Congress Subject Headings[J].Journal of Information Science .2010.36(6):763-779

[17] Catherine E.Hall,Michael A.Zarro.What do you call it? A comparison of library-created and user-created tags[J].ACM.2011:53-56

[18] Shu-Jiun Chen .User Tagging for Digital Archives:The Case of Commercial Keywords from the Grand Secretariat[J].Digital Libraries: For Cultural Heritage, Knowledge Dissemination, and Future Creation .2011:158-167

[19] Folksonomies versus Automatic Keyword Extraction: An Empirical Study.IADIS Web Applications and Research. 2006(5) :15-19 [J]

[20] Victoria Lai, Christopher Rajashekar, William Rand.Comparing Social Tags to Microblogs[J].IEEE International Conference on Social Computing.2011(10):9-11

[21] Koutrika, G., Effendi, F., Gy¨ongyi, Z., Heymann, P., Garcia-Molina, H. Combating spam in tagging systems. AIRWeb 2007

[22] Kwan Yi,Chan Yun Yoo.An empirical examination of the associations between social tags and Web queries .information research.2012.3(17)

[23] 基于支持向量机的垃圾标签检测模型. 计算机应用研究。2010。27(10):3893-3895

[24] Xiwu Gu,Xianbing Wang,Ruixuan Li,Kunmei Wen,Yufei Yang and Weijun Xiao.Measuring Social Tag Confidence: Is It a Good or Bad Tag?.[J]Web-Age Information Management .2011(6897).94-105.

[25] S. Sen, S. K. Lam, A. M. Rashid, D. Cosley, D. Frankowski,J. Osterhouse, F. M. Harper, J. Riedl. Tagging, Communities,Vocabulary, Evolution[C]. In: Proceedings of the 2006 20th anniversary conference on Computer supported cooperativework, Banff, Alberta, Canada, 2006: 181-190.

[26] Zhichen Xu, Yun Fu, Jianchang Mao, Difu Su. Towards the Semantic Web: Collaborative Tag Suggestions[C]. In:Proceeding of the Collaborative Web Tagging Workshop at the WWW. Edinburgh, Scotland, UK, 2006: 1-8.

[27] Melenhorst Mark S., Van Setten Mark. Usefulness of Tags in Providing Access to Large Information Systems[C]. In:Proceedings of Professional Communication Conference. Seattle, WA, USA, 2007: 1-9.

[28] Kerstin Bischoff, Claudiu S Firan, Cristina Kadar, Wolfgang Nejdl, Raluca Paiu. Automatically identifying tag types[C].In: Proceedings of the 5th International Conference on Advanced Data Mining and Applications. Beijing, China, 2009:31-42.

[29] Paul Heymann, Andreas Paepcke, Hector Garcia-Molina. Tagging human knowledge[C]. In: Proceedings of the third ACM international conference on Web search and data mining. New York, USA, 2010: 51-60.

[30] Doreen Böhnstedt, Lasse Lehmann, Christoph Rensing, Ralf Steinmetz. Automatic identification of tag types in a resource-based learning scenario[C]. In: Proceedings of the 6th European conference on Technology enhanced learning:towards ubiquitous learning. Palermo, Italy, 2011:57-70.

[31] Lee S E, Han S S. Qtag: introducing the qualitative tagging system[C]. //Proceedings of the eighteenth conference on Hypertext and hypermedia, 2007:35-36 .

[32] Sen S, Harper F M, LaPitz A, etal. The quest for quality tags[C]. //Proceedings of the 2007 international ACM conference on Supporting group work, 2007:361-370 .

基于标签类型的社会化标签质量测评研究作者:

作者单位:李蕾, 章成志南京理工大学信息管理系,南京 210094

本文链接:http://d.wanfangdata.com.cn/Conference_8246375.aspx

基于标签类型的社会化标签质量测评研究

南京理工大学信息管理系 李蕾 章成志

(南京理工大学信息管理系,南京 210094)

摘要:随着互联网的发展,Web2.0网站为互联网用户的信息生成、信息共享及信息获取提供了便利

的平台。用户已经从过去的被动接受信息转变到现在的主动发布信息,产生了许多的用户生成内容,

标签就是其中的一种。标签可以用于Web 资源的自动分类、信息检索、信息推荐等不同应用场合,

用户可以根据自己的意愿给标注对象添加标签,而标签多采取自由标引方式,部分标签并不能有效

地揭示资源的内容或主题,就产生了许多低质量的标签,干扰了社会标注系统中资源组织的秩序,

降低了标签在应用场合中的质量和用户满意度。所以本研究开发了标签质量测评网站,用于志愿者

对博文标签、图书标签、图片标签、视频标签、音乐标签进行打分,收集标签质量评估的训练数据

集与测试数据集,并对标签的类型进行划分,收集标签类型分类用的训练数据集和测试集,为以后

基于标签类型的标签质量评估提供数据支持。

关键词:UGC ;标签;标签质量;标签质量测评网站

分类号:TP311 1

Abstract: With the development of the Internet, Web2.0 website provides a convenient platform for Internet users to conduct information generation, information sharing and access to information .The users have shift from passive acceptance of information in the past to take the initiative to publish information, and created a lot of user-generated content, the label is one of them. Tags can be used for automatic classification of Web resources, information retrieval, information recommendation, and users can add tags to label objects according to their wishes. But tags take a more free indexing way , part of the tags do not reveal the content or subject matter of the resources ,so a lot of low-quality tags generated to interfere the order of the social tagging system resource organizations, reduce the tags’ quality in the application and customer satisfaction. Therefore, this study developed a label quality evaluation site for volunteers to rate blog Bowen tags, book tags, picture tags, video tags, music tags to collect training data set and test data set of label quality assessment. And then divided the type of tags to collect the training data set and test set of tags types, in order to provide data to support future research based on tag type label quality assessment. Keywords: UGC; tags; the quality of social tags; social tagging quality evaluation website Quality evaluation of social tagging based on the type of tag

1 引言

社会化标签系统为互联网用户提供了一个便捷的资源描述方式。社会化标签融合了大众智慧,

已有研究表明社会化标签对Web 页面的浏览、组织与索引非常有效[1]。目前有不少学者利用社会化

标签特性,将其用于Web 资源的自动分类、信息检索、信息推荐等不同应用场合,取得了很好的效

果[2-4]。与使用受控词汇来组织资源的方式不同,基于社会化标签的数字资源标注和组织资源的方式,

成本小并且易扩展。由于互联网用户使用的标签多采取自由标引方式,部分标签并不能有效地揭示

资源的内容或主题。社会化标签的质量问题已成为影响其应用效果的重要因素之一,常见的低质量

标签包括:过于个性化的标签、泛滥的垃圾标签和缺乏语义控制的冗余标签等。低质量的标签干扰

了社会标注系统中资源组织的秩序,降低了标签在应用场合中的质量和用户满意度。例如,在利用

社会化标签辅助Web 页面自动标引时标签质量问题会对标引质量产生影响[5]。 本文系教育部人文社科基金规划项目(No.13YJA870020),中央高校基本科研业务费专项资金项目资助(No.[1**********]013)的研究成果之一。

1

目前关于社会化标签质量评估方面的研究还未引起学术界的重视,仅有少数学者对此问题进行

研究,缺少社会化标签质量评估的公开测试数据集。本工作的目的就是开发让志愿者对标签质量进

练数据集与测试数据集。 行打分,对标签类型进行划分的公开网站。通过测试数据的收集,对未来的标签质量的评估提供训

2 研究现状

2.1 社会化标签质量评估研究概述

社会化标签的质量问题主要体现在社会标签的多义词问题、社会标签的同义词问题、社会标签

的主观性、标签拼写错误以及垃圾标签等方面[6],低质量的标签干扰了社会标注系统中资源组织的

秩序,降低了标签的应用效果。

针对此问题,已有研究者提出一些标签质量评估方法。标签质量评估方法总体上可以分为人工

评价和自动评价两类方法。其中:人工评价方法是在用户参与下通过人工评估系统进行;自动评价

可以从无参照评估和有参照评估两个方面进行,自动评价方法既可以只通过标签自身进行无参照评

价,也可以将标签和其他的资源结合进行评估。

标签的人工评价方法利用用户打分来评判标签质量。在2007年Lee 等学者就提出了利用标注用

户的直接在线评价来对标签进行评估,Lee 等学者提出用户在给某一个资源打标签的同时对资源已

经存在的标签添加一个支持或者是反对的态度[7];同年Sen 等学者比较了不同的标签评价的场景,

对一些标签网站的设计方式进行了总结[8]。

标签的自动评价方法中无参照的方法是基于标签自身统计属性来评估标签的质量,2009年

Shaoke Zhang 等学者提出标签的三个统计属性中心性、频率、熵可以用来衡量标签的质量[9];2010

年Fabiano Belém、Eder Martins等学者提出为了提高标签的质量,应用的几个指标包括:标签共现、

标签稳定性、标签描述力[10]。

标签的自动评价方法中有参照的方法可以分为一下六个方面:依据规范词语进行隐含的质量评

估,2006年Guy and Tonkin建议给用户一些打标签的指导,来提高标签的质量[11]。2011年卢章提出

了系统可以显性化提示用户,包括正确拼写,注意单复数,注意同义词等问题,提供一些优良标签

的推荐,适当的时候增加输入限制,来避免垃圾标签[12]。依据标签和主题词的比较进行评估,Karen

G. Lawson[14]、Marliese Thomas[15]、Caimei Lu[16]等学者将标签和美国国会图书馆的主题词进行重合

度的比较;依据用户标签与专家标注结果的比较结果进行评估,2011年Catherine Hall & Michael Zarr

学者将专业人士使用受控词汇对资源进行标引的结果和用户标签进行对比[17];2011年Shu-Jiun Chen

学者将商业机构和用户对资源打的标签作比较[18];依据标签与文本内容关键词的比较进行评估,2006

年Hend S. Al-Khalifa and Hugh C. Davis学者将机器自动抽取的关键字和社会标签进行重合比例的计

算 [19] 。2011年Victoria Lai, Christopher Rajashekar, William Rand利用Amazon 上的用户给出的标签

和twitter 上的大众评论信息抽取的关键词进行比较[20];基于信息检索的方式来评估标签质量,2007

年Koutrika et al等学者提出基于标签和每个资源的共现,利用在搜索引擎中检索标签时返回的网页

排名来评判标签的质量[21];2012年Kwan Yi,Chan Yun Yoo学者提出将搜索引擎的查询词和标签结

合,调查两者之间的形似性和重合度[22];基于用户、资源、标签三者关系来评估标签质量,2010年

覃希等学者利用向量空间模型表征用户特征,检测出隐藏在正常用户群体中的垃圾投放人,以此减

少垃圾标签数量[23]。2011年Xiwu Gu等学者将网页标签的信度定义为打标签者的可信度、网页之间

的语义相似性、标签之间的语义相似性三者之间的关系[24]。

2.2 社会化标签类型研究概述

在社会化媒体网站上,社会化标签具有不同的类型和功能,并不是所有类型的标签在信息组织

与检索中都能发挥正面作用,在不同的应用场合下标签的作用也不尽相同。特别是在标签质量的评

估中,应该针对标签的类型,对社会化标签进行更有针对性的质量评估,因此,事先对标签类型进

行有效划分,发现适用于特定任务的某一或某些类型的标签,然后再将这些标签运用于实际,可以

提高社会化标签的应用效果。社会化标签的类型划分是标签及其应用研究中的一个基础问题。

目前,已有部分关于标签类型划分的研究工作,但尚缺乏一个统一的类型划分标准。目前相关

的工作主要包括:2006 年, Sen & Lam等将标签划分为客观标签、主观标签和个人标签[25];同年,

Xu & Fu 等的将标签划分为描述内容、提供资源一些额外信息(如时间、地点等)、外部属性(如拥

有者类型)、表达对资源评价、用于自我组织的一些个人词汇等[26];2007 年,Melenhorst & Setten 等

将标签划分为内容标签、态度标签、自我提醒标签等[27];2009 年,Bischoff & Firan 等将标签细分

为主题、类型、作者或拥有者、评价、目的、自身任务需要、地点、时间等类型[28];2010 年,Heymann

& Paepcke 等将标签划分为客观和基于内容的、物理属性、意见、个人、缩写词、垃圾标签等类型[29];

2011 年,Böhnstedt & Lehmann 等将标签分为人物或者组织、资源作者或涉及到的人、地点、资源

的类型、资源所涉及事件、主题、目标或任务等类型[30]。

总体来说,标签可以分为四大类型,即:客观标签,描述标注对象的客观信息;主观标签,用

户标记对于资源的主观评价;自我组织的标签,用于自身信息组织与提醒;其他类型的标签,只有

一个学者提出包括缩写词和垃圾标签。目前,学术界对于以上分类的进一步划分还没有一个统一的

标准,而且绝大部分研究都没有针对标签的外部因素或实际应用场景来进行划分。此外,目前尚缺

乏标签类型分类用的公开训练数据集和测试集,在一定程度上也阻碍了社会化标签自动分类的研究。

2.3 现有的社会化标签在线评估系统概述

早在2007年就有学者提出利用在线评价网站收集用户对资源标签的打分,用于得到高质量的标

签,进而可以将评估出的高质量的标签推荐给用户。

2007年,Sen & Lee等就提出了利用标注用户的直接在线评价来对标签质量进行评估,Lee & Han

提出用户在给某一个资源打标签的同时对资源已经存在的标签添加一个支持或者是反对的态度,支

持或者是反对的态度利用一个加号或者是减号来表示,进而可以从用户的态度中得出用户对于此资

源各种客观的描述 [31]。

2007年,Sen & Harpe 等也提出利用用户来提高标签的质量,根据一致性理论用户从别的用户

那看到的标签将会影响用户打的标签,研究显示一旦一个标签受欢迎就会一直受欢迎,用户创建的

标签与他们在社区里看到的标签是相似的,并且进一步比较了不同的人工评估系统,对一些标签网

站的设计方式进行了总结[32]。

此方法准确性高,可以基于用户的需求来评判出高质量的标签,但是此方法需要很多的用户参

以后进一步利用机器学习进行标签质量自动评估提供数据支持。 与,实施起来复杂费时,不能进行大规模的应用,但是我们可以利用此方法进行测试集的收集,为

3 研究思路及网站设计实现

3.1 研究思路

目前关于标签质量的研究基本上是针对标签的单一属性,割裂了标签内容属性与社会化属性之

间的相互影响关系。因此,如何将标签的人工评估与自动评估相结合,将自动评估中的无参照评估

和有参照评估相结合,对社会化标签进行全面的评估,是值得深入探索的问题。现有研究没有区分

应用场合对标签进行质量评估,在不同的应用场合,标签质量的判别标准是不同的,例如:Librarything

上用户根据自己的要求对图书进行标注,这种场景下,情感类标签被认为是低质量标签,而对于淘

宝上图书标签来说,由于情感类标签词汇对用户购买决策产生影响,这个场景下被认为是高质量标

签。此外,目前尚缺乏用于社会化标签质量评估的公开测试数据集,也在一定程度上阻碍了标签质

量评估的研究。最后,目前研究没有针对标签的类型,对社会化标签进行更有针对性的质量评估,

在不同的应用场景下需要不同类型的标签,在标签质量的评估中应该根据实际需要,选择合适类型

的标签,然后再进行标签的质量评估。

基于此我们利用jsp.net 技术开发标签质量测评网站,用于志愿者对博文标签、图书标签、图片

标签、视频标签、音乐标签进行打分,收集标签质量评估的训练数据集与测试数据集,并对标签的

提供数据支持。 类型进行划分,收集标签类型分类用的训练数据集和测试集,为以后基于标签类型的标签质量评估

3.2 网站设计

表1 标签类型说明与举例 标签类型 描述 作者 资源相时间 关(外围地点 信息) 来源 容相内容描述 (内部) 内容领域

内容编码

自我组织标签

举例 罗贝托-波拉尼奥、张小娴、三毛日本、哥伦比亚 赠送、购买 劳工研究、养生、改造研究、 外国文学、随笔、小说 要读、要买 收集新浪博文名称、内容和每一篇博文对应的标签,豆瓣图书的书名、内容简介和每一本书对

应的标签,土豆网视频的名称、简介和每一个视频对应的标签,flickr 图片名称、图片和每一个图片

对应的标签,豆瓣音乐的名称、简介和每一个音乐对应的标签。

网站包括用户注册界面、用户登录界面、用户打分界面,以及管理员登录、管理员查看用户评

价过的所有标签以及对用户的管理。每一个用户登录后随机从数据库中抽取出一条内容,并在其下

显示该资源所有标签,对每个标签进行打分以及类型的选择。标签质量打分,根据标签与资源的相

关程度,利用5分规则对标签进行打分,从1分到5分利用描述的相符程度进行排序,其中1分表

示标签与标注对象完全无关,没有描述资源的任何信息;5分表示标签与标注对象完全相关,描述

的就是资源相关信息。标签类型划分为与主题相关的和与主题无关的,其中与主题相关的又划分为

与资源相关标签和与内容相关标签,与主题无关的又划分为主观情感标签、自我组织标签和垃圾标

签,具体说明并举例如上表1所示。

一3.3 网站实现与结果分析

(1)系统框架流程设计 3.3.1网站设计

对系统需要的功能理解基础上,具体设计系统的流程,具体来说标签质量测评网站包括两个部

分,一个是用户部分,一个是管理员部分。用户部分包括用户注册、用户登录、用户测评、用户查

看已评价过的标签;管理员部分包括管理员登录、管理员查看所有用户评价过的标签。具体流程如

(2)关键界面展示 茵圉 上图1所示。

首先用户需要进行注册,注册成功后,点击左侧菜单栏选择用户登录,进入下图2进行用户登

录操作。

第二十七届全国计算机信息管理学术交流会论文集 标签质量评测系统

用户登录成功后,便会进入标签质量评价页面。首先,系统会向用户解释标签打分规则和标签

id=....1file类型选择的说明表,用户阅读完之后便可以点击左侧菜单栏的“科学网博客”hldefocus/进行标签质量评价,显J』口me=file图2 用户登录界面 onchange=forvleⅢh∞J—this∞Jue,

示如下图3所示: /td

/t‘

td∞d“_=35%

nbsP一

/td

td

nbsPw一“65%“

/td

/tr

td∞女^=3w

nbsP

/td

td在进入标签评价页面后用户还需要查看标签打分规则的文档,可以点击页面中的帮助,就会在

新的窗口显示帮助文档。如果用户没有完成对所有的标签打分就点击“继续评分”的话,就会弹出提示窗口提醒用户。标签打分的功能是由单选按钮组完成的,标签类型选择的功能是由三级联动下拉框完成。当用户完成标签打分以及标签类型选择,点击“继续评分”后,系统便会把打分用户测评结果提交到后台页面,存入数据库,同时将这条记录的“已评”字段的值改为1,然后再为用户显示一条新的未评的博文。如果用户点击“结束评分”就会直接返回系统首页,即登录页面。用户可以点击菜单栏中的fj;女!:“我评的标签”查看已评价的所有标签,显示结果如下图4所示: i。』:一。二o、;z二#ij二E一~■!一.iiⅡ,ijfⅢ口color=#F74A2,size=2iw一“65%“图3 标签测评界面 7E÷:H:』i一、一—i∑=卫』一二二二{∑—1

图4 查看已评标签

管理员成功登录后,可以查看所有用户评价过的标签,同时还可以查看系统有多少个用户。显示结果如下图5所示:

图5 管理员查看已评的标签

3.3.2 结果分析

网站完成后,我们邀请志愿者注册登录网站进行标签评分和标签类型选择,共标注2003个土豆网视频标签、2052个flickr 图片标签、2253个豆瓣网图书标签、2002个新浪博客博文标签、2001个豆瓣音乐标签、578个IT 中文博客标签。首先我们对不同标注对象的标签类型进行统计分析,结果如下表2所示: 表2 标签类型统计

标签类型 视频标签 图片标签 图书标签 新浪博文标签 音乐标签 作者 %%% 资源类型 1 资源相关时间 0 (外围信地点 6 主息) 来源 相语言 容相关内容描述 内部信内容领域

) 内容类别 内容编码 0 主主观情感 0 无自我组织标签 垃圾标签 IT 博文标签 从上表中我们可以看到(1)在不同的资源类型中内容描述型标签均是所有标签类型中占比最大的标签类型,从此我们也可以看出用户打标签的目的很大一部分是出于对标注对象的描述。(2)除了图片标签,占比第二位的是有关内容领域的标签类型,同样的我们可以看出用户打标签的目的一部分是出于对标注对象的分类。(3)在不同的资源类型中普遍存在垃圾标签,说明我们进行标签质量的评估的必要性。(4)不同的资源类型有着自己独特的标签类型特点,例如在图片标签中地点类型的标签占比处于第二位,因为用户在标注图片标签时图片拍摄地点信息是普遍需要标注的。

进而我们对不同标注资源类型标签质量得分进行统计分析如下表3所示:

标签质量 视频标签图片标签图书标签新浪博文标签音乐标签IT 博文标签

标签质量的打分是由打分用户在对标注对象充分了解的情况下,根据标签是否能更好的反映对象来作为打分标准,其中最好的标签的得分是5分,最差的标签的得分是1分。我们可以看到不同资源类型的标签普遍存在用户判别的质量低的标签,但是由于不同用户的需求不同,所以对标签质量的判别标准也不同,所以仅仅过滤掉垃圾标签并不能满足用户对高质量标签的需求,所以我们需要对其它的标签类型进行进一步的标签质量评估,最终过滤出用户满意的高质量标签。

4 总结与展望

在对中外标签质量评估方法的调研中发现目前的标签质量评估仅仅是基于标签自身,并没有将标签质量与实际应用相结合。例如:在不同的应用环境下需要不同的标签类型,在标签质量的评估中应该根据实际的要求,剔除不符合要求的标签类型,提高标签质量评估的效率。

鉴于此,我们已经开发了标签质量测评网站,用于志愿者对对博文标签、图书标签、图片标签、视频标签、音乐标签进行打分,收集标签质量评估的训练数据集与测试数据集,并对标签的类型进行划分,收集标签类型分类用的训练数据集和测试集,通过数据分析我们可以发现不同的资源类型普遍存在低质量标签。

未来希望利用此系统收集的标签质量评估数据集,对不同标注对象类型,包括图书、博客、图片、视频、音乐的标签类型进行分析与比较,区分标签的类型,建立社会化标签的质量评估框架体系与评估模型,对社会化标签质量进行评估,得到高质量标签,提高社会化标签在信息检索、推荐系统等具体应用领域的使用效果。

参考文献:

[1] Anusua T., Piyush R., Hal D., Scott L. D. Leveraging Social Bookmarks from Partially Tagged Corpus for Improved Webpage Clustering [J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): 111-130.

[2] Zubiaga, A., Martinez, R., and Fresno, V . Getting the most out of social annotations for web page classification[C]. In: Proceedings of the 9th ACM Symposium on Document Engineering (DocEng2009), Munich, Germany, 2009: 74-83.

[3] Zhou, D., Bian, J., Zheng, S., Zha, H., and Giles, C. L. Exploring social annotations for information retrieval[C]. In: Proceedings of the 17th International World Wide Web Conference (WWW2008). Beijing, China, 2008: 715-724.

[4] Zhao S. W., Du N., Nauerz A., Zhang X. T., Yuan Q., Fu R. Y. Improved recommendation based on collaborative tagging behaviors[C]. In: Proceedings of the 13th international conference on intelligent user interfaces, Gran Canaria, Spain, 2008:413-416.

[5] Goh D H, Chua A, Lee C S, et al. Resource discovery through social tagging: a classification and content analytic approach [J]. Online Information Review, 2009, 33(3):568 - 583.

[6] Gu X, Wang X, Li R, et al. Measuring Social Tag Confidence: Is It a Good or Bad Tag?[J]. Web-Age Information Management Lecture Notes in Computer Science, 2011, 6897:94-105.

[7] Lee, S., Han, S.Qtag: introducing the qualitative tagging system.ACM Publishing. 2007: 35-36.

[8] Sen, S., Harper, F., LaPitz,A., Riedl,J.The Quest for Quality Tags.ACM Publishing, 2007:361-370.

[9] Shaoke Zhang,Umer Farooq,John M. Carroll.Enhancing Information Scent: Identifying and Recommending Quality Tags[J].ACM.2009(5):1-10

[10] Fabiano Belém, Eder Martins, Jussara Almeida, Marcos Gonçalves, Gisele L. Pappa.Exploiting Co-Occurrence and Information Quality Metrics to Recommend Tags in Web 2.0 Applications[J].ACM.2010(10):26-30

[11] Guy, M., Tonkin, E. Tidying up Tags?;.D-Lib Magazine,2006.12(1)

[12] 徐静, 卢章平. 基于folksonomy 的信息组织及其优化[J].新世纪图书馆.2011(4):34-37

[13] 吴方枝.Flickr 网站用户标签的质量控制对策[J].图 书 馆 学 研 究.2012(11):26-28

[14] Karen G. Lawson.Mining Social Tagging Data for Enhanced Subject Access for Readers and Researchers[J].The Journal of Academic Librarianship .2009.6(35):574-582

[15] Marliese Thomas, Dana M. Caudle and Cecilia M. Schmitz.To tag or not to tag?[J].Library Hi Tech.2009.3(27):411-434

[16] Caimei Lu, Jung-ran Park and Xiaohua Hu .User tags versus expert-assigned subject terms: A comparison of LibraryThing tags and Library of Congress Subject Headings[J].Journal of Information Science .2010.36(6):763-779

[17] Catherine E.Hall,Michael A.Zarro.What do you call it? A comparison of library-created and user-created tags[J].ACM.2011:53-56

[18] Shu-Jiun Chen .User Tagging for Digital Archives:The Case of Commercial Keywords from the Grand Secretariat[J].Digital Libraries: For Cultural Heritage, Knowledge Dissemination, and Future Creation .2011:158-167

[19] Folksonomies versus Automatic Keyword Extraction: An Empirical Study.IADIS Web Applications and Research. 2006(5) :15-19 [J]

[20] Victoria Lai, Christopher Rajashekar, William Rand.Comparing Social Tags to Microblogs[J].IEEE International Conference on Social Computing.2011(10):9-11

[21] Koutrika, G., Effendi, F., Gy¨ongyi, Z., Heymann, P., Garcia-Molina, H. Combating spam in tagging systems. AIRWeb 2007

[22] Kwan Yi,Chan Yun Yoo.An empirical examination of the associations between social tags and Web queries .information research.2012.3(17)

[23] 基于支持向量机的垃圾标签检测模型. 计算机应用研究。2010。27(10):3893-3895

[24] Xiwu Gu,Xianbing Wang,Ruixuan Li,Kunmei Wen,Yufei Yang and Weijun Xiao.Measuring Social Tag Confidence: Is It a Good or Bad Tag?.[J]Web-Age Information Management .2011(6897).94-105.

[25] S. Sen, S. K. Lam, A. M. Rashid, D. Cosley, D. Frankowski,J. Osterhouse, F. M. Harper, J. Riedl. Tagging, Communities,Vocabulary, Evolution[C]. In: Proceedings of the 2006 20th anniversary conference on Computer supported cooperativework, Banff, Alberta, Canada, 2006: 181-190.

[26] Zhichen Xu, Yun Fu, Jianchang Mao, Difu Su. Towards the Semantic Web: Collaborative Tag Suggestions[C]. In:Proceeding of the Collaborative Web Tagging Workshop at the WWW. Edinburgh, Scotland, UK, 2006: 1-8.

[27] Melenhorst Mark S., Van Setten Mark. Usefulness of Tags in Providing Access to Large Information Systems[C]. In:Proceedings of Professional Communication Conference. Seattle, WA, USA, 2007: 1-9.

[28] Kerstin Bischoff, Claudiu S Firan, Cristina Kadar, Wolfgang Nejdl, Raluca Paiu. Automatically identifying tag types[C].In: Proceedings of the 5th International Conference on Advanced Data Mining and Applications. Beijing, China, 2009:31-42.

[29] Paul Heymann, Andreas Paepcke, Hector Garcia-Molina. Tagging human knowledge[C]. In: Proceedings of the third ACM international conference on Web search and data mining. New York, USA, 2010: 51-60.

[30] Doreen Böhnstedt, Lasse Lehmann, Christoph Rensing, Ralf Steinmetz. Automatic identification of tag types in a resource-based learning scenario[C]. In: Proceedings of the 6th European conference on Technology enhanced learning:towards ubiquitous learning. Palermo, Italy, 2011:57-70.

[31] Lee S E, Han S S. Qtag: introducing the qualitative tagging system[C]. //Proceedings of the eighteenth conference on Hypertext and hypermedia, 2007:35-36 .

[32] Sen S, Harper F M, LaPitz A, etal. The quest for quality tags[C]. //Proceedings of the 2007 international ACM conference on Supporting group work, 2007:361-370 .

基于标签类型的社会化标签质量测评研究作者:

作者单位:李蕾, 章成志南京理工大学信息管理系,南京 210094

本文链接:http://d.wanfangdata.com.cn/Conference_8246375.aspx


相关内容

  • 名誉权纠纷典型案例 5 则|天同码134
  • 让法官更懂律师 让律师更懂法官 投稿邮箱 : [email protected] 陈枝辉 北京天同律师事务所 导读:天同码,是北京天同律师事务所借鉴英美判例法国家的钥匙码编码方式,收集.梳理和提炼司法判例的裁判规则,进而形成中国钥匙码的案例编码体系.经与天同诉讼圈商定,审判研究每周独家推送全新天同码 ...

  • 关于高校家庭经济困难学生信息的加权分析.
  • 贵州财经大学 "感恩助学.诚信做人"课题结题 报告 项目名称: 关于高校家庭经济困难学生信息的加权分析 项目负责人:伍# 所在分院:数学与统计学院 完成时间:2014年3月16日 课题组成员:### ### 二零一四年 三月 摘 要 对于经济困难部分认定标准的笼统性和模糊性,致使 ...

  • 学术论文中方法知识元的类型与描述规则研究
  • 作者:化柏林 中国图书馆学报 2016年04期 分类号G302 DOI:10.13530/j.cnki.jlis.160003 0 引言 作为知识的重要载体,学术论文是科研成果的重要体现与科研创新的结晶.在学术论文中,方法的描述是科学知识的一种重要类型.随着学术论文数量的急速增长,仅靠人力已经难以胜 ...

  • 建筑门窗节能性能标识
  • 四川省建筑门窗节能性能标识工作暂行管理办法 第一条 为进一步加强建筑门窗节能性能标识的推广应用,规范建筑门窗能效测评标识管理,推行建筑部品.产品能效测评标识制度,确保建筑节能取得实效,根据<民用建筑节能条列>(国务院令第530号).<四川省民用建筑节能管理办法>(省人民政府令 ...

  • 创新型城市的评价指标体系
  • 三一堡一攀羁面暴j秘§豫Z鳆4.膏 创靳穗|I|『城童羹酌簿价指标体系 ■杨华峰邱丹 一.创新型城市的基本内涵面.并且这三方面自成体系,分别测评,以上两种测评方法各有其优缺点.目前国内外学者对"创新型城市"内最后将它们综合得出城市整体创新能分类测评对评价不同类型的创新型城市涵的理 ...

  • 14款拿铁咖啡大PK:伯朗.猫屎更提神:星巴克咖啡店综合第一,太平洋垫底!
  • 我们如何评价? 咖啡的"功效成分"基本上就是咖啡因.咖啡因含量高低可以判断咖啡"提神"效果的好坏.一般而言,咖啡因含量越高,"提神"效果越好. 检测结果显示: 从测试数据来看,7款预包装拿铁之间的咖啡因含量相差较大.其中,台湾进口产品伯朗原 ...

  • 关于人力资本:概念理论方法
  • 关于人力资本:概念.理论.方法 现代人力资本概念是在对西方经济学占主导地位的物质资本概念的批判中创立的.学界公认的人力资本之父--西奥多·舒尔茨认为人力资本是人作为生产者和消费者的能力,是体现于劳动者身上,通过投资并由劳动者的知识.技能.体力(健康状况)所构成的资本(舒尔茨,1962).贝克尔强调了 ...

  • 基于期望差异模型的游客满意研究
  • 基于期望差异模型的游客满意度研究 -------以重庆入境旅游市场为例 1 绪论 1.1研究背景 随着世界经济水平的发展和人均可自由支配收入的提高,洲际之间的游客流动已经成为世界旅游业发展中的一项重要的组成部分.特别是20世纪50年代后期,世界大范围的经济复苏醒使的洲际旅游出现了大众化.长距离.日常 ...

  • 试论团队薪酬制度的设计原则
  • 试论团队薪酬制度的设计原则 刘 伟1,彭璧玉2 (1.西北大学经济管理学院,陕西西安710069:2.华南师范大学经济与管理学院,广东广州510631) 要]随着工作流管理方式的兴起和组织中临时性任务的增多,团队薪酬制度的设计成为了一个重要的课题.[摘 文章概括了团队薪酬制度设计的基本原则,指出团队 ...