漫谈聚类搜索引擎的研究现状

1 聚类搜索引擎概念和工作流程  所谓聚类搜索引擎,就是运用聚类技术对搜索结果进行自动聚类分析的搜索工具。其特点是去重性强、分类性强、汇集性强,即可以及时去除重复信息,对搜索的结果进行分门别类,并可以汇集各大知名搜索引擎的信息资源。目前,典型的聚类搜索引擎的基本工作步骤为:①依据用户查询的关键字,从一个或多个搜索引擎获取搜索结果;②对搜索结果进行预处理,过滤掉重复、无效信息;③将文档中关键短语作为特征提取出来生成聚类标签;④将文档分配到生成的聚类标签下;⑤将聚类后的搜索结果进行排序并显示给用户。

2 国内外聚类搜索引擎的发展现状

搜索引擎的发展阶段总共经历了三个阶段[3],其中第1代搜索引擎主要是基于人工分类的通用搜索;第2代主要依靠机器进行自动爬取和分析,利用链接分析技术实现更为准确的搜索,如Google、百度等;第3代搜索引擎更加体现了智能化、互动式和人性化。功能包括自动聚类、去重、用户习惯记忆等方面,是未来搜索引擎主要的发展方向。

近几年,国际上对聚类搜索引擎系统的研究日渐火热,已经出现了一些知名的聚类搜索系统。其中,Scatter/Gather系统[4]是第一个在搜索引擎上使用聚类方法的系统;Vivisimo[5]是一种商业化聚类搜索引擎,符合用户使用习惯,搜索效率高。基于Java的开源Carrot2聚类搜索引擎[5]可自动的把搜索结果归类到相应的语义类别中,它的一个亮点是速度和易用性的提高。中文搜索领域,早期比较有实力的聚类搜索引擎有Bbmao,Bbmao搜索系统推出了去重功能,为网民解决了大量阅读重复信息的烦恼。Bbmao的聚类功能,能够提高查找信息的效率,它还具有云集各大搜索引擎结果的功能,同时完成海量信息的分门别类。近期出现的baigoogleledu综合了谷歌、百度两大搜索引擎。其基本出发点是两大搜索引擎的搜索结果的很大的差异性。这类系统对搜索结果进行聚类分析,在一定程度上缓解了广告泛滥的局面,使用户更便捷地找到需要的信息。

有关国内外聚类搜索引擎的相关技术,主要有聚类分析、聚类算法、中文信息处理等技术。Anton等人[7]致力于把分类体系引入评估体系来评价聚类效果质量的研究。SudiptoGuha等研究人员[8]应用概念关联代替传统的计算欧式距离,来衡量数据之间的相似度,从而确定聚类,达到了很好的效果。

国内一些学术组织和团体很早就开始对自动文本分类、聚类领域等相关内容进行研究,从“天网”和“网络指南针”开始北京大学和清华大学就开始致力于网页的聚类技术研究。此外,北京科技大学的麻雪云提出了一种基于关键名词短语聚类的中文搜索结果聚类方法[9],利用百度、谷歌、雅虎三大搜索引擎来获取互联网信息,对搜索结果进行聚类分析。国防科技大学的肖坤对STC算法和Lingo算法进行了比较,并对STC算法进行了改进,设计实现了一个面向校园网聚类搜索引擎系统[10]。

2 聚类搜索引擎的功能分析

2.1 聚类对象分析

现有聚类搜索引擎的聚类对象主要包括三类数据:商业数据、评价数据、社交数据。

商品数据主要包括对服装、电器、化妆品等数据信息进行分类整理,例如用户在淘宝网输入“牙膏”关键字,在网页上立马显示出“功能”、“品牌”、“产地”等分类信息,并按照销量、价格、信用进行了排序,对商品的聚类分析清晰明确。评价数据主要包括论坛对相关主题的讨论信息,博客的交流信息,商业网站对商品的满意度评价信息等。大连海事大学的鲁明羽、姚晓娜等人提出一种基于模糊聚类的网络论坛热点话题挖掘算法,通过分析帖子和用户间的影响力传递,来判断是否为焦点人物和热门话题[11]。社交数据主要包括社交网络注册用户个人资料信息、用户关注度信息、用户之间交互信息等社交数据资源。社交数据隐含了大量可以用于聚类的关联信息,对实现智能和个性化聚类搜索具有重要意义。此外,聚类对象按数据类型还可以划分为文本数据、多媒体数据等。

2.2 聚类功能分析

聚类搜索引擎的聚类功能主要有智能聚类、去重、多媒体、覆盖性等能力。

智能聚类:聚类搜索引擎大多具有这项功能。目前做得最好的如Vivisimo系统,它最大的特色是会对搜索结果自动分类,采用专门开发的启发式算法来集合或聚类原文文献。

去重:去重可以取掉大部分的广告网页并节省掉用户的选择时间,是十分实用的一项聚类功能。国内的比比猫的去重功能非常出色,在用户获得多个搜索引擎的搜索结果后,比比猫可以自动为用户获取最有搜索结果并取掉重复的信息。

多媒体:除了文本聚类,聚类搜索引擎还关注视频、音频等多媒体信息进行聚类的功能,商业化、集成化、多媒体化的气息更加浓厚。搜狗音乐推出了新版的聚类页面,可视化强,用户输入重庆阳光房名称,将获得全新的聚类结果,该结果首先按照音频特征聚类,再按照文本信息聚类,保证搜索界面显示的音乐相关度最高。

覆盖性:聚类搜索引擎一般基于一些大型通用搜索引擎的数据资源,这样能够保证搜索的结果覆盖全面,可聚类的对象内容丰富。

2.3 聚类算法分析

聚类搜索引擎的聚类算法主要有层次聚类、树状聚类、网状聚类、圆形聚类。其中Carrot2、Clusty(clusty.com)、iBoogie(iBoogie.com)等系统使用层次聚类的方法,按照来源及站点进行聚类。PinkySeach[12]和Mnemomap(mnemomap.org)系统是使用树状结构的聚类算法如重庆不锈钢装饰,将聚类的结果以列表的形式展示出来。UJIKO系统(ujiko.com)是使用圆形结构的聚类算法,它将搜索结果聚类后按照主题自动分类成图形界面显示出来。Quintura系统(quintura.com)是使用网状结构的聚类算法,是通过标签云的形式将在语义上相关的词聚类,构成网状链接。

3 典型聚类搜索引擎

3.1 Vivisimo系统

Vivisimo系统[5]的基本步骤包括:首先系统自动地、并行地向多个大型搜索引擎提交查询请求,然后汇集每个查询返回的结果,对查询的结果进行聚类分析,经过去重、合并、分类等步骤后,通过输出处理显示给用户。Vivisimo的聚类对象是从多个搜索引擎返回的搜索结果,主要是文本信息。Vivisimo的聚类功能主要是文本的聚类,通过对文本内容进行对重庆不锈钢宣传栏搜索和归类分析,vivisimo的软件可以使用户从没有预先标记或分类的资源中整合、分类内容。Vivisimo采用启发式算法,借鉴了人工智能的理念,对检索的结果进行聚类,可以把文本信息自动地分成等级排序的类目,它的每一步都是自动化的,不需要人工干预。

目前Vivisimo的商业应用十分广泛,它对信息的分类很体贴,具有人性化。其细致的检索结果显示方式使它成为了业界的精品,连续多年成为“最佳元搜索引擎”。但是,Vivisimo于没有自身的数据资源库,依附于其他大型搜索引擎,独立性较差,检索功能有待加强。

3.2 Carrot2系统

Carrot2是基于Java开发的开源聚类搜索系统[6],主要用于对搜索结果进行聚类。与Vivisimo相似,首先也是用户输入关键字在Bing、baidu、google等知名搜索引擎进行搜索,然后对返回的搜索结果进行聚类,并通过树形的分类图进行显示出来。Carrot2的聚类对象主要是各大搜索引擎返回的搜索结果,其通过文档聚类平台workbench,对搜索的数据进行聚类分析,并通过文档聚类服务器DCS,将聚类结果作为REST服务呈现。最后,Carrot2以WebApp方式将聚类结果作为网络应用呈现给终端用户。Carrot2采用的聚类算法主要是Lingo(基于奇异值分解的索引结果聚类)算法和STC(Suffix Tree Clustering)后缀树聚类算法。

目前Carrot2支持的聚类算法较多,代码开源可以进行版本的更新和改进。该系统应用广泛、可移植性较好。但是Carrot2中文分词效果不好,可视化效果不佳。

4 聚类搜索引擎发展趋势

文献[1]通过对大量搜索引擎的评测,发现独立性差、专用算法欠缺、搜索速度慢等一系列问题,但该文主要对搜索结果的聚类方法进行了评测,对聚类搜索引擎的趋势的分析也主要侧重于聚类方法。本文认为聚类搜索引擎未来将向数据海量化,链接社交化,聚类综合化三个方向发展。

4.1 数据海量化

现阶段的聚类搜索由于数据集较为单一,聚类算法过于老旧,造成呈现给用户的检索结果数量少,内容贫乏,这样必然影响聚类搜索的发展壮大。所以未来聚类搜索必然要向数据海量化发展。近期,美国互联网公司“耶宝”日前推出一种更具人性化的搜索引擎,有别于当今主流搜索引擎网站提供的单维搜索,并非一般的罗列搜索结果,而是通过对搜索的词条和海量的网页的内容进行分析,自动对搜索结果进行聚类和分类,为用户提供丰富而直观的结果。

4.2 链接社交化

在搜索引擎中引入社交元素,由于目前Web社交网络形成了一个巨大的DeepWeb(针对网络爬虫而言),而这个数据量对搜索引擎来说是非常大而且有用的,搜索引擎作为用户获取信息的主要渠道,势必需要这些用户活跃度和新鲜度很高的数据资源。由于社交数据中蕴含着大量数据之间的潜在链接,因此基于社交数据进行聚类搜索可望更好满足用户的个性化需求。

4.3 聚类综合化

聚类的多元化、跨领域、综合化将是新型聚类搜索的重要特点。局限于单个应用领域的聚类搜索已经难以适应需要,跨领域聚类将是未来聚类搜索面临的主要挑战。

1 聚类搜索引擎概念和工作流程  所谓聚类搜索引擎,就是运用聚类技术对搜索结果进行自动聚类分析的搜索工具。其特点是去重性强、分类性强、汇集性强,即可以及时去除重复信息,对搜索的结果进行分门别类,并可以汇集各大知名搜索引擎的信息资源。目前,典型的聚类搜索引擎的基本工作步骤为:①依据用户查询的关键字,从一个或多个搜索引擎获取搜索结果;②对搜索结果进行预处理,过滤掉重复、无效信息;③将文档中关键短语作为特征提取出来生成聚类标签;④将文档分配到生成的聚类标签下;⑤将聚类后的搜索结果进行排序并显示给用户。

2 国内外聚类搜索引擎的发展现状

搜索引擎的发展阶段总共经历了三个阶段[3],其中第1代搜索引擎主要是基于人工分类的通用搜索;第2代主要依靠机器进行自动爬取和分析,利用链接分析技术实现更为准确的搜索,如Google、百度等;第3代搜索引擎更加体现了智能化、互动式和人性化。功能包括自动聚类、去重、用户习惯记忆等方面,是未来搜索引擎主要的发展方向。

近几年,国际上对聚类搜索引擎系统的研究日渐火热,已经出现了一些知名的聚类搜索系统。其中,Scatter/Gather系统[4]是第一个在搜索引擎上使用聚类方法的系统;Vivisimo[5]是一种商业化聚类搜索引擎,符合用户使用习惯,搜索效率高。基于Java的开源Carrot2聚类搜索引擎[5]可自动的把搜索结果归类到相应的语义类别中,它的一个亮点是速度和易用性的提高。中文搜索领域,早期比较有实力的聚类搜索引擎有Bbmao,Bbmao搜索系统推出了去重功能,为网民解决了大量阅读重复信息的烦恼。Bbmao的聚类功能,能够提高查找信息的效率,它还具有云集各大搜索引擎结果的功能,同时完成海量信息的分门别类。近期出现的baigoogleledu综合了谷歌、百度两大搜索引擎。其基本出发点是两大搜索引擎的搜索结果的很大的差异性。这类系统对搜索结果进行聚类分析,在一定程度上缓解了广告泛滥的局面,使用户更便捷地找到需要的信息。

有关国内外聚类搜索引擎的相关技术,主要有聚类分析、聚类算法、中文信息处理等技术。Anton等人[7]致力于把分类体系引入评估体系来评价聚类效果质量的研究。SudiptoGuha等研究人员[8]应用概念关联代替传统的计算欧式距离,来衡量数据之间的相似度,从而确定聚类,达到了很好的效果。

国内一些学术组织和团体很早就开始对自动文本分类、聚类领域等相关内容进行研究,从“天网”和“网络指南针”开始北京大学和清华大学就开始致力于网页的聚类技术研究。此外,北京科技大学的麻雪云提出了一种基于关键名词短语聚类的中文搜索结果聚类方法[9],利用百度、谷歌、雅虎三大搜索引擎来获取互联网信息,对搜索结果进行聚类分析。国防科技大学的肖坤对STC算法和Lingo算法进行了比较,并对STC算法进行了改进,设计实现了一个面向校园网聚类搜索引擎系统[10]。

2 聚类搜索引擎的功能分析

2.1 聚类对象分析

现有聚类搜索引擎的聚类对象主要包括三类数据:商业数据、评价数据、社交数据。

商品数据主要包括对服装、电器、化妆品等数据信息进行分类整理,例如用户在淘宝网输入“牙膏”关键字,在网页上立马显示出“功能”、“品牌”、“产地”等分类信息,并按照销量、价格、信用进行了排序,对商品的聚类分析清晰明确。评价数据主要包括论坛对相关主题的讨论信息,博客的交流信息,商业网站对商品的满意度评价信息等。大连海事大学的鲁明羽、姚晓娜等人提出一种基于模糊聚类的网络论坛热点话题挖掘算法,通过分析帖子和用户间的影响力传递,来判断是否为焦点人物和热门话题[11]。社交数据主要包括社交网络注册用户个人资料信息、用户关注度信息、用户之间交互信息等社交数据资源。社交数据隐含了大量可以用于聚类的关联信息,对实现智能和个性化聚类搜索具有重要意义。此外,聚类对象按数据类型还可以划分为文本数据、多媒体数据等。

2.2 聚类功能分析

聚类搜索引擎的聚类功能主要有智能聚类、去重、多媒体、覆盖性等能力。

智能聚类:聚类搜索引擎大多具有这项功能。目前做得最好的如Vivisimo系统,它最大的特色是会对搜索结果自动分类,采用专门开发的启发式算法来集合或聚类原文文献。

去重:去重可以取掉大部分的广告网页并节省掉用户的选择时间,是十分实用的一项聚类功能。国内的比比猫的去重功能非常出色,在用户获得多个搜索引擎的搜索结果后,比比猫可以自动为用户获取最有搜索结果并取掉重复的信息。

多媒体:除了文本聚类,聚类搜索引擎还关注视频、音频等多媒体信息进行聚类的功能,商业化、集成化、多媒体化的气息更加浓厚。搜狗音乐推出了新版的聚类页面,可视化强,用户输入重庆阳光房名称,将获得全新的聚类结果,该结果首先按照音频特征聚类,再按照文本信息聚类,保证搜索界面显示的音乐相关度最高。

覆盖性:聚类搜索引擎一般基于一些大型通用搜索引擎的数据资源,这样能够保证搜索的结果覆盖全面,可聚类的对象内容丰富。

2.3 聚类算法分析

聚类搜索引擎的聚类算法主要有层次聚类、树状聚类、网状聚类、圆形聚类。其中Carrot2、Clusty(clusty.com)、iBoogie(iBoogie.com)等系统使用层次聚类的方法,按照来源及站点进行聚类。PinkySeach[12]和Mnemomap(mnemomap.org)系统是使用树状结构的聚类算法如重庆不锈钢装饰,将聚类的结果以列表的形式展示出来。UJIKO系统(ujiko.com)是使用圆形结构的聚类算法,它将搜索结果聚类后按照主题自动分类成图形界面显示出来。Quintura系统(quintura.com)是使用网状结构的聚类算法,是通过标签云的形式将在语义上相关的词聚类,构成网状链接。

3 典型聚类搜索引擎

3.1 Vivisimo系统

Vivisimo系统[5]的基本步骤包括:首先系统自动地、并行地向多个大型搜索引擎提交查询请求,然后汇集每个查询返回的结果,对查询的结果进行聚类分析,经过去重、合并、分类等步骤后,通过输出处理显示给用户。Vivisimo的聚类对象是从多个搜索引擎返回的搜索结果,主要是文本信息。Vivisimo的聚类功能主要是文本的聚类,通过对文本内容进行对重庆不锈钢宣传栏搜索和归类分析,vivisimo的软件可以使用户从没有预先标记或分类的资源中整合、分类内容。Vivisimo采用启发式算法,借鉴了人工智能的理念,对检索的结果进行聚类,可以把文本信息自动地分成等级排序的类目,它的每一步都是自动化的,不需要人工干预。

目前Vivisimo的商业应用十分广泛,它对信息的分类很体贴,具有人性化。其细致的检索结果显示方式使它成为了业界的精品,连续多年成为“最佳元搜索引擎”。但是,Vivisimo于没有自身的数据资源库,依附于其他大型搜索引擎,独立性较差,检索功能有待加强。

3.2 Carrot2系统

Carrot2是基于Java开发的开源聚类搜索系统[6],主要用于对搜索结果进行聚类。与Vivisimo相似,首先也是用户输入关键字在Bing、baidu、google等知名搜索引擎进行搜索,然后对返回的搜索结果进行聚类,并通过树形的分类图进行显示出来。Carrot2的聚类对象主要是各大搜索引擎返回的搜索结果,其通过文档聚类平台workbench,对搜索的数据进行聚类分析,并通过文档聚类服务器DCS,将聚类结果作为REST服务呈现。最后,Carrot2以WebApp方式将聚类结果作为网络应用呈现给终端用户。Carrot2采用的聚类算法主要是Lingo(基于奇异值分解的索引结果聚类)算法和STC(Suffix Tree Clustering)后缀树聚类算法。

目前Carrot2支持的聚类算法较多,代码开源可以进行版本的更新和改进。该系统应用广泛、可移植性较好。但是Carrot2中文分词效果不好,可视化效果不佳。

4 聚类搜索引擎发展趋势

文献[1]通过对大量搜索引擎的评测,发现独立性差、专用算法欠缺、搜索速度慢等一系列问题,但该文主要对搜索结果的聚类方法进行了评测,对聚类搜索引擎的趋势的分析也主要侧重于聚类方法。本文认为聚类搜索引擎未来将向数据海量化,链接社交化,聚类综合化三个方向发展。

4.1 数据海量化

现阶段的聚类搜索由于数据集较为单一,聚类算法过于老旧,造成呈现给用户的检索结果数量少,内容贫乏,这样必然影响聚类搜索的发展壮大。所以未来聚类搜索必然要向数据海量化发展。近期,美国互联网公司“耶宝”日前推出一种更具人性化的搜索引擎,有别于当今主流搜索引擎网站提供的单维搜索,并非一般的罗列搜索结果,而是通过对搜索的词条和海量的网页的内容进行分析,自动对搜索结果进行聚类和分类,为用户提供丰富而直观的结果。

4.2 链接社交化

在搜索引擎中引入社交元素,由于目前Web社交网络形成了一个巨大的DeepWeb(针对网络爬虫而言),而这个数据量对搜索引擎来说是非常大而且有用的,搜索引擎作为用户获取信息的主要渠道,势必需要这些用户活跃度和新鲜度很高的数据资源。由于社交数据中蕴含着大量数据之间的潜在链接,因此基于社交数据进行聚类搜索可望更好满足用户的个性化需求。

4.3 聚类综合化

聚类的多元化、跨领域、综合化将是新型聚类搜索的重要特点。局限于单个应用领域的聚类搜索已经难以适应需要,跨领域聚类将是未来聚类搜索面临的主要挑战。


相关内容

  • 漫谈E环境下小学生网络道德教育
  • 漫谈E环境下小学生网络道德教育 摘 要 目前的小学生们生活在一个信息无所不在的社会中,孩子们获得各种信息的 方式.种类和数量都是我们无法想像的.这些信息不留痕迹地进入了孩子的潜意识.而小学生的人生观.价值观.道德观等尚未形成,很容易受到网络环境的负面因素的影响.本文针对目前的部分地区学生的网络道德教 ...

  • 006048计算机音乐漫谈
  • 计算机音乐漫谈 关键词:基于计算机的音乐 数学音乐资源 白 硕 中国科学院计算技术研究所 音乐,是一种艺术门类,是形象思维的典型代表.计算机,则是一种基于逻辑的信息处理工具,是逻辑思维的典型代表.但是,在信息时代,二者却奇妙地结合在一起,产生了"计算机音乐"这样一个充满活力的技术 ...

  • 漫谈思维定势和媒体帝国主义
  • 思维定势是一种习惯性的神经联系,前次的思维活动对后次的思维活动有指引性的影响.它有两种形式:适合思维定势和错觉思维定势.前者是对事物正确的感知和正确的反应,后者则是错误的感知以及错误的解释.而所谓媒体帝国主义,是指信息传播中,发达国家有意无意控制了发展中国家的媒体系统,呈现发达国家的传播主导性和发展 ...

  • 现代环境艺术设计漫谈
  • 自己收集整理的错误在所难免仅供参考交流如有错误请指正!谢谢 现代环境艺术设计漫谈 现代建筑环境艺术探析 :东京新宿区的都厅大厦.大坂城的海岸建筑.京都奈良的传统建筑.上野公园的文化建筑.六本木的商业建筑.涉谷区代官山的自然派住宅以及目黑区的雅舒园旅游建筑等均采用象征.隐喻的设计手法运用几何形态母题要 ...

  • 我是如何成为一名合格的网站编辑的?
  • SEO在中国已经发展了好几年了,但是对于企业的网站主管和编辑来说这个还是很陌生,对此还不是很了解,以前做站都是根据传统的经验去做,比如在传统的大型门户站.报纸做广告(当然也有线下的,这个以后有机会再说),这些投入都需要很大的成本,不是一企业的中小企业所能承担得起的,哪么这就引出了一个问题,怎么样用最 ...

  • 如何面试新人
  • 如何面试新员工 如果说,招聘是企业不断输入新鲜血液的入口,那么,面试就是那个锋利的针头. 面试是面试官通过与应聘者会面,观察应聘者对于特定条件的反应,对应聘者进行较为深入的了解, 判断其是否达到胜任某项职位要求的过程.面试官通过各种方法,对应聘者的言行举止.性格品质.知识 技能.能力素质等多方面进行 ...

  • 漫谈信息技术手段在高中英语教学中的应用
  • 摘要:信息技术的飞速发展,促进了课堂教学改革的具体实施.信息技术对新课程理念下的高中英语教学起到了很好的辅助作用.高中阶段的英语教学,教师应大胆探索新型的教学模式,落实学生在课堂教学活动中的主体地位,通过导学案.合作学习等方式提高学生的学习效率,全面落实高中英语教学目标,为学生的进一步学习和将来的工 ...

  • 加强建设林业生态环境保护的措施漫谈
  • 摘 要:主要从我国林业生态环境保护的现状入手,来探讨林业生态环境保护的措施. 关键词:林业:生态环境:保护:措施 1 我国林业生态环境保护的现状 1.1 林业生态环境政策不健全 由于长期对于生态环境的保护不够重视,这也使得林业生态系统并没有一个完善的保障体系,而且,对于林业生态体系建设,国家的投入资 ...

  • 漫谈企业信息化--给中小企业信息化的一点启示
  • 漫谈企业信息化--给南平中小企业信息化的一点启示 南平市经贸委 季 专 企业信息化已经过了"十五"和"十一五"的发展历程,企业信息化已经十年了,为什么还要再谈企业信息化? 企业信息化是指企业广泛利用现代信息技术,充分开发和利用其信息资源,及时地把握机会,做出决 ...