中文搜索引擎分类类目研究

摘要:当前,中文搜索引擎分类目录大都是自编的,或多或少存在着问题,不利于信息检索,为满足用户的检索需求,建立统一的检索类目势在必行。该文抽取了11家综合搜索引擎,研究其分类类目的组成,据此分析出当前搜索引擎类目分类存在的问题,继而提出改进,最后归结出分类类目的大致类别。

关键词:搜索引擎; 分类; 类目

中图分类号:tp393 文献标识码:a 文章编号:1009-3044(2013)18-4174-03

目录型搜索引擎采用网站登录收录方式,依据主旨、用户对象及网络资源状况构建分类体系,把收集到的本地的网站页面进行人工编辑,层层类分,形成纵向隶属、横向关联的网站目录数据库。用户依据类目体系及其规则分类检索,逐类浏览,直至获得所需资源[1]。 目前,中文分类搜索引擎正蓬勃发展,犹如雨后春笋般相继出现,但各家搜索引擎的分类目录多为自编,这些自编的分类类录或多或少的存在着问题,不能完全的满足用户的检索需求[2]。所以笔者认为,建立统一的分类类录体系势在必行。该文在研究多数分类搜索引擎的基础上,归结出分类类录的大致类别,以期为相关研究机构和人员提供参考。 1 样本来源及研究方法

1.1样本来源

本文选取的样本来自于中国网站排名(chinarank.org.cn)。中国网站排名由中国互联网协会主办,主要提供网站综合排名top榜、网站流量趋势、统计工具、互联网市场信息等业务。

1.2研究方法

根据中国网站排名,选择具有代表性的11种目录式综合搜索引擎,收集并整理目录(表

2),为方便统计,将同一意思的目录统一名称,例如,“购车”转换为“汽车”、“it”转化为“科技”、“图库”转化为“图片”、“台湾”转化为“台海”、“尚品”转化为“时尚”、“地方站”简化为“地方”、“悬赏问答”简化为“问答”等等;统计搜索引擎类目,计算个类目的词频;按词频的高低进行排序;最后对词频表进行分析研究。

2 数据分析

将表2进行统计整理,总共获得105个不同类目,对每个类目出现次数进行统计,并将结果降序排列,得到类目的词频统计图(表3)。再将表3中的类目词频进行统计,获得高频词低频词统计表(表4)。

由表3可知,类目“汽车”、“新闻”、“科技”、“体育”、“娱乐”、“财经”、“房产”“旅游”是词频排名前三名的类目,说明它们是分类体系的主流类,目录型搜索引擎基本上都有着几大类;由表4可知,高词频(词频[≥]7)类目数很少,只占到总数的12.38%,相反,低频词(词频[≤]3)类目数却很多,占总数的76.19%,这显然是不合理的。

3 类目词频统计结果分析

3.1搜索引擎类目分类存在的问题

1) 分类类目数差距大

根据表1显示,搜狐的一级类目有34个,凤凰网和人民网的类目有32个,而环球网的类目只有19个,网易和北方网也只有21个,最大的差距有多大15个。类目数过多,分类过于庞杂、外延溢出,例如搜狐的“高考”属于“教育”的外延溢出,其完全可以并入“教育”类;类目数过少,知识覆盖不全,体系过于简单,查询者需要层层遍历,才能找到所需信息,浪费时间,例如想在环球网查找体育相关的信息,就必须同时查找“新闻”、“社会”、“评论”等类目,层层遍历,直到找到体育相关的信息。

2) 归类不科学,划分有失恰当

许多搜索引擎的分类体系未能严格的按照类目的内涵和外延进行科学地归属类目[3],其

分类体系划分失误的种类主要有以下几种:①划分出来的类目相包容。例如,新浪网的“新浪大片”类目完全可以归纳在“视频”类目中,搜狐网的“彩票”类目可归纳在“财经”类目中;②划分过窄。例如,环球网的“历史”类目,内涵过窄,可以开辟一个“文化”大类,将“历史”这一类目作为它的二级类目;③划分过宽。例如,北方网的“文娱”类目,外延过于宽泛,可以拆分成“文化”和“娱乐”两个类目。

3)类目排列随意,界面欠友好

某些网站的界面友好层度比较低,广告太多,类目布局不合理,以及类目和二级类目混杂,版面混乱,给查询者的视觉效果不良[4];凤凰网的左侧右侧均插入了广告,并且随滚动条滚动,版面不够洁净,然让看了不舒服。例如,搜狐网的一级类目和二级类目混杂在一起,且字体大小一样,导致类目过多,看的人眼花。相反,新浪网设有网页导航,左侧边栏为一级目录,右侧为二级和三级目录,一目了然,分类清晰。

4)类名不规范,缺乏统一的类名体系

搜索引擎分类体系中普遍存在类名不统一的现象,各家搜索引擎同内涵和外延的类目却分别标示着不同的类目名称。例如,搜狐、人民网、北方网出现了“it”这一类目,而腾讯、新浪、凤凰网、网易用的是“科技”这一类目;腾讯、新浪的“女性”类目和搜狐、网易、中华网的“女人”这一类目也是同属一个概念。 5)出现生僻类,类下缺乏注释 中文搜索引擎在其分类体系中采用了网页制作者自己自编的类目名称或是广大网名自发形成的网络用语、俗称、简称、英文缩写、惯称等自然语言[3],但有些类名缺乏规范化处理,类下有无注释,用户很难判别其内涵和外延,增加用户的额外负担。例如,搜狐的“白社会”、北方网的“18街”、中华网的“有料”、中国雅虎的“心香一脉”等,在没有注释的情况下,用户无从知道这些类目到底代表着什么样的内容[5]。

4 对搜索引擎类分类体系的思考

根据各类目出现的频次,将类目体系分为四类:主流类,次流类,商榷类,修改类(表

5)。

4.1 主流类和次流类

主流类中的类目频次都是大于或等于7的,即它是由高频词组成的,这些类目是搜索引擎的主流类目,几乎所有的搜索引擎基本上都有这13个类目,在编制搜索引擎类目体系时,这13个类目可保留,直接使用;次流类是由类目频次小于7大于等于4的类目组成,这些类目是搜索引擎的基本类目,将近一半的搜索引擎都有这12个类目,对于这12个类目,可直接保留使用,也可稍作微调,例如,将“读书”归入“文化”类、“手机”纳入“数码”类、“微博”与“博客”合为一类,搜索引擎分类体系可根据自身情况借鉴使用。

4.2 商榷类

商榷类类目是由频次等于2和3的类目组成,这一类类目比较庞杂,界限不明确,需要调整后使用,分两种情况:

1)保留型,将其比较典型的类目,与其他类目外延交叉较低的类目保留下来,例如“亲子”、“女性”、“环保”、“问答”等;

2)调整型,将外延重叠交叉的类目进行调整,例如,“历史”纳入次流类的“文化”类,“动漫”归入“游戏”类,“彩票”纳入“财经”类,“女人”和“女性”合并为一类等。

4.3 修改类

修改类全部是由频次等于1的类目构成,对于这类类目,要进行大幅修改,才可以投入使用。修改方式有四种:

1)保留型,一些类目虽然不常使用,但也是属于一种新类别或是实用价值比较高的类目应予以保留,例如“男人”类目(因为有“女性”这一类目,为公平,应也有“男人”这一类目)导航(实用性很强);

2)包容型,一些类目的外延与其他类目交叉重叠了,所以不必要单独列出来,例如,“教育”已经包括“高考”这一类目,“新浪大片”包含在“视频”类目中,“华人佛教”属于“文化”范畴等等。

3)注释型,一些类目太过标新立异,仅看名字无法理解其内涵,不方便用户使用,因此,需要加以注释,例如,“白社会”、“节会”、“宽频”、“18街”、“有料”、“心香一脉”。

4)摒弃型,一些类目是完全不必要出现在一级类目中,需要直接舍弃掉,例如,“服饰”、“高尔夫”、“心理测试”等。

综上所述,一般性综合搜索引擎的一级类目应大致有:“新闻”、“财经”、“科技”、“体育”、“娱乐”、“教育”、“房产”、“汽车”、“旅游”、“论坛”、“视频”、“公益”、“健康”、“游戏”、“地方”、“博客”、“读书”、“邮箱”、“军事”、“文化”、“时尚”、“数码”、“图片”、“环保”、“女性”“问答”、“国际”、“男人”、“导航”这28个类目。在编制搜索引擎的类目体系时,考虑自身搜索引擎的特点、偏向,具体问题具体分析,借鉴使用。

摘要:当前,中文搜索引擎分类目录大都是自编的,或多或少存在着问题,不利于信息检索,为满足用户的检索需求,建立统一的检索类目势在必行。该文抽取了11家综合搜索引擎,研究其分类类目的组成,据此分析出当前搜索引擎类目分类存在的问题,继而提出改进,最后归结出分类类目的大致类别。

关键词:搜索引擎; 分类; 类目

中图分类号:tp393 文献标识码:a 文章编号:1009-3044(2013)18-4174-03

目录型搜索引擎采用网站登录收录方式,依据主旨、用户对象及网络资源状况构建分类体系,把收集到的本地的网站页面进行人工编辑,层层类分,形成纵向隶属、横向关联的网站目录数据库。用户依据类目体系及其规则分类检索,逐类浏览,直至获得所需资源[1]。 目前,中文分类搜索引擎正蓬勃发展,犹如雨后春笋般相继出现,但各家搜索引擎的分类目录多为自编,这些自编的分类类录或多或少的存在着问题,不能完全的满足用户的检索需求[2]。所以笔者认为,建立统一的分类类录体系势在必行。该文在研究多数分类搜索引擎的基础上,归结出分类类录的大致类别,以期为相关研究机构和人员提供参考。 1 样本来源及研究方法

1.1样本来源

本文选取的样本来自于中国网站排名(chinarank.org.cn)。中国网站排名由中国互联网协会主办,主要提供网站综合排名top榜、网站流量趋势、统计工具、互联网市场信息等业务。

1.2研究方法

根据中国网站排名,选择具有代表性的11种目录式综合搜索引擎,收集并整理目录(表

2),为方便统计,将同一意思的目录统一名称,例如,“购车”转换为“汽车”、“it”转化为“科技”、“图库”转化为“图片”、“台湾”转化为“台海”、“尚品”转化为“时尚”、“地方站”简化为“地方”、“悬赏问答”简化为“问答”等等;统计搜索引擎类目,计算个类目的词频;按词频的高低进行排序;最后对词频表进行分析研究。

2 数据分析

将表2进行统计整理,总共获得105个不同类目,对每个类目出现次数进行统计,并将结果降序排列,得到类目的词频统计图(表3)。再将表3中的类目词频进行统计,获得高频词低频词统计表(表4)。

由表3可知,类目“汽车”、“新闻”、“科技”、“体育”、“娱乐”、“财经”、“房产”“旅游”是词频排名前三名的类目,说明它们是分类体系的主流类,目录型搜索引擎基本上都有着几大类;由表4可知,高词频(词频[≥]7)类目数很少,只占到总数的12.38%,相反,低频词(词频[≤]3)类目数却很多,占总数的76.19%,这显然是不合理的。

3 类目词频统计结果分析

3.1搜索引擎类目分类存在的问题

1) 分类类目数差距大

根据表1显示,搜狐的一级类目有34个,凤凰网和人民网的类目有32个,而环球网的类目只有19个,网易和北方网也只有21个,最大的差距有多大15个。类目数过多,分类过于庞杂、外延溢出,例如搜狐的“高考”属于“教育”的外延溢出,其完全可以并入“教育”类;类目数过少,知识覆盖不全,体系过于简单,查询者需要层层遍历,才能找到所需信息,浪费时间,例如想在环球网查找体育相关的信息,就必须同时查找“新闻”、“社会”、“评论”等类目,层层遍历,直到找到体育相关的信息。

2) 归类不科学,划分有失恰当

许多搜索引擎的分类体系未能严格的按照类目的内涵和外延进行科学地归属类目[3],其

分类体系划分失误的种类主要有以下几种:①划分出来的类目相包容。例如,新浪网的“新浪大片”类目完全可以归纳在“视频”类目中,搜狐网的“彩票”类目可归纳在“财经”类目中;②划分过窄。例如,环球网的“历史”类目,内涵过窄,可以开辟一个“文化”大类,将“历史”这一类目作为它的二级类目;③划分过宽。例如,北方网的“文娱”类目,外延过于宽泛,可以拆分成“文化”和“娱乐”两个类目。

3)类目排列随意,界面欠友好

某些网站的界面友好层度比较低,广告太多,类目布局不合理,以及类目和二级类目混杂,版面混乱,给查询者的视觉效果不良[4];凤凰网的左侧右侧均插入了广告,并且随滚动条滚动,版面不够洁净,然让看了不舒服。例如,搜狐网的一级类目和二级类目混杂在一起,且字体大小一样,导致类目过多,看的人眼花。相反,新浪网设有网页导航,左侧边栏为一级目录,右侧为二级和三级目录,一目了然,分类清晰。

4)类名不规范,缺乏统一的类名体系

搜索引擎分类体系中普遍存在类名不统一的现象,各家搜索引擎同内涵和外延的类目却分别标示着不同的类目名称。例如,搜狐、人民网、北方网出现了“it”这一类目,而腾讯、新浪、凤凰网、网易用的是“科技”这一类目;腾讯、新浪的“女性”类目和搜狐、网易、中华网的“女人”这一类目也是同属一个概念。 5)出现生僻类,类下缺乏注释 中文搜索引擎在其分类体系中采用了网页制作者自己自编的类目名称或是广大网名自发形成的网络用语、俗称、简称、英文缩写、惯称等自然语言[3],但有些类名缺乏规范化处理,类下有无注释,用户很难判别其内涵和外延,增加用户的额外负担。例如,搜狐的“白社会”、北方网的“18街”、中华网的“有料”、中国雅虎的“心香一脉”等,在没有注释的情况下,用户无从知道这些类目到底代表着什么样的内容[5]。

4 对搜索引擎类分类体系的思考

根据各类目出现的频次,将类目体系分为四类:主流类,次流类,商榷类,修改类(表

5)。

4.1 主流类和次流类

主流类中的类目频次都是大于或等于7的,即它是由高频词组成的,这些类目是搜索引擎的主流类目,几乎所有的搜索引擎基本上都有这13个类目,在编制搜索引擎类目体系时,这13个类目可保留,直接使用;次流类是由类目频次小于7大于等于4的类目组成,这些类目是搜索引擎的基本类目,将近一半的搜索引擎都有这12个类目,对于这12个类目,可直接保留使用,也可稍作微调,例如,将“读书”归入“文化”类、“手机”纳入“数码”类、“微博”与“博客”合为一类,搜索引擎分类体系可根据自身情况借鉴使用。

4.2 商榷类

商榷类类目是由频次等于2和3的类目组成,这一类类目比较庞杂,界限不明确,需要调整后使用,分两种情况:

1)保留型,将其比较典型的类目,与其他类目外延交叉较低的类目保留下来,例如“亲子”、“女性”、“环保”、“问答”等;

2)调整型,将外延重叠交叉的类目进行调整,例如,“历史”纳入次流类的“文化”类,“动漫”归入“游戏”类,“彩票”纳入“财经”类,“女人”和“女性”合并为一类等。

4.3 修改类

修改类全部是由频次等于1的类目构成,对于这类类目,要进行大幅修改,才可以投入使用。修改方式有四种:

1)保留型,一些类目虽然不常使用,但也是属于一种新类别或是实用价值比较高的类目应予以保留,例如“男人”类目(因为有“女性”这一类目,为公平,应也有“男人”这一类目)导航(实用性很强);

2)包容型,一些类目的外延与其他类目交叉重叠了,所以不必要单独列出来,例如,“教育”已经包括“高考”这一类目,“新浪大片”包含在“视频”类目中,“华人佛教”属于“文化”范畴等等。

3)注释型,一些类目太过标新立异,仅看名字无法理解其内涵,不方便用户使用,因此,需要加以注释,例如,“白社会”、“节会”、“宽频”、“18街”、“有料”、“心香一脉”。

4)摒弃型,一些类目是完全不必要出现在一级类目中,需要直接舍弃掉,例如,“服饰”、“高尔夫”、“心理测试”等。

综上所述,一般性综合搜索引擎的一级类目应大致有:“新闻”、“财经”、“科技”、“体育”、“娱乐”、“教育”、“房产”、“汽车”、“旅游”、“论坛”、“视频”、“公益”、“健康”、“游戏”、“地方”、“博客”、“读书”、“邮箱”、“军事”、“文化”、“时尚”、“数码”、“图片”、“环保”、“女性”“问答”、“国际”、“男人”、“导航”这28个类目。在编制搜索引擎的类目体系时,考虑自身搜索引擎的特点、偏向,具体问题具体分析,借鉴使用。


相关内容

  • 武汉大学信息检索网络资料试题
  • 信息检索网络资料 填空题 1.文献的级次分为零次文献.一次文献.二次文献.三次文献 2.<中图法>有五个基本部类,分别是马克思主义.列宁主义.毛泽东思想_.哲学:社会科学:自然科学和综合性图书,在此基础上又划分为_22_个大类. 3.按内容可将计算机检索系统的数据库类型分为: 文献书目型 ...

  • 网络文史信息检索.浏览与存储技巧
  • 往复 | 国史网 | 唐研究| 国史探微首页|象牙塔首页 网络文史信息检索.浏览与存储技巧 陈爽 2003-05-21 10:54:58 阅读 5641 次 原载<文史知识>2002年第2期 研究论文问题讨论读史札记史籍整理学界动态研究综述学林春秋图书评论新书选介史林书话论著目录期刊索引 ...

  • 互联网信息检索原理
  • 互联网信息检索原理 1.从信息利用的角度考察,互联网信息资源由哪三方面构成?答:从信息利用的角度考察,互联网信息资源由连接在网上的计算机中的无数信息.网上的各种信息工具以及网络通信渠道三方面构成. 2.简述网络信息资源的特点.答:网络信息资源的特点是数量庞大.增长迅速:更新频繁.变化无常.分布散乱: ...

  • 漫谈聚类搜索引擎的研究现状
  • 1 聚类搜索引擎概念和工作流程 所谓聚类搜索引擎,就是运用聚类技术对搜索结果进行自动聚类分析的搜索工具.其特点是去重性强.分类性强.汇集性强,即可以及时去除重复信息,对搜索的结果进行分门别类,并可以汇集各大知名搜索引擎的信息资源.目前,典型的聚类搜索引擎的基本工作步骤为:①依据用户查询的关键字,从一 ...

  • 信息检索报告1
  • 一.实习内容:网络信息资源检索 二.实习目的:了解网络信息资源的类型及特点:掌握常用中外搜索引擎的使用方法. 三.实习要求: 1)了解网络信息资源的类型及特点. 2)掌握百度检索规则及基本检索.高级检索.限定字段检索及特色功能的使用方法. 3)掌握Google检索规则及基本检索.高级检索.限定字段检 ...

  • 计算机信息检索与利用实习
  • 计算机信息检索与利用实习报告 --电子线路在音频放大器中的应用 目录 一.检索课题名称 .................................................................................... 3 二.课题分析............. ...

  • 浅议高校"文献检索课"的搜索引擎教学
  • 摘要:高校的"文献检索课"是一种快速变化的课程,从印刷型检索到利用计算机联机以及对互联网资源的检索,应与变化了的大环境保持一致.网络信息资源日臻丰富,给高校的"文献检索课"带来了新的内涵,掌握一种新的实用高效的搜索引擎应是文献检索课必须解决的课题. 关键词:文 ...

  • 武汉大学信息检索ME
  • 信息检索资料 什么是信息.知识.情报和文献 信息:事物属性,是由事物发出的消息.指令.数据. 知识:是人类社会实践经验的总结,是人的主观世界对于客观世界的概括和反映. 情报:是激活了的知识,是为特定目的服务的信息:是对特定主体解决某个问题时有参考或决策价值的信息. 文献:固化在一定物质载体上的知识: ...

  • 网络广告模式案例分析
  • 网络广告模式案例分析 广告是现代企业的一种重要的营销手段,Internet是一个全新的广告媒体,其发布广告速度快.效果好,网络广告的市场在以惊人的速度增长,以致广告界甚至认为互联网络将超越路牌,成为传统四大媒体(电视.广播.报纸.杂志)之后的第五大媒体.众多国际级的广告公司都成立了专门的" ...