问答式信息检索技术

2008年10月第25卷第5期沈阳航空工业学院学报

JournalofShenyangInstituteofAeronauticalEngineeringOct.2008Vol.25 No.

5

文章编号:1007-1385(2008)05-0063-05

问答式信息检索技术

白 宇 周俏丽 蔡东风

(沈阳航空工业学院知识工程中心,辽宁沈阳 110034)

摘 要:针对知识管理在知识共享、搜索、,用的检索技术中存在的不足,索技术。,更好地服务于知识共享、搜索、关键词;.文献标识码:A

  知识管理

[1-2]

过程需要把握积累、共享和交的,大多数的搜索引擎只提供关键词间最基本的布尔连接,例如,AND和OR等逻辑运算符。在很多情况下,要构建一个有效的查询组合是非常困难的。

另一方面,关键字的组合形式不同,将导致检索结果存在差异。因此,传统的知识管理系统中搜索工具的使用不仅要求企业员工拥有一定的计算机操作技能,还要具备一些语言抽象能力,将查询问句转换为合理的关键字组合。这样,抬高了企业员工使用知识管理系统的门槛,不利于知识管理的普及。

(2)查询结果冗余度高

这一不足表现在搜索引擎针对用户查询返回的结果仍然是一些重复的、零散的企业信息。员工常常需要花费许多时间在这些重复的、零散的企业信息中进行找寻或整合,这占去了员工许多宝贵的时间。而这种寻找信息的时间,对员工和企业而言都没有价值的创造,无疑是对企业成本的浪费。

另外,当回复用户查询需要Web数据支持的时候,返回大量的结果页面中真正符合用户需求的页面数量很少,而且这些相关链接散布在查询结果中。用户需要进行大量的阅读才能找到有价值的信息,这个过程也将耗费大量的时间。在Web信息量指数增长的时代,这个问题显得尤为

流三个原则。知识积累是知识管理的基础,只有

一定数量和质量的知识资源才谈得上管理;知识共享的目的是使每个成员都能接触和使用知识库中的知识和信息;知识交流则是要求每个知识的使用者都积极的贡献自己的知识,以建构更大规模的知识库,知识的共享和交流是使知识体现其

[3-4]

价值的关键环节。知识的循环过程如图1所示

图1 知识管理平台中知识循环过程

知识共享、检索、交流和管理的目的是使知识的流动性得到充分体现和利用,而知识流动的关

键是依赖于对已有知识的检索。尽管目前的知识管理系统中融合了一些信息检索技术,但是这些

[5]

技术仍然存在不足,主要表现为:

(1)基于关键词的查询缺乏用户行为理解力从检索技术发展的角度看,基于关键词的查询将是现在以及相当长的一段时间内最重要的检索方法。基于关键词的查询是以关键词的布尔组合来实现复杂的检索。而现有知识管理系统中的搜索引擎能够识别的用户提问方式是相当有限

收稿日期:2008-05-23

作者简介:白宇(1982-),男,内蒙古赤峰人,助教,研究方向:信息检索,E-mail:[email protected]

突出。

如何提高员工工作效率,能够将员工宝贵的工作时间直接运用于协助顾客或解决问题的创造价值的活动上,对营造企业竞争优势非常重要。一种理想的检索系统应该允许用户自由地表达查

64                   沈阳航空工业学院学报                第

25卷

询需求,系统应该能够理解用户询问中内在的、复杂和微妙的含义。这也是信息检索实现智能化、人性化服务追求的目标所在。

问答式信息检索技术是信息检索智能化的一

[6]

个极富挑战性的课题,其任务是建立一种能够给出像人那样的理解、分析并回答自然语言提问

[7-8]

的计算机模型,具有较好的实现人机会话、问题回答等语言信息处理功能。因此,问答式信息的替代技术,和管理

型以及提问的句法、语义表示等。检索模块根据提问处理模块生成的查询关键词,使用传统检索方式,检索出和提问相关的信息。返回的信息可以是段落、也可以是句群或者句子。答案抽取模块则从检索模块检索出的相关段落或句群或句子中抽取符合提问答案类型一致回答,根据某种原

图3 问答式信息检索系统的工作原理

2 问答式检索的关键技术

问答式信息检索系统广泛使用的自然语言处理技术,包括:命名实体识别技术、短语结构或依

存分析技术、复述技术、词汇链和逻辑形式转换(LogicFormTransformation)等。

命名实体常常是问答式信息检索系统获取的目标答案。如“在哪里”,“是谁”,“什么时候”,“有多少”等问句,其对应的答案类型相应为地名、人名、时间、数字等命名实体。因而,命名实体识别的正确与否将直接影响答案抽取的性能。

短语结构或依存分析的结果是得到句子的短语结构句法树或依存结构句法树。其分析结果有利于在句子排序或答案抽取阶段,使用合理的句法信息,确定答案的可能位置。

复述指用不同的词汇-句法结构表达同样的意思。它可以解决因提问和答案的表述不同给问答式信息检索系统的设计带来的麻烦。很多情况下,提问关键词和文本关键词是不一致的,但他们却表达相同的意思。词汇链对于解决这类提问非常的重要。一般利用语义资源构建词汇链,连接提问关键词和答案关键词,实现推理。

通过比较提问和文本的句法树来抽取答案虽然提高了系统的性能,但这种基于句法树分析的

图2 问答式信息检索系统的分类

1 问答式信息检索技术

目前,多数搜索引擎采用关键词进行匹配,

返回的大量信息和链接,其中,返回结果中的大部分不是用户需要的信息。问答式信息检索系统即问答系统是可以接受用户以自然语言形式描述的提问,并从大量的异构数据中查找出能回答该提

[9]

问的准确、简洁的答案的信息检索系统。因此,问答式信息检索系统与根据关键词检索并返回相关文档集合的传统搜索引擎有着根本的区别。它能够提供用户真正有用、精确的信息,将是下一代的搜索引擎的理想选择之一。

问答式信息检索系统的研究大致可以分为三[10]类:基于常问问题集的问答式信息检索系统,限定领域的问答式信息检索系统以及开放域的问答式信息检索系统。

典型的问答式信息检索系统通常由提问处理

[6]

模块,检索模块和答案抽取模块三部分组成,如图3所示。其中,问题处理模块负责对用户的提问进行处理;生成查询关键词;确定提问答案类

第5期               白宇等:问答式信息检索技术                 65

 

方法还是非常浅层的。因为对句法树的分析基本上就是合一(Unification)运算,比较两棵句法树的相似性,无法回答那些需要推理才能回答的提问。这个时候,必须使用语义信息才能给出正确答案。把问句和文本同时转化成统一的LogicForm(QLF和ALF),通过对QLF和ALF的运算来抽取答案。逻辑形式转换最大的特点是它结合词汇链可以表达语义知识,实现推理功能。在整个推理过程中,词汇链知识库起到了非常重要的作用。

另外,]

程度。

图4 基于FAQ的问答过程

的回答,待问题被回答且答案得到验证后,形成问

题答案对。将该问题答案对加入到FAQ库中,实现FAQ库的更新。最后,发送通知给提问者,告知问题已被回答。3.2 限定域自动问答实现企业内部知识的智能

检索

知识需要积累,企业的可持续成长过程和企业的知识积累与创新密切相关。企业运作多年,会积累下大量的与其从事领域相关的说明文档,技术文献等知识资源。如何有效地运用这些资源,使其能够方便、快捷地服务于企业的知识创新,是知识管理中需要解决的问题之一。限定领域的自动问答是在领域知识支持下的智能检索技术,能够满足知识管理中有效利用已积累的知识的需求,从已积累的知识中找到解决问题的办法

3 问答式信息检索在知识管理系统

中的应用

  知识管理中的智能检索机制可以是基于常问问题集(FAQ)的问答式信息检索系统,限定领域的问答式信息检索系统以及开放域的问答式信息检索系统的集成。多种问答式检索策略将在提高传统知识管理系统对知识可重用性、领域内检索智能性及新知识获取的性能上发挥作用。3.1 基于FAQ的问答式信息检索系统提高知识

可重用性

基于常问问题集的问答式信息检索系统是在已有的问题-答案对的集合中找到与用户提问相匹配的问题,并将其对应的答案直接返回给用户。常问问题集作为问答式检索系统中的一个组成部分,把用户经常提问的问题和相关答案保存起来。对于用户输入的问题,可以首先在常问问题库中查找答案。如果能够找到相应的问题,就可以直接将问题所对应的答案返回给用户,而不需要经过问题理解、信息检索、答案抽取等许多复杂的处理过程,提高了效率。在企业中,常常会出现不同员工寻求相同问题解答的现象,这样的问题集合就构成了常问问题集。对于这一类问题,可以通过查找到已有的专家回答获得解决问题的办法。

FAQ系统主要包含三个部分:候选问题集的

[12]

图5 限定领域问答式信息检索系统处理结构

在预处理阶段,系统需要根据领域内的知识结构对企业工作人员贡献的文档、文献等资源进行加工处理,形成领域知识库。使用领域知识库作为基础,运用模式匹配等方法实现对用户输入问句的分类,识别问句中的中心句和关键词,计算这些关键词的概念与领域知识库中已有概念的相似度,并将这些参数传给系统抽取出合适的答案

[13-14]

细节,并利用领域本体知识生成最终答案。3.3 基于开放域问答式信息检索系统的新知识

建立,句子相似度计算,FAQ库的更新。对于企

业员工提出的问题,首先,通过相似度计算,判断FAQ库中是否存在与该问题相似或相同的问题;若存在,则应该立即返回问题答案。否则,将该问题被记录到同领域问题集,

等待专家或其他员工

66                   沈阳航空工业学院学报                第25

获取

随着企业的运营发展,对新知识的需求不断增大。互联网是以超文本形式呈现给用户的,包含从技术资料、商业交易、新闻报道到生活娱乐等多种类别和形式的信息,为用户提供一个极具价值的信息源。随着互联网规模的迅速增长,网络资源层出不穷。然而,互联网的开放性、动态性和异构性的全球分布式网络,不仅资源分布相当分散,而且没有统一的管理和结构,获取信息的困难。搜索引擎的出现,,询形式复杂,识检索,而不是简单的一种搜索结果的堆积。

基于互联网的开放域自动问答技术符合知识管理需求。首先,对于用户以自然语言描述方式提交的问题进行分析,理解用户的要问的是什么。问题的分析一般包括问题的分类、查询形式扩[7,15]展。如果是中文,还需要进行分词等处[16-17]理。通过问题分析而得到的关键词集或符合检索输入的查询形式需要提交给信息检索模块来查找相关的文档。检索系统的任务就是在网络中已有的文档资源中搜索和查询相关的文档。基于Web资源的信息检索模块返回的是一个相关的网页集合,需要通过答案抽取模块从这些相关的网页中找出相关的答案(一句话,或者是一段)提交给用户

语相似度计算等关键技术;在问题分析、文档

[19]

检索、答案抽取与验证等方面先后提出了基于规则、统计、语义信息模型等的问题分类方[7,15-16,20]法,基于Web及本地知识库等资源的文档检索方法,以及多策略的答案抽取和验证方[8,19]法。

,在提高企业管,,增强竞突破口。知识管理将有助于获取企业集体的知识与技能,并将这些知识与技能提供给员工,激发员工的创意,以增强企业的竞争力。在此过程中,随着以问答式信息检索技术的不断成熟与完善,智能信息检索技术将在知识共享、促进知识创新等方面发挥重要作用。参考文献:

[1]ADMarwick.Knowledgemanagementtechnology.

Journal,2001,40(4):814-8301

[2]JosephM.Firestone;MarkW.McElroy.DoingKnowledgeMan2

agement.TheLearningOrganizationJournal,2005,12(2):189-2121

[3]JosephM.Firestone;MarkW.McElroy.ThenewKnowledge

Management,KnowledgeManagement,2003,6(10):12-161[4]MikeBurk.KnowledgeManagement:EveryoneBenefitsbySha2

ringInformation.http://www.tfhrc.gov/pubrds/novdec99/km.htm,2008-07-101

[5]RonenFeldman;MosheFresko;HaymHirsh;etal.KnowledgeManagement:ATextMiningApproach.http://liawww.epfl.ch/Publications/Archive/Feldmanetal98b.pdf,2008-07-101[6]吴友政,赵军,段湘煜,等.问答式检索技术及评测研究综

IBMSystems

[11]

述[J].中文信息学报,2005,19(3):1-131

[7]孙景广,蔡东风,吕德新,等.基于知网的中文问题自动分

类[J].中文信息学报,2007.21(1):90-951

[8]崔恒,蔡东风,苗雪雷.基于网络的中文问答系统及信息抽

取算法研究[J].中文信息学报,2004,18(3):24-311

[9]张亮,陈肇雄,黄河燕.自动问答系统研究综述[J].情报学

报,2006,25(4):433-4401

[10〗郑实福,刘挺,秦兵等.自动问答综述[J].中文信息学报,

2002,16(6):46-521

[11]ZhangGuiping,YuChao,CaiDongfeng,etal.Researchon

Conception-SememeTreeandSemanticRelevanceComputa2tion[A].In:The20thPacificAsiaConferenceonLanguage,InformationandComputation[C].Wuhan:2006.398-4021[12]贾可亮,樊孝忠,张禹.基于HowNet语义相似度的FAQ研

图6 基于Web的问答式信息检索系统处理过程

4 结论与展望

沈阳航空工业学院知识工程中心自成立之初

就开始了问答式检索技术的研究工作,是国内较早开展该领域研究的单位之一。中心在基础研究方面提出了统计命名实体识别

[18]

究[J].计算机应用,2007,27(09):2256-22571

[13]H.Chung,Y.Song,K.Han,etal.ApracticalQAsystemin

restricteddomains,Proc.ACL2004WorkshoponQuestionAn2

、基于语义的词

第5期               白宇等:问答式信息检索技术                 67

 

s

weringinRestrictedDomains,2004.39-451

[14]郭剑锋,顾新建,祁国宁,等.件库中基于本体的智能搜索引

[J].中文信息学报,2006,20(2):33-391

[18]郭家清.基于条件随机场的命名实体识别研究[D]:硕士学

擎的研究与实现.浙江大学学报,2007,41(4):639-6451

[15]崔桓,蔡东风,苗雪雷.问答系统中疑问句理解的分析研究

[M].见:中国人工智能进展.北京:北京邮电大学出版社,2003.1023-10271

[16]CaiDongfeng,BaiYu,DongYanju,etal.ChineseQuestion

ClassificationusingCombinationApproach[A].ThethirdIn2ternationalConferenceonSemantics,KnowledgeandGrid.Xi’an:IEEE,2007.334-3371

[17]文勖,张宇,刘挺,等.位论文.沈阳航空工业学院,20071

[19]DongYanju,CaiDongfeng,BaiYu.EvaluatingAnswerConfi2

denceatMultipleLevels[A].In:The3rdInternationalConfer2enceonSKG.Xi’an:IEEE.2007.579-5791

[20]CaiDongfeng,SunJinggung,Guiping,etal.HowNet

BasedQuestion].In:The20thPacificsiaImationandComputation

maticquestionansweringtechnology

BAIYu ZHOUQiao-li CAIDong-feng

(KnowledgeEngineeringCenter,ShenyangInstituteofaeronauticalengineering,LiaoningShenyang110034)

Abstract:Focusonthedemandofknowledge-sharing,searching,exchangingandmanagementofknowledgemanagement,wepointedoutsomedeficienciesofretrievalmethodnowinusingofknowledgemanagementsys2tem,andintroducethequestionansweringtechnologywhichcandealwithnaturallanguagequery.Thistech2nologycanbeusedasthealternativeofcurrentinformationretrievalmethodtomakeknowledgemanagementmoreefficient.

Keywords:knowledgemanagement;knowledgesharing;questionanswering

2008年10月第25卷第5期沈阳航空工业学院学报

JournalofShenyangInstituteofAeronauticalEngineeringOct.2008Vol.25 No.

5

文章编号:1007-1385(2008)05-0063-05

问答式信息检索技术

白 宇 周俏丽 蔡东风

(沈阳航空工业学院知识工程中心,辽宁沈阳 110034)

摘 要:针对知识管理在知识共享、搜索、,用的检索技术中存在的不足,索技术。,更好地服务于知识共享、搜索、关键词;.文献标识码:A

  知识管理

[1-2]

过程需要把握积累、共享和交的,大多数的搜索引擎只提供关键词间最基本的布尔连接,例如,AND和OR等逻辑运算符。在很多情况下,要构建一个有效的查询组合是非常困难的。

另一方面,关键字的组合形式不同,将导致检索结果存在差异。因此,传统的知识管理系统中搜索工具的使用不仅要求企业员工拥有一定的计算机操作技能,还要具备一些语言抽象能力,将查询问句转换为合理的关键字组合。这样,抬高了企业员工使用知识管理系统的门槛,不利于知识管理的普及。

(2)查询结果冗余度高

这一不足表现在搜索引擎针对用户查询返回的结果仍然是一些重复的、零散的企业信息。员工常常需要花费许多时间在这些重复的、零散的企业信息中进行找寻或整合,这占去了员工许多宝贵的时间。而这种寻找信息的时间,对员工和企业而言都没有价值的创造,无疑是对企业成本的浪费。

另外,当回复用户查询需要Web数据支持的时候,返回大量的结果页面中真正符合用户需求的页面数量很少,而且这些相关链接散布在查询结果中。用户需要进行大量的阅读才能找到有价值的信息,这个过程也将耗费大量的时间。在Web信息量指数增长的时代,这个问题显得尤为

流三个原则。知识积累是知识管理的基础,只有

一定数量和质量的知识资源才谈得上管理;知识共享的目的是使每个成员都能接触和使用知识库中的知识和信息;知识交流则是要求每个知识的使用者都积极的贡献自己的知识,以建构更大规模的知识库,知识的共享和交流是使知识体现其

[3-4]

价值的关键环节。知识的循环过程如图1所示

图1 知识管理平台中知识循环过程

知识共享、检索、交流和管理的目的是使知识的流动性得到充分体现和利用,而知识流动的关

键是依赖于对已有知识的检索。尽管目前的知识管理系统中融合了一些信息检索技术,但是这些

[5]

技术仍然存在不足,主要表现为:

(1)基于关键词的查询缺乏用户行为理解力从检索技术发展的角度看,基于关键词的查询将是现在以及相当长的一段时间内最重要的检索方法。基于关键词的查询是以关键词的布尔组合来实现复杂的检索。而现有知识管理系统中的搜索引擎能够识别的用户提问方式是相当有限

收稿日期:2008-05-23

作者简介:白宇(1982-),男,内蒙古赤峰人,助教,研究方向:信息检索,E-mail:[email protected]

突出。

如何提高员工工作效率,能够将员工宝贵的工作时间直接运用于协助顾客或解决问题的创造价值的活动上,对营造企业竞争优势非常重要。一种理想的检索系统应该允许用户自由地表达查

64                   沈阳航空工业学院学报                第

25卷

询需求,系统应该能够理解用户询问中内在的、复杂和微妙的含义。这也是信息检索实现智能化、人性化服务追求的目标所在。

问答式信息检索技术是信息检索智能化的一

[6]

个极富挑战性的课题,其任务是建立一种能够给出像人那样的理解、分析并回答自然语言提问

[7-8]

的计算机模型,具有较好的实现人机会话、问题回答等语言信息处理功能。因此,问答式信息的替代技术,和管理

型以及提问的句法、语义表示等。检索模块根据提问处理模块生成的查询关键词,使用传统检索方式,检索出和提问相关的信息。返回的信息可以是段落、也可以是句群或者句子。答案抽取模块则从检索模块检索出的相关段落或句群或句子中抽取符合提问答案类型一致回答,根据某种原

图3 问答式信息检索系统的工作原理

2 问答式检索的关键技术

问答式信息检索系统广泛使用的自然语言处理技术,包括:命名实体识别技术、短语结构或依

存分析技术、复述技术、词汇链和逻辑形式转换(LogicFormTransformation)等。

命名实体常常是问答式信息检索系统获取的目标答案。如“在哪里”,“是谁”,“什么时候”,“有多少”等问句,其对应的答案类型相应为地名、人名、时间、数字等命名实体。因而,命名实体识别的正确与否将直接影响答案抽取的性能。

短语结构或依存分析的结果是得到句子的短语结构句法树或依存结构句法树。其分析结果有利于在句子排序或答案抽取阶段,使用合理的句法信息,确定答案的可能位置。

复述指用不同的词汇-句法结构表达同样的意思。它可以解决因提问和答案的表述不同给问答式信息检索系统的设计带来的麻烦。很多情况下,提问关键词和文本关键词是不一致的,但他们却表达相同的意思。词汇链对于解决这类提问非常的重要。一般利用语义资源构建词汇链,连接提问关键词和答案关键词,实现推理。

通过比较提问和文本的句法树来抽取答案虽然提高了系统的性能,但这种基于句法树分析的

图2 问答式信息检索系统的分类

1 问答式信息检索技术

目前,多数搜索引擎采用关键词进行匹配,

返回的大量信息和链接,其中,返回结果中的大部分不是用户需要的信息。问答式信息检索系统即问答系统是可以接受用户以自然语言形式描述的提问,并从大量的异构数据中查找出能回答该提

[9]

问的准确、简洁的答案的信息检索系统。因此,问答式信息检索系统与根据关键词检索并返回相关文档集合的传统搜索引擎有着根本的区别。它能够提供用户真正有用、精确的信息,将是下一代的搜索引擎的理想选择之一。

问答式信息检索系统的研究大致可以分为三[10]类:基于常问问题集的问答式信息检索系统,限定领域的问答式信息检索系统以及开放域的问答式信息检索系统。

典型的问答式信息检索系统通常由提问处理

[6]

模块,检索模块和答案抽取模块三部分组成,如图3所示。其中,问题处理模块负责对用户的提问进行处理;生成查询关键词;确定提问答案类

第5期               白宇等:问答式信息检索技术                 65

 

方法还是非常浅层的。因为对句法树的分析基本上就是合一(Unification)运算,比较两棵句法树的相似性,无法回答那些需要推理才能回答的提问。这个时候,必须使用语义信息才能给出正确答案。把问句和文本同时转化成统一的LogicForm(QLF和ALF),通过对QLF和ALF的运算来抽取答案。逻辑形式转换最大的特点是它结合词汇链可以表达语义知识,实现推理功能。在整个推理过程中,词汇链知识库起到了非常重要的作用。

另外,]

程度。

图4 基于FAQ的问答过程

的回答,待问题被回答且答案得到验证后,形成问

题答案对。将该问题答案对加入到FAQ库中,实现FAQ库的更新。最后,发送通知给提问者,告知问题已被回答。3.2 限定域自动问答实现企业内部知识的智能

检索

知识需要积累,企业的可持续成长过程和企业的知识积累与创新密切相关。企业运作多年,会积累下大量的与其从事领域相关的说明文档,技术文献等知识资源。如何有效地运用这些资源,使其能够方便、快捷地服务于企业的知识创新,是知识管理中需要解决的问题之一。限定领域的自动问答是在领域知识支持下的智能检索技术,能够满足知识管理中有效利用已积累的知识的需求,从已积累的知识中找到解决问题的办法

3 问答式信息检索在知识管理系统

中的应用

  知识管理中的智能检索机制可以是基于常问问题集(FAQ)的问答式信息检索系统,限定领域的问答式信息检索系统以及开放域的问答式信息检索系统的集成。多种问答式检索策略将在提高传统知识管理系统对知识可重用性、领域内检索智能性及新知识获取的性能上发挥作用。3.1 基于FAQ的问答式信息检索系统提高知识

可重用性

基于常问问题集的问答式信息检索系统是在已有的问题-答案对的集合中找到与用户提问相匹配的问题,并将其对应的答案直接返回给用户。常问问题集作为问答式检索系统中的一个组成部分,把用户经常提问的问题和相关答案保存起来。对于用户输入的问题,可以首先在常问问题库中查找答案。如果能够找到相应的问题,就可以直接将问题所对应的答案返回给用户,而不需要经过问题理解、信息检索、答案抽取等许多复杂的处理过程,提高了效率。在企业中,常常会出现不同员工寻求相同问题解答的现象,这样的问题集合就构成了常问问题集。对于这一类问题,可以通过查找到已有的专家回答获得解决问题的办法。

FAQ系统主要包含三个部分:候选问题集的

[12]

图5 限定领域问答式信息检索系统处理结构

在预处理阶段,系统需要根据领域内的知识结构对企业工作人员贡献的文档、文献等资源进行加工处理,形成领域知识库。使用领域知识库作为基础,运用模式匹配等方法实现对用户输入问句的分类,识别问句中的中心句和关键词,计算这些关键词的概念与领域知识库中已有概念的相似度,并将这些参数传给系统抽取出合适的答案

[13-14]

细节,并利用领域本体知识生成最终答案。3.3 基于开放域问答式信息检索系统的新知识

建立,句子相似度计算,FAQ库的更新。对于企

业员工提出的问题,首先,通过相似度计算,判断FAQ库中是否存在与该问题相似或相同的问题;若存在,则应该立即返回问题答案。否则,将该问题被记录到同领域问题集,

等待专家或其他员工

66                   沈阳航空工业学院学报                第25

获取

随着企业的运营发展,对新知识的需求不断增大。互联网是以超文本形式呈现给用户的,包含从技术资料、商业交易、新闻报道到生活娱乐等多种类别和形式的信息,为用户提供一个极具价值的信息源。随着互联网规模的迅速增长,网络资源层出不穷。然而,互联网的开放性、动态性和异构性的全球分布式网络,不仅资源分布相当分散,而且没有统一的管理和结构,获取信息的困难。搜索引擎的出现,,询形式复杂,识检索,而不是简单的一种搜索结果的堆积。

基于互联网的开放域自动问答技术符合知识管理需求。首先,对于用户以自然语言描述方式提交的问题进行分析,理解用户的要问的是什么。问题的分析一般包括问题的分类、查询形式扩[7,15]展。如果是中文,还需要进行分词等处[16-17]理。通过问题分析而得到的关键词集或符合检索输入的查询形式需要提交给信息检索模块来查找相关的文档。检索系统的任务就是在网络中已有的文档资源中搜索和查询相关的文档。基于Web资源的信息检索模块返回的是一个相关的网页集合,需要通过答案抽取模块从这些相关的网页中找出相关的答案(一句话,或者是一段)提交给用户

语相似度计算等关键技术;在问题分析、文档

[19]

检索、答案抽取与验证等方面先后提出了基于规则、统计、语义信息模型等的问题分类方[7,15-16,20]法,基于Web及本地知识库等资源的文档检索方法,以及多策略的答案抽取和验证方[8,19]法。

,在提高企业管,,增强竞突破口。知识管理将有助于获取企业集体的知识与技能,并将这些知识与技能提供给员工,激发员工的创意,以增强企业的竞争力。在此过程中,随着以问答式信息检索技术的不断成熟与完善,智能信息检索技术将在知识共享、促进知识创新等方面发挥重要作用。参考文献:

[1]ADMarwick.Knowledgemanagementtechnology.

Journal,2001,40(4):814-8301

[2]JosephM.Firestone;MarkW.McElroy.DoingKnowledgeMan2

agement.TheLearningOrganizationJournal,2005,12(2):189-2121

[3]JosephM.Firestone;MarkW.McElroy.ThenewKnowledge

Management,KnowledgeManagement,2003,6(10):12-161[4]MikeBurk.KnowledgeManagement:EveryoneBenefitsbySha2

ringInformation.http://www.tfhrc.gov/pubrds/novdec99/km.htm,2008-07-101

[5]RonenFeldman;MosheFresko;HaymHirsh;etal.KnowledgeManagement:ATextMiningApproach.http://liawww.epfl.ch/Publications/Archive/Feldmanetal98b.pdf,2008-07-101[6]吴友政,赵军,段湘煜,等.问答式检索技术及评测研究综

IBMSystems

[11]

述[J].中文信息学报,2005,19(3):1-131

[7]孙景广,蔡东风,吕德新,等.基于知网的中文问题自动分

类[J].中文信息学报,2007.21(1):90-951

[8]崔恒,蔡东风,苗雪雷.基于网络的中文问答系统及信息抽

取算法研究[J].中文信息学报,2004,18(3):24-311

[9]张亮,陈肇雄,黄河燕.自动问答系统研究综述[J].情报学

报,2006,25(4):433-4401

[10〗郑实福,刘挺,秦兵等.自动问答综述[J].中文信息学报,

2002,16(6):46-521

[11]ZhangGuiping,YuChao,CaiDongfeng,etal.Researchon

Conception-SememeTreeandSemanticRelevanceComputa2tion[A].In:The20thPacificAsiaConferenceonLanguage,InformationandComputation[C].Wuhan:2006.398-4021[12]贾可亮,樊孝忠,张禹.基于HowNet语义相似度的FAQ研

图6 基于Web的问答式信息检索系统处理过程

4 结论与展望

沈阳航空工业学院知识工程中心自成立之初

就开始了问答式检索技术的研究工作,是国内较早开展该领域研究的单位之一。中心在基础研究方面提出了统计命名实体识别

[18]

究[J].计算机应用,2007,27(09):2256-22571

[13]H.Chung,Y.Song,K.Han,etal.ApracticalQAsystemin

restricteddomains,Proc.ACL2004WorkshoponQuestionAn2

、基于语义的词

第5期               白宇等:问答式信息检索技术                 67

 

s

weringinRestrictedDomains,2004.39-451

[14]郭剑锋,顾新建,祁国宁,等.件库中基于本体的智能搜索引

[J].中文信息学报,2006,20(2):33-391

[18]郭家清.基于条件随机场的命名实体识别研究[D]:硕士学

擎的研究与实现.浙江大学学报,2007,41(4):639-6451

[15]崔桓,蔡东风,苗雪雷.问答系统中疑问句理解的分析研究

[M].见:中国人工智能进展.北京:北京邮电大学出版社,2003.1023-10271

[16]CaiDongfeng,BaiYu,DongYanju,etal.ChineseQuestion

ClassificationusingCombinationApproach[A].ThethirdIn2ternationalConferenceonSemantics,KnowledgeandGrid.Xi’an:IEEE,2007.334-3371

[17]文勖,张宇,刘挺,等.位论文.沈阳航空工业学院,20071

[19]DongYanju,CaiDongfeng,BaiYu.EvaluatingAnswerConfi2

denceatMultipleLevels[A].In:The3rdInternationalConfer2enceonSKG.Xi’an:IEEE.2007.579-5791

[20]CaiDongfeng,SunJinggung,Guiping,etal.HowNet

BasedQuestion].In:The20thPacificsiaImationandComputation

maticquestionansweringtechnology

BAIYu ZHOUQiao-li CAIDong-feng

(KnowledgeEngineeringCenter,ShenyangInstituteofaeronauticalengineering,LiaoningShenyang110034)

Abstract:Focusonthedemandofknowledge-sharing,searching,exchangingandmanagementofknowledgemanagement,wepointedoutsomedeficienciesofretrievalmethodnowinusingofknowledgemanagementsys2tem,andintroducethequestionansweringtechnologywhichcandealwithnaturallanguagequery.Thistech2nologycanbeusedasthealternativeofcurrentinformationretrievalmethodtomakeknowledgemanagementmoreefficient.

Keywords:knowledgemanagement;knowledgesharing;questionanswering


相关内容

  • 百度谷歌雅虎三大搜索引擎比较
  • 1 三大搜索引擎内容比较 Google 的检索结果按相关性由大到小排序输出, 其相关性判断依据的是检索词在网页中的出现词频.位置, 另外一个重要的依据是通过与该网页链接的网页与检索词的匹配程度来判断其相关度大小. 百度采用了词频统计.超链分析和竞价排名相结合的方式对网页进行相关性评价, 能够比较客观 ...

  • 医学信息检索作业集2010
  • <医学信息检索>作业集 第一章 绪论 [题目] 1.名词解释: 二次文献 三次文献 目录 文摘 关键词 检索提问式 虚拟馆藏 馆际互借 电子期刊 2.问答题 (1)根据文献的发布类型和载体形式划分,文献可以分为哪些类型? 根据发布类型划分文献可分为图书.期刊和特种文献,根据载体类型可分为 ...

  • 信息管理概论期末复习指导(答案)
  • <信息管理概论>期末复习指导 一.试题类型: 1.填空题(共20空,20%) 2.选择题(共10个,20%) 3.判断题(共10题,20%) 4.问答题(共4题,40%) 二.综合复习题(试题范例) 一.填空题 1.根据人类信息管理活动所采用的手段与方法,基本上可以将其分为期和 时期. ...

  • 计算机情报检索试卷B答案
  • 计算机情报检索答案--B 卷 1 研究的对象和内容:情报检索的研究内容包括一切与情报检索有关 的系统.过程.理论和方法.一切可以存储和检索利用的信息类型: 各种情报检索系统以及运行过程:各种过程中使用的方法,以及在 情报检索实践和研究基础上形成的各种理论和假设,均包括在这个 范围之内. 情报检索的研 ...

  • 跨语言信息检索在搜索引擎中的应用
  • 跨语言信息检索在搜索引擎中的应用 摘要:简单介绍了跨语言信息检索在搜索引擎中应用的必要性.重要性和最近的国内外应用状况.指出了对应用中存在的不足和缺陷,并相对应提出了改进建议.最后对跨语言信息检索在搜索引擎中的应用趋势进行了展望. 关键词:跨语言信息检索 CLIR 搜索引擎 1 概述 所谓跨语言信息 ...

  • 四川农业大学[科技文献检索]答案
  • <科技文献检索>试题 一.单项选择题 (每题1.5分,共30分) 1. 文献是记录有知识的( A ) A 载体 B 纸张 C 光盘 D 磁盘 2. 下列哪种文献属于一次文献( A ) A 期刊论文 B 百科全书 C 综述 D 文摘 3. 下列哪种文献属于二次文献(D ) A 专利文献 B ...

  • 哈工大信息检索研究室(HIT-IRLab)共享资源步骤
  • 哈工大信息检索研究室(HIT-IRLab)语言技术平台共享资源和程序步骤 一.语言技术平台相关资源和程序库说明: 全部资源介绍如表1所示: 表 1. 哈工大信息检索研究室对外共享语料库资源 Table 1. Sharing corpora of Information Retrieval Labor ...

  • 网络推广测试题
  • 单项选择题: 1.跟天涯属于同类型的网站是:(C) A.新浪 B.优酷 C.猫扑 D.赶集 2.以下网站属于站长论坛的是:(B) A.5173 B.A5 C.163 D.PLU 3.在发微博中用来提醒好友的符号是(A) A.@ B.$ C.& D.# 4.新浪博客每天可写多少篇日志(D) A ...

  • 信息系统原理与工程问答题
  • 四.根据信息运动模型,阐述一下一般情况下信息系统中信息运动的各个环节. 答:(1)信息感知:通过感知器官获取外部世界事物信息.完成本体论意义的信息向认识论意义的信息的转变.(2)信息识别:对感知的信息加以辨识和分类.(3)信息变换:将识别出的信息进行适当形式的转换(一般是变换它的载体).(4)信息传 ...