学术论文中方法知识元的类型与描述规则研究

作者:化柏林

中国图书馆学报 2016年04期

  分类号G302

  DOI:10.13530/j.cnki.jlis.160003

  0 引言

  作为知识的重要载体,学术论文是科研成果的重要体现与科研创新的结晶。在学术论文中,方法的描述是科学知识的一种重要类型。随着学术论文数量的急速增长,仅靠人力已经难以胜任方法的监测分析与方法库的构建工作。现在的数字环境越来越多地依赖信息技术,只有充分利用技术手段,通过知识抽取与挖掘从大规模文献中获取有价值的信息与知识,才能快速有效地建成较为全面的方法知识库。而要实现自动或半自动地从论文中抽取与挖掘方法知识元,需要对方法知识元的类型与描述规则进行深入分析与研究。

  方法既包括调查问卷、专家访谈、案例分析等一般科学研究方法,也包括计量分析、聚类分析、关联分析、共现分析、多目标决策分析等问题解决方法。这些方法经常出现在学术论文中,因此从学术论文中抽取方法术语,可以为方法体系的构建提供关键的数据源,形成方法知识库。方法知识库既可以嵌入到决策支持系统或专家智能系统,提供方法的选择与支撑,也可以在此基础上绘制方法谱系图和学科方法发展地图,促进学科对方法的规范性使用与发展。因此,关于方法知识元的内容抽取与挖掘具有重要的学术研究价值与实践应用意义。

  知识挖掘主要有统计或规则两条技术路线。在以词为处理单元的文本挖掘中,统计学习的方法盛行于规则方法,但在以句子为单元的文本挖掘研究中,由于句子的复杂度等原因,统计学习方法难以适应,于是不少学者采取规则与模式识别的方法。学术论文中方法知识元的描述多以句子为单位,这种情况比较适合规则与模式识别的方法。方法知识元包括哪些类型,以及如何构建方法知识元的描述规则,就成为从论文中抽取方法知识元的关键。

  1 研究综述

  关于知识元以及规则抽取,国内外已有一些相关研究,这些研究集中在知识元理论与述评、知识元表示与建模、知识元抽取与实现以及规则的自动抽取方面。

  (1)知识元理论与述评研究

  温有奎等认为,知识元语义链接理论将代表未来知识发现模式,从知识元语义链接的角度详细论述文献知识元间隐含关联的潜在知识发现的基本概念、方法和技术[1]。高继平等对知识元的定义、知识元的计量指标、知识元的研究项目、知识元在不同学科领域的作用及研究现状进行述评[2]。姜永常认为知识组织应以知识元为基元,以知识元链接为枢纽来构建知识组织的神经系统[3]。文庭孝等对中文文本知识元构建的意义及困难进行分析,认为中文分词会成为知识元抽取的技术瓶颈[4]。分词是中文文本信息处理的基础工作,但并不是影响知识元抽取的关键困难,英文知识元抽取也存在同样的问题,在确定知识元的时候,需要把多个英文词组合起来形成一个知识元概念,如“Knowledge Management”作为一个单元来表示知识元,如果只用Knowledge或Management来表示知识元是没有意义的。

  (2)知识元表示与建模研究

  在知识元表示与建模方面,王宇等在期刊文献知识元库的基础上提出了一种基于六元组知识元(编号、导航、来源、类型、特征词、内容)的期刊文献知识仓库的构建方法,设计了从知识元库到知识仓库的知识抽取的方法[5]。姜永常等基于Brooks文献中的知识节点及Swanson文献间的隐性关联方法,提出一种基于知识元本体语义链接的知识网络构建方法和实现模型[6]。仲秋雁等通过抽取情景共性要素及要素关系提出情景元模型,在此基础上提出具体领域的基于知识元的情景概念模型,而决策人员面对的具体情景则是对情景概念模型的实例化[7]。

  (3)知识元抽取与实现研究

  在知识元抽取与实现方面,温有奎等通过对科技论文知识创新生产、知识增值管理、知识集成利用等方面的探讨,分析文本创新点的表现形式,对创新点的挖掘做了试验,结果表明基于创新点的知识元挖掘是文本知识挖掘的一种有效方法[8]。冷伏海等综合运用语义标注、规则抽取以及正则表达技术,提出了一种混合语义信息抽取方法,从科技文献中抽取其主要研究方法、性能指标,既不破坏科技文献原有语义内容,又能以较为简单的方式展示科技文献的主要创新内容[9]。周宁等提出一种基于XML平台的知识元表示与抽取模型,将文档分解为许多段落,从段落中解析出相应的基本知识元,用结构约束、长度约束和内容约束来表示知识元,并通过结构解析、长度解析和内容解析三个步骤进行知识元的抽取[10]。朱丽萍等对背景知识、问题分析、文章所做工作等引言三要素进行分析研究,总结引言三要素的常用句型及特征,利用这些规则对引言三要素信息进行结构化抽取,将生物医学文献全文中的句子自动归类到引言、方法、结果与讨论中[11]。

  (4)规则的自动抽取研究

  德国多特蒙德大学用无监督学习算法的神经网络从事实型数据中抽取规则,然后把这些规则转成PROLOG规则[12]。谢孟军等提出一种基于理论的规则自动抽取的设计方案[13]。孙晨等认为尽管神经网络已经在很广泛的领域得到应用,但由于训练好的神经网络中的知识不易于理解,可从神经网络中抽取规则来表示其中隐含的知识,以解决这一问题[14]。侯广坤等应用决策树归纳学习的优化原则,使得生成的决策树能最简洁、准确地描述从神经网络中学到的知识[15]。高阳等提出一种自适应的概率规划规则抽取算法,在强化学习获得的最优状态一动作对值函数基础上,通过Beam Search算法从值函数中抽取满足概率规划条件的规划知识[16]。

  从这些研究可以看出,随着认知理论的不断发展以及自然语言处理能力的提高,对文献正文内容进行抽取与挖掘正得到逐步重视。这些研究主要集中在两个领域。

  (1)在图书情报领域,学者们从理论方法、技术模型以及应用平台等角度展开了很好的探索与研究,并对学术定义、论文创新点等进行抽取研究,但专门针对论文里的方法进行内容抽取与挖掘的研究还不够充分,如何借助技术手段构建知识元描述规则的问题并没有很好地解决。

  (2)在人工智能领域,在规则的自动抽取方面已有不少成果,但往往是智能学习或推理过程中的形式化规则,并不是从原始文献里进行知识元抽取的规则。

  因此,本文以学术论文为研究对象,着力研究学术论文中方法知识元的类型与描述规则,对方法知识元的类型进行归纳总结,采用半自动的方法初步构建方法知识元的描述规则,为后续的知识抽取提供理论基础与资源支撑。

  2 研究方法

  2.1 研究的数据与素材

  依据CSSCI选取17种图书情报领域核心期刊论文,分别从中国知网、万方数据以及重庆维普下载相关题录信息,对题录信息进行融合清洗以及汇总后,统计关键词,得到图书情报领域关键词表,有63 203条,从这些关键词中识别出方法术语,有1 302个,构建方法术语表[17]。利用方法术语表对《情报学报》2012年全年的全文进行识别,从18 686个句子中共识别出2 707个关于方法描述的句子,对这些句子进行规则的识别与构建。

  2.2 研究的流程与方法

  首先读取每篇文章全文,运用方法术语识别含有方法的句子,然后利用中文词典和图书情报领域关键词库对这些句子进行分词,运用关键词库与领域主题词表对句子中的领域词进行过滤,形成句子的线性结构,即方法知识元的句型结构,例如,“……方法是一种……”“……方法存在……的缺点”“采用……方法对……进行……”,得到句式结构以后进行人工审核校对并判定方法知识元的类型,把这些关于方法描述的句式结构进行归类总结,形成方法知识元规则。构建过程如图1所示。

  

  图1 方法知识元规则构建流程

  3 研究结果

  如何刻画与描述方法知识元是一个关键问题,针对这个问题,本文提出方法知识元的五要素,即方法的定义、方法的特点、方法的关系、方法的流程以及方法的功能。由这五要素构成方法知识元的五种类型,即方法定义知识元、方法关系知识元、方法特点知识元、方法流程知识元、方法功能知识元,如图2所示。

  

  图2 方法知识元的五种类型

  3.1 方法的定义描述

  方法的定义是指对于某种方法的本质特征或关于方法术语概念内涵和外延确切而简要的说明。方法的定义描述通常具有以下规则“……方法是一种……的方法”“……方法+是|是指|指|的定义为|被定义为……”。利用规则对方法的定义描述进行识别,但有些句子即使符合这种规则,也有可能不是定义,称为伪定义句子,例如“局部分析方法是一种计算量小且不依赖于外部资源,但十分有效的查询扩展方法”是指方法的特点,而“人际竞争情报网络动态分析从本质上讲是一种网络分析方法”是指方法的类属。方法的定义描述规则及举例见表1。

  

  3.2 方法的关系描述

  方法之间的关系描述是方法类属的体现,也是构建方法体系的基础。方法之间的关系从空间分布视角看包括上下位类的类属关系与同一层次的并列关系,不同的方法位于不同的层次和位置;从时间逻辑视角看方法之间的关系包括改进关系、继承关系、演进关系、替代关系等。

  3.2.1 方法之间的静态关系

  方法之间的静态关系主要描述方法的类别或属性关系,可以用“……方法+是|属于……一种”等规则来抽取,有些具体的方法列举包括数字序号型、汉字序号型。还有一种是带破折号的情况,如“本文从关联规则挖掘领域引入了一种新的共现聚类分析方法——最大频繁项集挖掘”。方法的类属描述规则及举例见表2。

  方法类属描述的识别存在以下难点:伪关系的识别、上位类方法的缺省等。“……方法是一种……的方法”,这样的句式可能是描述方法之间的关系,也有可能是方法的定义。有些方法的列举找不到上位类方法,例如:“本文仅仅是探索性的研究,研究的结果还需要其他的方法来佐证,譬如用文献共被引分析、作者共被引分析等方法来验证和修正结论。”“借鉴社会网络的思路,作者共被引关系也可以进一步网络化,从而借助网络结构分析、凝聚度和中心性分析等方法可以对特定领域内作者的影响力情况进行深入的探索,以期对研究工作的推进和学科领域的发展提供一定的参考和帮助。”

  

  3.2.2 方法之间的动态关系

  方法之间的动态关系包括改进关系、继承关系、演进关系、替代关系等,这些关系在具体论述中表现为“提出”“改进”等。创新地提出方法是指针对新的问题或基于新的数据或者面向新的需求,创新性地提出一种新的解决方法或方案。创新提出方法的规则比较简单,绝大多数创新描述都使用“提出”等特征词,也有使用“针对……设计了……”等句式。但有时候也存在噪声,如“提出一种……方法的改进”,虽然有“提出”,但实际上是改进。移植或改进方法是指把其他学科方法引入本学科,并对其适用性进行判断分析,在此基础上进行改进,或者直接改进本学科现有的方法。方法的动态关系描述规则及举例见表3。

  

  3.3 方法的特点描述

  方法的特点描述按照特点的褒贬分为优点描述、缺点描述与中性特点描述。按照描述的方法分为单纯论述型描述、对比论述型描述。对比论述型描述包括一对一比较型和一对多比较型两种类型。方法的特点描述类型见图3。

  3.3.1 方法的优缺点描述

  方法的缺点描述往往伴随着“无法”“问题”“缺点”“不足”等带有否定倾向的特征词。其规则与举例见表4。方法的优点描述往往不像缺点那样有明显的特征词,优点的描述往往通过具体的褒义词来确定(见表5)。对于优点的判别,可以使用褒义词表进行抽取。

  

  图3 方法的特点描述类型图

  

  3.3.2 方法特点的比较句类型

  方法特点知识元在句式上包括单纯论述型、一对一比较型以及一对多比较型,其规则与举例如表6所示。认识并揭示比较句的类型与规律,有助于更好抽取与挖掘方法特点知识元。单纯论述型是指没有比较的对象,单纯地对方法的特点进行描述。一对一比较型,其比较体往往是一个具体的方法术语,句子中会有明确的比较特征词,如“与……相比,……方法……”“相比……,方法……”。

  

  一对多比较型是指一种方法与多种方法或一类方法相比较,描述其优点或缺点,与某类方法比较时,往往会伴有“传统”“经典”“以往”“既有”“先前”“普通”“一般”等修饰词,有时也会出现几种具体的方法用于比较,会有明显的并列连词或表示并列的标点符号,如“与……方法及……方法相比较,……方法更……”。一对多的比较,往往描述优点的情况多一些。描述缺点的情况一般不使用一对多比较。在一对多比较型句子论述中,有时会出现比较的对象,有时不会出现明确的比较对象,如“与其他方法相比,MCLP更加简洁实用”,这种情况就无从抽取比较的对象了。

  3.4 方法的流程描述

  方法的流程描述包括方法的使用过程、方法的使用步骤、方法的使用条件等内容。方法的过程描述规则类型较多,有些描述带有明显的过程特征词,如“首先”“然后”等词。例如,“Yeung等设计了一个算法,先通过聚类方法,使对象和标签归属到不同的主题,然后考察用户的标签集,确定用户在各个兴趣主题下的标签向量。”“本文利用谱特征排列的直推式迁移分类方法对客户流失进行预测,具体流程包括:首先设计了数据维数合并以及数据属性统一方法对不同领域的数据表现形式进行统一;然后利用谱特征排列方法建立不同领域数据之间的映射关系,实现异质领域特征分布的近似统一;最后利用TSVM模型对客户数据分类从而实现对忠诚客户和流失客户的识别。”

  有些方法的流程描述是针对方法的使用前提或条件,例如“该方法的前提假设是每个作者对论文的贡献都是相同的,即有相同的贡献因子”。有些描述没有规则可循,例如“个性化排序方法,使用用户搜索历史信息训练用户兴趣模型,采用协同推荐算法获取具有共同兴趣的邻居用户,根据邻居用户对文档的推荐程度和文档与用户兴趣模型的相关程度来排序搜索结果”。这种没有明显逻辑信号词的情况,判断句子为方法的流程描述则比较困难。

  整体上讲,方法的流程描述难以用单个句子来表述,往往都是由句群或段落构成。因此,构建句子级方法的流程描述规则是比较困难的。

  3.5 方法的功能描述

  方法的功能描述是指描述方法能解决哪种或哪类问题,对方法的应用范围或适用领域进行界定。对方法的功能描述包括以下规则:“借助|通过|使用|采用|利用|用……方法+来检验|对……进行……”,或者“……方法+能|可以+……”。其规则与举例如表7所示。

  

  4 结论与讨论

  本文将方法知识元总结为方法定义知识元、方法关系知识元、方法特点知识元、方法流程知识元和方法功能知识元五种类型。通过半自动的方法,初步构建了五种方法知识元的描述规则,并给出一些详细示例。这些知识元的类型剖析以及描述规则,有助于后续的方法知识元抽取的技术实现。

  研究中发现,不同类型的知识元有着不同的描述方式,句子复杂度与描述的类型也有较大差异。方法定义知识元相对简单,往往都是一个句子,而且句子规则相对简单。方法特点知识元描述优缺点较多,中性描述偏少,对于优缺点的论述,多使用比较句与其他方法进行一对一比较或一对多比较,句法规则相对比较复杂。方法之间的关系包括空间静态关系与时间上的动态关系,静态关系的类型不多,但规则的描述较为复杂;动态关系的类型较多,但规则的描述并不复杂,而且,有些关系(如替代关系)难以在某个句子或某篇文章中显性地表示出来,规则的构建也比较困难。方法的流程虽然有些连接词可以辅助判定,但大部分难以用一两个句子来描述,句群或段落的描述更加适合,所以本文的这种方法也难以构建出适用的规则。方法的功能描述可以细分为领域应用、问题解决等多个方面的描述,一般可以用句子完成论述,规则的构建并不难。

  当然,本文的研究还是初步的,存在一些问题或不足。一方面,目前没有专门针对方法抽取的测试集,抽取实验结果难以测评,每种方法知识元的规则数量多少为宜,也缺乏相应的评估标准;另一方面,由于语言的复杂性与不同学科之间论文风格的差异性,规则存在抽象度不高以及覆盖度不足等问题。作者将在后续的研究中增加规则抽取的原始语料规模,并构建一部分方法知识元的测试集,以验证利用方法知识元规则进行知识抽取的效果。

  本刊“青年学术论坛”特约稿(Special contribution for the Youth Academic Forum sponsored by this Journal)

作者介绍:化柏林(ORCID:0000-0001-9248-6455)(通信作者),北京大学信息管理系助理教授,E-mail:[email protected]。北京 100871

作者:化柏林

中国图书馆学报 2016年04期

  分类号G302

  DOI:10.13530/j.cnki.jlis.160003

  0 引言

  作为知识的重要载体,学术论文是科研成果的重要体现与科研创新的结晶。在学术论文中,方法的描述是科学知识的一种重要类型。随着学术论文数量的急速增长,仅靠人力已经难以胜任方法的监测分析与方法库的构建工作。现在的数字环境越来越多地依赖信息技术,只有充分利用技术手段,通过知识抽取与挖掘从大规模文献中获取有价值的信息与知识,才能快速有效地建成较为全面的方法知识库。而要实现自动或半自动地从论文中抽取与挖掘方法知识元,需要对方法知识元的类型与描述规则进行深入分析与研究。

  方法既包括调查问卷、专家访谈、案例分析等一般科学研究方法,也包括计量分析、聚类分析、关联分析、共现分析、多目标决策分析等问题解决方法。这些方法经常出现在学术论文中,因此从学术论文中抽取方法术语,可以为方法体系的构建提供关键的数据源,形成方法知识库。方法知识库既可以嵌入到决策支持系统或专家智能系统,提供方法的选择与支撑,也可以在此基础上绘制方法谱系图和学科方法发展地图,促进学科对方法的规范性使用与发展。因此,关于方法知识元的内容抽取与挖掘具有重要的学术研究价值与实践应用意义。

  知识挖掘主要有统计或规则两条技术路线。在以词为处理单元的文本挖掘中,统计学习的方法盛行于规则方法,但在以句子为单元的文本挖掘研究中,由于句子的复杂度等原因,统计学习方法难以适应,于是不少学者采取规则与模式识别的方法。学术论文中方法知识元的描述多以句子为单位,这种情况比较适合规则与模式识别的方法。方法知识元包括哪些类型,以及如何构建方法知识元的描述规则,就成为从论文中抽取方法知识元的关键。

  1 研究综述

  关于知识元以及规则抽取,国内外已有一些相关研究,这些研究集中在知识元理论与述评、知识元表示与建模、知识元抽取与实现以及规则的自动抽取方面。

  (1)知识元理论与述评研究

  温有奎等认为,知识元语义链接理论将代表未来知识发现模式,从知识元语义链接的角度详细论述文献知识元间隐含关联的潜在知识发现的基本概念、方法和技术[1]。高继平等对知识元的定义、知识元的计量指标、知识元的研究项目、知识元在不同学科领域的作用及研究现状进行述评[2]。姜永常认为知识组织应以知识元为基元,以知识元链接为枢纽来构建知识组织的神经系统[3]。文庭孝等对中文文本知识元构建的意义及困难进行分析,认为中文分词会成为知识元抽取的技术瓶颈[4]。分词是中文文本信息处理的基础工作,但并不是影响知识元抽取的关键困难,英文知识元抽取也存在同样的问题,在确定知识元的时候,需要把多个英文词组合起来形成一个知识元概念,如“Knowledge Management”作为一个单元来表示知识元,如果只用Knowledge或Management来表示知识元是没有意义的。

  (2)知识元表示与建模研究

  在知识元表示与建模方面,王宇等在期刊文献知识元库的基础上提出了一种基于六元组知识元(编号、导航、来源、类型、特征词、内容)的期刊文献知识仓库的构建方法,设计了从知识元库到知识仓库的知识抽取的方法[5]。姜永常等基于Brooks文献中的知识节点及Swanson文献间的隐性关联方法,提出一种基于知识元本体语义链接的知识网络构建方法和实现模型[6]。仲秋雁等通过抽取情景共性要素及要素关系提出情景元模型,在此基础上提出具体领域的基于知识元的情景概念模型,而决策人员面对的具体情景则是对情景概念模型的实例化[7]。

  (3)知识元抽取与实现研究

  在知识元抽取与实现方面,温有奎等通过对科技论文知识创新生产、知识增值管理、知识集成利用等方面的探讨,分析文本创新点的表现形式,对创新点的挖掘做了试验,结果表明基于创新点的知识元挖掘是文本知识挖掘的一种有效方法[8]。冷伏海等综合运用语义标注、规则抽取以及正则表达技术,提出了一种混合语义信息抽取方法,从科技文献中抽取其主要研究方法、性能指标,既不破坏科技文献原有语义内容,又能以较为简单的方式展示科技文献的主要创新内容[9]。周宁等提出一种基于XML平台的知识元表示与抽取模型,将文档分解为许多段落,从段落中解析出相应的基本知识元,用结构约束、长度约束和内容约束来表示知识元,并通过结构解析、长度解析和内容解析三个步骤进行知识元的抽取[10]。朱丽萍等对背景知识、问题分析、文章所做工作等引言三要素进行分析研究,总结引言三要素的常用句型及特征,利用这些规则对引言三要素信息进行结构化抽取,将生物医学文献全文中的句子自动归类到引言、方法、结果与讨论中[11]。

  (4)规则的自动抽取研究

  德国多特蒙德大学用无监督学习算法的神经网络从事实型数据中抽取规则,然后把这些规则转成PROLOG规则[12]。谢孟军等提出一种基于理论的规则自动抽取的设计方案[13]。孙晨等认为尽管神经网络已经在很广泛的领域得到应用,但由于训练好的神经网络中的知识不易于理解,可从神经网络中抽取规则来表示其中隐含的知识,以解决这一问题[14]。侯广坤等应用决策树归纳学习的优化原则,使得生成的决策树能最简洁、准确地描述从神经网络中学到的知识[15]。高阳等提出一种自适应的概率规划规则抽取算法,在强化学习获得的最优状态一动作对值函数基础上,通过Beam Search算法从值函数中抽取满足概率规划条件的规划知识[16]。

  从这些研究可以看出,随着认知理论的不断发展以及自然语言处理能力的提高,对文献正文内容进行抽取与挖掘正得到逐步重视。这些研究主要集中在两个领域。

  (1)在图书情报领域,学者们从理论方法、技术模型以及应用平台等角度展开了很好的探索与研究,并对学术定义、论文创新点等进行抽取研究,但专门针对论文里的方法进行内容抽取与挖掘的研究还不够充分,如何借助技术手段构建知识元描述规则的问题并没有很好地解决。

  (2)在人工智能领域,在规则的自动抽取方面已有不少成果,但往往是智能学习或推理过程中的形式化规则,并不是从原始文献里进行知识元抽取的规则。

  因此,本文以学术论文为研究对象,着力研究学术论文中方法知识元的类型与描述规则,对方法知识元的类型进行归纳总结,采用半自动的方法初步构建方法知识元的描述规则,为后续的知识抽取提供理论基础与资源支撑。

  2 研究方法

  2.1 研究的数据与素材

  依据CSSCI选取17种图书情报领域核心期刊论文,分别从中国知网、万方数据以及重庆维普下载相关题录信息,对题录信息进行融合清洗以及汇总后,统计关键词,得到图书情报领域关键词表,有63 203条,从这些关键词中识别出方法术语,有1 302个,构建方法术语表[17]。利用方法术语表对《情报学报》2012年全年的全文进行识别,从18 686个句子中共识别出2 707个关于方法描述的句子,对这些句子进行规则的识别与构建。

  2.2 研究的流程与方法

  首先读取每篇文章全文,运用方法术语识别含有方法的句子,然后利用中文词典和图书情报领域关键词库对这些句子进行分词,运用关键词库与领域主题词表对句子中的领域词进行过滤,形成句子的线性结构,即方法知识元的句型结构,例如,“……方法是一种……”“……方法存在……的缺点”“采用……方法对……进行……”,得到句式结构以后进行人工审核校对并判定方法知识元的类型,把这些关于方法描述的句式结构进行归类总结,形成方法知识元规则。构建过程如图1所示。

  

  图1 方法知识元规则构建流程

  3 研究结果

  如何刻画与描述方法知识元是一个关键问题,针对这个问题,本文提出方法知识元的五要素,即方法的定义、方法的特点、方法的关系、方法的流程以及方法的功能。由这五要素构成方法知识元的五种类型,即方法定义知识元、方法关系知识元、方法特点知识元、方法流程知识元、方法功能知识元,如图2所示。

  

  图2 方法知识元的五种类型

  3.1 方法的定义描述

  方法的定义是指对于某种方法的本质特征或关于方法术语概念内涵和外延确切而简要的说明。方法的定义描述通常具有以下规则“……方法是一种……的方法”“……方法+是|是指|指|的定义为|被定义为……”。利用规则对方法的定义描述进行识别,但有些句子即使符合这种规则,也有可能不是定义,称为伪定义句子,例如“局部分析方法是一种计算量小且不依赖于外部资源,但十分有效的查询扩展方法”是指方法的特点,而“人际竞争情报网络动态分析从本质上讲是一种网络分析方法”是指方法的类属。方法的定义描述规则及举例见表1。

  

  3.2 方法的关系描述

  方法之间的关系描述是方法类属的体现,也是构建方法体系的基础。方法之间的关系从空间分布视角看包括上下位类的类属关系与同一层次的并列关系,不同的方法位于不同的层次和位置;从时间逻辑视角看方法之间的关系包括改进关系、继承关系、演进关系、替代关系等。

  3.2.1 方法之间的静态关系

  方法之间的静态关系主要描述方法的类别或属性关系,可以用“……方法+是|属于……一种”等规则来抽取,有些具体的方法列举包括数字序号型、汉字序号型。还有一种是带破折号的情况,如“本文从关联规则挖掘领域引入了一种新的共现聚类分析方法——最大频繁项集挖掘”。方法的类属描述规则及举例见表2。

  方法类属描述的识别存在以下难点:伪关系的识别、上位类方法的缺省等。“……方法是一种……的方法”,这样的句式可能是描述方法之间的关系,也有可能是方法的定义。有些方法的列举找不到上位类方法,例如:“本文仅仅是探索性的研究,研究的结果还需要其他的方法来佐证,譬如用文献共被引分析、作者共被引分析等方法来验证和修正结论。”“借鉴社会网络的思路,作者共被引关系也可以进一步网络化,从而借助网络结构分析、凝聚度和中心性分析等方法可以对特定领域内作者的影响力情况进行深入的探索,以期对研究工作的推进和学科领域的发展提供一定的参考和帮助。”

  

  3.2.2 方法之间的动态关系

  方法之间的动态关系包括改进关系、继承关系、演进关系、替代关系等,这些关系在具体论述中表现为“提出”“改进”等。创新地提出方法是指针对新的问题或基于新的数据或者面向新的需求,创新性地提出一种新的解决方法或方案。创新提出方法的规则比较简单,绝大多数创新描述都使用“提出”等特征词,也有使用“针对……设计了……”等句式。但有时候也存在噪声,如“提出一种……方法的改进”,虽然有“提出”,但实际上是改进。移植或改进方法是指把其他学科方法引入本学科,并对其适用性进行判断分析,在此基础上进行改进,或者直接改进本学科现有的方法。方法的动态关系描述规则及举例见表3。

  

  3.3 方法的特点描述

  方法的特点描述按照特点的褒贬分为优点描述、缺点描述与中性特点描述。按照描述的方法分为单纯论述型描述、对比论述型描述。对比论述型描述包括一对一比较型和一对多比较型两种类型。方法的特点描述类型见图3。

  3.3.1 方法的优缺点描述

  方法的缺点描述往往伴随着“无法”“问题”“缺点”“不足”等带有否定倾向的特征词。其规则与举例见表4。方法的优点描述往往不像缺点那样有明显的特征词,优点的描述往往通过具体的褒义词来确定(见表5)。对于优点的判别,可以使用褒义词表进行抽取。

  

  图3 方法的特点描述类型图

  

  3.3.2 方法特点的比较句类型

  方法特点知识元在句式上包括单纯论述型、一对一比较型以及一对多比较型,其规则与举例如表6所示。认识并揭示比较句的类型与规律,有助于更好抽取与挖掘方法特点知识元。单纯论述型是指没有比较的对象,单纯地对方法的特点进行描述。一对一比较型,其比较体往往是一个具体的方法术语,句子中会有明确的比较特征词,如“与……相比,……方法……”“相比……,方法……”。

  

  一对多比较型是指一种方法与多种方法或一类方法相比较,描述其优点或缺点,与某类方法比较时,往往会伴有“传统”“经典”“以往”“既有”“先前”“普通”“一般”等修饰词,有时也会出现几种具体的方法用于比较,会有明显的并列连词或表示并列的标点符号,如“与……方法及……方法相比较,……方法更……”。一对多的比较,往往描述优点的情况多一些。描述缺点的情况一般不使用一对多比较。在一对多比较型句子论述中,有时会出现比较的对象,有时不会出现明确的比较对象,如“与其他方法相比,MCLP更加简洁实用”,这种情况就无从抽取比较的对象了。

  3.4 方法的流程描述

  方法的流程描述包括方法的使用过程、方法的使用步骤、方法的使用条件等内容。方法的过程描述规则类型较多,有些描述带有明显的过程特征词,如“首先”“然后”等词。例如,“Yeung等设计了一个算法,先通过聚类方法,使对象和标签归属到不同的主题,然后考察用户的标签集,确定用户在各个兴趣主题下的标签向量。”“本文利用谱特征排列的直推式迁移分类方法对客户流失进行预测,具体流程包括:首先设计了数据维数合并以及数据属性统一方法对不同领域的数据表现形式进行统一;然后利用谱特征排列方法建立不同领域数据之间的映射关系,实现异质领域特征分布的近似统一;最后利用TSVM模型对客户数据分类从而实现对忠诚客户和流失客户的识别。”

  有些方法的流程描述是针对方法的使用前提或条件,例如“该方法的前提假设是每个作者对论文的贡献都是相同的,即有相同的贡献因子”。有些描述没有规则可循,例如“个性化排序方法,使用用户搜索历史信息训练用户兴趣模型,采用协同推荐算法获取具有共同兴趣的邻居用户,根据邻居用户对文档的推荐程度和文档与用户兴趣模型的相关程度来排序搜索结果”。这种没有明显逻辑信号词的情况,判断句子为方法的流程描述则比较困难。

  整体上讲,方法的流程描述难以用单个句子来表述,往往都是由句群或段落构成。因此,构建句子级方法的流程描述规则是比较困难的。

  3.5 方法的功能描述

  方法的功能描述是指描述方法能解决哪种或哪类问题,对方法的应用范围或适用领域进行界定。对方法的功能描述包括以下规则:“借助|通过|使用|采用|利用|用……方法+来检验|对……进行……”,或者“……方法+能|可以+……”。其规则与举例如表7所示。

  

  4 结论与讨论

  本文将方法知识元总结为方法定义知识元、方法关系知识元、方法特点知识元、方法流程知识元和方法功能知识元五种类型。通过半自动的方法,初步构建了五种方法知识元的描述规则,并给出一些详细示例。这些知识元的类型剖析以及描述规则,有助于后续的方法知识元抽取的技术实现。

  研究中发现,不同类型的知识元有着不同的描述方式,句子复杂度与描述的类型也有较大差异。方法定义知识元相对简单,往往都是一个句子,而且句子规则相对简单。方法特点知识元描述优缺点较多,中性描述偏少,对于优缺点的论述,多使用比较句与其他方法进行一对一比较或一对多比较,句法规则相对比较复杂。方法之间的关系包括空间静态关系与时间上的动态关系,静态关系的类型不多,但规则的描述较为复杂;动态关系的类型较多,但规则的描述并不复杂,而且,有些关系(如替代关系)难以在某个句子或某篇文章中显性地表示出来,规则的构建也比较困难。方法的流程虽然有些连接词可以辅助判定,但大部分难以用一两个句子来描述,句群或段落的描述更加适合,所以本文的这种方法也难以构建出适用的规则。方法的功能描述可以细分为领域应用、问题解决等多个方面的描述,一般可以用句子完成论述,规则的构建并不难。

  当然,本文的研究还是初步的,存在一些问题或不足。一方面,目前没有专门针对方法抽取的测试集,抽取实验结果难以测评,每种方法知识元的规则数量多少为宜,也缺乏相应的评估标准;另一方面,由于语言的复杂性与不同学科之间论文风格的差异性,规则存在抽象度不高以及覆盖度不足等问题。作者将在后续的研究中增加规则抽取的原始语料规模,并构建一部分方法知识元的测试集,以验证利用方法知识元规则进行知识抽取的效果。

  本刊“青年学术论坛”特约稿(Special contribution for the Youth Academic Forum sponsored by this Journal)

作者介绍:化柏林(ORCID:0000-0001-9248-6455)(通信作者),北京大学信息管理系助理教授,E-mail:[email protected]。北京 100871


相关内容

  • 论民事法律事实的类型区分
  • 作者:王轶 中国法学 2013年05期 <中国法学>文摘 推荐编辑 朱广新 原文字数 11800 刊发期数 2013年第1期 作为协调利益冲突.组织社会秩序的工具,民法不仅拥有众多对特定类型冲突利益关系进行协调的规范策略,还包含着一个解释.描述.想象外部世界的范畴体系,这个范畴体系的核心 ...

  • 逻辑与文化
  • 作者:郭桥 贵州民族大学学报:哲学社会科学版 2015年03期 中图分类号:B81 文献标识码:A 文章编号:1003-6644(2015)01-0120-10 中国逻辑研究中文化范式的明确提出,开始于崔清田教授,发展于鞠实儿教授.这一范式,目前已经成为中国逻辑研究过程中有着重要影响的一种研究思路和 ...

  • 设计案例知识管理系统的研究与开发
  • 第3l卷 yot.3l 第6期 计算机工程 ComputerEngineering 2005年3月 March2005 旭6 ・工程应用技术与实现・ 文章编号:loom_3428(200s)06-m197卅3 文献标识码:A 中圈分类号:TP399 模具设计案例知识管理系统的研究与开发 张为民,李爱 ...

  • "科技报告编写规则"国家标准的编制研究
  • [摘要]对科技报告的特点进行分析,并对现有相关标准及其应用情况.相关背景情况进行分析介绍,指出修订科技报告编写规则应遵循继承性.前瞻性和通用性原则,描述标准修订的过程.在此基础上,对修订后科技报告编写规则的框架结构.主要内容.文档模板定义(DTD)等进行分析描述,以期对标准的编制及科技报告的撰写有所 ...

  • 烟草科技期刊论文撰写和[中国烟草学报]论文模版
  • 附件1 烟草科技期刊论文撰写 基本要求(YC/T 467-2013) 本标准按照GB/T 1.1-2009给出的规则起草.本标准由全国烟草标准化技术委员会企业分技术委员会(SAC/TC 144/SC 4)归口.本标准起草单位:中国烟草学会.中国烟草总公司郑州烟草研究院.中国农业科学院烟草研究所. 为 ...

  • 功能翻译理论
  • 功能翻译理论 一.产生背景 20世纪六七十年代,德国译学界深受结构主义语言学的影响,形成了以扭伯特(A.Neubert)卡德(O.Kade)为代表的莱比锡学派(the Leipzig School)和以威尔斯(W.Wilss)为代表的萨尔派(the Saarbrucken School).前者立足于 ...

  • 3)商务英语专业八级考试大纲
  • 商务英语专业八级考试大纲(笔试) (Specifications for the Test for Business English Majors-Band 8) 黑龙江大学应用外语学院 2013-09-29 总则 本考试大纲参照<黑龙江大学商务英语专业人才培养方案(2011)>(以下简 ...

  • 船舶碰撞案例库研究与应用
  • 第07卷 第05期 中 国 水 运 Vol.7 No.05 2007年 05月 China Water Transport May 2007 船舶碰撞案例库研究与应用 吴 晞 段 超 宋崇利 摘 要:建立规范化和信息化表示的船舶碰撞案例库,以适应船舶避碰理论研究.避碰决策研究.避碰仿真研究.培养船舶 ...

  • 基于实例的产品设计知识获取方法及实现
  • 第14卷第1l期2002年11月 计算机辅助设计与图形学学报 JOURNALOFCOMPUTERAIDEDDESIGN&COMPUTERGRAPHICS V01.14.NO11 NOV..2002 基于实例的产品设计知识获取方法及实现 凌卫青赵艾萍谢友柏 西安交强大学润滑理论丝轴承母f究所 ...