计算机检索基本原理

网络资源与信息检索

本章具体内容安排:

2.1 计算机检索基本原理概述

2.2 计算机检索基本原理

2.3 文献信息数据库的基本概念

2.4 计算机检索策略的构建与调整

要求:初步掌握计算机检索的基本原理、基本类型及其检索策略的构建与调整。

第二讲 计算机检索基本原理

2.1 计算机检索基本原理概述

2.1.1计算机检索概念

通过计算机进行的文献信息检索称为计算机检索。

随着计算机技术、远程通讯技术和信息存储技术的飞速发展,信息检索由手工检索过

渡到了计算机信息检索。计算机检索的成功应用,为我们更为及时、准确、全面地继承、利

用和发展人类的科研成果提供了先进的手段。

2.1 计算机检索基本原理概述

2.1.2计算机检索发展

第一个阶段:脱机检索阶段(50年代至60年代)

脱机检索(Offline Retrieval):即批处理检索

检索要求 检索系统 检索结果

检索人员→检索策略→成批检索→用户

缺点:

1. 地理上的障碍(远、不便于检索结果的获取)

2. 时间上的迟滞(定期检索,不能及时获取)

3. 封闭式的检索(指检索策略一经输入系统就不能更改,更不能依据机检应答来修改检索

式)

2.1 计算机检索基本原理概述

第二个阶段:联机检索阶段 (Online Retrieval)(60-80年代)

终端设备 通讯网络 检索系统

用户—> 检索策略—>人机对话———> 获取信息

三个时期:60年代开发试验;70年代末应用阶段;80年代以后进入信息—计算机

—卫星通信三维一体的新阶段,即以信息文献不受地区、国家限制而真正实现全世界资源共

享为目的的国际联机信息检索阶段。

2.1.1联机检索阶段优缺点

优点:

1. 速度快效率高

2. 检索范围广泛全面

3. 检索图径多方便灵活

4. 检索内容新实时性强

5. 检索辅助功能完善

缺点:

1. 检索的费用高

2. 检索系统及其文档如数据库收录、标引、特点较难了解熟悉

3. 检索技术和技巧不宜掌握

2.1.2 国际著名的联机检索系统

著名的国际联机检索系统有美国的DIALOG 系统、ORBIT 系统、BRS 系统以及MEDLARS

系统,还有欧洲的ESA/IRS系统、英国的BLAESE 系统等。

这些系统很快发展成为国际性情报检索系统,数据库种类及其检索存储记录都在迅

速增加,如:美国的Dialog 系统,1984年就有200多个数据库,其中包括美国的《医学索

引》、荷兰《医学文摘》、美国《生物学文摘》、美国《化学文摘》等。

如今此联机检索系统仍然是世界上最有影响的联机检索系统。

2.1 计算机检索基本原理概述

第三阶段:光盘检索阶段

1983年,出现了一种新的存储器,CD-ROM 光盘。光盘检索具有储量极大而体积

微小,要求设备简单,可随地安装,使用方便、易于操作,检索费用低(不需要昂贵的联机

检索通讯费用),因可随时修改检索策略而具有很高的查全率和查准率等优点。

Chemical Abstracts Index光盘(1987-1991):由美国化学文摘社与美国剑桥光盘公

司联合研制,收录1987-1991年《化学文摘》的全部内容。

2.1 计算机检索基本原理概述

Science Citation Index(SCI )光盘(科学引文索引) :由美国费城科学情报研究所编辑出版,

收录1961年以来有关生命科学、医学、物理、化学、农业、工程技术、行为科学等方面的

文献及引文。

CAJ (中国学术期刊):是由清华大学开发研制,分题录、文摘、全文三个层次的

数据库,其中全文数据库是国内最常用的全文数据库。

2.1 计算机检索基本原理概述

第四阶段:网络化检索阶段

进入90年代,随着卫星通讯、公共数据通讯、光缆通讯技术以及信息高速公路事

业在全世界的迅猛发展,计算机情报检索走向了全球大联网。

网上资源具有信息的时效性、内容的广泛性、访问的快速性、搜索的网络性和资

源的动态性五大特点,那么要及时、准确、有效地获取与自身需求相关的实用信息,对所有

网络用户都非常具有挑战性。

2.1 计算机检索基本原理概述

INTERNET 就是这个时期的最杰出代表。它能够跨越时空,进行实时信息检索、资源共享

的国际性计算机网络。 INTERNET 飞速的发展,已成为人们进行全球范围的合作、信息

交流与资源共享的不可替代的通讯交流方式。

随着计算机技术的智能化、数据库载体的高密度化和多媒体化、通讯技术的网络化,

计算机情报检索将走向办公室化、家庭化。

2.2 计算机检索基本原理

一般地说,计算机检索包括信息的存储和检索两个部分,即对应数据库的建立和查找两个部

分。

2.2.1信息存储

就是文献标引人员对文献内容进行主题分析,即把文献包含的信息内容分析成若干

能代表文献主题的概念,并用词表、分类表等规范化标识的情报检索语言对文献主题进行标

引、按所选数据库结构的索引结构输入到计算机进行存储,同时把入选文献中的其他特征标

识(标题、著者、文摘、原文出处等)也一起输入计算机,编制成一系列索引数据库,这便

是信息的存储。

2.2.1.1. 信息的存储主要包括的内容

信息采集:对广泛且分散的信息资源进行有针对性的采集。

信息著录:对所收集的原始信息的外表特征如题名、著者、文献出处和内容特征如分类号、

主题词、摘要进行描述,形成一条条款目或记录过程。

信息标引:就是根据一定的规则和程序,对文献内容进行分析,然后赋予每篇文献以一定数

量的内容标识如分类号、主题词、关键词作为存贮和检索的依据。它的作用是为信息存贮与

检索这两环节之间提供某种连接物。

信息的整序:就是将采集到的无序信息进行有序化组织的过程。

2.2 计算机检索基本原理

2.2.2 信息检索

信息检索作为信息存储的逆过程, 是将描述特定用户所需信息的提问特征与信息存储

的检索标示进行异同的比较, 从中找出与用户提问特征一致或基本一致的信息.

1、检索者对检索课题进行主题分析、明确检索范围,形成能代表情报需求的若干

主题概念。

2、把这些主题概念转换成计算机信息检索语言,即用数据库检索工具书对各概念

选词和进行逻辑组配,编制成检索提问式。

3、用计算机检索系统功能在文献资料数据库中将信息需求主题概念和数据库内文

献主题概念标识进行匹配,找到命中文献。

用图表示如下:

计算机检索原理的示意图

2.3 文献信息数据库的基本概念

2. 3.1数据库的定义和类型

一、数据库定义:根据ISO/DIS 5127号标准(文献与情报工作术语),数据库(database )

的定义为:“至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的

一种数据集合。”通俗地说,数据库就是在计算机存储设备上按一定方式存储的相互关联的

数据集合,数据库是计算机技术与情报检索技术相结合的产物,是现代重要的信息资源管理

工具,是情报检索系统的核心部分之一。数据库的质量直接影响情报检索系统的功能和效率。

2.3 文献信息数据库的基本概念

二、数据库类型

按照国际上通用的分类方法,常划分为以下类型:

1. 参考数据库(reference databases):指引用户到另一信息源以获得原文或其他细节的一类数

据库。包括书目数据库和指南数据库两种。

(1)书目数据库(bibliographic databases) 指存储某个领域的二次文献(如文摘、题录、目

录等书目数据)的一类数据库。例如,美国化学文摘数据库CA Search,中国机械工程文摘

数据库,各国生产发行的机读目录(MARC )等,即属于此类型。

(2)指南数据库(reference databases)

指存储关于某些机构、人物、出版物、项目、程序、活动等对象的简要描述,指引

用户获取更详细的信息的一类数据库。亦称指示性数据库。例如,各种机构名录数据库、人

物传记数据库、产品数据库、软件数据库、研究开发项目数据库、基金数据库等,均属此类。

2.3 文献信息数据库的基本概念

2. 源数据库(source databases ):

提供原始资料或具体数据的数据库。它又可分为以下几种类型:

(1)数值数据库(numeric databases) 指专门提供以数值方式表示的数据(或包括其统计处

理表示法)的一种源数据库,如各种统计数据库、财务数据库、科学技术数据库等。

(2)文本-数值数据库(textual-numeric databases):同时提供文本信息和数值数据的一种源

数据库,如某些公司信息库、产品市场报告数据库、读物数据库和物性数据库等。

(3)全文数据库(full-text databases ) 指存储文献全文或其中主要部分的一种源数据库,

简称全文库,如法律法规全文库、期刊全文库等。

2.3 文献信息数据库的基本概念

(4)术语数据库(terminological bank)

指专门存储名词术语信息一种源数据库,各种电子化辞典也包括在内。

(5)图像数据库(graphics databases)

指用来存储各种图像或图形信息及有关文字说明资料的一种源数据库,主要应用于

建筑、设计、广告、产品目录、图片或照片等资料类型的计算机存储与检索。

除了上述几种类型的数据库以个,还有能同时存储多种不同类型数据的数据库混合

型数据库(mixed databases)。

2.3 文献信息数据库的基本概念

2.3.2 数据库的构成

从使用观点来看,数据库主要由文档、记录、字段三个层次构成。

1、文档: 若干个逻辑记录构成的信息集合称为文档(file )。用户选择所需的联机系统数据

库时,多数数据库以单一的文档编号出现。此时文档(file )的概念和数据库(database )相

当。但有些数据库因规模庞大,被分成若干个文档。例如,在DAILOG 系统中,CA Search

数据库被分成308号(1967-1971),309号(1977-1981),311号(1982-1986)和312号(1986-)

等文档。

2.3 文献信息数据库的基本概念

2.记录

记录是由若干字段组成的文献单元,是计算机检索系统存储文献款目和标引的信息

载体。

在全文数据库中,一个记录相当于一篇完整的文献;在书目数据库中,一个记录相

当于一条文摘或题录。比较典型的COMPENDEX ,INSPEC ,美国专利数据库的记录。

2.3 文献信息数据库的基本概念

3.字段:是文献著录的基本单元,它是对实体的具体属性进行描述的结果。在书目数据库

中,记录中含有题名、著者、出版年、主题词、文摘等字段。

文献数据库字段分为基本字段和辅助字段两类。基本字段和辅助字段在检索策略的

构成方法上往往有些区别。

基本字段通常是默认的主题途径检索范围,如果需要查找专门的基本字段或者辅助

字段,通常要以某种方法予以指定。常见的字段名称和代码(也称段码)如下表所示。

文献数据库中常见的字段和段码

2.4 计算机检索策略的构建与调整

检索策略

是为实现检索目标而制定的全盘计划和方案, 是对整个检索过程的谋划和指导。

也可以说,所谓检索策略,就是在分析课题内容实质的基础上,确定检索系统、检

索途径和检索词,并科学安排各词之间的位置关系、逻辑关系和查找步骤等。

2.4.1 计算机检索策略的构建

一 信息检索技术

1、布尔逻辑

规定检索词之间的逻辑关系的算符, 称为布尔逻辑算符。布尔逻辑算符包括逻辑“或

(OR )”、逻辑“与(AND )”和逻辑“非(NOT )”。

(1)、逻辑“或”(OR )运算符

也可用“+”代替,是用来组配具有同义或同族概念的词,如同义词、相关词等。其

含义是,检出的记录中,至少含有两个检索词中的一个。OR 算符的基本作用是扩大检索范

围,增加命中文献量,防止漏检,提高检索结果的查全率,OR 运算符还有一个去重的功能。

2.4.1 计算机检索策略的构建

例如,如果以提问式“SS PIPE TUBE”检索EI COMPENDEX (1998)文档,所得结果为: S1 3954 PIPE (管子)

S2 4206 TUBE(管)

S3 7759 PIPE OR TUBE

(2)逻辑" 与" (AND )运算符

也可用"*"代替,用来组配不同检索概念。其含义是检出的记录必须同时含有所有

的检索词。AND 算符的基本作用是对检索词加以限定,逐步缩小检索范围,减少命中文献

量,提高检索结果的查准率。在实际检索中,

不同概念组面之间以及同一组面内的不同含义

的词之间通常使用AND 算符。

2.4.1 计算机检索策略的构建

例如:以提问式“SS COMMUNICA TION(通讯) AND SATELLITE(卫星)" 检索EI COMPENDEX (1998)文档,所得结果为:

S1 25331 COMMUNICATION

S2 4068 SATELLITE

S3 1253 COMMUNICATION AND SATELLITE

(3)逻辑" 非" (NOT )运算符

也可用"-" 代替,但在检索时建议使用NOT ,以避免与词间的分隔符"-" 混淆,NOT 算符是排除含有某些词的记录的,即检出的记录中只能含有NOT 算符前的检索词,但不能同时含有其后的词。

2.4.1 计算机检索策略的构建

NOT 算符的基本作用是缩小检索范围,但并不一定能提高文献命中的准确性,往往只是起到减少文献输出量的作用。在联机检索中,可降低检索费用。

例如,以"PATENT NOT GERMAN"检索EI COMPENDEX (1998)文档,所得结果为: S1 669 PATENT (专利)

S2 9019 GERMAN(德国)

S3 638 PATENT NOT GERMAN

2.优先处理算符“( )”

上述逻辑OR 和AND 算符的使用方法,如果归纳成一个模式,比如有A 、B 、C 、D 四个检索词(其中A 和B ,C 和D 分别为同义概念),

2.4.1 计算机检索策略的构建

检索提问可以分成三组:

?S1 A OR B

?S2 C OR D

?S S1 AND S2

在实际检索中,上例检索提问可改为:

? S (A OR B)AND (C OR D)

计算机输出的检索结果与上述三组式的提问策略是一样的。

3.位置算符

位置算符又称邻接算符(adjacent operators), 适用于两个检索词以指定间隔距离或者指定的顺序出现的场合。

2.4.1 计算机检索策略的构建

在AND 运算符查得的记录中,尽管同时含有所希望的检索词,但AND 算符并不限制两个检索词的位置和出现顺序。仍以上面输入的“communication(通讯) AND satellite(卫星) ”这个策略为例,命中的文献中可能既含有“communication satellite ”,又含有“satellite communication ”;也可能既含有“communication devices for satellite”,又含有“communication links without satellites”等等,显然其中的有些记录与课题要求毫无关系。

以DIALOG 联机检索系统使用的位置算符为例说明

(1)“(W )”

“(W )”算符中的W 含为“With ”。这个算符表示其两侧的检索词必须紧密相连,除开空格和标点符号外,不得插入其他词或字母,两词的词序不可颠倒。“(W )”算符还可以使用其简略形式“( )”。

例如,检索策略为“COMMUNICA TION(通讯) (W )SATELLITE(卫星) ”(或者

“communication () satellite”)时,系统将只检索含有communication satellite词组的记录。 以DIALOG 联机检索系统使用的位置算符为例说明

(2) “(nW )”

“(nW )”中的“W ”的含义为“Word ”,它允许两词间插入最多为n 个其他词,例如,检索策略为“COMMUNICATION(通讯) (2W )SATELLITE(卫星) ”时,系统将只检索含有communication satellite 、communication though satellite 、communication on the satellite 词组的记录。

(3)“(N )”

“(nN )”算符的N 含义为“Near ”。表示其两侧的检索词必须紧密相连,除空格和标点符号外,不得插入其他词或字母,两词的词序可以颠倒。

以DIALOG 联机检索系统使用的位置算符为例说明

(4)“(nN )”

“(nN )”是“(N )”算符的变形,不同之处为允许两词间插入最多为n 个其他词。例如,检索策略为“COTTON(棉花) (2N ) PROCESSING(处理) ”时,凡含有cotton processing ,processing of cotton 和processing of Egyptian cotton的文献记录都算命中。

(5)“(F )”

“(F )”算符中F 的含义为“Field ”。这个算符表示其两侧的检索词必须在同一字段(例如同在题目字段或文摘字段)中出现,词序不限,中间可插任意检索词。

以DIALOG 联机检索系统使用的位置算符为例说明

例如, pollution (污染) (F ) control(控制) 可查出control and management of industrial pollution ,检索词在同一题目字段中。由于(F )邻近算符限制性差,所以在文中检索多个叙词字段时不宜使用。

(F )邻近算符与AND 布尔逻辑组配主要区别在于:

(F )邻近算符使两个检索项在同一字段,AND 布尔逻辑组配中两个检索词会发生在不同字段中。

以DIALOG 联机检索系统使用的位置算符为例说明

(6)“(S )”

“(S )”算符中的S 含义为“Sentence ”。这个算符表示其两侧的检索词必须在同一句子(子字段)中出现,两词的词序可以颠倒。例如,“COMMUNICA TION(通讯) (S )SATELLITE(卫星) ”时,系统将检索句子(同一子字段)中含有communication satellite 和satellite communication词组的记录。

以上介绍的各种位置算符,按照限制程度的大小,(W )、(nW )最强,(N )、(nN )次之,(S )再次之;(F )的最弱。当(nN )的n ≥10时,其作用已经相当于(S )。

2.4.1 计算机检索策略的构建

4.字段限制

字段限制也是调整检索策略的一种重要的手段。多数检索系统对不指定字段的检索词,通常在所有基本字段中进行搜索,如果想指定在文献的题目等字段中查找所希望的检索词,就需要使用字段限制。

字段限制适用于在已有一定数量输出记录的基础上,通过指定字段的方法 ,减少输出篇数,提高检索结果的查准率。

字段限制(DIALOG 联机检索系统为例)

(1)基本字段限制

基本字段主要是指题目、叙词、识别词和文摘四个字段。基本字段限制的用法是在需要指定的字段的检索词后加上后缀运算符“/”和段码。

例如,检索策略“OPTICAL(光学)/TI AND FIBER(纤维)/TI”的含义是指定在题目字段中查找含有“optical ”和“fiber ”两词的所有记录。

字段段码可以多个连用,段码之间加“,”即可。 例如“FIBER/TI,DE ”的含义是指定在题目和叙词字段是查找以“fiber ”为词的所有记录。

字段限制(DIALOG 联机检索系统为例)

(2)辅助字段限制

除基本字段以外的可检索字段都可称为辅助字段。辅助字段运算符的用法是在需要指定字段的检索词(有时检索词须放在双引号内) 之前加上段码和前缀运算符“=”。例如,AU=“Robert ,S. ”的含义是在作者字段中查找含人名为“Robert ,S. ”的所有记录。 下面是其他常用的辅助字段限制及其实例:

指定刊物名称 JN=APPLIED PHYSICS

指定语言字段 LA=ENGLISH

指定年份字段 PY=1999

2.4.1 计算机检索策略的构建

5.截词算符

截词算符就是使计算机保留检索词中的相同词干部分,允许检索词可有一定范围的变化,这种功能可减少输入步骤,简化检索程序,扩大检索范围,提高查全率。不同的数据库有不同的截字符,DIALOG 系统用“?”,ORBIT 系统用“+”,功能基本相同。

截词有前方一致、后方一致、中间一致和中间屏蔽四种形式。前方一致,允许词尾有所变化;后方一致,允许词头有所变化,中间一致,词头、词尾都可变化;中间屏蔽,允许词中间的某些字母有变化。

2.4.1 计算机检索策略的构建

例如,当使用前方一致算符时,Textile? 可同时查找含有Textile 和Textiles 的文献;当使用后方一致算符时,?Polymer 可同时查找含有Homopolymer ,Copolymer 等的文献;当使用中间一致算符?Wave? 可同时查找含有Waves ,Microwave 等的文献;当使用中间屏蔽算符时,Fib??s 相当于查找含有Fibers 和Fibres 的文献。

截词是计算机检索中常用的方法,尤其是英语的单词词尾变化较多,为避免漏检,经常要使用前方一致的截词检索。

2.4.1 计算机检索策略的构建

6.范围限制

查找范围算符的作用主要是用户利用辅助索引时,对查找文献的年限范围进行限制。

等于:如在日期检索项输入“1990*”,则表示1990年发表的文献

大于:输入“>1990*” 大于等于:“>=1990*”

不等于:“1990*”

范围:如在日期检索项输入“1991*:1994*”,则表示查找1991~1994年的文献

其它:短语检索、自然语言检索(小节)

2.4.1 计算机检索策略的构建

小结:信息检索技术

1. 布尔逻辑

2. 优先处理算符

3. 位置算符

4. 字段限制

5. 截词算符

6. 范围限制

2.4.2 计算机检索步骤和策略调整方法

二 信息检索步骤

1. 分析课题

(1)一般的课题概念分析方法:

分析主要概念,找出能代表这些概念的若干个词或词组,对新学科、交叉学科和边缘学科的课题,要搞清楚这些概念关系。概念分析的结果应以概念组为单元的词或词组形式列出,以便下一步制订检索策略。

例如,“聚乙烯的合成(synthesis of polyethylene)”这个课题可划分为两个概念,即“聚乙烯(polyethylene )”与“合成(synthesis )”。

2.4.2 计算机检索步骤和策略调整方法

(2)隐含概念的分析:

课题所隐含的概念从专业角度作深入分析,才能提炼出能够确切反映课题内容的检索概念。

例如,“垃圾的处理”中的“处理”一词隐含着“回收”“再生”等具体的处理方法,再如,课题“大型机械电子渗漏仪”,其中“电子”(electronic )一词,在该专业中往往是用“传感器”来表示,即用“sensor ”、“transducer ”或“load-cell ”等来表示。类似的,诸如“工艺”、“分析”、“应用”,以及诸如“有机物”、“无机物”、“重金属”、“轻金属”、“高分子材料”等外延十分宽的概念,一般都应转换成具体的方法或材料、化合物来表示。

2.4.2 计算机检索步骤和策略调整方法

(3)核心概念的选限:

有些检索词中已经含有的某些概念,在概念予以排除。例如,课题“玻璃纤维增强石膏制品”,从字面上看,这个课题可划为三个概念:即“玻璃纤维”、“增强”、“石膏制品”。但石膏制品中加入玻璃纤维,其目的就是为了增强石膏制品,因此可将“增强”这一概念排除之外。

如果有些检索概念已经体现在数据库中,这些概念也应该予以排除。如陶瓷文摘数据库(Ceramic Abstracts),“陶瓷(ceramic )”这一概念一般可以排除;而COMPUTER 一词在计算机数据库(The Computer Database)中一般也应予以排除。

2.4.2 计算机检索步骤和策略调整方法

另外有一些比较泛指、检索意义不大的概念,例如,“发展”,“趋势”,“现状”等在不是专门查找综述类文献时也应予以排除。

2. 选择数据库

不同的数据库学科范围不同,检索指令不同,收费标准也不同。所以,应在检索之前阅读有关数据库的使用介绍,以便选择数据库时做到心中有数。在做联机检索时,还可以通过总索引文档(例如DIALOG 系统的411文档)了解与检索课题有关的每一个文档中的文献篇数,以选取文献量最大的一个或数个文档作为检索文档。

2.4.2 计算机检索步骤和策略调整方法

选择数据库,我们一般遵循以下几条原则:

(1)按照课题的检索要求和目的,选择收录文献种类、专业覆盖面、年代跨度对口的数据

库。

(2)当需要查找最新文献信息时,选择数据更新周期短的数据库。

(3)当还需要获取原文时,选择原文获取较容易的数据库。

(4)要选好数据库,就要弄清所选数据库的标引特征、不同检索特点等。

2.4.2 计算机检索步骤和策略调整方法

3. 制定检索策略

(1)做到情报提问与情报需求的一致性。

(2)机检前,手检几篇作联机检索时参考。

(3)选择一个或多个与需求相适应的数据库和联机检索系统。

(4)指出几个主要概念组面和检索词,并标明它们的逻辑关系。

(5)对每一个单独检索组面考虑同义词、近义词、用OR 组配成一个概念面的单独集。

(6)对上述形成的概念或由OR 组配成的概念面进行AND 和NOT 组配,并编成一个检索表达式。

2.4.2 计算机检索步骤和策略调整方法

(7)进入机检系统,输入

(6)的检索表达式。

(8)评论中间结果,如不满意可考虑用备用策略来处理。

(9)反复进行检索,直到得到满意的结果,输出、打印或拷盘

4. 检索策略的调整:

检索策略输入检索系统后,系统响应的检索结果有时不一定能满足课题的要求,例如,输出的篇数过多,或者输出的文献数量极少,有时甚至为零,这时就需要调整检索策略。

2.4.2 计算机检索步骤和策略调整方法

(1)输出篇数过多:

此时多数是由误检造成,原因可能有以下两点:

1)主题词本身的多义性导致误检,例如,使用仅“DNP ”(邻苯二甲酸二壬酯)作为检索词查找,结果找出的文献含有“DNP 邻苯二甲酸二壬酯”、“DNP 动态核极化”、“DNP 糖尿病患者”、“DNP 防老剂”和“DNP 表面活性剂”等多种内容。

2)对所选的检索词的截词截得过短,例如,使用“CA T ?”甚至“CA ?”查找“CA TAL YST ,又如,使用“PREP ?”查找“PREPARATION ”,都会造成误检。

2.4.2 计算机检索步骤和策略调整方法

策略调整方法:

①减少同义词或同族相关词;

②增加限制概念,用逻辑“与”(AND )将它们连接起来。例如,将DNP * DETERGENT(洗涤剂)组配,就可将DNP 表示的另四种含义的文献删去;

③使用字段限制,或者限制检索词在指定的基本字段出现,或者指定辅助字段,限制结果的文献类型、语种、出版国家;

④使用适当的位置算符;

⑤使用“非(NOT )”算符,排除无关概念。

2.4.2 计算机检索步骤和策略调整方法

(2)输出篇数过少:

此时多数是由漏检造成,原因可能有以下几点:

1)选用了不规范的主题词或某些产品的俗称、商品名作为检索词

例如,没有使用“泡沫塑料”或“泡沫橡胶”,而使用了俗名“海绵”,又如,没有使用“表面活性剂”而使用了商品名称“迪恩普”,都会造成漏检。

2)同义词没能运用全

例如,希望查找“设备”时,只使用了“APPARATUS(工具) ”,没有使用“EQUIPMENT(设备) ”和“DEVICE(设备) ”等;查找“品牌”时,没有考虑到还有“名牌”、“牌号”以及“商标”也都可以使用。

2.4.2 计算机检索步骤和策略调整方法

3) 上位概念或下位概念没有完整运用,

如:“燃料”是上位概念,下位概念“固体燃料”,“液体燃料”,“气体燃料”,甚至“煤”,“油”,“煤气”,“天然气”等,这些概念在查找“燃料”时,都应考虑。

例如:“彩色电视机”,可从上位词“电视机”着手查找;查有色金属时,可用具体的金属名称:金、银、铜、铁等。

2.4.2 计算机检索步骤和策略调整方法

4) 其他造成漏检的原因

位置算符用得过严,概念不规范或新概念,布尔算符“(AND )与”用得过多等。 策略调整方法:

①减少“与(AND )”算符,增加同义词可同族相关词用逻辑“或”(OR )将它们连接起来;

②在词干相同的单词后使用截词符(?);

③去除已有的字段限制、位置算符限制(或者改用限制程度较小的位置算符)。

实际检索时,最好事先制定好几种策略,以供随时调整,使检索活动达到最佳的效果。 (END)

小结:信息检索步骤

1. 分析课题

2. 选择数据库

3. 制定检索策略

4. 检索策略的调整

本讲思考题

1. 计算机检索的基本原理

2. 调整检索策略的方法

m

文献检索教研室

联系方式:[email protected]

网络资源与信息检索

本章具体内容安排:

2.1 计算机检索基本原理概述

2.2 计算机检索基本原理

2.3 文献信息数据库的基本概念

2.4 计算机检索策略的构建与调整

要求:初步掌握计算机检索的基本原理、基本类型及其检索策略的构建与调整。

第二讲 计算机检索基本原理

2.1 计算机检索基本原理概述

2.1.1计算机检索概念

通过计算机进行的文献信息检索称为计算机检索。

随着计算机技术、远程通讯技术和信息存储技术的飞速发展,信息检索由手工检索过

渡到了计算机信息检索。计算机检索的成功应用,为我们更为及时、准确、全面地继承、利

用和发展人类的科研成果提供了先进的手段。

2.1 计算机检索基本原理概述

2.1.2计算机检索发展

第一个阶段:脱机检索阶段(50年代至60年代)

脱机检索(Offline Retrieval):即批处理检索

检索要求 检索系统 检索结果

检索人员→检索策略→成批检索→用户

缺点:

1. 地理上的障碍(远、不便于检索结果的获取)

2. 时间上的迟滞(定期检索,不能及时获取)

3. 封闭式的检索(指检索策略一经输入系统就不能更改,更不能依据机检应答来修改检索

式)

2.1 计算机检索基本原理概述

第二个阶段:联机检索阶段 (Online Retrieval)(60-80年代)

终端设备 通讯网络 检索系统

用户—> 检索策略—>人机对话———> 获取信息

三个时期:60年代开发试验;70年代末应用阶段;80年代以后进入信息—计算机

—卫星通信三维一体的新阶段,即以信息文献不受地区、国家限制而真正实现全世界资源共

享为目的的国际联机信息检索阶段。

2.1.1联机检索阶段优缺点

优点:

1. 速度快效率高

2. 检索范围广泛全面

3. 检索图径多方便灵活

4. 检索内容新实时性强

5. 检索辅助功能完善

缺点:

1. 检索的费用高

2. 检索系统及其文档如数据库收录、标引、特点较难了解熟悉

3. 检索技术和技巧不宜掌握

2.1.2 国际著名的联机检索系统

著名的国际联机检索系统有美国的DIALOG 系统、ORBIT 系统、BRS 系统以及MEDLARS

系统,还有欧洲的ESA/IRS系统、英国的BLAESE 系统等。

这些系统很快发展成为国际性情报检索系统,数据库种类及其检索存储记录都在迅

速增加,如:美国的Dialog 系统,1984年就有200多个数据库,其中包括美国的《医学索

引》、荷兰《医学文摘》、美国《生物学文摘》、美国《化学文摘》等。

如今此联机检索系统仍然是世界上最有影响的联机检索系统。

2.1 计算机检索基本原理概述

第三阶段:光盘检索阶段

1983年,出现了一种新的存储器,CD-ROM 光盘。光盘检索具有储量极大而体积

微小,要求设备简单,可随地安装,使用方便、易于操作,检索费用低(不需要昂贵的联机

检索通讯费用),因可随时修改检索策略而具有很高的查全率和查准率等优点。

Chemical Abstracts Index光盘(1987-1991):由美国化学文摘社与美国剑桥光盘公

司联合研制,收录1987-1991年《化学文摘》的全部内容。

2.1 计算机检索基本原理概述

Science Citation Index(SCI )光盘(科学引文索引) :由美国费城科学情报研究所编辑出版,

收录1961年以来有关生命科学、医学、物理、化学、农业、工程技术、行为科学等方面的

文献及引文。

CAJ (中国学术期刊):是由清华大学开发研制,分题录、文摘、全文三个层次的

数据库,其中全文数据库是国内最常用的全文数据库。

2.1 计算机检索基本原理概述

第四阶段:网络化检索阶段

进入90年代,随着卫星通讯、公共数据通讯、光缆通讯技术以及信息高速公路事

业在全世界的迅猛发展,计算机情报检索走向了全球大联网。

网上资源具有信息的时效性、内容的广泛性、访问的快速性、搜索的网络性和资

源的动态性五大特点,那么要及时、准确、有效地获取与自身需求相关的实用信息,对所有

网络用户都非常具有挑战性。

2.1 计算机检索基本原理概述

INTERNET 就是这个时期的最杰出代表。它能够跨越时空,进行实时信息检索、资源共享

的国际性计算机网络。 INTERNET 飞速的发展,已成为人们进行全球范围的合作、信息

交流与资源共享的不可替代的通讯交流方式。

随着计算机技术的智能化、数据库载体的高密度化和多媒体化、通讯技术的网络化,

计算机情报检索将走向办公室化、家庭化。

2.2 计算机检索基本原理

一般地说,计算机检索包括信息的存储和检索两个部分,即对应数据库的建立和查找两个部

分。

2.2.1信息存储

就是文献标引人员对文献内容进行主题分析,即把文献包含的信息内容分析成若干

能代表文献主题的概念,并用词表、分类表等规范化标识的情报检索语言对文献主题进行标

引、按所选数据库结构的索引结构输入到计算机进行存储,同时把入选文献中的其他特征标

识(标题、著者、文摘、原文出处等)也一起输入计算机,编制成一系列索引数据库,这便

是信息的存储。

2.2.1.1. 信息的存储主要包括的内容

信息采集:对广泛且分散的信息资源进行有针对性的采集。

信息著录:对所收集的原始信息的外表特征如题名、著者、文献出处和内容特征如分类号、

主题词、摘要进行描述,形成一条条款目或记录过程。

信息标引:就是根据一定的规则和程序,对文献内容进行分析,然后赋予每篇文献以一定数

量的内容标识如分类号、主题词、关键词作为存贮和检索的依据。它的作用是为信息存贮与

检索这两环节之间提供某种连接物。

信息的整序:就是将采集到的无序信息进行有序化组织的过程。

2.2 计算机检索基本原理

2.2.2 信息检索

信息检索作为信息存储的逆过程, 是将描述特定用户所需信息的提问特征与信息存储

的检索标示进行异同的比较, 从中找出与用户提问特征一致或基本一致的信息.

1、检索者对检索课题进行主题分析、明确检索范围,形成能代表情报需求的若干

主题概念。

2、把这些主题概念转换成计算机信息检索语言,即用数据库检索工具书对各概念

选词和进行逻辑组配,编制成检索提问式。

3、用计算机检索系统功能在文献资料数据库中将信息需求主题概念和数据库内文

献主题概念标识进行匹配,找到命中文献。

用图表示如下:

计算机检索原理的示意图

2.3 文献信息数据库的基本概念

2. 3.1数据库的定义和类型

一、数据库定义:根据ISO/DIS 5127号标准(文献与情报工作术语),数据库(database )

的定义为:“至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的

一种数据集合。”通俗地说,数据库就是在计算机存储设备上按一定方式存储的相互关联的

数据集合,数据库是计算机技术与情报检索技术相结合的产物,是现代重要的信息资源管理

工具,是情报检索系统的核心部分之一。数据库的质量直接影响情报检索系统的功能和效率。

2.3 文献信息数据库的基本概念

二、数据库类型

按照国际上通用的分类方法,常划分为以下类型:

1. 参考数据库(reference databases):指引用户到另一信息源以获得原文或其他细节的一类数

据库。包括书目数据库和指南数据库两种。

(1)书目数据库(bibliographic databases) 指存储某个领域的二次文献(如文摘、题录、目

录等书目数据)的一类数据库。例如,美国化学文摘数据库CA Search,中国机械工程文摘

数据库,各国生产发行的机读目录(MARC )等,即属于此类型。

(2)指南数据库(reference databases)

指存储关于某些机构、人物、出版物、项目、程序、活动等对象的简要描述,指引

用户获取更详细的信息的一类数据库。亦称指示性数据库。例如,各种机构名录数据库、人

物传记数据库、产品数据库、软件数据库、研究开发项目数据库、基金数据库等,均属此类。

2.3 文献信息数据库的基本概念

2. 源数据库(source databases ):

提供原始资料或具体数据的数据库。它又可分为以下几种类型:

(1)数值数据库(numeric databases) 指专门提供以数值方式表示的数据(或包括其统计处

理表示法)的一种源数据库,如各种统计数据库、财务数据库、科学技术数据库等。

(2)文本-数值数据库(textual-numeric databases):同时提供文本信息和数值数据的一种源

数据库,如某些公司信息库、产品市场报告数据库、读物数据库和物性数据库等。

(3)全文数据库(full-text databases ) 指存储文献全文或其中主要部分的一种源数据库,

简称全文库,如法律法规全文库、期刊全文库等。

2.3 文献信息数据库的基本概念

(4)术语数据库(terminological bank)

指专门存储名词术语信息一种源数据库,各种电子化辞典也包括在内。

(5)图像数据库(graphics databases)

指用来存储各种图像或图形信息及有关文字说明资料的一种源数据库,主要应用于

建筑、设计、广告、产品目录、图片或照片等资料类型的计算机存储与检索。

除了上述几种类型的数据库以个,还有能同时存储多种不同类型数据的数据库混合

型数据库(mixed databases)。

2.3 文献信息数据库的基本概念

2.3.2 数据库的构成

从使用观点来看,数据库主要由文档、记录、字段三个层次构成。

1、文档: 若干个逻辑记录构成的信息集合称为文档(file )。用户选择所需的联机系统数据

库时,多数数据库以单一的文档编号出现。此时文档(file )的概念和数据库(database )相

当。但有些数据库因规模庞大,被分成若干个文档。例如,在DAILOG 系统中,CA Search

数据库被分成308号(1967-1971),309号(1977-1981),311号(1982-1986)和312号(1986-)

等文档。

2.3 文献信息数据库的基本概念

2.记录

记录是由若干字段组成的文献单元,是计算机检索系统存储文献款目和标引的信息

载体。

在全文数据库中,一个记录相当于一篇完整的文献;在书目数据库中,一个记录相

当于一条文摘或题录。比较典型的COMPENDEX ,INSPEC ,美国专利数据库的记录。

2.3 文献信息数据库的基本概念

3.字段:是文献著录的基本单元,它是对实体的具体属性进行描述的结果。在书目数据库

中,记录中含有题名、著者、出版年、主题词、文摘等字段。

文献数据库字段分为基本字段和辅助字段两类。基本字段和辅助字段在检索策略的

构成方法上往往有些区别。

基本字段通常是默认的主题途径检索范围,如果需要查找专门的基本字段或者辅助

字段,通常要以某种方法予以指定。常见的字段名称和代码(也称段码)如下表所示。

文献数据库中常见的字段和段码

2.4 计算机检索策略的构建与调整

检索策略

是为实现检索目标而制定的全盘计划和方案, 是对整个检索过程的谋划和指导。

也可以说,所谓检索策略,就是在分析课题内容实质的基础上,确定检索系统、检

索途径和检索词,并科学安排各词之间的位置关系、逻辑关系和查找步骤等。

2.4.1 计算机检索策略的构建

一 信息检索技术

1、布尔逻辑

规定检索词之间的逻辑关系的算符, 称为布尔逻辑算符。布尔逻辑算符包括逻辑“或

(OR )”、逻辑“与(AND )”和逻辑“非(NOT )”。

(1)、逻辑“或”(OR )运算符

也可用“+”代替,是用来组配具有同义或同族概念的词,如同义词、相关词等。其

含义是,检出的记录中,至少含有两个检索词中的一个。OR 算符的基本作用是扩大检索范

围,增加命中文献量,防止漏检,提高检索结果的查全率,OR 运算符还有一个去重的功能。

2.4.1 计算机检索策略的构建

例如,如果以提问式“SS PIPE TUBE”检索EI COMPENDEX (1998)文档,所得结果为: S1 3954 PIPE (管子)

S2 4206 TUBE(管)

S3 7759 PIPE OR TUBE

(2)逻辑" 与" (AND )运算符

也可用"*"代替,用来组配不同检索概念。其含义是检出的记录必须同时含有所有

的检索词。AND 算符的基本作用是对检索词加以限定,逐步缩小检索范围,减少命中文献

量,提高检索结果的查准率。在实际检索中,

不同概念组面之间以及同一组面内的不同含义

的词之间通常使用AND 算符。

2.4.1 计算机检索策略的构建

例如:以提问式“SS COMMUNICA TION(通讯) AND SATELLITE(卫星)" 检索EI COMPENDEX (1998)文档,所得结果为:

S1 25331 COMMUNICATION

S2 4068 SATELLITE

S3 1253 COMMUNICATION AND SATELLITE

(3)逻辑" 非" (NOT )运算符

也可用"-" 代替,但在检索时建议使用NOT ,以避免与词间的分隔符"-" 混淆,NOT 算符是排除含有某些词的记录的,即检出的记录中只能含有NOT 算符前的检索词,但不能同时含有其后的词。

2.4.1 计算机检索策略的构建

NOT 算符的基本作用是缩小检索范围,但并不一定能提高文献命中的准确性,往往只是起到减少文献输出量的作用。在联机检索中,可降低检索费用。

例如,以"PATENT NOT GERMAN"检索EI COMPENDEX (1998)文档,所得结果为: S1 669 PATENT (专利)

S2 9019 GERMAN(德国)

S3 638 PATENT NOT GERMAN

2.优先处理算符“( )”

上述逻辑OR 和AND 算符的使用方法,如果归纳成一个模式,比如有A 、B 、C 、D 四个检索词(其中A 和B ,C 和D 分别为同义概念),

2.4.1 计算机检索策略的构建

检索提问可以分成三组:

?S1 A OR B

?S2 C OR D

?S S1 AND S2

在实际检索中,上例检索提问可改为:

? S (A OR B)AND (C OR D)

计算机输出的检索结果与上述三组式的提问策略是一样的。

3.位置算符

位置算符又称邻接算符(adjacent operators), 适用于两个检索词以指定间隔距离或者指定的顺序出现的场合。

2.4.1 计算机检索策略的构建

在AND 运算符查得的记录中,尽管同时含有所希望的检索词,但AND 算符并不限制两个检索词的位置和出现顺序。仍以上面输入的“communication(通讯) AND satellite(卫星) ”这个策略为例,命中的文献中可能既含有“communication satellite ”,又含有“satellite communication ”;也可能既含有“communication devices for satellite”,又含有“communication links without satellites”等等,显然其中的有些记录与课题要求毫无关系。

以DIALOG 联机检索系统使用的位置算符为例说明

(1)“(W )”

“(W )”算符中的W 含为“With ”。这个算符表示其两侧的检索词必须紧密相连,除开空格和标点符号外,不得插入其他词或字母,两词的词序不可颠倒。“(W )”算符还可以使用其简略形式“( )”。

例如,检索策略为“COMMUNICA TION(通讯) (W )SATELLITE(卫星) ”(或者

“communication () satellite”)时,系统将只检索含有communication satellite词组的记录。 以DIALOG 联机检索系统使用的位置算符为例说明

(2) “(nW )”

“(nW )”中的“W ”的含义为“Word ”,它允许两词间插入最多为n 个其他词,例如,检索策略为“COMMUNICATION(通讯) (2W )SATELLITE(卫星) ”时,系统将只检索含有communication satellite 、communication though satellite 、communication on the satellite 词组的记录。

(3)“(N )”

“(nN )”算符的N 含义为“Near ”。表示其两侧的检索词必须紧密相连,除空格和标点符号外,不得插入其他词或字母,两词的词序可以颠倒。

以DIALOG 联机检索系统使用的位置算符为例说明

(4)“(nN )”

“(nN )”是“(N )”算符的变形,不同之处为允许两词间插入最多为n 个其他词。例如,检索策略为“COTTON(棉花) (2N ) PROCESSING(处理) ”时,凡含有cotton processing ,processing of cotton 和processing of Egyptian cotton的文献记录都算命中。

(5)“(F )”

“(F )”算符中F 的含义为“Field ”。这个算符表示其两侧的检索词必须在同一字段(例如同在题目字段或文摘字段)中出现,词序不限,中间可插任意检索词。

以DIALOG 联机检索系统使用的位置算符为例说明

例如, pollution (污染) (F ) control(控制) 可查出control and management of industrial pollution ,检索词在同一题目字段中。由于(F )邻近算符限制性差,所以在文中检索多个叙词字段时不宜使用。

(F )邻近算符与AND 布尔逻辑组配主要区别在于:

(F )邻近算符使两个检索项在同一字段,AND 布尔逻辑组配中两个检索词会发生在不同字段中。

以DIALOG 联机检索系统使用的位置算符为例说明

(6)“(S )”

“(S )”算符中的S 含义为“Sentence ”。这个算符表示其两侧的检索词必须在同一句子(子字段)中出现,两词的词序可以颠倒。例如,“COMMUNICA TION(通讯) (S )SATELLITE(卫星) ”时,系统将检索句子(同一子字段)中含有communication satellite 和satellite communication词组的记录。

以上介绍的各种位置算符,按照限制程度的大小,(W )、(nW )最强,(N )、(nN )次之,(S )再次之;(F )的最弱。当(nN )的n ≥10时,其作用已经相当于(S )。

2.4.1 计算机检索策略的构建

4.字段限制

字段限制也是调整检索策略的一种重要的手段。多数检索系统对不指定字段的检索词,通常在所有基本字段中进行搜索,如果想指定在文献的题目等字段中查找所希望的检索词,就需要使用字段限制。

字段限制适用于在已有一定数量输出记录的基础上,通过指定字段的方法 ,减少输出篇数,提高检索结果的查准率。

字段限制(DIALOG 联机检索系统为例)

(1)基本字段限制

基本字段主要是指题目、叙词、识别词和文摘四个字段。基本字段限制的用法是在需要指定的字段的检索词后加上后缀运算符“/”和段码。

例如,检索策略“OPTICAL(光学)/TI AND FIBER(纤维)/TI”的含义是指定在题目字段中查找含有“optical ”和“fiber ”两词的所有记录。

字段段码可以多个连用,段码之间加“,”即可。 例如“FIBER/TI,DE ”的含义是指定在题目和叙词字段是查找以“fiber ”为词的所有记录。

字段限制(DIALOG 联机检索系统为例)

(2)辅助字段限制

除基本字段以外的可检索字段都可称为辅助字段。辅助字段运算符的用法是在需要指定字段的检索词(有时检索词须放在双引号内) 之前加上段码和前缀运算符“=”。例如,AU=“Robert ,S. ”的含义是在作者字段中查找含人名为“Robert ,S. ”的所有记录。 下面是其他常用的辅助字段限制及其实例:

指定刊物名称 JN=APPLIED PHYSICS

指定语言字段 LA=ENGLISH

指定年份字段 PY=1999

2.4.1 计算机检索策略的构建

5.截词算符

截词算符就是使计算机保留检索词中的相同词干部分,允许检索词可有一定范围的变化,这种功能可减少输入步骤,简化检索程序,扩大检索范围,提高查全率。不同的数据库有不同的截字符,DIALOG 系统用“?”,ORBIT 系统用“+”,功能基本相同。

截词有前方一致、后方一致、中间一致和中间屏蔽四种形式。前方一致,允许词尾有所变化;后方一致,允许词头有所变化,中间一致,词头、词尾都可变化;中间屏蔽,允许词中间的某些字母有变化。

2.4.1 计算机检索策略的构建

例如,当使用前方一致算符时,Textile? 可同时查找含有Textile 和Textiles 的文献;当使用后方一致算符时,?Polymer 可同时查找含有Homopolymer ,Copolymer 等的文献;当使用中间一致算符?Wave? 可同时查找含有Waves ,Microwave 等的文献;当使用中间屏蔽算符时,Fib??s 相当于查找含有Fibers 和Fibres 的文献。

截词是计算机检索中常用的方法,尤其是英语的单词词尾变化较多,为避免漏检,经常要使用前方一致的截词检索。

2.4.1 计算机检索策略的构建

6.范围限制

查找范围算符的作用主要是用户利用辅助索引时,对查找文献的年限范围进行限制。

等于:如在日期检索项输入“1990*”,则表示1990年发表的文献

大于:输入“>1990*” 大于等于:“>=1990*”

不等于:“1990*”

范围:如在日期检索项输入“1991*:1994*”,则表示查找1991~1994年的文献

其它:短语检索、自然语言检索(小节)

2.4.1 计算机检索策略的构建

小结:信息检索技术

1. 布尔逻辑

2. 优先处理算符

3. 位置算符

4. 字段限制

5. 截词算符

6. 范围限制

2.4.2 计算机检索步骤和策略调整方法

二 信息检索步骤

1. 分析课题

(1)一般的课题概念分析方法:

分析主要概念,找出能代表这些概念的若干个词或词组,对新学科、交叉学科和边缘学科的课题,要搞清楚这些概念关系。概念分析的结果应以概念组为单元的词或词组形式列出,以便下一步制订检索策略。

例如,“聚乙烯的合成(synthesis of polyethylene)”这个课题可划分为两个概念,即“聚乙烯(polyethylene )”与“合成(synthesis )”。

2.4.2 计算机检索步骤和策略调整方法

(2)隐含概念的分析:

课题所隐含的概念从专业角度作深入分析,才能提炼出能够确切反映课题内容的检索概念。

例如,“垃圾的处理”中的“处理”一词隐含着“回收”“再生”等具体的处理方法,再如,课题“大型机械电子渗漏仪”,其中“电子”(electronic )一词,在该专业中往往是用“传感器”来表示,即用“sensor ”、“transducer ”或“load-cell ”等来表示。类似的,诸如“工艺”、“分析”、“应用”,以及诸如“有机物”、“无机物”、“重金属”、“轻金属”、“高分子材料”等外延十分宽的概念,一般都应转换成具体的方法或材料、化合物来表示。

2.4.2 计算机检索步骤和策略调整方法

(3)核心概念的选限:

有些检索词中已经含有的某些概念,在概念予以排除。例如,课题“玻璃纤维增强石膏制品”,从字面上看,这个课题可划为三个概念:即“玻璃纤维”、“增强”、“石膏制品”。但石膏制品中加入玻璃纤维,其目的就是为了增强石膏制品,因此可将“增强”这一概念排除之外。

如果有些检索概念已经体现在数据库中,这些概念也应该予以排除。如陶瓷文摘数据库(Ceramic Abstracts),“陶瓷(ceramic )”这一概念一般可以排除;而COMPUTER 一词在计算机数据库(The Computer Database)中一般也应予以排除。

2.4.2 计算机检索步骤和策略调整方法

另外有一些比较泛指、检索意义不大的概念,例如,“发展”,“趋势”,“现状”等在不是专门查找综述类文献时也应予以排除。

2. 选择数据库

不同的数据库学科范围不同,检索指令不同,收费标准也不同。所以,应在检索之前阅读有关数据库的使用介绍,以便选择数据库时做到心中有数。在做联机检索时,还可以通过总索引文档(例如DIALOG 系统的411文档)了解与检索课题有关的每一个文档中的文献篇数,以选取文献量最大的一个或数个文档作为检索文档。

2.4.2 计算机检索步骤和策略调整方法

选择数据库,我们一般遵循以下几条原则:

(1)按照课题的检索要求和目的,选择收录文献种类、专业覆盖面、年代跨度对口的数据

库。

(2)当需要查找最新文献信息时,选择数据更新周期短的数据库。

(3)当还需要获取原文时,选择原文获取较容易的数据库。

(4)要选好数据库,就要弄清所选数据库的标引特征、不同检索特点等。

2.4.2 计算机检索步骤和策略调整方法

3. 制定检索策略

(1)做到情报提问与情报需求的一致性。

(2)机检前,手检几篇作联机检索时参考。

(3)选择一个或多个与需求相适应的数据库和联机检索系统。

(4)指出几个主要概念组面和检索词,并标明它们的逻辑关系。

(5)对每一个单独检索组面考虑同义词、近义词、用OR 组配成一个概念面的单独集。

(6)对上述形成的概念或由OR 组配成的概念面进行AND 和NOT 组配,并编成一个检索表达式。

2.4.2 计算机检索步骤和策略调整方法

(7)进入机检系统,输入

(6)的检索表达式。

(8)评论中间结果,如不满意可考虑用备用策略来处理。

(9)反复进行检索,直到得到满意的结果,输出、打印或拷盘

4. 检索策略的调整:

检索策略输入检索系统后,系统响应的检索结果有时不一定能满足课题的要求,例如,输出的篇数过多,或者输出的文献数量极少,有时甚至为零,这时就需要调整检索策略。

2.4.2 计算机检索步骤和策略调整方法

(1)输出篇数过多:

此时多数是由误检造成,原因可能有以下两点:

1)主题词本身的多义性导致误检,例如,使用仅“DNP ”(邻苯二甲酸二壬酯)作为检索词查找,结果找出的文献含有“DNP 邻苯二甲酸二壬酯”、“DNP 动态核极化”、“DNP 糖尿病患者”、“DNP 防老剂”和“DNP 表面活性剂”等多种内容。

2)对所选的检索词的截词截得过短,例如,使用“CA T ?”甚至“CA ?”查找“CA TAL YST ,又如,使用“PREP ?”查找“PREPARATION ”,都会造成误检。

2.4.2 计算机检索步骤和策略调整方法

策略调整方法:

①减少同义词或同族相关词;

②增加限制概念,用逻辑“与”(AND )将它们连接起来。例如,将DNP * DETERGENT(洗涤剂)组配,就可将DNP 表示的另四种含义的文献删去;

③使用字段限制,或者限制检索词在指定的基本字段出现,或者指定辅助字段,限制结果的文献类型、语种、出版国家;

④使用适当的位置算符;

⑤使用“非(NOT )”算符,排除无关概念。

2.4.2 计算机检索步骤和策略调整方法

(2)输出篇数过少:

此时多数是由漏检造成,原因可能有以下几点:

1)选用了不规范的主题词或某些产品的俗称、商品名作为检索词

例如,没有使用“泡沫塑料”或“泡沫橡胶”,而使用了俗名“海绵”,又如,没有使用“表面活性剂”而使用了商品名称“迪恩普”,都会造成漏检。

2)同义词没能运用全

例如,希望查找“设备”时,只使用了“APPARATUS(工具) ”,没有使用“EQUIPMENT(设备) ”和“DEVICE(设备) ”等;查找“品牌”时,没有考虑到还有“名牌”、“牌号”以及“商标”也都可以使用。

2.4.2 计算机检索步骤和策略调整方法

3) 上位概念或下位概念没有完整运用,

如:“燃料”是上位概念,下位概念“固体燃料”,“液体燃料”,“气体燃料”,甚至“煤”,“油”,“煤气”,“天然气”等,这些概念在查找“燃料”时,都应考虑。

例如:“彩色电视机”,可从上位词“电视机”着手查找;查有色金属时,可用具体的金属名称:金、银、铜、铁等。

2.4.2 计算机检索步骤和策略调整方法

4) 其他造成漏检的原因

位置算符用得过严,概念不规范或新概念,布尔算符“(AND )与”用得过多等。 策略调整方法:

①减少“与(AND )”算符,增加同义词可同族相关词用逻辑“或”(OR )将它们连接起来;

②在词干相同的单词后使用截词符(?);

③去除已有的字段限制、位置算符限制(或者改用限制程度较小的位置算符)。

实际检索时,最好事先制定好几种策略,以供随时调整,使检索活动达到最佳的效果。 (END)

小结:信息检索步骤

1. 分析课题

2. 选择数据库

3. 制定检索策略

4. 检索策略的调整

本讲思考题

1. 计算机检索的基本原理

2. 调整检索策略的方法

m

文献检索教研室

联系方式:[email protected]


相关内容

  • 医学信息检索与利用教学大纲
  • <医学信息检索与利用>教学大纲(研究生) 课程编号: 学时数:40 其中实验或上机学时:16 一.课程的性质和任务 本课程是一门以医学信息检索工具利用为主线,以电子与网络文献信息.数据库与Internet 上医学文献信息的检索为重点,系统介绍文献信息检索工具及其利用方法,以及医学信息利用 ...

  • 网络信息检索与利用
  • I.课程性质与设置目的要求 <网络信息资源开发>课程是我省高等教育自学考试信息管理与信息系统专业(独立本科段)的必修课,该课程是信息管理专业课程体系中的基础课程之一. <网络信息资源开发>课程是一门非常实用的课程.21世纪为信息社会,信息资源是一种战略资源,是现代社会生产力的 ...

  • [科技文献检索]报告课题.要求及范例
  • 提交一份<科技文献检索报告> 利用所学文献检索知识和检索方法,结合自己所学专业自选课题,使用不同的检索方法和手段,广泛收集有关资料,每人提交一份文献检索报告,报告(A4纸打印)格式严格按照要求排版可参照模板,禁止抄袭,一经发现取消成绩. <科技文献检索报告>课题 检索说明及要 ...

  • 网络技术应用
  • 网络技术应用 教材分析 第1节 因特网应用 概述 本模块是高中信息技术课程的五个选修模块之一. [下一节] 网络是信息技术应用发展的热点.网络技术应用遍及现代社会各行各业,成为应用广泛.与社会与生活关系密切的技术领域.通过本模块的学习,将使学生掌握网络的基础知识和基本应用技能,学会网站设计.制作的基 ...

  • 信息组织与管理
  • 结课大作业 信息组织与管理 学 学 专 生生业姓学班名 号 级 汪厚连 08580101 08信息管理1班 管理工程系 2011年6月7日 目录 1 根据第三章,分别用800字.500字.200字和120字概括第三章内容 ......................... 1 1.1 800字概括 ...

  • 文献检索实验报告-杨勇
  • <文献检索>实验报告 院系: 机械工程学院 专业: 工业工程 班级: 1202 学号: 15,16,17 学生姓名: 杨勇 班级: 1202 学号: 16 同组学生姓名: 胡昕 班级: 1202 学号: 15 同组学生姓名: 向城强 班级: 1202 学号: 17 实验指导老师: 刘军安 ...

  • 现代教育技术重点
  • 第一章 现代教育技术概述 1.教育技术AECT定义:教育技术是设计.开发.利用.管理和评价学习过程和学习资源的理论与实践. 2.教育技术名称的演变:视觉教育.视听教育.视听传播.教育技术 3.师范生学习教育技术的主要内容:现代教学设计理论与方法.以信息技术为核心的媒体使 用技术.教学软件的开发制作技 ...

  • 信息检索程序设计()
  • 微型计算机原理及接口技术 课程设计报告 题目: 信息检索程序设计 姓名: ******** 学号: 班级: 学院: 电气工程学院 完成时间: 2011年12月24日 一.设计进度及完成情况 二.设计要求 完成一个信息检索系统.在数据区,有9个不同信息,编号0-8,每个信息包括40个字符.从键盘接收0 ...

  • 2012.10办公自动化原理及应用试题
  • 全国2012年10月自考办公自动化原理及应用试题 一.单项选择题(本大题共15小题,每小题1分,共15分) 在每小题列出的四个备选项中只有一个是符合题目要求的,请将其选出并将"答题纸"的相应代码涂黑.未涂.错涂或多涂均无分. 1.办公自动化在我国开始创建并初见成效的时间为20世纪 ...