信息计量学_四_第四讲文献信息离散分布规律_布拉德福定律

p 邱均平(武汉大学传播与信息学院 湖北 430072)

信息计量学(四)

第四讲 文献信息离散分布规律) ) ) 布拉德福定律

布拉德福定律是英国著名文献学家S 1C 1布拉德福(Samuel Clement Bradford, 1878) 1948) 于1934年首先提出来的。它定量地揭示了科学论文在期刊中的集中与离散分布规律, 是文献信息计量学的最基本的定律和最重要的组成部分, 其研究至今仍然具有重要的不可替代的理论价值和实际意义。

的期刊上。这些/其他学科0期刊的数量, 随着它们的研究领域与那个/专家所在0学科的关系密切程度的变小, 以及关于那个/专家所在0学科的论文在每种期刊中的登载率的减少而变大。这是一个反比关系。例如, 有关图书馆自动化的论文, 按理说应该刊登在图书馆学方面的期刊中; 同时, 还有可能出现在有关电子技术、数据处理或自动化技术等其他学科的杂志中。这些/其他学科0期刊数量的大小取决于这些期刊的所在学科与图书馆自动化的关系的密切程度。假设关于图书馆自动化的论文共有100篇, 如果在图书馆学期刊中占有60篇, 分散到其他学科期刊中的论文就会有40篇。这40篇论文到底分布在多少种期刊上, 就要看这些期刊所在的学科与图书馆自动化的关系如何。如果关系密切, 若每种期刊平均登载4篇论文, 这40篇论文就会分散在10种期刊中; 如果不太密切, 若每种期刊平均只登载两篇论文, 那么这40篇论文就会分散在20种期刊中, 以此类推。但是, 这种关系密切与否不仅是相对而言, 而且有多个衡量等级。各种期刊、各个学科的情况都不一样, 如何分散还要受到很多因素的影响。布拉德福还认为, 总是会有若干期刊, 它们的内容与某个学科更近些, 而总会有数量更多的期刊, 它们的内容离这个学科更远些; 专门面向这个学科的核心期刊, 亦即大量包含这个学科内容的最少数的那一部分期刊, 论述这个学科的论文数量一定要多于论述有关学科的论文。布拉德福就是按照这个道理产生了将期刊划分为几个区域的思想。他的方法是:按照期刊登载有关某个学科论文的载文率的高低来划分区域, 每个区域中的期刊数量随着该区域期刊载文率的减小而增多。这也正好与前面叙述的反比关系相吻合。

113 文献统计研究是布氏定律产生的基础

20世纪以来, 一些学者开展的文献统计研究给布拉德福定律的形成带来了积极影响。布拉德福对文献规律的认识, 正是在客观实际需要的推动下, 从文

1 布氏定律的产生背景

布拉德福文献分散定律的产生并不是偶然的, 而有着一定的科学背景和客观基础。111 文献的分散是普遍的客观现象

在科学研究和文献工作中, 布拉德福深深感到科学文献的分散。他发现, 一个学科的论文分散在其它学科的期刊杂志上是屡见不鲜的。例如, 关于控制论的论文会发表在神经科学的杂志上; 关于心脏机械的论文会出现在物理学的杂志上; 关于遗传学方面的论文则可能分散在农学杂志上, 等等。科学文献的分散是显而易见的普遍现象, 关键在于如何找出其分散的规律性。他认为, 文献分散规律可以在理论上从科学统一性原则出发定性地推导出来; 也可以从相关期刊所载论文的数量统计基础上推导出定量的结果。112 科学统一性原则的决定作用

虽然科学有不同学科之分, 但它是一个整体, 具有统一性。科学统一性原则是布拉德福定律产生的思想基础。布拉德福认为, 按照科学具有统一性的原则, 科学技术的每一个学科都或多或少、或远或近地与其他任何一个学科相关联。因此才会有一个学科的文献出现在另一个学科的期刊之中这种现象。这一点是布拉德福认识文献分散规律的重要基础。问题在于, 学科与学科的相互关系如何影响文献与文献的关系, 比例如何? 分散的特点怎样? 布拉德福在研究这些特点时总结出:一种专门面向一个专业学科的期刊, 可以含有对别的学科有用的论文。换句话说, 对一个专家有用的论文, 不仅仅会出现在这个专家所在学科的专业期刊上, 而且也时时可能出现在其他学科

界因特网发展的步伐, 印度还面临着严峻的挑战。

4 澳大利亚稳中求快

在过去10年内, 全球信息通信技术和信息服务的革命给澳大利亚社会和经济带来了巨大变化。这些技术和服务改变了澳大利亚企业运作的方式, 使政府的管理更加行之有效, 也改变了澳大利亚人的生活方式。至1997年8月, 每100名澳大利亚人拥有27台计算机, 计算机的普及程度仅次于美国; 网络用户约为240万, 预计到本世纪末将达到380万; 入网的小型企业数目达到23%。另据统计, 1995年大约有5012万澳大利亚人在包括硬件、软件、信息技术服务在内的信息产业部门就业, 预计到2000年这个数字将增加30%, 达到65万人。电信部门提供的就业机会从1994年的近8万个增加到1997年2月的近915万个。信息产业的规模已从1985年的90亿澳元增加到1995年的270亿澳元, 约占其国内生产总值的5%。信息产业(包括信息服务) 是澳大利亚第五大出口工业, 1995年出口额约达30亿澳元。信息产业已经成为澳大利亚经济中发展最快的产业之一。

澳大利亚之所以能迅速普及信息服务, 关键在于拥有完善的电信技术结构。它的电话网已覆盖了全国95%的住宅, 且正在迅速升级为数字电话网络。此外, 还有3个移动电话网、1个卫星和无线电电信网。预计到2000年, 位于澳大利亚大城市和重要地区的500万户家庭以及许多商业场所都能享受宽带电缆服务。澳大利亚还积极引进综合服务数字通信网络, 计划到2000年将在全国普及, 并将大大降低电信的价格。澳大利亚还大力引进数字电视, 2000年的悉尼奥林匹克运动会将大大加快引进数字电视的步伐。

计算机网络的普及是近年来澳大利亚信息产业最重要的发展之一。互联网用户几乎每3个月就翻一番。教育系统用户是用户中的主体, 占59%; 其次是商业, 占21%。1995年, 大部分澳大利亚网络服务归Telstra 管理后, Telstra 在互联网基础设施建设方面进行了大量投资, 以便向主要的大城市提供更可靠的服务, 并提高互联网的数据传输速度(到1996年, 已从6MB/s 增加到10MB/s) 。到1995年底, 澳大利亚国内互联网主干网连接能力已比年中增加了4倍。澳大利亚政府在推进国家信息化进程中扮演着重要角色。正如澳大利亚通信和艺术部部长理查德#奥尔斯顿所阐述的, 政府在国家信息服务行业中扮演的重要角色主要表现在三个方面:¹提供政策领导和政策方向; º形成一个灵活的管理环境; »加强政府对

于网上服务的利用。政府的目的是确保全体澳大利亚人都能有效地采纳、发展和利用这些新的服务。澳大利亚政府在发展互联网的过程中有以下几个特点:¹在制定互联网政策时既综合了社会各方面的意见, 又规定了各自的责任。º在互联网发展中的作用是加强领导, 而不是过度限制。»对互联网的管理是强调自律, 同时实行法治。

从以上进展不难看出美国、澳大利亚、欧洲和亚洲各国的信息化建设正在由点及面地迅速发展。它加快了信息科学技术的进步, 使得电子信息产业成为全球最大的产业。可以预料, 这种形势的持续发展将会最终形成从局部量变到全局质变的飞跃。到21世纪, 人类改造自然、改造社会生活的能力将得到极大提高。世界经济将由物质型向信息型转变, 人类社会的知识经济时代将早日到来。t

参考文献

1 林茂荃1全球信息化新进展及其趋势综述1科技进步与对策, 1998, 15(5) :25~26

2 林茂荃1全球信息化进程大事纪要1科技进步与对策, 1998, 15(5):27~28

3 梁俊兰1信息化社会中的美国1国外社会科学, 1998, (5) :70~72

4 杨绍兰1美、日信息化差距比较分析1国外社会科学, 1999, (4) :45~50

5 梁俊兰1美国90年代的信息战略1国外社会科学, 1999, (4) :51~55

6 杨学山1价值在这里体现) ) ) 透析美国政府信息资源管理1中国计算机报, 1999-04-26

7 吕本富1通向未来的信息高速公路1北京:北京大学出版社, 19951

8 于文兰1因特网与俄罗斯1国外社会科学, 1998, 43~45

9 一丁1俄罗斯的信息政策与法规1国外社会科学, 1999, (2) :65~69

10 崔岩1日本信息化发展的新态势1日本研究, 1998, (2) :5~9

11 宫娅丽1日本全部有线电视将于2010年实现基本数字化1国外社会科学, 1999, (6):73

12 刘振喜1新加坡的因特网管理1国外社会科学, 1999, (3) :46~51

13 黄育馥1走向私有化:印度因特网服务政策1国外社会科学, 1999, (1) :59~64

14 黄育馥1澳大利亚联邦政府在互联网发展中的作用1国外社会科学, 1999, (1) :38~43

(2) :

(收稿日期:2000-02-11)

献统计研究开始的。30年代, 由于科学文献数量的激增, 具有存储、报道、检索文献职能的文献杂志不断出现, 而且增长很快。但是, 这些文摘期刊普遍存在着重复和遗漏文献的现象。这一背景引起了目录学家布拉德福的深刻思考。文摘杂志的这种不完整性与文献的分散现象是否有着联系呢? 为了探明这些文献现象的原因及其内在规律, 布拉德福开始对文献体系进行全面探索。而且, 他果断地采取定量方法来开展研究工作, 即从文献统计入手, 对数据进行系统归纳和分析, 然后导出文献情报流的整体上的定量规律。在长期的文献工作和研究中, 布拉德福对科学文献进行了大量的统计研究, 掌握了文献分散的特点, 发现了其中的某些规律性; 并在文献统计的基础上经过数学推导, 得出了与上述理论推导一致的结论, 为布拉德福文献分散定律的形成和正式确立奠定了基础。

tary Chaos) 。这才引起一些学者特别是英国著名文献学家B 1C 1维克利(B 1C 1Vickery) 的重视和研究。他较早研究布拉德福定律, 并率先发表论文, 不仅充分肯定了布拉德福的研究工作, 而且最早将相关论文在期刊中的这种分布称为/布拉德福离散分布0, 把布氏的上述研究结论叫做/布拉德福分散定律0(Brad -ford . s Law of Scattering) 。同时, 他还创造性地提出了自己的修正和补充。维克利的研究成果, 既使布拉德福文献分布的图像和定律在结构上得到了统一, 在形式上更趋于完整, 又丰富了布氏分布理论的内容, 从而为布拉德福定律的确立和发展作出了重要贡献。后来, 布拉德福定律获得国际图书馆学情报学界的普遍承认并被人们广泛接受, 维克利的工作无疑起了决定性的作用。因而, 如果说定律的发现是布拉德福的话, 那么, 这一重要发现的发展以及定律的确立与传播, 首先应归功于维克利。

除了维克利之外, 还有许多文献学家和情报学家对布氏定律进行了深入研究。较为著名的有F 1F 1Leimkuhler 和B 1C 1Brookes 。前者对该定律的区域描述作了重要发展; 后者则以数学公式描述了这一定律, 发展了图像分析方法。正是由于许多学者的共同努力和贡献, 才使得布氏定律从理论上、数学描述上和应用上日趋完善, 才使人们认识到它的重要意义, 从而使这一定律得以正式确立并迅速发展起来。212 布氏定律的基本内容

一般认为, 布拉德福定律的基本内容是由其区域描述和图像描述两个部分组成的, 现分述如下。

1) 区域描述。S 1C 1布拉德福在5文献工作6中写道:/如果将科学期刊按其登载某个学科的论文数量的大小, 以渐减顺序排列, 那么可以把期刊分为专门面向这个学科的核心区和包含着与核心区同等数量论文的几个区。这时, 核心区与相继各区的期刊数量成1:a:a , , 的关系。0

布氏定律的文字表述结论是建立在将等级排列的期刊进行区域分析的方法之上的。如果将一定时间内(通常一年) 的按某学科载文量等级排列的期刊划分为3个区, 使每一个区所包含的相关论文数量相等, 即恰好等于全部期刊发表的该学科文章总数的1/3, 则便可发现, 第一区(核心区) 所涉及的文章来自数量不多但效率最高的n 1种期刊; 第二区(相关区) 包括数量较大、效率中等的n 2种期刊; 第三区(外围区) 包括数量最大而效率很低的n 3种期刊。那么, 3个区中的期刊数量成下列关系:

n 1:n 2:n 3=1:a:a (a >1)

2

2

2 布氏定律的形成和基本内容

211 布氏定律的形成和确立

关于某一特定课题、学科或专业领域的论文, 我们称为相关论文。相关论文在期刊中不是均匀分布的, 而是具有明显的集中与离散规律。对此, 人们早有察觉, 但从定量的角度进行深入研究, 还只是近几十年的事。布拉德福选择了/应用地球物理学0和/润滑0专业领域为样本, 组织他所在的英国科学博物馆图书馆的工作人员逐刊地统计所收集的科技期刊上发表的相关论文, 共统计了490种期刊, 1727篇论文, 并将期刊按照相关论文载文量的多少以渐减的顺序排列起来, 然后采用3种不同的方法, 即区域分析、图像观察和数学推导的方法对文献统计数据进行了分析研究, 结果发现, 尽管学科不同, 但它们的论文在相应的期刊中有着同样的分布规律。根据这一带有规律性的事实, 布拉德福得出了文献分散规律的研究结论, 并于1934年1月在5工程6(Engineering) 周刊的/图书与文献0栏目里发表了题为5专门学科的情报源6(Sources of Information on Speci fic Subject) 一文, 首次公开提出了定量描述文献分散规律的经验定律。这是一篇在文献计量学中具有重要历史意义的著名论文。

虽然布拉德福早在1934年就明确提出了科学文献的分散定律, 但是他的研究成果却长期没有引起人们的注意。直到14年后, 即布拉德福去世的1948年, 他的专著5文献工作6(Documen tation) 一书问世, 1934年发表的那篇著名论文被全文收入, 并扩展为该书的第四章, 定名为/文献的紊乱0(Docu men -

式中:a ) ) ) 布拉德福常数, 或称比例系数。就布拉德福所分析过的数据而言, a 值大约为510。以上经验公式即为布拉德福定律的区域表述形式。

2) 图像描述。如果取上述等级排列的期刊数量的对数(lgn) 为横坐标, 以相应的论文累积数R (n) 为纵坐标进行图像描述, 便可得到一条曲线(图略) 。我们把绘制出的曲线称为布拉德福分散曲线。早期的布拉德福定律的图形) ) ) 分散曲线AB 是由两部分组成的:即对应核心区的上升的一段曲线AC 和对应相继各区的直线CB 。后来的研究表明, 拐点C 点为核心区的分界点。

213 布氏定律的理论解释和评价

关于布氏定律的解释和评价问题, 不少学者进行过分析和研究, 其总的结论是:布拉德福定律与文献分布的实际情况具有较好的一致性, 但也存在一定的差异。具体来说, 有以下几个方面。

1) 布氏定律的理论解释。科学文献的分布为什么会遵循布拉德福定律呢? 这可以从科学发展和文献活动的规律来进行理论解释。

科学的发展总是遵循一定规律的。现代科学技术一方面互相交叉渗透, 另一方面小学科又有向大学科综合的趋势。布拉德福就是从科学的统一性规律出发总结出文献的分散定律的。当一门新学科问世之后, 第一批文献就刊载在为数不多的几种期刊上。随着研究工作的深入发展, 这几种期刊就会吸引愈来愈多的文献。这时又会有新的期刊相继问世, 可供待发表的文献选择。经过一段时间的发展、巩固、竞争和淘汰之后, 总会出现一定数量的期刊, 它们专门面向该学科, 刊载该学科的文献量最大, 质量也较高, 作者也愿意将自己的论文刊登在这些期刊上, 从而出现了/核心期刊0。在布拉德福分布图形中则表现为上升的幂函数曲线。这种现象就是文献分布中的/堆加效应0。与此同时, 有关这一学科的论文也在数量很大的其它杂志上发表, 这就产生了文献的集中与分散现象。这是因为事物的发展往往并不是单因素作用的。由于科学技术的相互交叉渗透, 此时便会有许多新学科和其它边缘学科也竟相将其文献发表在这些期刊上。为了抑制核心期刊数量的无限增加, 客观上也由于期刊的篇幅有限, 此时必然会有一种/限定因素0开始起作用。编辑人员为了照顾各方面文献的平衡, 不得不制定出版计划和方针, 控制论文的数量。为了适应日益增长的文献需要, 许多新的期刊又会相继诞生。所以, 随着时间的流逝, 刊登该学科文献的期刊品种数与相关论文数成正比增加, 使得布拉德福定律

的图形呈直线上升。以上说明, 曲线与直线分界点的产生正是反映了客观上的这种/限定因素0的作用, 否则, 布拉德福定律的图形就会一直按曲线上升。

2) 格鲁斯下垂。1967年, 格鲁斯(Q 1V 1Groos) 通过对基南-阿瑟顿(Keenan -Atherton) 数据的分析指出, 布拉德福曲线在进入直线部分后, 并非无休止地直伸下去, 后来总要弯曲下垂, 因而使得布拉德福定律的图形变为明显的3个部分:上升的曲线部分) 直线部分) 弯曲下垂部分。对于弯曲下垂部分BD, 我们称为/格鲁斯下垂0。后来, 加拿大学者波普(Adrew Pope) 对美国5情报科学和技术目录6收录的1011种期刊所发表的7368篇文献进行了统计, 绘制出R (n) 与lgn 的对应图形, 也证明图形由3部分构成。当1[n [10时, 得R (n) =A n B 的曲线AC; 10[n [200时, 得R (n) =Klgn/s 的直线CB; 当n>200时, 直线部分开始弯曲下垂, 得到曲线B D 。而且, 波普实际统计的期刊数和文献数都小于按照布鲁克斯公式计算的理论值, 分别只有理论值的72%和83%。所以, 布拉德福曲线最后会弯曲下垂, 正是由于期刊数和文献量统计不足, 未能代表全部文献之故。而格鲁斯下垂恰好反映了这种理论值和实际值之间的差异。

3) 理论与实际存在差异的原因分析。我们认为, 理论与实际存在差异的根本原因, 无外乎两个方面:一是理论本身的缺陷; 二是对客观实际的反映的失真问题。由于存在/格鲁斯下垂0, 布氏定律的文献分散曲线有呈S 型之势。布鲁克斯的数学公式仅由两部分组成, 只对应上升的曲线部分和直线部分, 而没有包括/下垂部分0的数学描述(或者说误差很大) 。可见其本身是近似的, 而出现/偏离0倒应该是根本性的。这是随着对布氏定律研究的深入而暴露出来的缺陷。我们相信, 布氏定律的理论及其数学表达式一定会得到不断补充和修正, 从而更精确地反映文献分布的客观规律。另外, 在实际情况中, 相关期刊数和文献数统计不全而使布拉德福图形最后部分弯曲下垂, 其原因可能有:¹运用布拉德福分散定律时, 必须满足其严格的先决条件, 学科界限必须经纬分明。但现代科学技术互相交叉渗透, 边缘学科愈来愈多, 例如本应属于情报科学的文献, 也有人会从另一角度将其归类于计算机科学, 从而造成统计上的误差。º目前应用布拉德福定律时, 一般均借助于书目、索引、文摘之类的工具书。在编纂这类工具书时, 编辑人员都要对原始文献进行选择和加工。/选择和加工0本身就有可能改变事物的本来面目, 导致变异的产

生。»在实际统计各种数据时, 也会遇到干扰, 如期刊的更名、停刊、文献的重复发表等, 都会造成统计数据的不精确。正是由于这些因素, 当n 达到一定数值后, 就会使图形偏离直线而弯曲下垂; 也就是说, 使理论与实际发生差异。

描述。正是由于这一重大遗漏, 使得人们对其重要性的真正认识延缓了20年。布鲁克斯抓住这一关键问题进行了研究, 并首次用数学公式描述了布拉德福的经验定律, 发展了图像描述方法, 从而完成了布氏定律的这一重要的后续工作, 受到情报界的普遍赞赏。许多人认为他提出的数学公式/准确地符合0布氏定律, /系统而完整0地描述了布氏分布。

1968年, 布鲁克斯首先导出布氏定律的公式应为:R (n) =Klgn; 后来他考虑到期刊序号n 和载文量的不均匀变化, 引入一个参数s 对上式进行修正; 并创造性地提出用下列两个部分组成的数学表达式来描述布拉德福定律, 即

R(n) =A n B , 1[n

R(n) =Klgn/s, c [n [N

这两个方程分别表示图像的曲线部分和直线部分。

式中:

R (n) ) ) ) 对应于n 的相关论文累积数; n ) ) ) 期刊等级排列的序号(级) ;

A ) ) ) 第一级期刊中相关论文数R (1) , 也就是载文率最高的期刊中相关论文数;

c ) ) ) 核心区的期刊数, 即曲线进入光滑直线部分的交点的n 值;

N ) ) ) 等级排列的期刊总数;

B ) ) ) 参数, 与核心区的期刊数量有关, 大小等于分布图中曲线部分的曲率, 且B 总小于1;

K ) ) ) 参数, 等于分散曲线中直线部分的斜率, 可用实险方法求得, 当N 足够大时, K U N;

s ) ) ) 参数, 其数值等于图形直线部分反向延伸与横轴交点的n 值。

布鲁克斯等人发现, 随着学科范围的扩大, s 值也增大, 且与学科发展阶段有关。所以, s 可作为比较学科幅度和成熟程度的参考; 同时, c 值与s 值相关。

布鲁克斯的描述布氏定律的数学公式亦称为布氏定律的图形表述形式。这一公式的提出, 不仅使布氏定律理论上趋于完善, 而且为其实际应用铺平了道路, 大大促进了它在图书情报和文献工作中的推广应用。因此, 布鲁克斯为布氏定律的进一步完善和理论发展作出了巨大贡献。313 布氏分布理论的发展

期刊是情报的主要载体。图书情报界长期以来都非常重视科学论文在期刊中分布规律的探讨。继布拉德福分散定律之后, 人们又陆续提出了十多个经验分布公式; 有些学者还运用数理统计理论, 从不同的角度, 以不同的观点对其进行统计解释, 从而形成了一

3 布氏定律的理论发展

自布拉德福定律提出以来, 许多学者从不同角度进行了广泛的验证和深入研究, 并不断取得新的进展。从整体上来说, 布氏定律发展的全部进程和前景, 都是与整个科学文献信息系统的发展动态和演变规律相适应的。科学和社会的客观需求是这一理论发展的根本动力。目前, 其研究活动仍在全方位展开, 出现了理论与应用并举的全面发展的局面。在这里, 我们仅从几个重要代表人物的研究工作及成果出发, 探讨布氏定律及其分布理论的发展问题。

311 维克利的两个推论

早在1948年, B 1C 1维克利就仔细研究了文献分布规律, 推广和修正了布拉德福定律, 使之更为精确、更具有普遍意义, 为布氏定律的完善和传播作出了重要贡献。在有关布氏定律的研究中, 维克利不仅指出了其论证过程中的矛盾之处, 而且还提出了新的独特见解, 认为布拉德福分布是一条曲线, 而不是直线; 布氏定律是由其文字描述和图像描述两部分组成的, 前者描述其理论, 后者则描述了它的观测数据和轨迹; 并最早把布氏定律推广到更一般的情形, 不只局限于划分为3个区, 而同样适用于3个区以上的情形, 即与选取区域的数量无关; 但分区不同, 比例系数则要相应地变化。他证明了可将等级排列的期刊划分为任意多个区, 同时, 得到了类似于布拉德福的图像表达式的推论:n 1:n 1-2:n 1-3, , n 1-m =1:v:v 2, , v m-1。这就是人们通常说的维氏公式, 式中v 为分散系数, 或称为维氏系数。与此同时, 维克利还指出, 按照布氏定律也应有下式成立:n 1:n 2:n 3, , n m =1:a:a 2, , a m-1。这就是布氏定律的推广形式, 通常称为布氏公式, 式中a 为分散系数。这一公式的推出, 说明区域的划分可适当的多, 也说明了确定分散系数a 的方法。维克利全面考察和研究了布氏定律后得出的这两个推论, 是对布拉德福定律的重要发展和不可磨灭的贡献。

312 布鲁克斯的数学公式

英国著名情报学家布鲁克斯(B 1C 1Brookes) 指出:布拉德福当初发现科学论文分布的分散规律时, 指导思想十分明确, 但遗憾的是未能用数学公式进行

个内容丰富的理论体系, 人们称之为/布拉德福分布理论0。

布拉德福分布理论的基本内容是, 研究科学论文在期刊中的分布规律及其应用, 目前主要包括:一个定律、十多个经验公式和4个数学模型。

布拉德福文献分散定律是布氏理论的核心内容。它有两个基本要点:一是等级排列, 形成主体来源(期刊) 的有序目录; 二是确定相关论文在主体来源中的分布规律。其具体的研究方法, 包括区域分析法和图像分析法。虽然这两种方法的具体数值并不相等, 但它们揭示的都是论文在期刊中的分布规律。布氏定律是布氏分布理论的最基本的定律, 是这一理论赖以存在的必要基础。其后, 人们进一步寻求相关论文与期刊数量之间的解析关系。这就导致了经验分布公式的出现; 并先后提出了十多个描述布氏分布的经验公式。较为著名的有:布鲁克斯提出的直线分布公式和由两部分组成的数学表达式; 肯德尔的/布拉德福-齐普夫定律0的一般公式; 莱姆库勒的所谓规范化公式; 斯马里科夫的统一方程等。与此同时, 不少学者认为, 虽然文献的产生和分布是随机的, 但也存在着一定的统计规律, 对此可以运用概率论和数理统计的理论方法进行解释。目前, 布拉德福分布存在着众多分布模型, 其中有代表性的主要是4种:西蒙的随机模型; 布鲁克斯的混合泊松分布模型; 纳兰南的序性流模型和阿拉麦斯库的科学势扩散模型。布拉德福分布理论具有明显的特点, 主要是所考察的具体对象的绝大多数集中于少数主体来源; 其行为规律要受人为控制因素的影响; 许多经验分布公式都是建立在按具体对象在其主体来源中的出现频率排序的基础上的。

从目前的情况来看, 其研究工作主要集中在两个方面:一是进行具体统计, 验证布氏定律, 并试图应用于实践。在这方面, 许多学者认为布氏定律与统计结果相符, 因而该定律得到普遍承认和发展。二是寻求普遍而精确的经验分布公式和理论解释, 并取得了较大进展, 但也存在着一些问题。例如, 公式繁多、立论各异, 至今尚无统一的定论; 理论与实际的结合也很不够等。这些都是该理论不够成熟的表现, 也是今后要研究解决的重点。由于科学论文的分布要受到很多因素的影响和客观条件的限制, 带有主观性和模糊性, 所以, 这类人为定量规律的数学表达是艰巨的、复杂的。布氏分布理论如果取得数学表现上的突破后, 就会更加完备、更有普遍的指导意义。因此, 今后发展的趋势将是更多地运用概率论、随机过程理

论和模糊数学等工具, 同时考虑多种因素的综合影响。结合文献工作实际, 寻求更为精确更为普遍适用的分布公式和数学模型。

4 布氏定律的主要应用

现代科学的发展, 尤其是科学知识的高度分化与综合, 使科学文献的分布愈来愈趋向于复杂化。这一趋势的形成和发展, 对于科学研究及文献情报工作都将产生重大的影响。因此, 对于定量描述文献分布规律的布拉德福定律及其分布理论的研究, 具有重要的理论价值和实际意义。这是因为:一方面, 对于布氏定律及分布理论的研究可以进一步揭示文献情报流的内在规律, 并为创立情报学理论体系和新的数学模型提供借鉴, 促进文献信息计量学的理论发展; 另一方面, 布氏定律与文献计量学的其它定律一样, 都可以作为图书情报工作科学管理的一种基础理论。从60年代后半叶起, 情报学界加强了布氏定律的应用研究, 其范围已拓展到广阔的学科和工作领域。不少研究表明, 许多社会现象和事物也符合布拉德福分布, 认为它是人类社会的普遍规律之一。因此, 布氏定律及分布理论不仅在文献计量学中占有重要地位, 而且对其它相关领域也有较大影响。这个起源于科学文献领域, 却反映人为控制因素起决定作用的普遍现象的分布理论具有广阔的应用前景。

现在, 应用布拉德福定律, 主要是应用其等级排列技术和分析方法。所以, 这个定律虽然是以科学论文在期刊中的分散情况为基础创建的, 但却可以派生出许多不同的应用。可以说, 这些方法是各种应用的楷模。目前所使用的分析方法主要有两种:区域分析法和图像分析法(此外, 还有解析式分析法) 。这两者都是模拟布拉德福的基本方法而逐渐定型的, 近年似乎已趋于标准化了。从应用领域来说, 布拉德福定律的应用相当广泛, 对于确定核心期刊、制定文献采购策略和藏书政策、优化馆藏、检验工作情况、了解读者阅读倾向、检索利用文献等方面都有一定的指导作用。同时, 在文献情报工作中, 不仅要注意搜集最有情报价值的文献, 而且要充分考虑实际经济效益。布氏定律在这方面的意义就在于:能够为文献情报部门使用有限资金、获取情报密度最高的情报源提供定量依据, 以利于作出科学决策。

1) 确定核心期刊。选择核心期刊是布氏定律最基本、最常用的应用之一。这可以直接仿照布拉德福的方法进行。近年来, 这种应用已被广泛地运用到各个学科的期刊文献工作中, 如化学、医学、农业、海

洋学和情报科学等。使用区域法或图像法都能确定特定学科的核心期刊。

2) 用于文献检索。利用布氏定律的数学公式, 不仅可以预测完全检索N 种期刊的论文总数, 而且还可以通过计算来评价文献检索的效率。

3) 考察专著的分布。这是通过统计分析各个出版社关于某个学科或专业的专著出版情况, 掌握其专著的基本分布, 从而确定这个学科的/核心出版社0。

4) 动态馆藏的维护。以前, 图书馆的馆藏和服务一直都是凭经验进行的, 没有量的准确概念。这种量的混乱状态很大程度上是由于不能确定情报源的有用收藏的最小量。运用布氏定律确定动态期刊馆藏, 能使馆藏合理化。

5) 检索工具完整性的测定。在图书馆管理中, 检验文摘、索引、目录等检索工具的完整性是一项极为重要的工作。这对于确定读者检索的完整性和评价馆藏也是很有意义的。利用布拉德福定律的等级排列方法和数学表达式, 一方面可以确定某一覆盖度的文摘索引至少要检索多少种情报源; 另一方面, 通过实际统计数据与根据布氏定律计算的理论值相比较的方法可以评价某一特定学科的检索工具的完整性, 为这些工具的选择和利用提供科学依据。

6) 学科幅度的比较。根据布拉德福定律, 对不同学科的期刊和论文数量进行分析, 能得到大小不同的核心区和s 值。对不同核心区和s 值进行比较, 就可看出学科之间的差别。一般来说, 参数s 可表示一(上接第299页) 3) 若在T c 内, 数据被访问的次数很少, 如果该数据属于细节数据, 可以对其进行综合处理, 生成综合数据, 而将这些细节数据清除掉; 如果该数据属于综合数据, 则转入低速大容量存储设备(如磁带) 。

上述分析处理过程可由数据仓库分析工具自动完成。最后, 要说明的是, 由于对于不同的决策目的, 数据的重要程度和使用情况会有所不同, 所以, 在必要时, 决策者及有关人员可根据数据的重要程度、对响应时间的要求以及企业未来的行为模式等因素, 对上述处理作适当调整。

个学科领域范围的大小及发展的成熟程度, 可供判断有关学科的幅度时参考。

7) 指导读者利用重点文献。布拉德福定律对于指导读者阅读重点文献具有实际意义。用/核心期刊0这种量的概念指导读者, 可大大提高读者利用期刊的效率。

8) 指导期刊订购工作。利用布氏定律, 可以确定某一学科的/核心期刊0, 为期刊选订提供依据; 又可以确定哪些期刊必须订购, 而哪些期刊可以通过复制其中的论文来解决, 从而指导期刊订购工作。这对于制定合理的文献搜集政策和经费分配方案, 都具有指导意义。

9) 布氏定律在社会领域中的应用。由于布氏定律是试图用数学模型来说明社会领域中特定现象的一次成功的尝试, 它与社会科学中的某些规律极为类似, 例如, 西方广为流传的所谓/二八律0, 巴列陶(Pareto) 发现的财产分布规律, 即80:20规则等。因此, 有些学者提出将布氏定律及其等级排列技术的应用扩展到文献工作以外的广大的社会领域中去。例如, 布鲁克斯在纪念布拉德福诞辰100周年的专刊上, 提出了布拉德福的等级排列技术可以应用于许多社会现象的看法; 甚至提出以布氏理论为基础创立新的学科分支) ) ) 个体统计学(Statistics of Individual-i ty) 。随着这方面研究的不断深入, 必将为布氏定律及其分布理论的应用开拓更为广阔的光辉前景。

前, 数据仓库技术在电信业、金融业、交通业的应用均收到了明显的经济效益和社会效益[5, 6], 随着人们对该技术的不断探索, 我们相信, 该技术必将会在各行各业发挥出越来越重要的作用。t

参考文献

1 胡侃, 夏绍玮1基于大型数据仓库的数据采掘:研究综述1软件学报, 1998, 9(1) :53~56

2 Derlin B. M etadata:The Warehouse Atlas. Databas e Program -ming and Desi gn, 1998, 11(4) :8~9

3 Immon B. Getting around Dormant Data. Database Programmi ng and Design, 1998, 11(7):34~39

4 Murtaza A H. A Fra me Work for Developing Enterprise Data Warehous es. Informati on Sys te ms Management, 1998, 15(3) :21~26

5 王珊, 等1数据仓库技术与联机分析处理1北京:科学出版社, 199816 Guderian D, et al. Keepi ng the Data Warehouse on Track. Database Programmi ng and Design, 1998, 11(1):41~47

4 结束语

数据仓库是一种进行复杂数据分析, 支持高层决策的技术, 它将不同信息源的数据和信息经过清洗、集成、转换等处理加载到数据仓库中, 从而使决策查询更有效、更方便。如何有效地组织和管理好数据仓库中的数据, 是发展数据仓库的一个重要方面。当

(收稿日期:1999-12-21)

p 邱均平(武汉大学传播与信息学院 湖北 430072)

信息计量学(四)

第四讲 文献信息离散分布规律) ) ) 布拉德福定律

布拉德福定律是英国著名文献学家S 1C 1布拉德福(Samuel Clement Bradford, 1878) 1948) 于1934年首先提出来的。它定量地揭示了科学论文在期刊中的集中与离散分布规律, 是文献信息计量学的最基本的定律和最重要的组成部分, 其研究至今仍然具有重要的不可替代的理论价值和实际意义。

的期刊上。这些/其他学科0期刊的数量, 随着它们的研究领域与那个/专家所在0学科的关系密切程度的变小, 以及关于那个/专家所在0学科的论文在每种期刊中的登载率的减少而变大。这是一个反比关系。例如, 有关图书馆自动化的论文, 按理说应该刊登在图书馆学方面的期刊中; 同时, 还有可能出现在有关电子技术、数据处理或自动化技术等其他学科的杂志中。这些/其他学科0期刊数量的大小取决于这些期刊的所在学科与图书馆自动化的关系的密切程度。假设关于图书馆自动化的论文共有100篇, 如果在图书馆学期刊中占有60篇, 分散到其他学科期刊中的论文就会有40篇。这40篇论文到底分布在多少种期刊上, 就要看这些期刊所在的学科与图书馆自动化的关系如何。如果关系密切, 若每种期刊平均登载4篇论文, 这40篇论文就会分散在10种期刊中; 如果不太密切, 若每种期刊平均只登载两篇论文, 那么这40篇论文就会分散在20种期刊中, 以此类推。但是, 这种关系密切与否不仅是相对而言, 而且有多个衡量等级。各种期刊、各个学科的情况都不一样, 如何分散还要受到很多因素的影响。布拉德福还认为, 总是会有若干期刊, 它们的内容与某个学科更近些, 而总会有数量更多的期刊, 它们的内容离这个学科更远些; 专门面向这个学科的核心期刊, 亦即大量包含这个学科内容的最少数的那一部分期刊, 论述这个学科的论文数量一定要多于论述有关学科的论文。布拉德福就是按照这个道理产生了将期刊划分为几个区域的思想。他的方法是:按照期刊登载有关某个学科论文的载文率的高低来划分区域, 每个区域中的期刊数量随着该区域期刊载文率的减小而增多。这也正好与前面叙述的反比关系相吻合。

113 文献统计研究是布氏定律产生的基础

20世纪以来, 一些学者开展的文献统计研究给布拉德福定律的形成带来了积极影响。布拉德福对文献规律的认识, 正是在客观实际需要的推动下, 从文

1 布氏定律的产生背景

布拉德福文献分散定律的产生并不是偶然的, 而有着一定的科学背景和客观基础。111 文献的分散是普遍的客观现象

在科学研究和文献工作中, 布拉德福深深感到科学文献的分散。他发现, 一个学科的论文分散在其它学科的期刊杂志上是屡见不鲜的。例如, 关于控制论的论文会发表在神经科学的杂志上; 关于心脏机械的论文会出现在物理学的杂志上; 关于遗传学方面的论文则可能分散在农学杂志上, 等等。科学文献的分散是显而易见的普遍现象, 关键在于如何找出其分散的规律性。他认为, 文献分散规律可以在理论上从科学统一性原则出发定性地推导出来; 也可以从相关期刊所载论文的数量统计基础上推导出定量的结果。112 科学统一性原则的决定作用

虽然科学有不同学科之分, 但它是一个整体, 具有统一性。科学统一性原则是布拉德福定律产生的思想基础。布拉德福认为, 按照科学具有统一性的原则, 科学技术的每一个学科都或多或少、或远或近地与其他任何一个学科相关联。因此才会有一个学科的文献出现在另一个学科的期刊之中这种现象。这一点是布拉德福认识文献分散规律的重要基础。问题在于, 学科与学科的相互关系如何影响文献与文献的关系, 比例如何? 分散的特点怎样? 布拉德福在研究这些特点时总结出:一种专门面向一个专业学科的期刊, 可以含有对别的学科有用的论文。换句话说, 对一个专家有用的论文, 不仅仅会出现在这个专家所在学科的专业期刊上, 而且也时时可能出现在其他学科

界因特网发展的步伐, 印度还面临着严峻的挑战。

4 澳大利亚稳中求快

在过去10年内, 全球信息通信技术和信息服务的革命给澳大利亚社会和经济带来了巨大变化。这些技术和服务改变了澳大利亚企业运作的方式, 使政府的管理更加行之有效, 也改变了澳大利亚人的生活方式。至1997年8月, 每100名澳大利亚人拥有27台计算机, 计算机的普及程度仅次于美国; 网络用户约为240万, 预计到本世纪末将达到380万; 入网的小型企业数目达到23%。另据统计, 1995年大约有5012万澳大利亚人在包括硬件、软件、信息技术服务在内的信息产业部门就业, 预计到2000年这个数字将增加30%, 达到65万人。电信部门提供的就业机会从1994年的近8万个增加到1997年2月的近915万个。信息产业的规模已从1985年的90亿澳元增加到1995年的270亿澳元, 约占其国内生产总值的5%。信息产业(包括信息服务) 是澳大利亚第五大出口工业, 1995年出口额约达30亿澳元。信息产业已经成为澳大利亚经济中发展最快的产业之一。

澳大利亚之所以能迅速普及信息服务, 关键在于拥有完善的电信技术结构。它的电话网已覆盖了全国95%的住宅, 且正在迅速升级为数字电话网络。此外, 还有3个移动电话网、1个卫星和无线电电信网。预计到2000年, 位于澳大利亚大城市和重要地区的500万户家庭以及许多商业场所都能享受宽带电缆服务。澳大利亚还积极引进综合服务数字通信网络, 计划到2000年将在全国普及, 并将大大降低电信的价格。澳大利亚还大力引进数字电视, 2000年的悉尼奥林匹克运动会将大大加快引进数字电视的步伐。

计算机网络的普及是近年来澳大利亚信息产业最重要的发展之一。互联网用户几乎每3个月就翻一番。教育系统用户是用户中的主体, 占59%; 其次是商业, 占21%。1995年, 大部分澳大利亚网络服务归Telstra 管理后, Telstra 在互联网基础设施建设方面进行了大量投资, 以便向主要的大城市提供更可靠的服务, 并提高互联网的数据传输速度(到1996年, 已从6MB/s 增加到10MB/s) 。到1995年底, 澳大利亚国内互联网主干网连接能力已比年中增加了4倍。澳大利亚政府在推进国家信息化进程中扮演着重要角色。正如澳大利亚通信和艺术部部长理查德#奥尔斯顿所阐述的, 政府在国家信息服务行业中扮演的重要角色主要表现在三个方面:¹提供政策领导和政策方向; º形成一个灵活的管理环境; »加强政府对

于网上服务的利用。政府的目的是确保全体澳大利亚人都能有效地采纳、发展和利用这些新的服务。澳大利亚政府在发展互联网的过程中有以下几个特点:¹在制定互联网政策时既综合了社会各方面的意见, 又规定了各自的责任。º在互联网发展中的作用是加强领导, 而不是过度限制。»对互联网的管理是强调自律, 同时实行法治。

从以上进展不难看出美国、澳大利亚、欧洲和亚洲各国的信息化建设正在由点及面地迅速发展。它加快了信息科学技术的进步, 使得电子信息产业成为全球最大的产业。可以预料, 这种形势的持续发展将会最终形成从局部量变到全局质变的飞跃。到21世纪, 人类改造自然、改造社会生活的能力将得到极大提高。世界经济将由物质型向信息型转变, 人类社会的知识经济时代将早日到来。t

参考文献

1 林茂荃1全球信息化新进展及其趋势综述1科技进步与对策, 1998, 15(5) :25~26

2 林茂荃1全球信息化进程大事纪要1科技进步与对策, 1998, 15(5):27~28

3 梁俊兰1信息化社会中的美国1国外社会科学, 1998, (5) :70~72

4 杨绍兰1美、日信息化差距比较分析1国外社会科学, 1999, (4) :45~50

5 梁俊兰1美国90年代的信息战略1国外社会科学, 1999, (4) :51~55

6 杨学山1价值在这里体现) ) ) 透析美国政府信息资源管理1中国计算机报, 1999-04-26

7 吕本富1通向未来的信息高速公路1北京:北京大学出版社, 19951

8 于文兰1因特网与俄罗斯1国外社会科学, 1998, 43~45

9 一丁1俄罗斯的信息政策与法规1国外社会科学, 1999, (2) :65~69

10 崔岩1日本信息化发展的新态势1日本研究, 1998, (2) :5~9

11 宫娅丽1日本全部有线电视将于2010年实现基本数字化1国外社会科学, 1999, (6):73

12 刘振喜1新加坡的因特网管理1国外社会科学, 1999, (3) :46~51

13 黄育馥1走向私有化:印度因特网服务政策1国外社会科学, 1999, (1) :59~64

14 黄育馥1澳大利亚联邦政府在互联网发展中的作用1国外社会科学, 1999, (1) :38~43

(2) :

(收稿日期:2000-02-11)

献统计研究开始的。30年代, 由于科学文献数量的激增, 具有存储、报道、检索文献职能的文献杂志不断出现, 而且增长很快。但是, 这些文摘期刊普遍存在着重复和遗漏文献的现象。这一背景引起了目录学家布拉德福的深刻思考。文摘杂志的这种不完整性与文献的分散现象是否有着联系呢? 为了探明这些文献现象的原因及其内在规律, 布拉德福开始对文献体系进行全面探索。而且, 他果断地采取定量方法来开展研究工作, 即从文献统计入手, 对数据进行系统归纳和分析, 然后导出文献情报流的整体上的定量规律。在长期的文献工作和研究中, 布拉德福对科学文献进行了大量的统计研究, 掌握了文献分散的特点, 发现了其中的某些规律性; 并在文献统计的基础上经过数学推导, 得出了与上述理论推导一致的结论, 为布拉德福文献分散定律的形成和正式确立奠定了基础。

tary Chaos) 。这才引起一些学者特别是英国著名文献学家B 1C 1维克利(B 1C 1Vickery) 的重视和研究。他较早研究布拉德福定律, 并率先发表论文, 不仅充分肯定了布拉德福的研究工作, 而且最早将相关论文在期刊中的这种分布称为/布拉德福离散分布0, 把布氏的上述研究结论叫做/布拉德福分散定律0(Brad -ford . s Law of Scattering) 。同时, 他还创造性地提出了自己的修正和补充。维克利的研究成果, 既使布拉德福文献分布的图像和定律在结构上得到了统一, 在形式上更趋于完整, 又丰富了布氏分布理论的内容, 从而为布拉德福定律的确立和发展作出了重要贡献。后来, 布拉德福定律获得国际图书馆学情报学界的普遍承认并被人们广泛接受, 维克利的工作无疑起了决定性的作用。因而, 如果说定律的发现是布拉德福的话, 那么, 这一重要发现的发展以及定律的确立与传播, 首先应归功于维克利。

除了维克利之外, 还有许多文献学家和情报学家对布氏定律进行了深入研究。较为著名的有F 1F 1Leimkuhler 和B 1C 1Brookes 。前者对该定律的区域描述作了重要发展; 后者则以数学公式描述了这一定律, 发展了图像分析方法。正是由于许多学者的共同努力和贡献, 才使得布氏定律从理论上、数学描述上和应用上日趋完善, 才使人们认识到它的重要意义, 从而使这一定律得以正式确立并迅速发展起来。212 布氏定律的基本内容

一般认为, 布拉德福定律的基本内容是由其区域描述和图像描述两个部分组成的, 现分述如下。

1) 区域描述。S 1C 1布拉德福在5文献工作6中写道:/如果将科学期刊按其登载某个学科的论文数量的大小, 以渐减顺序排列, 那么可以把期刊分为专门面向这个学科的核心区和包含着与核心区同等数量论文的几个区。这时, 核心区与相继各区的期刊数量成1:a:a , , 的关系。0

布氏定律的文字表述结论是建立在将等级排列的期刊进行区域分析的方法之上的。如果将一定时间内(通常一年) 的按某学科载文量等级排列的期刊划分为3个区, 使每一个区所包含的相关论文数量相等, 即恰好等于全部期刊发表的该学科文章总数的1/3, 则便可发现, 第一区(核心区) 所涉及的文章来自数量不多但效率最高的n 1种期刊; 第二区(相关区) 包括数量较大、效率中等的n 2种期刊; 第三区(外围区) 包括数量最大而效率很低的n 3种期刊。那么, 3个区中的期刊数量成下列关系:

n 1:n 2:n 3=1:a:a (a >1)

2

2

2 布氏定律的形成和基本内容

211 布氏定律的形成和确立

关于某一特定课题、学科或专业领域的论文, 我们称为相关论文。相关论文在期刊中不是均匀分布的, 而是具有明显的集中与离散规律。对此, 人们早有察觉, 但从定量的角度进行深入研究, 还只是近几十年的事。布拉德福选择了/应用地球物理学0和/润滑0专业领域为样本, 组织他所在的英国科学博物馆图书馆的工作人员逐刊地统计所收集的科技期刊上发表的相关论文, 共统计了490种期刊, 1727篇论文, 并将期刊按照相关论文载文量的多少以渐减的顺序排列起来, 然后采用3种不同的方法, 即区域分析、图像观察和数学推导的方法对文献统计数据进行了分析研究, 结果发现, 尽管学科不同, 但它们的论文在相应的期刊中有着同样的分布规律。根据这一带有规律性的事实, 布拉德福得出了文献分散规律的研究结论, 并于1934年1月在5工程6(Engineering) 周刊的/图书与文献0栏目里发表了题为5专门学科的情报源6(Sources of Information on Speci fic Subject) 一文, 首次公开提出了定量描述文献分散规律的经验定律。这是一篇在文献计量学中具有重要历史意义的著名论文。

虽然布拉德福早在1934年就明确提出了科学文献的分散定律, 但是他的研究成果却长期没有引起人们的注意。直到14年后, 即布拉德福去世的1948年, 他的专著5文献工作6(Documen tation) 一书问世, 1934年发表的那篇著名论文被全文收入, 并扩展为该书的第四章, 定名为/文献的紊乱0(Docu men -

式中:a ) ) ) 布拉德福常数, 或称比例系数。就布拉德福所分析过的数据而言, a 值大约为510。以上经验公式即为布拉德福定律的区域表述形式。

2) 图像描述。如果取上述等级排列的期刊数量的对数(lgn) 为横坐标, 以相应的论文累积数R (n) 为纵坐标进行图像描述, 便可得到一条曲线(图略) 。我们把绘制出的曲线称为布拉德福分散曲线。早期的布拉德福定律的图形) ) ) 分散曲线AB 是由两部分组成的:即对应核心区的上升的一段曲线AC 和对应相继各区的直线CB 。后来的研究表明, 拐点C 点为核心区的分界点。

213 布氏定律的理论解释和评价

关于布氏定律的解释和评价问题, 不少学者进行过分析和研究, 其总的结论是:布拉德福定律与文献分布的实际情况具有较好的一致性, 但也存在一定的差异。具体来说, 有以下几个方面。

1) 布氏定律的理论解释。科学文献的分布为什么会遵循布拉德福定律呢? 这可以从科学发展和文献活动的规律来进行理论解释。

科学的发展总是遵循一定规律的。现代科学技术一方面互相交叉渗透, 另一方面小学科又有向大学科综合的趋势。布拉德福就是从科学的统一性规律出发总结出文献的分散定律的。当一门新学科问世之后, 第一批文献就刊载在为数不多的几种期刊上。随着研究工作的深入发展, 这几种期刊就会吸引愈来愈多的文献。这时又会有新的期刊相继问世, 可供待发表的文献选择。经过一段时间的发展、巩固、竞争和淘汰之后, 总会出现一定数量的期刊, 它们专门面向该学科, 刊载该学科的文献量最大, 质量也较高, 作者也愿意将自己的论文刊登在这些期刊上, 从而出现了/核心期刊0。在布拉德福分布图形中则表现为上升的幂函数曲线。这种现象就是文献分布中的/堆加效应0。与此同时, 有关这一学科的论文也在数量很大的其它杂志上发表, 这就产生了文献的集中与分散现象。这是因为事物的发展往往并不是单因素作用的。由于科学技术的相互交叉渗透, 此时便会有许多新学科和其它边缘学科也竟相将其文献发表在这些期刊上。为了抑制核心期刊数量的无限增加, 客观上也由于期刊的篇幅有限, 此时必然会有一种/限定因素0开始起作用。编辑人员为了照顾各方面文献的平衡, 不得不制定出版计划和方针, 控制论文的数量。为了适应日益增长的文献需要, 许多新的期刊又会相继诞生。所以, 随着时间的流逝, 刊登该学科文献的期刊品种数与相关论文数成正比增加, 使得布拉德福定律

的图形呈直线上升。以上说明, 曲线与直线分界点的产生正是反映了客观上的这种/限定因素0的作用, 否则, 布拉德福定律的图形就会一直按曲线上升。

2) 格鲁斯下垂。1967年, 格鲁斯(Q 1V 1Groos) 通过对基南-阿瑟顿(Keenan -Atherton) 数据的分析指出, 布拉德福曲线在进入直线部分后, 并非无休止地直伸下去, 后来总要弯曲下垂, 因而使得布拉德福定律的图形变为明显的3个部分:上升的曲线部分) 直线部分) 弯曲下垂部分。对于弯曲下垂部分BD, 我们称为/格鲁斯下垂0。后来, 加拿大学者波普(Adrew Pope) 对美国5情报科学和技术目录6收录的1011种期刊所发表的7368篇文献进行了统计, 绘制出R (n) 与lgn 的对应图形, 也证明图形由3部分构成。当1[n [10时, 得R (n) =A n B 的曲线AC; 10[n [200时, 得R (n) =Klgn/s 的直线CB; 当n>200时, 直线部分开始弯曲下垂, 得到曲线B D 。而且, 波普实际统计的期刊数和文献数都小于按照布鲁克斯公式计算的理论值, 分别只有理论值的72%和83%。所以, 布拉德福曲线最后会弯曲下垂, 正是由于期刊数和文献量统计不足, 未能代表全部文献之故。而格鲁斯下垂恰好反映了这种理论值和实际值之间的差异。

3) 理论与实际存在差异的原因分析。我们认为, 理论与实际存在差异的根本原因, 无外乎两个方面:一是理论本身的缺陷; 二是对客观实际的反映的失真问题。由于存在/格鲁斯下垂0, 布氏定律的文献分散曲线有呈S 型之势。布鲁克斯的数学公式仅由两部分组成, 只对应上升的曲线部分和直线部分, 而没有包括/下垂部分0的数学描述(或者说误差很大) 。可见其本身是近似的, 而出现/偏离0倒应该是根本性的。这是随着对布氏定律研究的深入而暴露出来的缺陷。我们相信, 布氏定律的理论及其数学表达式一定会得到不断补充和修正, 从而更精确地反映文献分布的客观规律。另外, 在实际情况中, 相关期刊数和文献数统计不全而使布拉德福图形最后部分弯曲下垂, 其原因可能有:¹运用布拉德福分散定律时, 必须满足其严格的先决条件, 学科界限必须经纬分明。但现代科学技术互相交叉渗透, 边缘学科愈来愈多, 例如本应属于情报科学的文献, 也有人会从另一角度将其归类于计算机科学, 从而造成统计上的误差。º目前应用布拉德福定律时, 一般均借助于书目、索引、文摘之类的工具书。在编纂这类工具书时, 编辑人员都要对原始文献进行选择和加工。/选择和加工0本身就有可能改变事物的本来面目, 导致变异的产

生。»在实际统计各种数据时, 也会遇到干扰, 如期刊的更名、停刊、文献的重复发表等, 都会造成统计数据的不精确。正是由于这些因素, 当n 达到一定数值后, 就会使图形偏离直线而弯曲下垂; 也就是说, 使理论与实际发生差异。

描述。正是由于这一重大遗漏, 使得人们对其重要性的真正认识延缓了20年。布鲁克斯抓住这一关键问题进行了研究, 并首次用数学公式描述了布拉德福的经验定律, 发展了图像描述方法, 从而完成了布氏定律的这一重要的后续工作, 受到情报界的普遍赞赏。许多人认为他提出的数学公式/准确地符合0布氏定律, /系统而完整0地描述了布氏分布。

1968年, 布鲁克斯首先导出布氏定律的公式应为:R (n) =Klgn; 后来他考虑到期刊序号n 和载文量的不均匀变化, 引入一个参数s 对上式进行修正; 并创造性地提出用下列两个部分组成的数学表达式来描述布拉德福定律, 即

R(n) =A n B , 1[n

R(n) =Klgn/s, c [n [N

这两个方程分别表示图像的曲线部分和直线部分。

式中:

R (n) ) ) ) 对应于n 的相关论文累积数; n ) ) ) 期刊等级排列的序号(级) ;

A ) ) ) 第一级期刊中相关论文数R (1) , 也就是载文率最高的期刊中相关论文数;

c ) ) ) 核心区的期刊数, 即曲线进入光滑直线部分的交点的n 值;

N ) ) ) 等级排列的期刊总数;

B ) ) ) 参数, 与核心区的期刊数量有关, 大小等于分布图中曲线部分的曲率, 且B 总小于1;

K ) ) ) 参数, 等于分散曲线中直线部分的斜率, 可用实险方法求得, 当N 足够大时, K U N;

s ) ) ) 参数, 其数值等于图形直线部分反向延伸与横轴交点的n 值。

布鲁克斯等人发现, 随着学科范围的扩大, s 值也增大, 且与学科发展阶段有关。所以, s 可作为比较学科幅度和成熟程度的参考; 同时, c 值与s 值相关。

布鲁克斯的描述布氏定律的数学公式亦称为布氏定律的图形表述形式。这一公式的提出, 不仅使布氏定律理论上趋于完善, 而且为其实际应用铺平了道路, 大大促进了它在图书情报和文献工作中的推广应用。因此, 布鲁克斯为布氏定律的进一步完善和理论发展作出了巨大贡献。313 布氏分布理论的发展

期刊是情报的主要载体。图书情报界长期以来都非常重视科学论文在期刊中分布规律的探讨。继布拉德福分散定律之后, 人们又陆续提出了十多个经验分布公式; 有些学者还运用数理统计理论, 从不同的角度, 以不同的观点对其进行统计解释, 从而形成了一

3 布氏定律的理论发展

自布拉德福定律提出以来, 许多学者从不同角度进行了广泛的验证和深入研究, 并不断取得新的进展。从整体上来说, 布氏定律发展的全部进程和前景, 都是与整个科学文献信息系统的发展动态和演变规律相适应的。科学和社会的客观需求是这一理论发展的根本动力。目前, 其研究活动仍在全方位展开, 出现了理论与应用并举的全面发展的局面。在这里, 我们仅从几个重要代表人物的研究工作及成果出发, 探讨布氏定律及其分布理论的发展问题。

311 维克利的两个推论

早在1948年, B 1C 1维克利就仔细研究了文献分布规律, 推广和修正了布拉德福定律, 使之更为精确、更具有普遍意义, 为布氏定律的完善和传播作出了重要贡献。在有关布氏定律的研究中, 维克利不仅指出了其论证过程中的矛盾之处, 而且还提出了新的独特见解, 认为布拉德福分布是一条曲线, 而不是直线; 布氏定律是由其文字描述和图像描述两部分组成的, 前者描述其理论, 后者则描述了它的观测数据和轨迹; 并最早把布氏定律推广到更一般的情形, 不只局限于划分为3个区, 而同样适用于3个区以上的情形, 即与选取区域的数量无关; 但分区不同, 比例系数则要相应地变化。他证明了可将等级排列的期刊划分为任意多个区, 同时, 得到了类似于布拉德福的图像表达式的推论:n 1:n 1-2:n 1-3, , n 1-m =1:v:v 2, , v m-1。这就是人们通常说的维氏公式, 式中v 为分散系数, 或称为维氏系数。与此同时, 维克利还指出, 按照布氏定律也应有下式成立:n 1:n 2:n 3, , n m =1:a:a 2, , a m-1。这就是布氏定律的推广形式, 通常称为布氏公式, 式中a 为分散系数。这一公式的推出, 说明区域的划分可适当的多, 也说明了确定分散系数a 的方法。维克利全面考察和研究了布氏定律后得出的这两个推论, 是对布拉德福定律的重要发展和不可磨灭的贡献。

312 布鲁克斯的数学公式

英国著名情报学家布鲁克斯(B 1C 1Brookes) 指出:布拉德福当初发现科学论文分布的分散规律时, 指导思想十分明确, 但遗憾的是未能用数学公式进行

个内容丰富的理论体系, 人们称之为/布拉德福分布理论0。

布拉德福分布理论的基本内容是, 研究科学论文在期刊中的分布规律及其应用, 目前主要包括:一个定律、十多个经验公式和4个数学模型。

布拉德福文献分散定律是布氏理论的核心内容。它有两个基本要点:一是等级排列, 形成主体来源(期刊) 的有序目录; 二是确定相关论文在主体来源中的分布规律。其具体的研究方法, 包括区域分析法和图像分析法。虽然这两种方法的具体数值并不相等, 但它们揭示的都是论文在期刊中的分布规律。布氏定律是布氏分布理论的最基本的定律, 是这一理论赖以存在的必要基础。其后, 人们进一步寻求相关论文与期刊数量之间的解析关系。这就导致了经验分布公式的出现; 并先后提出了十多个描述布氏分布的经验公式。较为著名的有:布鲁克斯提出的直线分布公式和由两部分组成的数学表达式; 肯德尔的/布拉德福-齐普夫定律0的一般公式; 莱姆库勒的所谓规范化公式; 斯马里科夫的统一方程等。与此同时, 不少学者认为, 虽然文献的产生和分布是随机的, 但也存在着一定的统计规律, 对此可以运用概率论和数理统计的理论方法进行解释。目前, 布拉德福分布存在着众多分布模型, 其中有代表性的主要是4种:西蒙的随机模型; 布鲁克斯的混合泊松分布模型; 纳兰南的序性流模型和阿拉麦斯库的科学势扩散模型。布拉德福分布理论具有明显的特点, 主要是所考察的具体对象的绝大多数集中于少数主体来源; 其行为规律要受人为控制因素的影响; 许多经验分布公式都是建立在按具体对象在其主体来源中的出现频率排序的基础上的。

从目前的情况来看, 其研究工作主要集中在两个方面:一是进行具体统计, 验证布氏定律, 并试图应用于实践。在这方面, 许多学者认为布氏定律与统计结果相符, 因而该定律得到普遍承认和发展。二是寻求普遍而精确的经验分布公式和理论解释, 并取得了较大进展, 但也存在着一些问题。例如, 公式繁多、立论各异, 至今尚无统一的定论; 理论与实际的结合也很不够等。这些都是该理论不够成熟的表现, 也是今后要研究解决的重点。由于科学论文的分布要受到很多因素的影响和客观条件的限制, 带有主观性和模糊性, 所以, 这类人为定量规律的数学表达是艰巨的、复杂的。布氏分布理论如果取得数学表现上的突破后, 就会更加完备、更有普遍的指导意义。因此, 今后发展的趋势将是更多地运用概率论、随机过程理

论和模糊数学等工具, 同时考虑多种因素的综合影响。结合文献工作实际, 寻求更为精确更为普遍适用的分布公式和数学模型。

4 布氏定律的主要应用

现代科学的发展, 尤其是科学知识的高度分化与综合, 使科学文献的分布愈来愈趋向于复杂化。这一趋势的形成和发展, 对于科学研究及文献情报工作都将产生重大的影响。因此, 对于定量描述文献分布规律的布拉德福定律及其分布理论的研究, 具有重要的理论价值和实际意义。这是因为:一方面, 对于布氏定律及分布理论的研究可以进一步揭示文献情报流的内在规律, 并为创立情报学理论体系和新的数学模型提供借鉴, 促进文献信息计量学的理论发展; 另一方面, 布氏定律与文献计量学的其它定律一样, 都可以作为图书情报工作科学管理的一种基础理论。从60年代后半叶起, 情报学界加强了布氏定律的应用研究, 其范围已拓展到广阔的学科和工作领域。不少研究表明, 许多社会现象和事物也符合布拉德福分布, 认为它是人类社会的普遍规律之一。因此, 布氏定律及分布理论不仅在文献计量学中占有重要地位, 而且对其它相关领域也有较大影响。这个起源于科学文献领域, 却反映人为控制因素起决定作用的普遍现象的分布理论具有广阔的应用前景。

现在, 应用布拉德福定律, 主要是应用其等级排列技术和分析方法。所以, 这个定律虽然是以科学论文在期刊中的分散情况为基础创建的, 但却可以派生出许多不同的应用。可以说, 这些方法是各种应用的楷模。目前所使用的分析方法主要有两种:区域分析法和图像分析法(此外, 还有解析式分析法) 。这两者都是模拟布拉德福的基本方法而逐渐定型的, 近年似乎已趋于标准化了。从应用领域来说, 布拉德福定律的应用相当广泛, 对于确定核心期刊、制定文献采购策略和藏书政策、优化馆藏、检验工作情况、了解读者阅读倾向、检索利用文献等方面都有一定的指导作用。同时, 在文献情报工作中, 不仅要注意搜集最有情报价值的文献, 而且要充分考虑实际经济效益。布氏定律在这方面的意义就在于:能够为文献情报部门使用有限资金、获取情报密度最高的情报源提供定量依据, 以利于作出科学决策。

1) 确定核心期刊。选择核心期刊是布氏定律最基本、最常用的应用之一。这可以直接仿照布拉德福的方法进行。近年来, 这种应用已被广泛地运用到各个学科的期刊文献工作中, 如化学、医学、农业、海

洋学和情报科学等。使用区域法或图像法都能确定特定学科的核心期刊。

2) 用于文献检索。利用布氏定律的数学公式, 不仅可以预测完全检索N 种期刊的论文总数, 而且还可以通过计算来评价文献检索的效率。

3) 考察专著的分布。这是通过统计分析各个出版社关于某个学科或专业的专著出版情况, 掌握其专著的基本分布, 从而确定这个学科的/核心出版社0。

4) 动态馆藏的维护。以前, 图书馆的馆藏和服务一直都是凭经验进行的, 没有量的准确概念。这种量的混乱状态很大程度上是由于不能确定情报源的有用收藏的最小量。运用布氏定律确定动态期刊馆藏, 能使馆藏合理化。

5) 检索工具完整性的测定。在图书馆管理中, 检验文摘、索引、目录等检索工具的完整性是一项极为重要的工作。这对于确定读者检索的完整性和评价馆藏也是很有意义的。利用布拉德福定律的等级排列方法和数学表达式, 一方面可以确定某一覆盖度的文摘索引至少要检索多少种情报源; 另一方面, 通过实际统计数据与根据布氏定律计算的理论值相比较的方法可以评价某一特定学科的检索工具的完整性, 为这些工具的选择和利用提供科学依据。

6) 学科幅度的比较。根据布拉德福定律, 对不同学科的期刊和论文数量进行分析, 能得到大小不同的核心区和s 值。对不同核心区和s 值进行比较, 就可看出学科之间的差别。一般来说, 参数s 可表示一(上接第299页) 3) 若在T c 内, 数据被访问的次数很少, 如果该数据属于细节数据, 可以对其进行综合处理, 生成综合数据, 而将这些细节数据清除掉; 如果该数据属于综合数据, 则转入低速大容量存储设备(如磁带) 。

上述分析处理过程可由数据仓库分析工具自动完成。最后, 要说明的是, 由于对于不同的决策目的, 数据的重要程度和使用情况会有所不同, 所以, 在必要时, 决策者及有关人员可根据数据的重要程度、对响应时间的要求以及企业未来的行为模式等因素, 对上述处理作适当调整。

个学科领域范围的大小及发展的成熟程度, 可供判断有关学科的幅度时参考。

7) 指导读者利用重点文献。布拉德福定律对于指导读者阅读重点文献具有实际意义。用/核心期刊0这种量的概念指导读者, 可大大提高读者利用期刊的效率。

8) 指导期刊订购工作。利用布氏定律, 可以确定某一学科的/核心期刊0, 为期刊选订提供依据; 又可以确定哪些期刊必须订购, 而哪些期刊可以通过复制其中的论文来解决, 从而指导期刊订购工作。这对于制定合理的文献搜集政策和经费分配方案, 都具有指导意义。

9) 布氏定律在社会领域中的应用。由于布氏定律是试图用数学模型来说明社会领域中特定现象的一次成功的尝试, 它与社会科学中的某些规律极为类似, 例如, 西方广为流传的所谓/二八律0, 巴列陶(Pareto) 发现的财产分布规律, 即80:20规则等。因此, 有些学者提出将布氏定律及其等级排列技术的应用扩展到文献工作以外的广大的社会领域中去。例如, 布鲁克斯在纪念布拉德福诞辰100周年的专刊上, 提出了布拉德福的等级排列技术可以应用于许多社会现象的看法; 甚至提出以布氏理论为基础创立新的学科分支) ) ) 个体统计学(Statistics of Individual-i ty) 。随着这方面研究的不断深入, 必将为布氏定律及其分布理论的应用开拓更为广阔的光辉前景。

前, 数据仓库技术在电信业、金融业、交通业的应用均收到了明显的经济效益和社会效益[5, 6], 随着人们对该技术的不断探索, 我们相信, 该技术必将会在各行各业发挥出越来越重要的作用。t

参考文献

1 胡侃, 夏绍玮1基于大型数据仓库的数据采掘:研究综述1软件学报, 1998, 9(1) :53~56

2 Derlin B. M etadata:The Warehouse Atlas. Databas e Program -ming and Desi gn, 1998, 11(4) :8~9

3 Immon B. Getting around Dormant Data. Database Programmi ng and Design, 1998, 11(7):34~39

4 Murtaza A H. A Fra me Work for Developing Enterprise Data Warehous es. Informati on Sys te ms Management, 1998, 15(3) :21~26

5 王珊, 等1数据仓库技术与联机分析处理1北京:科学出版社, 199816 Guderian D, et al. Keepi ng the Data Warehouse on Track. Database Programmi ng and Design, 1998, 11(1):41~47

4 结束语

数据仓库是一种进行复杂数据分析, 支持高层决策的技术, 它将不同信息源的数据和信息经过清洗、集成、转换等处理加载到数据仓库中, 从而使决策查询更有效、更方便。如何有效地组织和管理好数据仓库中的数据, 是发展数据仓库的一个重要方面。当

(收稿日期:1999-12-21)


相关内容

  • 国内计量经济学的文献计量分析
  • 2012年12月第32卷第12期 现代情报 Dec.,2012·信息计量学研究与应用· 国内计量经济学的文献计量分析 吴小兰 (安徽财经大学管理科学与工程学院,安徽蚌埠233030) [摘 要]本文首先对CNKI中检索到的10年内共计3039篇文献的发文时间.发文期刊.发文作者及机构进行了统计分析. ...

  • 信息计量学实验报告
  • 黑龙江大学 实 验 报 告 黑龙江大学教务处 一.实验目的 通过实验了解并掌握信息计量学中的六个重要的定律,文献增长定律,文献老化定律,洛特卡定律,齐普夫定律,引文分析规律,布拉德福定律. 二.实验设备.材料 计算机.原始分析数据.Excel表.Ucinet6.0软件等 三.实验内容与实验步骤 实验 ...

  • 信息分析方法
  • 信息分析基础.方法与应用复习题 一.单项选择题: 1.如果按领域划分信息分析的类型,宗教.风俗习惯从属于的信息类型是C A.政治信息分析类型 B.经济信息分析类型 C.社会信息分析类型 D.科学技术信息分析类型 2.确定事物间相同点和不同点的方法,把握事物间的内在联系.认识事物的本质,这种信息分析类 ...

  • 统计分析法与文献计量法在档案学研究中的应用分析
  • 摘要:档案学研究中的统计分析法与文献计量法既相互联系,又存在差异.本文从方法体系.研究对象.适用范围.实施步骤以及两种研究方法在档案学研究中的实际应用等方面对二者进行比较,发现两者的方法体系既相互交叉,又不尽相同.统计分析法的研究对象.适用范围和应用覆盖面都更为广泛,两者的总体研究流程类似,但在具体 ...

  • 图书馆学基础
  • 图书馆学基础知识汇总 一.信息管理 1. 信息 信息是事物发出的信号所包含的内容 是由事物发出的消息.指令.数据等所包含的内容用以消除不确定性. 信息的基本属性-消除不确定性,共享性是信息区别于物质和能量的主要特性. 信息的特性:普遍性.多样性.可识别性.可加工性.可存储性.可转换性.可传递性 可共 ...

  • 核心期刊与统计源期刊关联与区别
  • 核心期刊与统计源期刊关联与区别 北京大学出版社出版的<中文核心期刊要目总览>(以下简称<总览>)和中国科技信息研究所(ISTIC )出版的<中国科技期刊引证报告>(以下简称<报告>)分别列出的核心期刊表和统计源期刊表是国内作者发表论文应用最广的选刊标准 ...

  • 中文核心期刊与中国科技核心期刊
  • 中文核心期刊与中国科技核心期刊(简称"统计源期刊") 北京大学出版社出版的<中文核心期刊要目总览>(以下简称<总览>)和中国科技信息研究所(ISTIC)出版的<中国科技期刊引证报告>(以下简称<报告>)分别列出的核心期刊表和统计源期 ...

  • 新版外语类核心期刊目录
  • 备受学术界瞩目的2010-2011年度中国人文社会科学引文索引(CSSCI: Chinese Social Science Citation Index)来源期刊日前对外公布.全国12家外语语言学类期刊榜上有名.这也意味着这些期刊成为下一年度的语言类"中文社科核心期刊". 据悉, ...

  • 文献计量法与内容分析法的比较研究
  • 文献计量法是一种以各种文献外部特征为研究对象的量化分析方法;而内容分析法本质上是文献计量学方法,它是从定性的问题假设出发,应用定量的统计分析工具对研究对象进行处理,然后从统计数据可分析得出有价值的定性结论.文献计量法与内容分析法都是常见的科学研究及情报研究方法,两者有一定联系,但同时又不完全相同,如 ...