医学研究中证据分级和推荐强度的演进

中国循证医学杂志, 2008, 8(2): 127~133

论 著 • 二次研究

医学研究中证据分级和推荐强度的演进

陈耀龙1 李幼平1 * 杜 亮2 王 莉1 文 进1 杨晓妍1 

1.四川大学华西医院循证医学与临床流行病学教研室(成都 610041);2.四川大学华西医院中国循证医学杂志编辑部(成都610041)

摘要 本文系统分析了1979~2007年间50个主要组织和机构的证据分级标准及推荐意见强度,遴选出最具代表性的5个国家和国际组织的11个标准,并从分级特点、影响范围、使用领域等角度将其分为三个发展阶段。目前医学领域的标准已趋于成熟,并逐步统一。未来的挑战是在管理、教育、基础研究、经济学、社会学、法学等非医非药领域引入证据分类分级理念,研究制定符合循证医学思想,满足各领域研究和实践需要的高质量证据分类分级标准和推荐意见强度,接受时间和实践的检验。

关键词 循证医学;证据分级;推荐强度

Evolution of Levels of Evidence and Strength of Recommendations in Medical Research

CHEN Yao-long1, LI You-ping1 *, DU Liang2, WANG Li1, WEN Jin1, YANG Xiao-yan1

1. Clinical Epidemiology and Evidence-Based Medicine Center, West China Hospital, Sichuan University, Chengdu 610041, China;

2. Editorial Board of the Chinese Journal of Evidence Based Medicine, West China Hospital, Sichuan University, Chengdu 610041, China

Abstract A systematic literature search and a comparative study were conducted to investigate the evolution of the levels of evidence and strength of recommendations in medical research. Fifty systems were included from 1979 to 2007, and 11 of these, which came from five states or international organizations, were selected and divided into three stages according to their characteristics, sphere of influence and application fields. Ideas about levels of evidence and strength of recommendations are becoming mature in medical research. The challenge for the future is how to introduce evidence-based principles and develop the corresponding levels of evidence and strength of recommendations in the fields of management, education, basic medical sciences, economics, sociology and legal research.

Key words Evidence-based Medicine; Levels of Evidence; Strength of Recommendations

1 背景

决策者面对浩瀚的信息海洋,渴望得到真实而适用的证据帮助。但他们不可能花费大量时间和精力去检索和评价证据质量,而只需充分利用研究人员预先确立的证据分级标准和推荐意见使用各种高质量证据[1,2]。因此,研究人员在创建和推广证据分级标准和推荐意见时,必须力图统一,避免偏倚,以减少误导和滥用[3]。但研究证据质量良莠不齐,证据分级和推荐强度标准也大相径庭。20世纪60年代,美国两位社会学家Campbell和Stanley首次提出证据分级概念,评价教育领域部分原始研究的设计,将随机对照研究的质量定为最高,并引入内部真实性和外部真实性的概念[3-5]。1979年,加拿大定期体检特别工作组(Canadian Task Force on the Periodic

作者简介:陈耀龙,男(1981年~),硕士研究生,以循证医学及医学期刊编辑为主要研究方向。Email: [email protected]* 通讯作者,Email: [email protected]

2008 中国循证医学杂志编辑部

www.cjebm.org.cn

Health Examination,CTFPHE)首次对研究证据进行系统分级并给出推荐意见[6]。此后多个机构和组织对证据质量和推荐强度规定了标准,但方法各异,标准不一,甚至彼此矛盾。这些标准主要以字母(如A、B、C等)、数字(如 I、II、III等) 和字母与数字混合(如Ia、Ib、IIa等)方式表示,还有一些用符号和文字来描述,增加了分级的复杂性,不仅不利于指导决策者,也不利于帮助研究者[7]。直到2004年,才由“推荐等级的评估、制定与评价”(The Grading of Recommendations Assessment, Development and Evaluation,GRADE)工作组推出国际统一的证据分级和推荐意见标准,向全世界推广应用[8]。

本文系统比较了纳入的50个证据分级与推荐强度,从分级特点、影响范围、使用领域等角度,遴选出最具代表性的11个标准,剖析主要内容,展示演进过程,阐述重要意义,预测发展趋势。

2 演进阶段

CJEBM

• 127 •

Review Articles

Chin J Evid-based Med, 2008, 8(2): 127-133

2.1 第一阶段

1976年,为更好地预防疾病和促进国民健康,加拿大卫生部成立了定期体检工作组(CTFPHE),负责制定和评价常规体检和免疫接种的工作绩效。但研究发现,对何人采取何种体检措施,决策者更多依据主观推断而非科学证据,既造成了医疗资源的巨大浪费,也给病人带来不便和痛苦[9]。1979年,该小组发表了一份工作报告,首次基于试验设计,将证据分为三级[6](见表1、2),设计良好的RCT级别最高,专家意见级别最低。将推荐强度按证据级别分为支持和不支持两类,每类又分“充分”,“尚可”和“缺乏”三级。据此对78种体检项目一一列出相应证据的质量等级和推荐强度,不仅提高了决策的科学性,也大大方便了体检医生的工作,单行本发行超过4万册。此后二十几年,几乎所有分级标准都在此基础上扩展和延伸。但该标准未将推荐意见与证据级别对应,且未考虑以下几点[10]:① 小样本、低质量的RCT也属于I级证据吗?② 结果互相矛盾的RCT仍然属于I级证据吗?③ 高质量观察性研究仍属于II级证据吗?1986年,CTFPHE成员之一,David Sackett针

表 1 1979年CTFPHE证据分级

III-1II-2

至少一项设计良好的随机对照试验

设计良好的队列或病例对照研究,尤其来自多个中心

或研究组

比较了不同时间、地点的研究证据,无论有无干预措施;或重大结果的非对照研究(如1940年代青霉素的应用)

基于临床研究、描述性研究或专家委员会的报告,或权威专家的意见

表 2 1979年CTFPHE推荐强度

ABCDE

定期体检中支持考虑该疾病的证据充分定期体检中支持考虑该疾病的证据尚可定期体检中支持考虑该疾病的证据缺乏定期体检中不考虑该疾病的证据尚可定期体检中不考虑该疾病的证据充分

[6][6]

对1979年标准的以上不足,撰文提出了证据的五分法[11](表 3),首次对I级证据的RCT定义了质量标准,即大样本RCT(I、II型错误都较低)优于小样本RCT(I、II型错误都较高),且将证据质量与推荐强度的等级一一对应,即高质量证据推荐强度也高。该标准简洁明了,更适于指导临床医生;但未区分队列研究与病例对照研究,也未纳入专家意见。后经Gordon Guyatt 及Deborah Cook等分别于1992、1995、1998、2001和2006年不断修改完善,成为一套完整独立的系统,用以指导美国胸科医师学会(The American College of Chest Physicians,ACCP)抗血栓药物的使用[12-19]。

上述两套系统产生的20世纪70~80年代正值国际临床流行病学和卫生技术评估产生发展、医学科研方法逐渐成熟、医学继续教育空前繁荣的时代[20-21]

。1972年,英国医生Archie Cochrane的经典著

[22]

作《效果和效率:对卫生服务的随想》更是唤起

了人们对医学决策科学性和卫生资源合理配置、高效使用的深刻反思。加拿大医学工作者创造性提出证据分级的理念,首次明确研究证据优于专家经验,不仅成为医学工作者决策的重要依据,也成为后来诞生的循证医学的基本理念之一[23]。2.2 第二阶段

1992年,美国卫生保健政策研究所(Agency for Health Care Policy and Research,AHCPR,现更名为Agency for Healthcare Research and Quality,AHRQ)制定的临床实践指南[24, 25],将随机对照试验的 Meta分析作为最高级别的证据,并向全国推广(见表4)。1996年,英格兰北部循证指南制定项目(North of England Evidence Based Guidelines Development Project,NEEBGDP)发布了他们制定的证据分级标准和推荐强度[26](见表5),将RCT,Meta分析和系统评价共同作为最高级别的证据,这是英国继加拿大和美国之后较系统全面发布自己的分级标准。2001年,苏格兰院际指南网络(The Scottish Intercollegiate Guidelines Network,SIGN)发布了更详细的证据分级和推荐强度[27](见表6)。荷兰

[11]

III

表 3 1986年David Sackett证据分级及推荐强度

IIIIIIIVV

有确定结果的大样本RCT(I、II型错误都较低)结果不确定的小样本RCT(I、II型错误都较高)非随机的同期对照试验非随机的历史对照试验无对照的系列病例报道

ABC

至少一项I级试验支持至少一项II级试验支持只有III、IV、V级证据支持

CJEBM

• 128 •

2008 Editorial Board of Chin J Evid-based Med

www.cjebm.org.cn

中国循证医学杂志, 2008, 8(2): 127~133

论 著 • 二次研究

(1997)、新西兰(1999)、澳大利亚(2000)等也先后在本国临床指南中引入或修订了各自的证据分级和推荐标准[28-30]。

以上系统更加趋于成熟和完善,但最大问题是

表 4 1992年AHCPR证据分级及推荐强度

I aI bII aII bIIIIV

随机对照试验的 Meta分析至少 1 项随机对照试验

至少 1 项设计良好的非随机对照试验至少 1 项设计良好的准实验性研究设计良好的非实验性研究,如对照研

究、相关性研究和病例研究

专家委员会报告、权威意见或临床经验C

B

[24,25]

证据分级仅局限于治疗方面,不适用于预防、诊断等其他领域。

1998年,Bob Phillips、Chris Ball、David Sackett等临床流行病学和循证医学专家共同制定了新标准,并于2001年5月正式发表在英国牛津循证医学中心的网络上[31](见表7,此处只列出治疗方面的分级,完整的中译本参见李幼平主编的《循证医

[32]

学》)。该标准首次在证据分级的基础上提出了

A

I aI bII aII bIIIIV

分类概念,涉及治疗、预防、病因、危害、预后、诊断、经济学分析等七个方面,更具针对性和适用性,成为循证医学教学和循证临床实践中公认的经典标准,也是循证教科书和循证期刊使用最广泛的标准。但过于复杂和深奥,初次接触循证医学的医生或医学

[26]

表 5 1996年NEEBGDP证据等级

IIIIII

基于设计良好的随机对照试验、Meta分析或系统评价基于设计良好的队列研究或病例对照研究基于非对照研究或共识的建议

A BC

直接基于I级证据的推荐

直接基于II级证据或由I级证据外推的推荐直接基于III级证据的或由II级证据外推的推荐

[27]

表 6 2001年SIGN证据分级及推荐强度

1++1+1-2++2+2-34

直接适用于目标人群的1++或1+级证据

高质量随机对照试验的Meta 分析、系统评价、或偏倚可能性很小的A

随机对照试验

较高质量随机对照试验的Meta 分析、系统评价、或出现偏倚可能性小的随机对照试验

随机对照试验的Meta分析、系统评价、或出现偏倚可能性大的随机对照试验

高质量病例对照或队列研究的系统评价、或出现混杂、偏倚和机遇可能性很小而反映因果关联可能性大的高质量病例对照或队列研究出现混杂、偏倚和机遇可能性小而反映因果关联可能性较大的较高质量的病例对照或队列研究

出现混杂、偏倚和机遇可能性大而反映因素关联可能性明显不足的病例对照或队列研究

非分析性研究,即病例报告、系列病例分析专家意见

DBC

直接适用于目标人群的2++级证据或1++或1+级证据的外推证据

直接适用于目标人群的2+级证据或2++级证据的外推证据

3或4级证据,或2+级证据的外推证据

表 7 2001牛津证据分级与推荐意见强度(治疗部分)

1a 1b 1c2a2b2c3a3b45

同质RCT的系统评价单个RCT (可信区间窄)全或无病案系列

同质队列研究的系统评价

单个队列研究 (包括低质量RCT,如随访率

病例系列研究(包括低质量队列和病例对照研究)基于经验未经严格论证的专家意见 2008 中国循证医学杂志编辑部www.cjebm.org.cn

CDBA

[32]

1a或1 b或1c级证据

2a或2b或2c或3a或3b级证据

4级证据5级证据

CJEBM• 129 •

Review Articles

生不易理解和掌握。

20世纪90年代,循证医学的迅猛发展,Cochrane协作网的全球参与,证据分级的逐渐成熟,标志着一个以证据为基础的新医学时代的到来。以上4套系统的共同特点是:针对临床,构成指南,传播广泛,影响权威,推荐意见的强度与证据级别对应。标志着临床证据的分类分级和临床推荐意见强度系统的逐渐成熟,但其内容复杂、应用局限、标准各异,对指导全球范围内各级医疗机构的循证实践不方便。

2.3 第三阶段

2000年,针对现存证据分级与推荐意见标准的不足,包括WHO在内19个国家和国际组织共同成立了GRADE工作组

[33]

,由67名临床指南专家、循

证医学专家、各权威标准的主要制定者及证据研究者通力协作,循证制定出国际统一的证据质量分级和推荐强度标准,并于2004年正式推出 [8](见表8,9)。该标准的特点是:第一,明确定义了证据质量和推荐强度,即证据质量指在多大程度上能够确信疗效评估的正确性;推荐强度指在多大程度上能够确信遵守推荐意见利大于弊。第二,统一使用“级别(grade)”代替“证据水平(levels of evidence)”。第三,突破了过去主要从研究设计角度考虑证据质量的局限性,综合考虑研究设计、研究质量、研究结果的一致性和证据的直接性。第四,从使用者而非研究者角度制定标准,拓宽了应用范围,并随时更新。第五,推荐意见将根据当前可得证据的3种结论(肯定,否定,不确定),简化为强弱两级,既充分体现了循证医学立足于用,后效评价的思想,又为未来的发展和向其他领域拓展留下了空间和接口。该标准代表了当前对研究证据进行分类分级的国际最高水平,意义和影响重大。包括WHO和Cochrane协作网在内的28个国际组织、协会已采纳GRADE标准,成为证据发展史上的里程碑事件。但其仍以强调临床有效性证据为主,没有包括生物医学领域的全部证据,可看做是对其他领域证据分级和推荐强度的示范标准。

2001年,美国纽约州立大学下州医学中心推出证据金字塔[34](见附图),首次将动物研究和体外研究纳入证据分级系统,拓展了证据范畴,加之简洁明了,形象直观,得到了非常广泛的传播。2005年,Aragon等[35] 借鉴循证医学方法,将证据分级的概念引入兽医外科研究(见表10),对兽医外科研究证据进行分级,尽管尚不完善,也无推荐意见,但在将证据分类分级理念引向基础研究方面做了有益探

CJEBM• 130 •

Chin J Evid-based Med, 2008, 8(2): 127-133表 8 2004年 GRADE证据等级

[8]

高未来研究几乎不可能改变现有疗效评价结果的可信度中未来研究可能对现有疗效评估有重要影响,可能改变评价结果的可信度

低未来研究很有可能对现有疗效评估有重要影响,改变评估结果可信度的可能性较大极低

任何疗效的评估都很不确定表 9 2004年 GRADE推荐强度

[9]强明确显示干预措施利大于弊或弊大于利

利弊不确定或无论质量高低的证据均显示利弊相当表 10 兽医外科研究中的证据分级

[35]I证据源于目标物种的多个随机、盲法、安慰剂对照试验II证据源于采用历史对照的高质量临床研究III证据源于非对照的病例系列

IV

证据源于专家意见,和/或生理学研究外推的证据

附图 证据金字塔

[34]

索。

2004年3月,中国循证医学中心李幼平等首次在专科医师分类研究中引入证据分级的理念[36](见表11),后经进一步完善,于2006年2月至2007年10月,相继发表了9篇风险系列文章[37-45],首次针对管理领域尚无证据分类分级理念的现状,借鉴循证医学有效性证据分类分级的成功经验,探索对管理、教育等非医非药的研究证据进行分级。根据当前可得的证据,将政府及相关机构报告列为仅次于系统评价、卫生技术评估、Meta-analysis的证据,并根据研究目的分类(见表12)。

以上标准拓展延伸了证据的应用范围和领域,

2008 Editorial Board of Chin J Evid-based Med

www.cjebm.org.cn

中国循证医学杂志, 2008, 8(2): 127~133

表 11 2004年中国循证医学中心的证据分级

ABCDE

系统评价官方指南

有确切研究方法的文献综述专家意见

[36]

论 著 • 二次研究

表 12 2006年中国循证医学中心的证据分级

ABCDE

表 13 本文纳入的11个证据分级一览表

系统评价,HTA,Meta-analysis政府及相关机构报告有确切研究方法的文献综述专家意见

[37-45]

[***********][***********]20052006

加拿大加拿大美国英国英国美国英国国际中国美国中国

CTFPHESackettAHCPRNEEBGDPSIGN

SUNY Downstate Medical CenterCEBMGRADE李幼平等Aragon李幼平等

三级 五级四级三级八级九级五级四级五级四级五级

首次基于试验设计对研究证据分级考虑证据质量纳入Meta分析纳入系统评价

同时将系统评价、Meta分析与RCT作为最高证据纳入动物实验和体外研究

提出分类概念,拓展到治疗以外的7个领域探索非医药领域分级针对动物研究分级

探索决策与管理领域证据分级

预防体检临床用药临床指南临床指南临床指南临床指南卫生保健科学研究基础研究政府决策

考虑研究的设计、质量、结果一致性和证据的直接性卫生保健

丰富和补充了GRADE标准。随着循证医学影响的不断扩大,证据分类分级和推荐意见强度必将不断因需要而产生,因新的使用而发展。

至此,本文纳入的11个证据分级的简况见表13。

我们却淹没于信息海洋,用现有手段显然不可能应对当前的信息。在信息社会,失去控制和没有组织的信息不再是一种资源,而是信息工作者的敌人

[46]

”。医学信息学家Simpson也在20世纪90年代指出:“谁掌控了信息谁就掌控了一切[47]。”持续学习成为当今社会个人生存和发展的基础,快速获取对自己最有价值的信息则是学习能力的核心。依据循证理念,将信息按研究者和使用者关注的问题先分类,再在同类信息中按事先确定的标准经科学评价后严格分级,是筛选海量信息的重要方法和技巧 [48]

3.3 推荐意见是决策者科学决策的有效参考

明确的推荐意见对决策者的影响比证据级别更直接,可为是否应该采取某个决策方案及其实施结果的利弊提供证据参考,增强决策者的信心。因此推荐意见的内容和表述必须科学简洁,使决策者有时间考虑自身可利用的资源和目标人群的意愿,全面高效决策。

3.4 在非医非药领域引入循证医学理念,研究制定符合该领域的证据分类分级标准和推荐意见强度,是未来证据发展的挑战之一

随着循证医学的日臻成熟,证据本身将进一步拓展和延伸。目前已有学者和研究机构将循证医学的理念引入更多的行业[49-52],并在各自领域对证据

C

JEBM

• 131 •

3 讨论

3.1 证据分级和推荐强度的产生与发展是历史的必然

与医学各分支学科及医学本身的发展一样,证据分级和推荐强度的发展也经历了从定性到定量(最高证据从单个RCT到多个RCT的Meta分析),从局部到整体(只考虑试验设计到考虑研究质量、结果的一致性和直接性等),从片面到全面(单纯针对治疗扩展到预防、诊断、经济学等),从个别到一般(涉及领域从临床、预防延伸到基础、管理、教育等),从分散到统一(从指导各自国家和组织到指导全球)的过程,这是一个不断探索和实践,不断批判和超越的过程。可以预见,随着医学科学和人类文明的进步,证据分级和推荐强度必将紧跟时代,不断更新,止于至善。

3.2 分类分级的原理和方法是信息时代处理海量信息的有效方法

世界著名未来学家Naisbitt早在20世纪80年代就在其著作《大趋势》中提出:“面对知识饥荒,

Review Articles

分类分级[37-46]。需要注意的是,不同领域的证据应有不同的质量分级和推荐意见。证据分级依赖于各领域证据生产的全过程,关键在于方法学、证据质量和数量的发展。而推荐强度则依赖证据强度,关键在于表述清楚,简洁实用,尤其在决策者面临重要、复杂而又不确定的问题时。我们将就此在管理、教育、基础研究、经济学、社会学、法学等领域积极探索

和开展实践,努力用好证据这块“试金石”[53]。 3.5 本研究的局限性

第一,本研究对证据分级和推荐意见三阶段的划分基于当前公开发表的文献和资料,尚未收全当前全球所有的相关文献,可能存在选择性偏倚。

第二,由于每个研究的分析角度不同,对证据分级和推荐意见发展阶段的划分也存在差异,本研究结论仅供同行借鉴和参考。

参 考 文 献

1 McColl A, Smith H, White P, et al. General practitioner's

perceptions of the route to evidence based medicine: a questionnaire survey. BMJ, 1998, 316(7128): 361-365.

2 Guyatt G, Meade M, Jaeschke R, et al. Practitioners of evidence

based care: not all clinicians need to appraise evidence from scratch but all need some skills. BMJ, 2000, 320(7240): 954-955. 3 Glasziou P, Vandenbroucke JP, Chalmers I. assessing the quality of research. BMJ, 2004, 328(7430): 39-41.

4 Campbell DT, Stanley JC. Experimental and quasi-experimental designs for Research..Chicago, IL: Rand McNally College, 1963.

5 Chalmers I, Hedges L, Cooper H. A brief history of research synthesis. Evaluation & the health professions, 2002, 25(1): 12-37. 6 Canadian Task Force on the Periodic Health Examination: The

periodic health examination. CMAJ, 1979, 121(19): 1193-1254.

7 Schünemann HJ, Best D, Vist G, et al. Letters, numbers, symbols

and words: how to communicate grades of evidence and recommendations. CMAJ, 2003, 169(7): 677-680.

8 Atkins D, Best D, Briss PA, et al. Grading quality of evidence and

strength of recommendations. BMJ, 2004, 328(7454): 1490-1494. 9 Goldbloom R. Weighing the evidence: the Canadian experience. Am J Clin Nutr, 1997, 65(2 suppl): 584S-586S.

10 Atkins D, Eccles M, Flottorp S. Systems for grading the quality of

evidence and the strength of recommendations I: Critical appraisal of existing approaches. BMC Health Serv Res, 2004, 4(1): 38.

11 Sackett DL. Rules of evidence and clinical recommendations on the

use of antithrombotic agents. Chest, 1986, 89(2 Suppl): 2S-3S.

12 Sackett DL. Rules of evidence and clinical recommendations on

the use of antithrombotic agents. Archives Int Med, 1986, 146(3): 464-465.

13 Guyatt GH, Sackett DL, Sinclair JC, et al. Users’ guides to the medical literature. IX. A method for grading health care recommendations. Evidence-Based Medicine Working Group. JAMA, 1995, 274(22): 1800-1804.

14 Sackett DL. Rules of evidence and clinical recommendations on the

use of antithrombotic agents. Chest, 1989, 95(2): 2S-4S.

15 Cook DJ, Guyatt GH, Laupacis A, et al. Rules of evidence and

clinical recommendations on the use of antithrombotic agents.

CJEBM• 132 •

Chin J Evid-based Med, 2008, 8(2): 127-133

Chest, 1992, 102(4): 305S-311S.

16 Cook DJ, Guyatt GH, Laupacis A, et al. Clinical recommendations

using levels of evidence for antithrombotic agents. Chest, 1995, 108(4): 227S-230S.

17 Guyatt GH, Cook DJ, Sackett DL, et al. Grades of recommendation

for antithrombotic agents. Chest, 1998, 114(5 Suppl): 441S-444S.18 Guyatt G, Schünemann H, Cook D, et al. Grades of Recommendation for Antithrombotic Agents. Chest, 2001, 119(1): 3S-7S.

19 Guyatt G, Gutterman D, Baumann MH, et al. Grading strength of

recommendations and quality of evidence in clinical guidelines: report from an american college of chest physicians task force. Chest, 2006, 129(1): 174-181.

20 http://www.inclen.org/history.html

21 陈洁. 医学技术评估. 上海: 上海医科大学出版社. 1996.

22 Cochrane A. Effectiveness and Efficiency: Random Reflections on

Health Services. London: Nuffield Provincial Hospitals Trust, 1972.23 Guyatt GH. 循证医学的五个发展方向. 中国循证医学杂志, 2006, 6(3): 175-161.

24 Clinical Practice Guideline No.1: acute pain management: operative or medical procedures and trauma. Rockville (MD): US Department of Health and Human Services. Agency for Health Care Policy and Research; 1993. AHCPR Publication No. 92-0023.

25 http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=hstat6.table.928626 Eccles M, Clapp Z, Grimshaw J, et al. Russell I: North of England

evidence based guidelines development project: methods of guideline development. BMJ, 1996, 312(7033): 760-762.27 Harbour R, Miller J. A new system for grading recommendations in evidence based guidelines. BMJ, 2001, 323(7308): 334-336.

28 Van Tulder W, Koes W, Bouter M. Conservative treatment of acute

and chronic nonspecific low back pain. A systematic review of randomized controlled trials of the most common interventions. Spine, 1997, 22(18): 2128-2156.

29 Working Party for Guidelines for the Management of Heavy

Menstrual Bleeding. An evidence-based guideline for the

management of heavy menstrual bleeding. N Z Med J, 1999, 112(1088): 174-177.

30 National Health and Medical Research Council (NHMRC). How

to Use the Evidence: Assessment and Application of Scientific Evidence. Canberra, Australia: NHMRC; 2000.31 http://www.cebm.net/levels_of_evidence.asp

32 李幼平, 主编. 循证医学. 第1版. 北京: 高等教育出版社.

33 http://www.gradeworkinggroup.org/about_us.htm34 http://library.downstate.edu/ebmdos/2100.htm

35 Aragon CL, Budsberg SC. Applications of Evidence-Based Medicine:

Cranial Cruciate Ligament Injury Repair in the Dog Veterinary Surgery. 34(2): 93–98.

36 李幼平, 陶铁军, 孙丁, 等. 我国专科医师分类研究初探. 中国循证医学杂志, 2004, 4(3): 173-180.

37 谢瑜, 文进, 高晓凤, 等. 国外航空风险管理方法及绩效的循证评价——医疗风险系列研究之一. 中国循证医学杂志, 2006, 6(2): 131-138.

38 高晓凤, 谢瑜, 文进, 等. 我国煤矿业风险管理现状的循证评

价——医疗风险系列研究之二. 中国循证医学杂志, 2006, (3): 202-208.

39 文进, 谢瑜, 高晓凤, 等. 美国飓风风险管理的循证评价及其对我国医疗风险管理的启示——医疗风险系列研究之三. 中国循证医学杂志, 2006, (3): 209-217.

40 杨克虎, 马彬, 田金徽, 等. 美国医疗风险监测预警机制现状及绩

2008 Editorial Board of Chin J Evid-based Med

www.cjebm.org.cn

中国循证医学杂志, 2008, 8(2): 127~133

效的循证评价. 中国循证医学杂志, 2006, (6): 439-450.

41 马彬, 杨克虎, 刘雅莉, 等. 英国医疗风险监管体系的循证评价及其对我国医疗风险管理的启示——关注病人安全, 预防医疗差错, 提高医疗质量. 中国循证医学杂志, 2006, (7): 514-522.

42 刘雅莉, 景涛, 田金徽, 等. 新西兰医疗风险防范及监管机制现状的循证评价——完善诉讼体系,规范医疗行为, 防范医疗风险. 中国循证医学杂志, 2006, (9): 673-681.

43 田金徽, 杨克虎, 马彬, 等. 加拿大医疗风险监测预警机制的循证评价——整合全国卫生资源,建立病人安全体系. 中国循证医学杂志, 2006, (12): 897-904.

44 杨克虎, 田金徽, 段明友, 等. 瑞典医疗风险监管体系的循证评价. 中国医院管理, 2007, (3): 21-24.

45 杨克虎, 刘雅莉, 田金徽, 等. 澳大利亚医疗风险监管现状及措施的循证评价. 中国医院管理, 2007, (10): 62-65.

46 John Naisbitt. Megatrends: Ten New Directions transforming Our

Lives. 1982. Warner Books Inc. New York, p: 24.

47 Simpson RL. Nursing informatics core competencies. Nurs Manage,

1994, 25(5):18, 20.

2008 中国循证医学杂志编辑部www.cjebm.org.cn

论 著 • 二次研究

48 李幼平, 王莉, 文进. 注重证据, 循证决策. 中国循证医学杂志,

2008, 8(1): 1-3.

49 "Mad cows and ecstasy: chance and choice in an evidence-based

society". Journal of the Royal Statistical Association, Series A 159(3): 367-383.

50 Coomarasamy A, Khan KS. What is the evidence that postgraduate

teaching in evidence based medicine changes anything? A systematic review. BMJ, 2004, 329(7473): 1017.

51 万学红, 张晓兰. 医学教育的循证研究. 中国循证医学杂志, 2006,

6(5): 318-320.

52 Eldredge J. Do Clinical Librarians Matter? The First Randomized

Controlled Trial in Librarianship. Evidence Based Library and Information Practice, 2007, 2(4): 84-87.

53 何奔. 实践的“试金石”——2007年他汀循证证据回顾. 中国医学

论坛报, 2008, 34(3). 2008-01-17.

收稿日期:2007-12-05  修回日期:2008-01-29

本文编辑:杜亮

CJEBM• 133 •

中国循证医学杂志, 2008, 8(2): 127~133

论 著 • 二次研究

医学研究中证据分级和推荐强度的演进

陈耀龙1 李幼平1 * 杜 亮2 王 莉1 文 进1 杨晓妍1 

1.四川大学华西医院循证医学与临床流行病学教研室(成都 610041);2.四川大学华西医院中国循证医学杂志编辑部(成都610041)

摘要 本文系统分析了1979~2007年间50个主要组织和机构的证据分级标准及推荐意见强度,遴选出最具代表性的5个国家和国际组织的11个标准,并从分级特点、影响范围、使用领域等角度将其分为三个发展阶段。目前医学领域的标准已趋于成熟,并逐步统一。未来的挑战是在管理、教育、基础研究、经济学、社会学、法学等非医非药领域引入证据分类分级理念,研究制定符合循证医学思想,满足各领域研究和实践需要的高质量证据分类分级标准和推荐意见强度,接受时间和实践的检验。

关键词 循证医学;证据分级;推荐强度

Evolution of Levels of Evidence and Strength of Recommendations in Medical Research

CHEN Yao-long1, LI You-ping1 *, DU Liang2, WANG Li1, WEN Jin1, YANG Xiao-yan1

1. Clinical Epidemiology and Evidence-Based Medicine Center, West China Hospital, Sichuan University, Chengdu 610041, China;

2. Editorial Board of the Chinese Journal of Evidence Based Medicine, West China Hospital, Sichuan University, Chengdu 610041, China

Abstract A systematic literature search and a comparative study were conducted to investigate the evolution of the levels of evidence and strength of recommendations in medical research. Fifty systems were included from 1979 to 2007, and 11 of these, which came from five states or international organizations, were selected and divided into three stages according to their characteristics, sphere of influence and application fields. Ideas about levels of evidence and strength of recommendations are becoming mature in medical research. The challenge for the future is how to introduce evidence-based principles and develop the corresponding levels of evidence and strength of recommendations in the fields of management, education, basic medical sciences, economics, sociology and legal research.

Key words Evidence-based Medicine; Levels of Evidence; Strength of Recommendations

1 背景

决策者面对浩瀚的信息海洋,渴望得到真实而适用的证据帮助。但他们不可能花费大量时间和精力去检索和评价证据质量,而只需充分利用研究人员预先确立的证据分级标准和推荐意见使用各种高质量证据[1,2]。因此,研究人员在创建和推广证据分级标准和推荐意见时,必须力图统一,避免偏倚,以减少误导和滥用[3]。但研究证据质量良莠不齐,证据分级和推荐强度标准也大相径庭。20世纪60年代,美国两位社会学家Campbell和Stanley首次提出证据分级概念,评价教育领域部分原始研究的设计,将随机对照研究的质量定为最高,并引入内部真实性和外部真实性的概念[3-5]。1979年,加拿大定期体检特别工作组(Canadian Task Force on the Periodic

作者简介:陈耀龙,男(1981年~),硕士研究生,以循证医学及医学期刊编辑为主要研究方向。Email: [email protected]* 通讯作者,Email: [email protected]

2008 中国循证医学杂志编辑部

www.cjebm.org.cn

Health Examination,CTFPHE)首次对研究证据进行系统分级并给出推荐意见[6]。此后多个机构和组织对证据质量和推荐强度规定了标准,但方法各异,标准不一,甚至彼此矛盾。这些标准主要以字母(如A、B、C等)、数字(如 I、II、III等) 和字母与数字混合(如Ia、Ib、IIa等)方式表示,还有一些用符号和文字来描述,增加了分级的复杂性,不仅不利于指导决策者,也不利于帮助研究者[7]。直到2004年,才由“推荐等级的评估、制定与评价”(The Grading of Recommendations Assessment, Development and Evaluation,GRADE)工作组推出国际统一的证据分级和推荐意见标准,向全世界推广应用[8]。

本文系统比较了纳入的50个证据分级与推荐强度,从分级特点、影响范围、使用领域等角度,遴选出最具代表性的11个标准,剖析主要内容,展示演进过程,阐述重要意义,预测发展趋势。

2 演进阶段

CJEBM

• 127 •

Review Articles

Chin J Evid-based Med, 2008, 8(2): 127-133

2.1 第一阶段

1976年,为更好地预防疾病和促进国民健康,加拿大卫生部成立了定期体检工作组(CTFPHE),负责制定和评价常规体检和免疫接种的工作绩效。但研究发现,对何人采取何种体检措施,决策者更多依据主观推断而非科学证据,既造成了医疗资源的巨大浪费,也给病人带来不便和痛苦[9]。1979年,该小组发表了一份工作报告,首次基于试验设计,将证据分为三级[6](见表1、2),设计良好的RCT级别最高,专家意见级别最低。将推荐强度按证据级别分为支持和不支持两类,每类又分“充分”,“尚可”和“缺乏”三级。据此对78种体检项目一一列出相应证据的质量等级和推荐强度,不仅提高了决策的科学性,也大大方便了体检医生的工作,单行本发行超过4万册。此后二十几年,几乎所有分级标准都在此基础上扩展和延伸。但该标准未将推荐意见与证据级别对应,且未考虑以下几点[10]:① 小样本、低质量的RCT也属于I级证据吗?② 结果互相矛盾的RCT仍然属于I级证据吗?③ 高质量观察性研究仍属于II级证据吗?1986年,CTFPHE成员之一,David Sackett针

表 1 1979年CTFPHE证据分级

III-1II-2

至少一项设计良好的随机对照试验

设计良好的队列或病例对照研究,尤其来自多个中心

或研究组

比较了不同时间、地点的研究证据,无论有无干预措施;或重大结果的非对照研究(如1940年代青霉素的应用)

基于临床研究、描述性研究或专家委员会的报告,或权威专家的意见

表 2 1979年CTFPHE推荐强度

ABCDE

定期体检中支持考虑该疾病的证据充分定期体检中支持考虑该疾病的证据尚可定期体检中支持考虑该疾病的证据缺乏定期体检中不考虑该疾病的证据尚可定期体检中不考虑该疾病的证据充分

[6][6]

对1979年标准的以上不足,撰文提出了证据的五分法[11](表 3),首次对I级证据的RCT定义了质量标准,即大样本RCT(I、II型错误都较低)优于小样本RCT(I、II型错误都较高),且将证据质量与推荐强度的等级一一对应,即高质量证据推荐强度也高。该标准简洁明了,更适于指导临床医生;但未区分队列研究与病例对照研究,也未纳入专家意见。后经Gordon Guyatt 及Deborah Cook等分别于1992、1995、1998、2001和2006年不断修改完善,成为一套完整独立的系统,用以指导美国胸科医师学会(The American College of Chest Physicians,ACCP)抗血栓药物的使用[12-19]。

上述两套系统产生的20世纪70~80年代正值国际临床流行病学和卫生技术评估产生发展、医学科研方法逐渐成熟、医学继续教育空前繁荣的时代[20-21]

。1972年,英国医生Archie Cochrane的经典著

[22]

作《效果和效率:对卫生服务的随想》更是唤起

了人们对医学决策科学性和卫生资源合理配置、高效使用的深刻反思。加拿大医学工作者创造性提出证据分级的理念,首次明确研究证据优于专家经验,不仅成为医学工作者决策的重要依据,也成为后来诞生的循证医学的基本理念之一[23]。2.2 第二阶段

1992年,美国卫生保健政策研究所(Agency for Health Care Policy and Research,AHCPR,现更名为Agency for Healthcare Research and Quality,AHRQ)制定的临床实践指南[24, 25],将随机对照试验的 Meta分析作为最高级别的证据,并向全国推广(见表4)。1996年,英格兰北部循证指南制定项目(North of England Evidence Based Guidelines Development Project,NEEBGDP)发布了他们制定的证据分级标准和推荐强度[26](见表5),将RCT,Meta分析和系统评价共同作为最高级别的证据,这是英国继加拿大和美国之后较系统全面发布自己的分级标准。2001年,苏格兰院际指南网络(The Scottish Intercollegiate Guidelines Network,SIGN)发布了更详细的证据分级和推荐强度[27](见表6)。荷兰

[11]

III

表 3 1986年David Sackett证据分级及推荐强度

IIIIIIIVV

有确定结果的大样本RCT(I、II型错误都较低)结果不确定的小样本RCT(I、II型错误都较高)非随机的同期对照试验非随机的历史对照试验无对照的系列病例报道

ABC

至少一项I级试验支持至少一项II级试验支持只有III、IV、V级证据支持

CJEBM

• 128 •

2008 Editorial Board of Chin J Evid-based Med

www.cjebm.org.cn

中国循证医学杂志, 2008, 8(2): 127~133

论 著 • 二次研究

(1997)、新西兰(1999)、澳大利亚(2000)等也先后在本国临床指南中引入或修订了各自的证据分级和推荐标准[28-30]。

以上系统更加趋于成熟和完善,但最大问题是

表 4 1992年AHCPR证据分级及推荐强度

I aI bII aII bIIIIV

随机对照试验的 Meta分析至少 1 项随机对照试验

至少 1 项设计良好的非随机对照试验至少 1 项设计良好的准实验性研究设计良好的非实验性研究,如对照研

究、相关性研究和病例研究

专家委员会报告、权威意见或临床经验C

B

[24,25]

证据分级仅局限于治疗方面,不适用于预防、诊断等其他领域。

1998年,Bob Phillips、Chris Ball、David Sackett等临床流行病学和循证医学专家共同制定了新标准,并于2001年5月正式发表在英国牛津循证医学中心的网络上[31](见表7,此处只列出治疗方面的分级,完整的中译本参见李幼平主编的《循证医

[32]

学》)。该标准首次在证据分级的基础上提出了

A

I aI bII aII bIIIIV

分类概念,涉及治疗、预防、病因、危害、预后、诊断、经济学分析等七个方面,更具针对性和适用性,成为循证医学教学和循证临床实践中公认的经典标准,也是循证教科书和循证期刊使用最广泛的标准。但过于复杂和深奥,初次接触循证医学的医生或医学

[26]

表 5 1996年NEEBGDP证据等级

IIIIII

基于设计良好的随机对照试验、Meta分析或系统评价基于设计良好的队列研究或病例对照研究基于非对照研究或共识的建议

A BC

直接基于I级证据的推荐

直接基于II级证据或由I级证据外推的推荐直接基于III级证据的或由II级证据外推的推荐

[27]

表 6 2001年SIGN证据分级及推荐强度

1++1+1-2++2+2-34

直接适用于目标人群的1++或1+级证据

高质量随机对照试验的Meta 分析、系统评价、或偏倚可能性很小的A

随机对照试验

较高质量随机对照试验的Meta 分析、系统评价、或出现偏倚可能性小的随机对照试验

随机对照试验的Meta分析、系统评价、或出现偏倚可能性大的随机对照试验

高质量病例对照或队列研究的系统评价、或出现混杂、偏倚和机遇可能性很小而反映因果关联可能性大的高质量病例对照或队列研究出现混杂、偏倚和机遇可能性小而反映因果关联可能性较大的较高质量的病例对照或队列研究

出现混杂、偏倚和机遇可能性大而反映因素关联可能性明显不足的病例对照或队列研究

非分析性研究,即病例报告、系列病例分析专家意见

DBC

直接适用于目标人群的2++级证据或1++或1+级证据的外推证据

直接适用于目标人群的2+级证据或2++级证据的外推证据

3或4级证据,或2+级证据的外推证据

表 7 2001牛津证据分级与推荐意见强度(治疗部分)

1a 1b 1c2a2b2c3a3b45

同质RCT的系统评价单个RCT (可信区间窄)全或无病案系列

同质队列研究的系统评价

单个队列研究 (包括低质量RCT,如随访率

病例系列研究(包括低质量队列和病例对照研究)基于经验未经严格论证的专家意见 2008 中国循证医学杂志编辑部www.cjebm.org.cn

CDBA

[32]

1a或1 b或1c级证据

2a或2b或2c或3a或3b级证据

4级证据5级证据

CJEBM• 129 •

Review Articles

生不易理解和掌握。

20世纪90年代,循证医学的迅猛发展,Cochrane协作网的全球参与,证据分级的逐渐成熟,标志着一个以证据为基础的新医学时代的到来。以上4套系统的共同特点是:针对临床,构成指南,传播广泛,影响权威,推荐意见的强度与证据级别对应。标志着临床证据的分类分级和临床推荐意见强度系统的逐渐成熟,但其内容复杂、应用局限、标准各异,对指导全球范围内各级医疗机构的循证实践不方便。

2.3 第三阶段

2000年,针对现存证据分级与推荐意见标准的不足,包括WHO在内19个国家和国际组织共同成立了GRADE工作组

[33]

,由67名临床指南专家、循

证医学专家、各权威标准的主要制定者及证据研究者通力协作,循证制定出国际统一的证据质量分级和推荐强度标准,并于2004年正式推出 [8](见表8,9)。该标准的特点是:第一,明确定义了证据质量和推荐强度,即证据质量指在多大程度上能够确信疗效评估的正确性;推荐强度指在多大程度上能够确信遵守推荐意见利大于弊。第二,统一使用“级别(grade)”代替“证据水平(levels of evidence)”。第三,突破了过去主要从研究设计角度考虑证据质量的局限性,综合考虑研究设计、研究质量、研究结果的一致性和证据的直接性。第四,从使用者而非研究者角度制定标准,拓宽了应用范围,并随时更新。第五,推荐意见将根据当前可得证据的3种结论(肯定,否定,不确定),简化为强弱两级,既充分体现了循证医学立足于用,后效评价的思想,又为未来的发展和向其他领域拓展留下了空间和接口。该标准代表了当前对研究证据进行分类分级的国际最高水平,意义和影响重大。包括WHO和Cochrane协作网在内的28个国际组织、协会已采纳GRADE标准,成为证据发展史上的里程碑事件。但其仍以强调临床有效性证据为主,没有包括生物医学领域的全部证据,可看做是对其他领域证据分级和推荐强度的示范标准。

2001年,美国纽约州立大学下州医学中心推出证据金字塔[34](见附图),首次将动物研究和体外研究纳入证据分级系统,拓展了证据范畴,加之简洁明了,形象直观,得到了非常广泛的传播。2005年,Aragon等[35] 借鉴循证医学方法,将证据分级的概念引入兽医外科研究(见表10),对兽医外科研究证据进行分级,尽管尚不完善,也无推荐意见,但在将证据分类分级理念引向基础研究方面做了有益探

CJEBM• 130 •

Chin J Evid-based Med, 2008, 8(2): 127-133表 8 2004年 GRADE证据等级

[8]

高未来研究几乎不可能改变现有疗效评价结果的可信度中未来研究可能对现有疗效评估有重要影响,可能改变评价结果的可信度

低未来研究很有可能对现有疗效评估有重要影响,改变评估结果可信度的可能性较大极低

任何疗效的评估都很不确定表 9 2004年 GRADE推荐强度

[9]强明确显示干预措施利大于弊或弊大于利

利弊不确定或无论质量高低的证据均显示利弊相当表 10 兽医外科研究中的证据分级

[35]I证据源于目标物种的多个随机、盲法、安慰剂对照试验II证据源于采用历史对照的高质量临床研究III证据源于非对照的病例系列

IV

证据源于专家意见,和/或生理学研究外推的证据

附图 证据金字塔

[34]

索。

2004年3月,中国循证医学中心李幼平等首次在专科医师分类研究中引入证据分级的理念[36](见表11),后经进一步完善,于2006年2月至2007年10月,相继发表了9篇风险系列文章[37-45],首次针对管理领域尚无证据分类分级理念的现状,借鉴循证医学有效性证据分类分级的成功经验,探索对管理、教育等非医非药的研究证据进行分级。根据当前可得的证据,将政府及相关机构报告列为仅次于系统评价、卫生技术评估、Meta-analysis的证据,并根据研究目的分类(见表12)。

以上标准拓展延伸了证据的应用范围和领域,

2008 Editorial Board of Chin J Evid-based Med

www.cjebm.org.cn

中国循证医学杂志, 2008, 8(2): 127~133

表 11 2004年中国循证医学中心的证据分级

ABCDE

系统评价官方指南

有确切研究方法的文献综述专家意见

[36]

论 著 • 二次研究

表 12 2006年中国循证医学中心的证据分级

ABCDE

表 13 本文纳入的11个证据分级一览表

系统评价,HTA,Meta-analysis政府及相关机构报告有确切研究方法的文献综述专家意见

[37-45]

[***********][***********]20052006

加拿大加拿大美国英国英国美国英国国际中国美国中国

CTFPHESackettAHCPRNEEBGDPSIGN

SUNY Downstate Medical CenterCEBMGRADE李幼平等Aragon李幼平等

三级 五级四级三级八级九级五级四级五级四级五级

首次基于试验设计对研究证据分级考虑证据质量纳入Meta分析纳入系统评价

同时将系统评价、Meta分析与RCT作为最高证据纳入动物实验和体外研究

提出分类概念,拓展到治疗以外的7个领域探索非医药领域分级针对动物研究分级

探索决策与管理领域证据分级

预防体检临床用药临床指南临床指南临床指南临床指南卫生保健科学研究基础研究政府决策

考虑研究的设计、质量、结果一致性和证据的直接性卫生保健

丰富和补充了GRADE标准。随着循证医学影响的不断扩大,证据分类分级和推荐意见强度必将不断因需要而产生,因新的使用而发展。

至此,本文纳入的11个证据分级的简况见表13。

我们却淹没于信息海洋,用现有手段显然不可能应对当前的信息。在信息社会,失去控制和没有组织的信息不再是一种资源,而是信息工作者的敌人

[46]

”。医学信息学家Simpson也在20世纪90年代指出:“谁掌控了信息谁就掌控了一切[47]。”持续学习成为当今社会个人生存和发展的基础,快速获取对自己最有价值的信息则是学习能力的核心。依据循证理念,将信息按研究者和使用者关注的问题先分类,再在同类信息中按事先确定的标准经科学评价后严格分级,是筛选海量信息的重要方法和技巧 [48]

3.3 推荐意见是决策者科学决策的有效参考

明确的推荐意见对决策者的影响比证据级别更直接,可为是否应该采取某个决策方案及其实施结果的利弊提供证据参考,增强决策者的信心。因此推荐意见的内容和表述必须科学简洁,使决策者有时间考虑自身可利用的资源和目标人群的意愿,全面高效决策。

3.4 在非医非药领域引入循证医学理念,研究制定符合该领域的证据分类分级标准和推荐意见强度,是未来证据发展的挑战之一

随着循证医学的日臻成熟,证据本身将进一步拓展和延伸。目前已有学者和研究机构将循证医学的理念引入更多的行业[49-52],并在各自领域对证据

C

JEBM

• 131 •

3 讨论

3.1 证据分级和推荐强度的产生与发展是历史的必然

与医学各分支学科及医学本身的发展一样,证据分级和推荐强度的发展也经历了从定性到定量(最高证据从单个RCT到多个RCT的Meta分析),从局部到整体(只考虑试验设计到考虑研究质量、结果的一致性和直接性等),从片面到全面(单纯针对治疗扩展到预防、诊断、经济学等),从个别到一般(涉及领域从临床、预防延伸到基础、管理、教育等),从分散到统一(从指导各自国家和组织到指导全球)的过程,这是一个不断探索和实践,不断批判和超越的过程。可以预见,随着医学科学和人类文明的进步,证据分级和推荐强度必将紧跟时代,不断更新,止于至善。

3.2 分类分级的原理和方法是信息时代处理海量信息的有效方法

世界著名未来学家Naisbitt早在20世纪80年代就在其著作《大趋势》中提出:“面对知识饥荒,

Review Articles

分类分级[37-46]。需要注意的是,不同领域的证据应有不同的质量分级和推荐意见。证据分级依赖于各领域证据生产的全过程,关键在于方法学、证据质量和数量的发展。而推荐强度则依赖证据强度,关键在于表述清楚,简洁实用,尤其在决策者面临重要、复杂而又不确定的问题时。我们将就此在管理、教育、基础研究、经济学、社会学、法学等领域积极探索

和开展实践,努力用好证据这块“试金石”[53]。 3.5 本研究的局限性

第一,本研究对证据分级和推荐意见三阶段的划分基于当前公开发表的文献和资料,尚未收全当前全球所有的相关文献,可能存在选择性偏倚。

第二,由于每个研究的分析角度不同,对证据分级和推荐意见发展阶段的划分也存在差异,本研究结论仅供同行借鉴和参考。

参 考 文 献

1 McColl A, Smith H, White P, et al. General practitioner's

perceptions of the route to evidence based medicine: a questionnaire survey. BMJ, 1998, 316(7128): 361-365.

2 Guyatt G, Meade M, Jaeschke R, et al. Practitioners of evidence

based care: not all clinicians need to appraise evidence from scratch but all need some skills. BMJ, 2000, 320(7240): 954-955. 3 Glasziou P, Vandenbroucke JP, Chalmers I. assessing the quality of research. BMJ, 2004, 328(7430): 39-41.

4 Campbell DT, Stanley JC. Experimental and quasi-experimental designs for Research..Chicago, IL: Rand McNally College, 1963.

5 Chalmers I, Hedges L, Cooper H. A brief history of research synthesis. Evaluation & the health professions, 2002, 25(1): 12-37. 6 Canadian Task Force on the Periodic Health Examination: The

periodic health examination. CMAJ, 1979, 121(19): 1193-1254.

7 Schünemann HJ, Best D, Vist G, et al. Letters, numbers, symbols

and words: how to communicate grades of evidence and recommendations. CMAJ, 2003, 169(7): 677-680.

8 Atkins D, Best D, Briss PA, et al. Grading quality of evidence and

strength of recommendations. BMJ, 2004, 328(7454): 1490-1494. 9 Goldbloom R. Weighing the evidence: the Canadian experience. Am J Clin Nutr, 1997, 65(2 suppl): 584S-586S.

10 Atkins D, Eccles M, Flottorp S. Systems for grading the quality of

evidence and the strength of recommendations I: Critical appraisal of existing approaches. BMC Health Serv Res, 2004, 4(1): 38.

11 Sackett DL. Rules of evidence and clinical recommendations on the

use of antithrombotic agents. Chest, 1986, 89(2 Suppl): 2S-3S.

12 Sackett DL. Rules of evidence and clinical recommendations on

the use of antithrombotic agents. Archives Int Med, 1986, 146(3): 464-465.

13 Guyatt GH, Sackett DL, Sinclair JC, et al. Users’ guides to the medical literature. IX. A method for grading health care recommendations. Evidence-Based Medicine Working Group. JAMA, 1995, 274(22): 1800-1804.

14 Sackett DL. Rules of evidence and clinical recommendations on the

use of antithrombotic agents. Chest, 1989, 95(2): 2S-4S.

15 Cook DJ, Guyatt GH, Laupacis A, et al. Rules of evidence and

clinical recommendations on the use of antithrombotic agents.

CJEBM• 132 •

Chin J Evid-based Med, 2008, 8(2): 127-133

Chest, 1992, 102(4): 305S-311S.

16 Cook DJ, Guyatt GH, Laupacis A, et al. Clinical recommendations

using levels of evidence for antithrombotic agents. Chest, 1995, 108(4): 227S-230S.

17 Guyatt GH, Cook DJ, Sackett DL, et al. Grades of recommendation

for antithrombotic agents. Chest, 1998, 114(5 Suppl): 441S-444S.18 Guyatt G, Schünemann H, Cook D, et al. Grades of Recommendation for Antithrombotic Agents. Chest, 2001, 119(1): 3S-7S.

19 Guyatt G, Gutterman D, Baumann MH, et al. Grading strength of

recommendations and quality of evidence in clinical guidelines: report from an american college of chest physicians task force. Chest, 2006, 129(1): 174-181.

20 http://www.inclen.org/history.html

21 陈洁. 医学技术评估. 上海: 上海医科大学出版社. 1996.

22 Cochrane A. Effectiveness and Efficiency: Random Reflections on

Health Services. London: Nuffield Provincial Hospitals Trust, 1972.23 Guyatt GH. 循证医学的五个发展方向. 中国循证医学杂志, 2006, 6(3): 175-161.

24 Clinical Practice Guideline No.1: acute pain management: operative or medical procedures and trauma. Rockville (MD): US Department of Health and Human Services. Agency for Health Care Policy and Research; 1993. AHCPR Publication No. 92-0023.

25 http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=hstat6.table.928626 Eccles M, Clapp Z, Grimshaw J, et al. Russell I: North of England

evidence based guidelines development project: methods of guideline development. BMJ, 1996, 312(7033): 760-762.27 Harbour R, Miller J. A new system for grading recommendations in evidence based guidelines. BMJ, 2001, 323(7308): 334-336.

28 Van Tulder W, Koes W, Bouter M. Conservative treatment of acute

and chronic nonspecific low back pain. A systematic review of randomized controlled trials of the most common interventions. Spine, 1997, 22(18): 2128-2156.

29 Working Party for Guidelines for the Management of Heavy

Menstrual Bleeding. An evidence-based guideline for the

management of heavy menstrual bleeding. N Z Med J, 1999, 112(1088): 174-177.

30 National Health and Medical Research Council (NHMRC). How

to Use the Evidence: Assessment and Application of Scientific Evidence. Canberra, Australia: NHMRC; 2000.31 http://www.cebm.net/levels_of_evidence.asp

32 李幼平, 主编. 循证医学. 第1版. 北京: 高等教育出版社.

33 http://www.gradeworkinggroup.org/about_us.htm34 http://library.downstate.edu/ebmdos/2100.htm

35 Aragon CL, Budsberg SC. Applications of Evidence-Based Medicine:

Cranial Cruciate Ligament Injury Repair in the Dog Veterinary Surgery. 34(2): 93–98.

36 李幼平, 陶铁军, 孙丁, 等. 我国专科医师分类研究初探. 中国循证医学杂志, 2004, 4(3): 173-180.

37 谢瑜, 文进, 高晓凤, 等. 国外航空风险管理方法及绩效的循证评价——医疗风险系列研究之一. 中国循证医学杂志, 2006, 6(2): 131-138.

38 高晓凤, 谢瑜, 文进, 等. 我国煤矿业风险管理现状的循证评

价——医疗风险系列研究之二. 中国循证医学杂志, 2006, (3): 202-208.

39 文进, 谢瑜, 高晓凤, 等. 美国飓风风险管理的循证评价及其对我国医疗风险管理的启示——医疗风险系列研究之三. 中国循证医学杂志, 2006, (3): 209-217.

40 杨克虎, 马彬, 田金徽, 等. 美国医疗风险监测预警机制现状及绩

2008 Editorial Board of Chin J Evid-based Med

www.cjebm.org.cn

中国循证医学杂志, 2008, 8(2): 127~133

效的循证评价. 中国循证医学杂志, 2006, (6): 439-450.

41 马彬, 杨克虎, 刘雅莉, 等. 英国医疗风险监管体系的循证评价及其对我国医疗风险管理的启示——关注病人安全, 预防医疗差错, 提高医疗质量. 中国循证医学杂志, 2006, (7): 514-522.

42 刘雅莉, 景涛, 田金徽, 等. 新西兰医疗风险防范及监管机制现状的循证评价——完善诉讼体系,规范医疗行为, 防范医疗风险. 中国循证医学杂志, 2006, (9): 673-681.

43 田金徽, 杨克虎, 马彬, 等. 加拿大医疗风险监测预警机制的循证评价——整合全国卫生资源,建立病人安全体系. 中国循证医学杂志, 2006, (12): 897-904.

44 杨克虎, 田金徽, 段明友, 等. 瑞典医疗风险监管体系的循证评价. 中国医院管理, 2007, (3): 21-24.

45 杨克虎, 刘雅莉, 田金徽, 等. 澳大利亚医疗风险监管现状及措施的循证评价. 中国医院管理, 2007, (10): 62-65.

46 John Naisbitt. Megatrends: Ten New Directions transforming Our

Lives. 1982. Warner Books Inc. New York, p: 24.

47 Simpson RL. Nursing informatics core competencies. Nurs Manage,

1994, 25(5):18, 20.

2008 中国循证医学杂志编辑部www.cjebm.org.cn

论 著 • 二次研究

48 李幼平, 王莉, 文进. 注重证据, 循证决策. 中国循证医学杂志,

2008, 8(1): 1-3.

49 "Mad cows and ecstasy: chance and choice in an evidence-based

society". Journal of the Royal Statistical Association, Series A 159(3): 367-383.

50 Coomarasamy A, Khan KS. What is the evidence that postgraduate

teaching in evidence based medicine changes anything? A systematic review. BMJ, 2004, 329(7473): 1017.

51 万学红, 张晓兰. 医学教育的循证研究. 中国循证医学杂志, 2006,

6(5): 318-320.

52 Eldredge J. Do Clinical Librarians Matter? The First Randomized

Controlled Trial in Librarianship. Evidence Based Library and Information Practice, 2007, 2(4): 84-87.

53 何奔. 实践的“试金石”——2007年他汀循证证据回顾. 中国医学

论坛报, 2008, 34(3). 2008-01-17.

收稿日期:2007-12-05  修回日期:2008-01-29

本文编辑:杜亮

CJEBM• 133 •


相关内容

  • [干货]一文读懂:医学证据分级与推荐等级
  • 飞速发展的医学科研催生了海量科研成果的诞生,全球23,000余种生物医学期刊,每年可发表百万篇文献.然而教科书与专著的更新速度,却远远落后于科研成果的产生. 每个医生,需365天每天阅读19篇文献,才能跟上本领域的学术进展.如何慎重地将研究中最新.最佳的证据运用于临床?循证医学证据等级与评价系统应运 ...

  • 循证医学证据分级
  • 临床试验为临床诊断治疗等医疗活动提供了依据,虽同为临床证据,其可靠性是不同的. 1979年,加拿大预防保健工作组(CTFPHC)的Fletche等人首次按临床研究设计将证据强度分为Ⅲ级5等,推荐强度分为Good.Fair和Poor 3级. 之后,又有多个组织制定了证据的分级,如1996年美国预防服务 ...

  • 临床证据水平分级和推荐级别
  • 1979年, 加拿大预防保健工作组(CTFPHC)的Fletche 等人首次按临床研究设计将证据强度分为Ⅲ级5等, 推荐强度分为Good .Fair 和Poor 3级: 1996年美国预防服务工作组(USPSTF)评估系统将证据分Ⅲ级5等, 推荐强度分5级; 美国预防医学工作组(U.S. Preve ...

  • 美国感染病学会.美国药师学会.感染病药师学会共同推荐的万古霉素治疗指南
  • 中国感染控制杂志年月第卷第期-) () - %%编者按 美国感染病学会&美国药师学会&感染病药师学会#! " " &年#月%F %/, $:&M . >R $T P :) F. C +#$:' -; +M +, )9. 6$2在1上发表了一篇 ...

  • 卫生技术评估的基本方法
  • T璺强延匡芏苤盘!塑!生整!鲞苤!朔 ・方法学・ Methodology 卫生技术评估的基本方法 李静 (四川大学华西医院临床流行病学教研室成都610041) [摘要J 卫生技术的革新有益于改进卫牛服务和病人的结局.然而.层出不穷的卫生技术也导致了医 疗费用的明显增长和引起社会.伦理.法律和政治问题 ...

  • 循证医学重点内容总结
  • 循证医学重点内容总 1 经典循证医学.狭义的定义.一个核心,两个基本点 2.经典循证医学 一个循证实践的医学过程 内涵: 强调医生对病人的诊断和治疗应根据 当前可得的最好临床证据 结合自己的临床技能和经验 尊重病人的选择和意愿 结果: 医生和病人形成诊治联盟 病人获得当前最好的治疗效果 3.(了解) ...

  • 中国脑卒中康复治疗指南(2011完全版)
  • 中国康复理论与实践2012年4月第18卷第4期ChinJRehabilTheoryPract,Apr.2012,Vol.18,No.4- 301-DOI:10.3969/j.issn.1006-9771.2012.04.001·专稿· 中国脑卒中康复治疗指南(2011完全版)中华医学会神经病学分会神 ...

  • 呼吸机相关性肺炎诊断.预防和治疗指南(2013)
  • 呼吸机相关性肺炎诊断.预防和治疗指南(2013) 吸机相关性肺炎(ventilator.associatedpneumonia,VAP)是重症医学科(ICU)内机械通气患者最常见的感染性疾病之一.VAP可使机械通气患者住院时间和ICU留治时间延长,抗菌药物使用增加,并导致重症患者病死率增加,严重影响 ...

  • 呼吸机相关性肺炎零容忍:从指南开始
  • 虫堡凼型盘查!!!!生鱼旦笠§!鲞箜!塑£!也』!!!!塑丛塑:』!坚!!!!:!!!:i!:型!:鱼 .专论. 呼吸机相关性肺炎零容忍:从指南开始 邱海波 随着重症医学的迅猛发展,重症患者的预后得到明显改善,生存时间明显延长.但随着重症监测与治疗技术的推广和普及,面对免疫功能受到影响或抑制的重症患 ...