Loading AI tools
一种医学诊疗方法 来自维基百科,自由的百科全书
循证医学(英语:Evidence-based medicine,缩写为 EBM),是一种医学诊疗方法,它将证据依知识论上的强度分类,并要求只有强度最高的证据(如元分析、系统性评论和随机对照试验)才能归纳为有力的建议证据;相对较无力的证据(如专家意见、动物实验、细胞实验、基本原理推论)只能归入有力程度不高的建议。这个词本意是阐述一种方法,用于医学诊疗教学及改善不同医师面对不同患者时的决策方式[1]。此名称的应用范围快速扩大到包罗更广的循证实践,以设计适用于患者群和整个群体的指引及政策(循证诊疗政策)[2],包含教育、管理、法律、公共政策和建筑安全等其他研究领域 [3]。
循证医学主张决策和政策皆应尽可能根据证据,而非单单依据从业人员、专家或管理者的信念,无论是应用在医学教育,个人决策,适用于群体的指引和政策,还是一般健康服务的管理上。因此,它试图确保临床医师的意见(可能受限于知识差距或偏误),有基于科学文献的所有可用知识补足,保证服务为最佳诊疗。循证医学与传统医学的不同处是,它并不依赖于经验主义或过往案例,提倡使用正式且明确的方法来分析证据,并提供给决策者。它推动课程向医学生、从业人员和决策者传授这个方法。
广义来说,循证医学是应用科学方法进行医疗决策。医学在基础及临床研究两方面都有悠久的传统,至少可以追溯到阿维森纳[4][5]。早期对医学统计方法的评论发表在1835年[6]。
然而,过去将研究结果纳入医疗决策的过程还是非常主观[来源请求]。针对个别患者进行决策的传统方法,被称为“临床判断”和“医学艺术”,这个方法由各医师决定参考哪些研究证据(如果有的话),以及如何将证据与个人信仰和其他因素整合起来[来源请求]。适用于患者群体或族群的决策,通常会由专家委员会制定,但没有正式的流程决定研究证据如何选择,及如何与委员会成员的信仰整合[来源请求]。有一个隐含假设,决策者和政策制定者将根据他们的教育、经验和进行中的研究等可适用的相关文献,将以上循证与他们的思维结合[来源请求]。
自1960年代末起,传统医疗决策出现许多问题。1967 年阿尔文·芬因斯坦(Alvan Feinstein)的著作《临床判断》聚焦于临床推理的角色,并寻找可能影响它的偏误[7]。阿奇·考科蓝(Archie Cochrane)在 1972 年出版《效能和效率》,描述许多缺乏对照试验支持但过去认为可能有效的诊疗方式[8]。杰翰·温堡(John Wennberg)在 1973 年开始记录医生诊疗上的广泛差异[9]。到1980 年代,大卫·M·艾迪(David M. Eddy)描述临床推理上的错误和与证据间的鸿沟[10][11][12][13]。到 1980 年代中期,芬因斯坦、大卫·萨克特(David Sackett)等人发表教科书《临床流行病学》,认为医师决策应采用流行病学方法[14][15]。到 1980 年代末,兰德公司的一个小组显示,即使按照专家自己的标准,医师们执行的大部分处置并不合格[16]。这领域的研究让我们更了解医疗决策的弱点,不论是针对个别患者或整个族群,并为后续的导入循证方法铺路。
目前“循证医学”一辞有两个主要分支。时序上,首先是指“在发布临床诊疗指引和其他族群层次政策时,坚持对有效性证据进行明确评估”。第二是“将流行病学方法导入医学教育和个别患者层面的决策”[来源请求]。
大卫·艾迪在他的课程中首次使用“循证”(evidence-based,以证据为基础)一辞,课程主题是族群层次的政策,包括新技术的临床诊疗指引和保险给付。1987 年,他在医学专科学会委员会委托的研讨会和手册中首次使用“循证”来教授临床诊疗指引设计的正式方法。该手册在 1980 年代后期以未发表形式广为流传,最终由美国医学院出版[17][18]。1990年3月艾迪在《美国医学会杂志》发表的文章,首次使用“循证”一辞,同时阐述循证指引和族群层次政策的原则,并描述为“明确描述与政策相关的现有证据,并将政策与循证联系起来。有意识地将政策根基于实验证据,而非当前做法或专家信念。政策必须与循证一致并有循证支持。必须找到、描述并分析相关证据。政策制定者必须确定政策是否与循证相符,并写出理由[19]”。1990年春季,他在《美国医学会杂志》发表的其他论文中讨论“循证”政策[19][20]。这系列论文共 28 篇,1990 至 1997 年间发表在《美国医学会杂志》上,主题在族群层次,设计指引和政策的正式方法[21]。
“循证医学”一辞,稍晚导入医学教育。这分支源于临床流行病学。1990年秋天,麦克马斯特大学的戈登·盖亚特( Gordon Guyatt)在未发表的课程说明中使用这个辞[22],课程是针对未来或新进的医学生。盖亚特等人在两年后(1992年)首次发表这个术语,用来描述一种教授医学诊疗的新方法[1]。
1996年,大卫·萨克特等人清楚定义这分支的循证医学为“照护个别患者时,决策时应认真、明确且审慎地使用现有的最佳证据…这表示需整合个人临床专业和源自系统性研究产生的最佳外部临床证据[23]”。这分支的循证医学,利用充分反映研究的证据,使针对个人的决策更有结构化且更客观[24][25]。应用族群数据于个别病患照护[26],同时尊重临床工作者具有专业知识的实情,反映在有效果和有效率的诊断,周全地识别且体贴地考量个别患者的困境、权利和偏好[23]。
此支系的循证医学源于临床流行病学,此学科教授医疗工作者如何应用临床和流行病学研究诊疗。在 1993 至 2000 年间,麦克马斯特大学的循证医学工作小组为广大医师读者群,在《美国医学会杂志》发表一系列共 25 篇的〈医学文献用户指引〉。1995年,罗森伯格(Rosenberg)和唐纳德(Donald)为针对个人的循证医学定义为“寻找、评估和使用当代研究成果作为医学决策基础的过程[27]”。2010年,格兰格(Greenhalgh)使用一个强调定量方法的定义:“由高品质研究中的族群样本,求得效益和伤害风险的数学估计值,做为诊断、评估或处置个别患者的临床决策信息[28]”。针对个人层级的循证医学还有许多其他定义,但萨克特等人的定义是最常被引用的[23]。
这两个循证医学原始定义[哪个/哪些?]的重要差异,主要在于应用对象是族群或个人。当设计适用于一大群人的指引时,个别医生少有机会修改的机会,循证政策制定强调应有良好的证据支持检验或治疗的效果[29]。在为个人决策时,临床工作者可更自由地解读研究,并与其临床判断整合[23][30]。2005年,艾迪为循证医学的两个分支提供一个总括定义:“循证医学是一套原则和方法,旨在确保制定医疗决策、指引和其他类型的政策时,尽最大可能根据有效果与效益的良好证据,并与之一致[31]。”
循证医学的两个分支传播迅速。在循证指引和政策方面,1980年美国癌症协会开始明确坚持有效性证据[32]。1984年起美国预防服务工作小组(英语:the U.S. Preventive Services Task Force,缩写作 USPSTF)开始根据循证原则发布预防性处置指引[33]。1985年,蓝十字蓝盾协会以严格的循证标准评估新技术[34]。1987年起,美国医师学会等专科协会,和美国心脏协会等自愿者健康组织,编写许多循证指引。1991年,美国管理式医疗机构凯萨医疗机构开始循证指引计划[35]。1991年,理查德·史密斯(Richard Smith)在《英国医学杂志》发表一篇社论,介绍英国的循证政策[36]。1993年,考科蓝合作组织建立由13个国家组成的网络,制作系统综述和指引[37]。1997年,美国医疗保健研究和品质机构(AHRQ,后来的健康保健政策和研究机构或 AHCPR)建立循证诊疗中心,制作支持指引发展的循证报告和科技评估[38]。同年 AHRQ、AMA 和美国健康计划协会(现为美国健康保险计划)建立遵从循证政策原则的国家指引交换机构[39]。1999年,英国成立英国国家健康照护卓越研究院(NICE)[40]。这个循证医学分支的核心思想是:证据应根据实验设计的严谨程度分类,再由证据强度决定建议强度。
医学教育端,加拿大、美国、英国、澳洲和其他国家的医学院成立教授循证医学的课程[41][42]。一个2009年针对英国课程的研究发现,半数以上的英国医学院有某种循证医学训练课程,尽管授课的方法和内容差异很大,教学受课程时间不足限制,缺乏训练有素的导师和教材[43]。已发展许多项目协助个别医师更便利地取得循证。如,在 1990 年代开发的 UpToDate[44]。考科蓝合作组织自 1993 年起发表证据评论[35]。BMJ 出版集团在 1995 年出版名为《临床证据》的半年刊,针对临床医师在意的重要临床问题,提供现有循证的精要摘录[45]。从那时起,还发展许多计划,协助临床工作者更容易取得循证。
21世纪初期,“循证医学”一辞既用于循证指引的发展,也用于教授从业人员循证医学的计划。到 2000 年,“循证医学”已成为强调应用循证于族群和个人层级决策的总称。随后数年,“循证”一辞已扩展到医疗保健系统的其他层面。例如:“循证卫生服务”,旨在提高卫生服务决策者的能力,并在组织或机构层面应用循证医学[46]。这个概念也蔓延到医疗保健以外;如,1996 年皇家统计学会主席阿德里安·史密斯(Adrian Smith),在就职演说提出“应该为教育、监狱和警务政策及政府工作的所有领域建立‘循证政策’”[来源请求]。
循证医学的多个分支强调将正式研究证据纳入医疗政策和决策的重要性。但在推广指引或给付政策前,各分支对有关效果好证据的需求差异很大;因此,循证医学和科学医学(science-based medicine)间的区别,也考虑以下因素,如:过往既定科学的合理性和相容性,就像医疗组织推广有争议的处置,如针灸等[47]。决策上,他们在纳入个人层级信息的可行性程度也不同。因此,循证指引和政策可能无法轻易整合经验诊疗(符合伦理的临床判断),并可能导致矛盾、竞争和意外危机[13] 。最有效的“知识领导(临床领导和管理者)”在决策过程中使用各种管理知识,而非只有正式证据[14]。循证指引可成为健康照护治理术的基石,并在当代健康照护系统的治理中发挥核心作用[15]。
1980年代后期提出明确设计循证指引的步骤:提出问题(族群,处置,对照处置,结果,时间范围,情境);搜寻找出可以回答问题的文献;解读各个研究,明确地找出它对研究问题的看法;若有数个研究探讨这个问题,整合他们的结果(元分析);在“循证列表”中总结所有证据;在“资产负债表”中比较效益、危害和花费;为偏好的诊疗方式下个结论;写下指引及其背景理论;让其他人审查前面的每个步骤;执行指引[12]。
1992年提出以医学教育和个人层级决策为目的,执行循证医学的五个步骤[48],2003年循证医疗保健教师和开发者会议,汇整参加者经验总结出五个步骤,在2005年发表[49]。这五步骤大致可归类为:
对已发表研究进行系统性评论是评估特定治疗的重要部分。考科蓝合作组织是进行系统性评论的最知名组织之一。与其他系统性评论的生产者一样,它要求作者提供详细且可重复的文献检索和证据评估计划[55]。一旦评估了所有的最佳证据,治疗将可分为(1)可能有益,(2)可能有害,或(3)证据不足以支持有利或有害。
2007 年针对考科蓝协作组织所有50个评论小组的1,016篇系统性评论进行的分析,研究发现 44% 的评论认为处置可能有益,7% 认为处置可能有害,49% 显示没有足够的证据支持有益或有害。96% 认为需要进一步研究[56]。一篇 2001 年的评论,分析 160 篇在 1998 年数据库中的考科蓝系统性评论(排除替代治疗),根据两位研究者的评论,41% 结论是有效或可能有效,20% 认为没效,8% 认为有害,而 21% 的评论认为证据不足[57]。针对 2004 年数据库中的 145 篇有关替代医学的考科蓝评论的研究,结果显示 38.4% 的结论认为有效或可能有效(12.4%),4.8% 认为无效,0.7% 认为有害,56.6% 认为证据不足[58]。2017 年研究评估考科蓝协作组织出版的系统性评论对美国私人保险公司制定政策的作用,结果显示尽管美国主要私人保险公司的医疗政策文件使用考科蓝系统性评论,但仍有空间鼓励使用更多[59]。
证据品质可依来源类型评估(来自元分析和系统性评论,它纳入有着良好盲法,完全隐匿分派,没有追踪遗失,没有不当解盲,且符合一般常识的随机临床试验),和其他因素ー包括统计有效性,临床相关性,费用和同行评审。循证医学将不同类型的临床证据分类和评等[60],依据研究是否能免于各种会影响它的偏误。如,证据力最强的治疗处置研究是系统性评论,且需纳入随机且隐匿分派,完整追踪,同质性高的族群和医疗情况,盲法评估的安慰剂对照试验。相比之下,病患推荐、病例报告还是专家意见(然而,一些批评者认为专家意见“不应列于经验证据品质排名中,因为它并不属于某种经验证据”,且“专家意见更像一种独立且复杂的知识类型,不适合放在只限于经验证据的等级之中”[61])没有作为参考证据的价值,因为存在安慰剂效应,观察和报告个案时固有的偏误,难以确定谁是专家等。
许多组织发展了证据品质的评级系统。如,1989年美国预防服务工作小组提出以下建议[62]:
另一个例子是英国牛津循证中心(英语:the Centre for Evidence-Based Medicine,缩写作 CEBM)的证据等级。它首次发表于2000年9月,为预后,诊断,治疗效益,治疗伤害和筛查类别的证据评等,大多数的评等系统并未处理这些问题。原始的 CEBM 等级源自《循证值班》(英语:Evidence-Based On Call),它的目的在使寻找证据的过程可行且结果明确。2011年,一个国际团队重新设计牛津证据等级,使它更易理解,并纳入证据评等系统的最新发展。牛津证据等级被患者和临床医师使用,也用于制定临床指引,包括:在银屑病有效使用光疗和局部治疗的建议[63],及使用BCLC分期系统诊断和追踪肝细胞癌的加拿大指引[64]。
2000年,证据等级评比系统(简称GRADE,是 Grading of Recommendations Assessment, Development and Evaluation 的缩写)工作小组发展一个系统,除了医学研究的品质外,还考虑更多维度[65]。它要求使用 GRADE 评估证据品质时,通常是系统性评论的一部分,考虑不同因素对结果信心水平的影响。研究者根据观察效果(数值)与可能的真实效果间的近似程度,产生信心值,依此利用 GRADE 将证据品质分为四级。信心值根据五个不同领域,以结构化方式计算[66]。GRADE 工作小组依研究品质定义“证据品质”和“建议强度”,这两个是不同的概念,但却常常相互混淆[66]。
系统性评论可能纳入低偏误风险的随机对照试验,或具高偏误风险的观察型研究。以随机对照试验为例,属高证据品质,但在五个不同领域可被降级[67]。
若是观察型研究,证据品质依 GRADE 起始评分较低,除了可能易被降级外,亦可以依三个领域的情况升级[67]。
GRADE 证据品质强度代表的含义[66]:
对临床服务提供建议的指引和其他出版品,在平衡风险与效益,考量信息所依据的证据等级进行分类。美国预防服务工作小组使用[68]:
GRADE 指引小组成员可根据其它标准提出强烈或薄弱建议。一些重要条件,包括:平衡好处和不良反应(不考虑费用),证据品质,价值、偏好及费用(耗费的资源)[67]。
尽管各评量系统存有差异,但宗旨一致:指导临床研究信息的使用者,哪些研究可能最可信。然而,个别研究仍需经过严格评读。
循证医学试图以数学方法说明检测和治疗的临床效益。使用的工具包括:
循证医学试图客观地评估临床研究的品质,严格评读研究人员在论文中报告的技术。
虽然循证医学被视为临床诊疗的黄金标准,但仍有许多限制和批评[70][71]。各种针对EBM发表的批评,广为引用的分类系统有两种,包括斯特劳斯(Straus)和麦克亚利斯特(McAlister)的三分法(医学诊疗普遍存在限制,循证医学特有的限制,和对循证医学的误解[72])和柯恩(Cohen),斯塔夫里(Stavri)和赫许(Hersh)的五点分类(循证医学是医学的一种不良哲学基础,证据定义太狭隘,没有循证根据,应用于个别患者时实用性有限,减少医病关系的自主权[73])。
一些已发表的反对意见,无特别排序,包括:
一个2018年研究,以〈为什么所有随机对照试验产生具偏误见的结果〉为题,评估10篇引用率最高的RCTs,认为试验面临广泛的偏误和限制,包括:试验只适合研究易于随机化的一小组问题,通常只能评估样本的平均治疗效果,将结果外推到其它情境时的限制,还有其它问题总结在研究中[70]。
循证医学有个不断挑战,部分临床工作者不依循证诊疗。这种情况发生的部分原因是支持或反对当前治疗的证据结论不断变化,要了解每个变化并不可能[85]。例如,2003到2017年间,有数百种医学诊疗的循证结论改变,从激素替代疗法是否安全,到婴儿是否应该服用某些维生素,以及抗忧郁药对阿茲海默症是否有效[86]。即使证据明确反对治疗,通常需经过十年才会采用其他治疗[85]。在其他情况,可能需要等一个世代的医师退休或死亡,并由接受最新循证培训的医师取代后才有重大变化[85]。
医师和其他医疗服务提供者依无循证支持的方式治疗患者的另一个主因是这些医疗人员与所有其他人一样受到相同的认知偏误影响。他们可能会拒绝循证,因为对罕见但令人震惊的结果有着鲜明记忆(可得性偏差),例如患者在拒绝治疗后死亡[85]。他们可能会为了“做些什么”或解决患者的情感需求而过度治疗[85]。因患者的期望与推荐的循证间有落差,而担心发生医疗过失告诉[85]。也可能因治疗在学理上看似合理,而过度治疗或提供无效治疗[85]。
在医学教育的连续过程中,提供循证医学训练[87]。
柏林问卷和弗雷斯诺测试[88][89]是评估循证医学教育有效性的可信工具[90][91]。这些问卷已用于不同情境中[92][93]。
一篇纳入24个试验的坎贝尔系统性评论,评估电子学习能否改善循证健康照护的知识和应用。结果发现,与没有学习相比,电子学习可以改善循证健康照护的知识和技能,但不会改善态度和行为。比较电子学习与面对面学习,结果没有差异。结合电子学习与面对面学习(混合式学习),对循证知识、技能、态度和行为有积极影响[94]。与电子学习有关,医学院学生编辑维基百科,能提高他们的循证技能[95]。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.