Remove ads
一种医学诊疗方法 来自维基百科,自由的百科全书
實證醫學(英語:Evidence-based medicine,縮寫為 EBM),是一種醫學診療方法,它將證據依知識論上的強度分類,並要求只有強度最高的證據(如統合分析、系統性評論和隨機對照試驗)才能歸納為有力的建議證據;相對較無力的證據(如專家意見、動物實驗、細胞實驗、基本原理推論)只能歸入有力程度不高的建議。這個詞本意是闡述一種方法,用於醫學診療教學及改善不同醫師面對不同患者時的決策方式[1]。此名稱的應用範圍快速擴大到包羅更廣的實證應用,以設計適用於患者群和整個群體的指引及政策(實證診療政策)[2],包含教育、管理、法律、公共政策和建築安全等其他研究領域 [3]。
實證醫學主張決策和政策皆應儘可能根據證據,而非單單依據從業人員、專家或管理者的信念,無論是應用在醫學教育,個人決策,適用於群體的指引和政策,還是一般健康服務的管理上。因此,它試圖確保臨床醫師的意見(可能受限於知識差距或偏誤),有基於科學文獻的所有可用知識補足,保證服務為最佳診療。實證醫學與傳統醫學的不同處是,它並不依賴於經驗主義或過往案例,提倡使用正式且明確的方法來分析證據,並提供給決策者。它推動課程向醫學生、從業人員和決策者傳授這個方法。
廣義來說,實證醫學是應用科學方法進行醫療決策。醫學在基礎及臨床研究兩方面都有悠久的傳統,至少可以追溯到阿維森納[4][5]。早期對醫學統計方法的評論發表在1835年[6]。
然而,過去將研究結果納入醫療決策的過程還是非常主觀[來源請求]。針對個別患者進行決策的傳統方法,被稱為「臨床判斷」和「醫學藝術」,這個方法由各醫師決定參考哪些研究證據(如果有的話),以及如何將證據與個人信仰和其他因素整合起來[來源請求]。適用於患者群體或族群的決策,通常會由專家委員會制定,但沒有正式的流程決定研究證據如何選擇,及如何與委員會成員的信仰整合[來源請求]。有一個隱含假設,決策者和政策制定者將根據他們的教育、經驗和進行中的研究等可適用的相關文獻,將以上實證與他們的思維結合[來源請求]。
自1960年代末起,傳統醫療決策出現許多問題。1967 年阿爾文·芬因斯坦(Alvan Feinstein)的著作《臨床判斷》聚焦於臨床推理的角色,並尋找可能影響它的偏誤[7]。阿奇·考科藍(Archie Cochrane)在 1972 年出版《效能和效率》,描述許多缺乏對照試驗支持但過去認為可能有效的診療方式[8]。傑翰·溫堡(John Wennberg)在 1973 年開始記錄醫生診療上的廣泛差異[9]。到1980 年代,大衛·M·艾迪(David M. Eddy)描述臨床推理上的錯誤和與證據間的鴻溝[10][11][12][13]。到 1980 年代中期,芬因斯坦、大衛·薩克特(David Sackett)等人發表教科書《臨床流行病學》,認為醫師決策應採用流行病學方法[14][15]。到 1980 年代末,蘭德公司的一個小組顯示,即使按照專家自己的標準,醫師們執行的大部分處置並不合格[16]。這領域的研究讓我們更瞭解醫療決策的弱點,不論是針對個別患者或整個族群,並為後續的導入實證方法鋪路。
目前「實證醫學」一辭有兩個主要分支。時序上,首先是指「在發布臨床診療指引和其他族群層次政策時,堅持對有效性證據進行明確評估」。第二是「將流行病學方法導入醫學教育和個別患者層面的決策」[來源請求]。
大衛·艾迪在他的課程中首次使用「實證」(evidence-based,以證據為基礎)一辭,課程主題是族群層次的政策,包括新技術的臨床診療指引和保險給付。1987 年,他在醫學專科學會委員會委託的研討會和手冊中首次使用「實證」來教授臨床診療指引設計的正式方法。該手冊在 1980 年代後期以未發表形式廣為流傳,最終由美國醫學院出版[17][18]。1990年3月艾迪在《美國醫學會雜誌》發表的文章,首次使用「實證」一辭,同時闡述實證指引和族群層次政策的原則,並描述為「明確描述與政策相關的現有證據,並將政策與實證聯系起來。有意識地將政策根基於實驗證據,而非當前做法或專家信念。政策必須與實證一致並有實證支持。必須找到、描述並分析相關證據。政策制定者必須確定政策是否與實證相符,並寫出理由[19]」。1990年春季,他在《美國醫學會雜誌》發表的其他論文中討論「實證」政策[19][20]。這系列論文共 28 篇,1990 至 1997 年間發表在《美國醫學會雜誌》上,主題在族群層次,設計指引和政策的正式方法[21]。
「實證醫學」一辭,稍晚導入醫學教育。這分支源於臨床流行病學。1990年秋天,麥克馬斯特大學的戈登·蓋亞特( Gordon Guyatt)在未發表的課程說明中使用這個辭[22],課程是針對未來或新進的醫學生。蓋亞特等人在兩年後(1992年)首次發表這個術語,用來描述一種教授醫學診療的新方法[1]。
1996年,大衛·薩克特等人清楚定義這分支的實證醫學為「照護個別患者時,決策時應認真、明確且審慎地使用現有的最佳證據…這表示需整合個人臨床專業和源自系統性研究產生的最佳外部臨床證據[23]」。這分支的實證醫學,利用充分反映研究的證據,使針對個人的決策更有結構化且更客觀[24][25]。應用族群數據於個別病患照護[26],同時尊重臨床工作者具有專業知識的實情,反映在有效果和有效率的診斷,周全地識別且體貼地考量個別患者的困境、權利和偏好[23]。
此支系的實證醫學源於臨床流行病學,此學科教授醫療工作者如何應用臨床和流行病學研究診療。在 1993 至 2000 年間,麥克馬斯特大學的實證醫學工作小組為廣大醫師讀者群,在《美國醫學會雜誌》發表一系列共 25 篇的〈醫學文獻用戶指引〉。1995年,羅森伯格(Rosenberg)和唐納德(Donald)為針對個人的實證醫學定義為「尋找、評估和使用當代研究成果作為醫學決策基礎的過程[27]」。2010年,格蘭格(Greenhalgh)使用一個強調定量方法的定義:「由高品質研究中的族群樣本,求得效益和傷害風險的數學估計值,做為診斷、評估或處置個別患者的臨床決策信息[28]」。針對個人層級的實證醫學還有許多其他定義,但薩克特等人的定義是最常被引用的[23]。
這兩個實證醫學原始定義[哪個/哪些?]的重要差異,主要在於應用對象是族群或個人。當設計適用於一大群人的指引時,個別醫生少有機會修改的機會,實證政策制定強調應有良好的證據支持檢驗或治療的效果[29]。在為個人決策時,臨床工作者可更自由地解讀研究,並與其臨床判斷整合[23][30]。2005年,艾迪為實證醫學的兩個分支提供一個總括定義:「實證醫學是一套原則和方法,旨在確保制定醫療決策、指引和其他類型的政策時,盡最大可能根據有效果與效益的良好證據,並與之一致[31]。」
實證醫學的兩個分支傳播迅速。在實證指引和政策方面,1980年美國癌症協會開始明確堅持有效性證據[32]。1984年起美國預防服務工作小組(英語:the U.S. Preventive Services Task Force,縮寫作 USPSTF)開始根據實證原則發布預防性處置指引[33]。1985年,藍十字藍盾協會以嚴格的實證標準評估新技術[34]。1987年起,美國醫師學會等專科協會,和美國心臟協會等自願者健康組織,編寫許多實證指引。1991年,美國管理式醫療機構凱薩醫療機構開始實證指引計劃[35]。1991年,理察·史密斯(Richard Smith)在《英國醫學雜誌》發表一篇社論,介紹英國的實證政策[36]。1993年,考科藍合作組織建立由13個國家組成的網絡,製作系統性回顧和指引[37]。1997年,美國醫療保健研究和品質機構(AHRQ,後來的健康保健政策和研究機構或 AHCPR)建立實證診療中心,製作支持指引發展的實證報告和科技評估[38]。同年 AHRQ、AMA 和美國健康計劃協會(現為美國健康保險計劃)建立遵從實證政策原則的國家指引交換機構[39]。1999年,英國成立英國國家健康照護卓越研究院(NICE)[40]。這個實證醫學分支的核心思想是:證據應根據實驗設計的嚴謹程度分類,再由證據強度決定建議強度。
醫學教育端,加拿大、美國、英國、澳洲和其他國家的醫學院成立教授實證醫學的課程[41][42]。一個2009年針對英國課程的研究發現,半數以上的英國醫學院有某種實證醫學訓練課程,儘管授課的方法和內容差異很大,教學受課程時間不足限制,缺乏訓練有素的導師和教材[43]。已發展許多項目協助個別醫師更便利地取得實證。如,在 1990 年代開發的 UpToDate[44]。考科藍合作組織自 1993 年起發表證據評論[35]。BMJ 出版集團在 1995 年出版名為《臨床證據》的半年刊,針對臨床醫師在意的重要臨床問題,提供現有實證的精要摘錄[45]。從那時起,還發展許多計劃,協助臨床工作者更容易取得實證。
21世紀初期,「實證醫學」一辭既用於實證指引的發展,也用於教授從業人員實證醫學的計劃。到 2000 年,「實證醫學」已成為強調應用實證於族群和個人層級決策的總稱。隨後數年,「實證」一辭已擴展到醫療保健系統的其他層面。例如:「實證衛生服務」,旨在提高衛生服務決策者的能力,並在組織或機構層面應用實證醫學[46]。這個概念也蔓延到醫療保健以外;如,1996 年皇家統計學會主席阿德裏安·史密斯(Adrian Smith),在就職演說提出「應該為教育、監獄和警務政策及政府工作的所有領域建立『實證政策』」[來源請求]。
實證醫學的多個分支強調將正式研究證據納入醫療政策和決策的重要性。但在推廣指引或給付政策前,各分支對有關效果好證據的需求差異很大;因此,實證醫學和科學醫學(science-based medicine)間的區別,也考慮以下因素,如:過往既定科學的合理性和相容性,就像醫療組織推廣有爭議的處置,如針灸等[47]。決策上,他們在納入個人層級信息的可行性程度也不同。因此,實證指引和政策可能無法輕易整合經驗診療(符合倫理的臨床判斷),並可能導致矛盾、競爭和意外危機[13] 。最有效的「知識領導(臨床領導和管理者)」在決策過程中使用各種管理知識,而非只有正式證據[14]。實證指引可成為健康照護治理術的基石,並在當代健康照護系統的治理中發揮核心作用[15]。
1980年代後期提出明確設計實證指引的步驟:提出問題(族群,處置,對照處置,結果,時間範圍,情境);搜尋找出可以回答問題的文獻;解讀各個研究,明確地找出它對研究問題的看法;若有數個研究探討這個問題,整合他們的結果(統合分析);在「實證列表」中總結所有證據;在「資產負債表」中比較效益、危害和花費;為偏好的診療方式下個結論;寫下指引及其背景理論;讓其他人審查前面的每個步驟;執行指引[12]。
1992年提出以醫學教育和個人層級決策為目的,執行實證醫學的五個步驟[48],2003年實證醫療保健教師和開發者會議,匯整參加者經驗總結出五個步驟,在2005年發表[49]。這五步驟大致可歸類為:
對已發表研究進行系統性評論是評估特定治療的重要部分。考科藍合作組織是進行系統性評論的最知名組織之一。與其他系統性評論的生產者一樣,它要求作者提供詳細且可重覆的文獻檢索和證據評估計劃[55]。一旦評估了所有的最佳證據,治療將可分為(1)可能有益,(2)可能有害,或(3)證據不足以支持有利或有害。
2007 年針對考科藍協作組織所有50個評論小組的1,016篇系統性評論進行的分析,研究發現 44% 的評論認為處置可能有益,7% 認為處置可能有害,49% 顯示沒有足夠的證據支持有益或有害。96% 認為需要進一步研究[56]。一篇 2001 年的評論,分析 160 篇在 1998 年資料庫中的考科藍系統性評論(排除替代治療),根據兩位研究者的評論,41% 結論是有效或可能有效,20% 認為沒效,8% 認為有害,而 21% 的評論認為證據不足[57]。針對 2004 年資料庫中的 145 篇有關替代醫學的考科藍評論的研究,結果顯示 38.4% 的結論認為有效或可能有效(12.4%),4.8% 認為無效,0.7% 認為有害,56.6% 認為證據不足[58]。2017 年研究評估考科藍協作組織出版的系統性評論對美國私人保險公司制定政策的作用,結果顯示儘管美國主要私人保險公司的醫療政策文件使用考科藍系統性評論,但仍有空間鼓勵使用更多[59]。
證據品質可依來源類型評估(來自統合分析和系統性評論,它納入有著良好盲法,完全隱匿分派,沒有追蹤遺失,沒有不當解盲,且符合一般常識的隨機臨床試驗),和其他因素ー包括統計有效性,臨床相關性,費用和同行評審。實證醫學將不同類型的臨床證據分類和評等[60],依據研究是否能免於各種會影響它的偏誤。如,證據力最強的治療處置研究是系統性評論,且需納入隨機且隱匿分派,完整追蹤,同質性高的族群和醫療情況,盲法評估的安慰劑對照試驗。相比之下,病患推薦、病例報告還是專家意見(然而,一些批評者認為專家意見「不應列於經驗證據品質排名中,因為它並不屬於某種經驗證據」,且「專家意見更像一種獨立且複雜的知識類型,不適合放在只限於經驗證據的等級之中」[61])沒有作為參考證據的價值,因為存在安慰劑效應,觀察和報告個案時固有的偏誤,難以確定誰是專家等。
許多組織發展了證據品質的評級系統。如,1989年美國預防服務工作小組提出以下建議[62]:
另一個例子是英國牛津實證中心(英語:the Centre for Evidence-Based Medicine,縮寫作 CEBM)的證據等級。它首次發表於2000年9月,為預後,診斷,治療效益,治療傷害和篩查類別的證據評等,大多數的評等系統並未處理這些問題。原始的 CEBM 等級源自《實證值班》(英語:Evidence-Based On Call),它的目的在使尋找證據的過程可行且結果明確。2011年,一個國際團隊重新設計牛津證據等級,使它更易理解,並納入證據評等系統的最新發展。牛津證據等級被患者和臨床醫師使用,也用於制定臨床指引,包括:在銀屑病有效使用光療和局部治療的建議[63],及使用BCLC分期系統診斷和追蹤肝細胞癌的加拿大指引[64]。
2000年,證據等級評比系統(簡稱GRADE,是 Grading of Recommendations Assessment, Development and Evaluation 的縮寫)工作小組發展一個系統,除了醫學研究的品質外,還考慮更多維度[65]。它要求使用 GRADE 評估證據品質時,通常是系統性評論的一部分,考慮不同因素對結果信心水平的影響。研究者根據觀察效果(數值)與可能的真實效果間的近似程度,產生信心值,依此利用 GRADE 將證據品質分為四級。信心值根據五個不同領域,以結構化方式計算[66]。GRADE 工作小組依研究品質定義「證據品質」和「建議強度」,這兩個是不同的概念,但卻常常相互混淆[66]。
系統性評論可能納入低偏誤風險的隨機對照試驗,或具高偏誤風險的觀察型研究。以隨機對照試驗為例,屬高證據品質,但在五個不同領域可被降級[67]。
若是觀察型研究,證據品質依 GRADE 起始評分較低,除了可能易被降級外,亦可以依三個領域的情況升級[67]。
GRADE 證據品質強度代表的含義[66]:
對臨床服務提供建議的指引和其他出版品,在平衡風險與效益,考量信息所依據的證據等級進行分類。美國預防服務工作小組使用[68]:
GRADE 指引小組成員可根據其它標準提出強烈或薄弱建議。一些重要條件,包括:平衡好處和不良反應(不考慮費用),證據品質,價值、偏好及費用(耗費的資源)[67]。
儘管各評量系統存有差異,但宗旨一致:指導臨床研究信息的使用者,哪些研究可能最可信。然而,個別研究仍需經過嚴格評讀。
實證醫學試圖以數學方法說明檢測和治療的臨床效益。使用的工具包括:
實證醫學試圖客觀地評估臨床研究的品質,嚴格評讀研究人員在論文中報告的技術。
雖然實證醫學被視為臨床診療的黃金標準,但仍有許多限制和批評[70][71]。各種針對EBM發表的批評,廣為引用的分類系統有兩種,包括史特勞斯(Straus)和麥克亞利斯特(McAlister)的三分法(醫學診療普遍存在限制,實證醫學特有的限制,和對實證醫學的誤解[72])和柯恩(Cohen),斯塔夫里(Stavri)和赫許(Hersh)的五點分類(實證醫學是醫學的一種不良哲學基礎,證據定義太狹隘,沒有實證根據,應用於個別患者時實用性有限,減少醫病關系的自主權[73])。
一些已發表的反對意見,無特別排序,包括:
一個2018年研究,以〈為什麽所有隨機對照試驗產生具偏誤見的結果〉為題,評估10篇引用率最高的RCTs,認為試驗面臨廣泛的偏誤和限制,包括:試驗只適合研究易於隨機化的一小組問題,通常只能評估樣本的平均治療效果,將結果外推到其它情境時的限制,還有其它問題總結在研究中[70]。
實證醫學有個不斷挑戰,部分臨床工作者不依實證診療。這種情況發生的部分原因是支持或反對當前治療的證據結論不斷變化,要了解每個變化並不可能[85]。例如,2003到2017年間,有數百種醫學診療的實證結論改變,從激素替代療法是否安全,到嬰兒是否應該服用某些維生素,以及抗憂鬱藥對阿茲海默症是否有效[86]。即使證據明確反對治療,通常需經過十年才會採用其他治療[85]。在其他情況,可能需要等一個世代的醫師退休或死亡,並由接受最新實證培訓的醫師取代後才有重大變化[85]。
醫師和其他醫療服務提供者依無實證支持的方式治療患者的另一個主因是這些醫療人員與所有其他人一樣受到相同的認知偏誤影響。他們可能會拒絕實證,因為對罕見但令人震驚的結果有著鮮明記憶(可得性偏差),例如患者在拒絕治療後死亡[85]。他們可能會為了「做些什麼」或解決患者的情感需求而過度治療[85]。因患者的期望與推薦的實證間有落差,而擔心發生醫療過失告訴[85]。也可能因治療在學理上看似合理,而過度治療或提供無效治療[85]。
在醫學教育的連續過程中,提供實證醫學訓練[87]。
柏林問卷和弗雷斯諾測試[88][89]是評估實證醫學教育有效性的可信工具[90][91]。這些問卷已用於不同情境中[92][93]。
一篇納入24個試驗的坎貝爾系統性評論,評估電子學習能否改善實證健康照護的知識和應用。結果發現,與沒有學習相比,電子學習可以改善實證健康照護的知識和技能,但不會改善態度和行為。比較電子學習與面對面學習,結果沒有差異。結合電子學習與面對面學習(混合式學習),對實證知識、技能、態度和行為有積極影響[94]。與電子學習有關,醫學院學生編輯維基百科,能提高他們的實證技能[95]。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.