循证医学 - Wikiwand

實證醫學（英語：Evidence-based medicine，縮寫為 EBM），是一種醫學診療方法，它將證據依知識論上的強度分類，並要求只有強度最高的證據（如統合分析、系統性評論和隨機對照試驗）才能歸納為有力的建議證據；相對較無力的證據（如專家意見、動物實驗、細胞實驗、基本原理推論）只能歸入有力程度不高的建議。這個詞本意是闡述一種方法，用於醫學診療教學及改善不同醫師面對不同患者時的決策方式^[1]。此名稱的應用範圍快速擴大到包羅更廣的實證應用，以設計適用於患者群和整個群體的指引及政策（實證診療政策）^[2]，包含教育、管理、法律、公共政策和建築安全等其他研究領域 ^[3]。

實證醫學主張決策和政策皆應儘可能根據證據，而非單單依據從業人員、專家或管理者的信念，無論是應用在醫學教育，個人決策，適用於群體的指引和政策，還是一般健康服務的管理上。因此，它試圖確保臨床醫師（英語：clinician）的意見（可能受限於知識差距或偏誤），有基於科學文獻的所有可用知識補足，保證服務為最佳診療。實證醫學與傳統醫學的不同處是，它並不依賴於經驗主義或過往案例，提倡使用正式且明確的方法來分析證據，並提供給決策者。它推動課程向醫學生、從業人員和決策者傳授這個方法。

背景，歷史和定義

廣義來說，實證醫學是應用科學方法進行醫療決策。醫學在基礎及臨床研究兩方面都有悠久的傳統，至少可以追溯到阿維森納^[4]^[5]。早期對醫學統計方法的評論發表在1835年^[6]。

然而，過去將研究結果納入醫療決策的過程還是非常主觀^{[來源請求]}。針對個別患者進行決策的傳統方法，被稱為「臨床判斷」和「醫學藝術」，這個方法由各醫師決定參考哪些研究證據（如果有的話），以及如何將證據與個人信仰和其他因素整合起來^{[來源請求]}。適用於患者群體或族群的決策，通常會由專家委員會制定，但沒有正式的流程決定研究證據如何選擇，及如何與委員會成員的信仰整合^{[來源請求]}。有一個隱含假設（英語：Implicit assumption），決策者和政策制定者將根據他們的教育、經驗和進行中的研究等可適用的相關文獻，將以上實證與他們的思維結合^{[來源請求]}。

臨床決策

自1960年代末起，傳統醫療決策出現許多問題。1967 年阿爾文·芬因斯坦（英語：Alvan Feinstein）（Alvan Feinstein）的著作《臨床判斷》聚焦於臨床推理的角色，並尋找可能影響它的偏誤^[7]。阿奇·考科藍（英語：Archie Cochrane）（Archie Cochrane）在 1972 年出版《效能和效率》，描述許多缺乏對照試驗支持但過去認為可能有效的診療方式^[8]。傑翰·溫堡（英語：John Wennberg）（John Wennberg）在 1973 年開始記錄醫生診療上的廣泛差異^[9]。到1980 年代，大衛·M·艾迪（英語：David M. Eddy）（David M. Eddy）描述臨床推理上的錯誤和與證據間的鴻溝^[10]^[11]^[12]^[13]。到 1980 年代中期，芬因斯坦、大衛·薩克特（英語：David Sackett）（David Sackett）等人發表教科書《臨床流行病學》，認為醫師決策應採用流行病學方法^[14]^[15]。到 1980 年代末，蘭德公司的一個小組顯示，即使按照專家自己的標準，醫師們執行的大部分處置並不合格^[16]。這領域的研究讓我們更瞭解醫療決策的弱點，不論是針對個別患者或整個族群，並為後續的導入實證方法鋪路。

實證

目前「實證醫學」一辭有兩個主要分支。時序上，首先是指「在發佈臨床診療指引和其他族群層次政策時，堅持對有效性證據進行明確評估」。第二是「將流行病學方法導入醫學教育和個別患者層面的決策」^{[來源請求]}。

實證指引和政策

大衛·艾迪在他的課程中首次使用「實證」（evidence-based，以證據為基礎）一辭，課程主題是族群層次的政策，包括新技術的臨床診療指引和保險給付。1987 年，他在醫學專科學會委員會委託的研討會和手冊中首次使用「實證」來教授臨床診療指引設計的正式方法。該手冊在 1980 年代後期以未發表形式廣為流傳，最終由美國醫學院出版^[17]^[18]。1990年3月艾迪在《美國醫學會雜誌》發表的文章，首次使用「實證」一辭，同時闡述實證指引和族群層次政策的原則，並描述為「明確描述與政策相關的現有證據，並將政策與實證聯系起來。有意識地將政策根基於實驗證據，而非當前做法或專家信念。政策必須與實證一致並有實證支持。必須找到、描述並分析相關證據。政策制定者必須確定政策是否與實證相符，並寫出理由^[19]」。1990年春季，他在《美國醫學會雜誌》發表的其他論文中討論「實證」政策^[19]^[20]。這系列論文共 28 篇，1990 至 1997 年間發表在《美國醫學會雜誌》上，主題在族群層次，設計指引和政策的正式方法^[21]。

醫學教育

「實證醫學」一辭，稍晚導入醫學教育。這分支源於臨床流行病學。1990年秋天，麥克馬斯特大學的戈登·蓋亞特（英語：Gordon Guyatt）（ Gordon Guyatt）在未發表的課程說明中使用這個辭^[22]，課程是針對未來或新進的醫學生。蓋亞特等人在兩年後（1992年）首次發表這個術語，用來描述一種教授醫學診療的新方法^[1]。

1996年，大衛·薩克特等人清楚定義這分支的實證醫學為「照護個別患者時，決策時應認真、明確且審慎地使用現有的最佳證據…這表示需整合個人臨床專業和源自系統性研究產生的最佳外部臨床證據^[23]」。這分支的實證醫學，利用充分反映研究的證據，使針對個人的決策更有結構化且更客觀^[24]^[25]。應用族群數據於個別病患照護^[26]，同時尊重臨床工作者具有專業知識的實情，反映在有效果和有效率的診斷，周全地識別且體貼地考量個別患者的困境、權利和偏好^[23]。

此支系的實證醫學源於臨床流行病學，此學科教授醫療工作者如何應用臨床和流行病學研究診療。在 1993 至 2000 年間，麥克馬斯特大學的實證醫學工作小組為廣大醫師讀者群，在《美國醫學會雜誌》發表一系列共 25 篇的〈醫學文獻用戶指引〉。1995年，羅森伯格（Rosenberg）和唐納德（Donald）為針對個人的實證醫學定義為「尋找、評估和使用當代研究成果作為醫學決策基礎的過程^[27]」。2010年，格蘭格（英語：Trisha Greenhalgh）（Greenhalgh）使用一個強調定量方法的定義：「由高品質研究中的族群樣本，求得效益和傷害風險的數學估計值，做為診斷、評估或處置個別患者的臨床決策信息^[28]」。針對個人層級的實證醫學還有許多其他定義，但薩克特等人的定義是最常被引用的^[23]。

這兩個實證醫學原始定義^{[哪個／哪些？]}的重要差異，主要在於應用對象是族群或個人。當設計適用於一大群人的指引時，個別醫生少有機會修改的機會，實證政策制定強調應有良好的證據支持檢驗或治療的效果^[29]。在為個人決策時，臨床工作者可更自由地解讀研究，並與其臨床判斷整合^[23]^[30]。2005年，艾迪為實證醫學的兩個分支提供一個總括定義：「實證醫學是一套原則和方法，旨在確保制定醫療決策、指引和其他類型的政策時，盡最大可能根據有效果與效益的良好證據，並與之一致^[31]。」

進展

實證醫學的兩個分支傳播迅速。在實證指引和政策方面，1980年美國癌症協會開始明確堅持有效性證據^[32]。1984年起美國預防服務工作小組（英語：the U.S. Preventive Services Task Force，縮寫作 USPSTF）開始根據實證原則發佈預防性處置指引^[33]。1985年，藍十字藍盾協會以嚴格的實證標準評估新技術^[34]。1987年起，美國醫師學會等專科協會，和美國心臟協會等自願者健康組織，編寫許多實證指引。1991年，美國管理式醫療機構凱薩醫療機構（英語：Kaiser Permanente）開始實證指引計劃^[35]。1991年，理查德·史密斯（Richard Smith）在《英國醫學雜誌》發表一篇社論，介紹英國的實證政策^[36]。1993年，考科藍合作組織建立由13個國家組成的網絡，製作系統性回顧和指引^[37]。1997年，美國醫療保健研究和品質機構（AHRQ，後來的健康保健政策和研究機構或 AHCPR）建立實證診療中心，製作支持指引發展的實證報告和科技評估^[38]。同年 AHRQ、AMA 和美國健康計劃協會（現為美國健康保險計劃）建立遵從實證政策原則的國家指引交換機構（英語：National Guideline Clearinghouse）^[39]。1999年，英國成立英國國家健康照護卓越研究院（NICE）（英語：National Institute for Health and Care Excellence）^[40]。這個實證醫學分支的核心思想是：證據應根據實驗設計的嚴謹程度分類，再由證據強度決定建議強度。

醫學教育端，加拿大、美國、英國、澳洲和其他國家的醫學院成立教授實證醫學的課程^[41]^[42]。一個2009年針對英國課程的研究發現，半數以上的英國醫學院有某種實證醫學訓練課程，儘管授課的方法和內容差異很大，教學受課程時間不足限制，缺乏訓練有素的導師和教材^[43]。已發展許多項目協助個別醫師更便利地取得實證。如，在 1990 年代開發的 UpToDate^[44]。考科藍合作組織自 1993 年起發表證據評論^[35]。BMJ 出版集團在 1995 年出版名為《臨床證據》的半年刊，針對臨床醫師在意的重要臨床問題，提供現有實證的精要摘錄^[45]。從那時起，還發展許多計劃，協助臨床工作者更容易取得實證。

目前做法

21世紀初期，「實證醫學」一辭既用於實證指引的發展，也用於教授從業人員實證醫學的計劃。到 2000 年，「實證醫學」已成為強調應用實證於族群和個人層級決策的總稱。隨後數年，「實證」一辭已擴展到醫療保健系統的其他層面。例如：「實證衛生服務」，旨在提高衛生服務決策者的能力，並在組織或機構層面應用實證醫學^[46]。這個概念也蔓延到醫療保健以外；如，1996 年皇家統計學會主席阿德裏安·史密斯（Adrian Smith），在就職演說提出「應該為教育、監獄和警務政策及政府工作的所有領域建立『實證政策（英語：evidence-based policy）』」^{[來源請求]}。

實證醫學的多個分支強調將正式研究證據納入醫療政策和決策的重要性。但在推廣指引或給付政策前，各分支對有關效果好證據的需求差異很大；因此，實證醫學和科學醫學（science-based medicine）間的區別，也考慮以下因素，如：過往既定科學的合理性和相容性，就像醫療組織推廣有爭議的處置，如針灸等^[47]。決策上，他們在納入個人層級信息的可行性程度也不同。因此，實證指引和政策可能無法輕易整合經驗診療（符合倫理的臨床判斷），並可能導致矛盾、競爭和意外危機^[13] 。最有效的「知識領導（臨床領導和管理者）」在決策過程中使用各種管理知識，而非只有正式證據^[14]。實證指引可成為健康照護治理術的基石，並在當代健康照護系統的治理中發揮核心作用^[15]。

方法

步驟

1980年代後期提出明確設計實證指引的步驟：提出問題（族群，處置，對照處置，結果，時間範圍，情境）；搜尋找出可以回答問題的文獻；解讀各個研究，明確地找出它對研究問題的看法；若有數個研究探討這個問題，整合他們的結果（統合分析）；在「實證列表」中總結所有證據；在「資產負債表」中比較效益、危害和花費；為偏好的診療方式下個結論；寫下指引及其背景理論；讓其他人審查前面的每個步驟；執行指引^[12]。

1992年提出以醫學教育和個人層級決策為目的，執行實證醫學的五個步驟^[48]，2003年實證醫療保健教師和開發者會議，匯整參加者經驗總結出五個步驟，在2005年發表^[49]。這五步驟大致可歸類為：

將不確定性轉化成一個可回答的問題，包括批判性審問，研究設計和證據強度^[50]；問題會依其特質，分為背景和前景問題兩大類，前景問題常以前景問題格式表示。
系統性檢索現有的最佳證據^[51]
嚴格評讀證據的內部效度，並可分解為^[52]：
- 因選擇偏誤，信息偏誤和干擾因素而產生的系統性誤差
- 診斷和治療的定量結果
- 效應值及其精確度
- 結果的臨床重要性
- 外部效度或可推廣性
應用結果在臨床診療中^[53]
成效評估^[54]

實證評論

對已發表研究進行系統性評論是評估特定治療的重要部分。考科藍合作組織是進行系統性評論的最知名組織之一。與其他系統性評論的生產者一樣，它要求作者提供詳細且可重覆的文獻檢索和證據評估計劃^[55]。一旦評估了所有的最佳證據，治療將可分為（1）可能有益，（2）可能有害，或（3）證據不足以支持有利或有害。

2007 年針對考科藍協作組織所有50個評論小組的1,016篇系統性評論進行的分析，研究發現 44％的評論認為處置可能有益，7％認為處置可能有害，49％顯示沒有足夠的證據支持有益或有害。96％認為需要進一步研究^[56]。一篇 2001 年的評論，分析 160 篇在 1998 年資料庫中的考科藍系統性評論（排除替代治療），根據兩位研究者的評論，41％結論是有效或可能有效，20％認為沒效，8％認為有害，而 21％的評論認為證據不足^[57]。針對 2004 年資料庫中的 145 篇有關替代醫學的考科藍評論的研究，結果顯示 38.4％的結論認為有效或可能有效（12.4％），4.8％認為無效，0.7％認為有害，56.6％認為證據不足^[58]。2017 年研究評估考科藍協作組織出版的系統性評論對美國私人保險公司制定政策的作用，結果顯示儘管美國主要私人保險公司的醫療政策文件使用考科藍系統性評論，但仍有空間鼓勵使用更多^[59]。

評估證據品質

證據品質可依來源類型評估（來自統合分析和系統性評論，它納入有着良好盲法，完全隱匿分派（英語：allocation concealment），沒有追蹤遺失（英語：attrition (epidemiology)），沒有不當解盲，且符合一般常識（英語：conventional wisdom）的隨機臨床試驗），和其他因素ー包括統計有效性，臨床相關性，費用和同行評審。實證醫學將不同類型的臨床證據分類和評等^[60]，依據研究是否能免於各種會影響它的偏誤。如，證據力最強的治療處置研究是系統性評論，且需納入隨機且隱匿分派，完整追蹤，同質性高的族群和醫療情況，盲法評估的安慰劑對照試驗（英語：placebo-controlled trials）。相比之下，病患推薦、病例報告還是專家意見（然而，一些批評者認為專家意見「不應列於經驗證據品質排名中，因為它並不屬於某種經驗證據」，且「專家意見更像一種獨立且複雜的知識類型，不適合放在只限於經驗證據的等級之中」^[61]）沒有作為參考證據的價值，因為存在安慰劑效應，觀察和報告個案時固有的偏誤，難以確定誰是專家等。

許多組織發展了證據品質的評級系統。如，1989年美國預防服務工作小組提出以下建議^[62]：

I 級：證據來自至少一個設計良好的隨機對照試驗。
II-1 級：證據來自未隨機化（英語：randomization），設計良好的對照試驗。
II-2 級：證據來自設計良好的世代研究或病例對照研究，最好包含一個以上的醫療中心或研究群組。
II-3級：證據來自多個時間序列研究不論是否有處置介入。有特別顯著結果的無對照試驗也納入這一級。
III 級：意見來自受尊敬的權威人士、臨床經驗、描述性研究或專家委員會報告。

另一個例子是英國牛津實證中心（英語：the Centre for Evidence-Based Medicine，縮寫作 CEBM）的證據等級。它首次發表於2000年9月，為預後，診斷，治療效益，治療傷害和篩查類別的證據評等，大多數的評等系統並未處理這些問題。原始的 CEBM 等級源自《實證值班》（英語：Evidence-Based On Call），它的目的在使尋找證據的過程可行且結果明確。2011年，一個國際團隊重新設計牛津證據等級，使它更易理解，並納入證據評等系統的最新發展。牛津證據等級被患者和臨床醫師使用，也用於制定臨床指引，包括：在銀屑病有效使用光療和局部治療的建議^[63]，及使用BCLC分期系統診斷和追蹤肝細胞癌的加拿大指引^[64]。

2000年，證據等級評比系統（簡稱GRADE，是 Grading of Recommendations Assessment, Development and Evaluation 的縮寫）工作小組發展一個系統，除了醫學研究的品質外，還考慮更多維度^[65]。它要求使用 GRADE 評估證據品質時，通常是系統性評論的一部分，考慮不同因素對結果信心水平的影響。研究者根據觀察效果（數值）與可能的真實效果間的近似程度，產生信心值，依此利用 GRADE 將證據品質分為四級。信心值根據五個不同領域，以結構化方式計算^[66]。GRADE 工作小組依研究品質定義「證據品質」和「建議強度」，這兩個是不同的概念，但卻常常相互混淆^[66]。

系統性評論可能納入低偏誤風險的隨機對照試驗，或具高偏誤風險的觀察型研究。以隨機對照試驗為例，屬高證據品質，但在五個不同領域可被降級^[67]。

偏誤風險（英語：Risk of bias）：根據納入研究的效果估計值受偏誤影響的可能性決定。
不精密（英語：Imprecision）：根據觀察的效果估計值可能完全改變的可能性決定。
間接性（英語：Indirectness）：根據研究如何執行的特色與結果將實際應用的方式，依兩者的差異決定。
不一致（英語：Inconsistency）：根據納入各研究結果間的變異量決定。
出版偏差（英語：Publication bias）：根據是否所有研究證據皆納入考慮決定。

若是觀察型研究，證據品質依 GRADE 起始評分較低，除了可能易被降級外，亦可以依三個領域的情況升級^[67]。

效益很大：當方法學佳的研究觀察到的效果大到結果完全改變的機會極小。
可能的干擾將改變效益：儘管可能的干擾因素存在，預期將會降低觀察到的效益，但效益估計值仍然顯著。
劑量反應梯度：處置的療效隨使用劑量增加而變大。劑量若再增加，產生的效果可能更大。

GRADE 證據品質強度代表的含義^[66]：

高品質證據：作者非常有信心，呈現的估計值非常接近真實數值。可解釋為「未來研究會完全改變結論的可能性極低」。
中品質證據：作者有信心，呈現的估計值接近真實數值，但也可能不同。可解釋為「未來研究可能會完全改變結論」。
低品質證據：作者對結果估計值沒有信心，估計值與真實數值可能不同。可解釋為「未來研究很可能會完全改變結論」。
非常低品質證據：作者對結果估計值沒有任何信心，估計值將與真實數值不同。可解釋為「未來研究將很有可能會完全改變結論」。

建議等級

對臨床服務提供建議的指引和其他出版品，在平衡風險與效益，考量信息所依據的證據等級進行分類。美國預防服務工作小組使用^[68]：

A 級：好的科學證據顯示，臨床服務的好處大大超過潛在的風險。臨床醫師應與符合條件的患者討論服務。
B 級：至少一般的科學證據顯示，臨床服務的好處超過潛在的風險。臨床醫生應與符合條件的患者討論服務。
C 級：至少一般的科學證據顯示，臨床服務有好處，但與風險差異太小，而無法提供一般性建議。除非有特別考量，否則臨床醫師不需要提供。
D 級：至少一般的科學證據顯示，臨床服務的風險大於潛在好處。臨床醫師不應常規為無徵狀患者提供服務。
I 級：科學證據缺乏、品質不佳或結論相沖突，因此無法評估風險與好處的差異。臨床醫師應幫助患者了解臨床服務的不確定性。

GRADE 指引小組成員可根據其它標準提出強烈或薄弱建議。一些重要條件，包括：平衡好處和不良反應（不考慮費用），證據品質，價值、偏好及費用（耗費的資源）^[67]。

儘管各評量系統存有差異，但宗旨一致：指導臨床研究信息的使用者，哪些研究可能最可信。然而，個別研究仍需經過嚴格評讀。

統計量

實證醫學試圖以數學方法說明檢測和治療的臨床效益。使用的工具包括：

相似比：特定診斷的前測勝算（英語：pre-test odds）乘相似比，等於後測勝算（英語：pre- and post-test probability）（勝算可與大家更熟悉的概率轉換計算）。這是貝氏定理的體現。相似比和臨床檢測不同，前者可在特定臨床情境依臨床檢測的有效性安排優先順序。
AUC-ROC：接收者操作特徵曲線下面積（英語：the area under the receiver operating characteristic curve，縮寫作 AUC-ROC），代表特定檢測，其靈敏度和特異度間的關係。高品質的檢測，AUC-ROC會很接近1，且有關臨床檢測的高品質研究將提供AUC-ROC的信息。區別陽性和陰性檢測結果的閾值會影響靈敏度和特異度，但不會影響AUC-ROC。
益一需治數（英語：Number needed to treat）（英語：Number needed to treat，縮寫作 NNT）／害一需治數（英語：Number needed to harm）（英語：Number needed to harm，縮寫作 NNH）：兩者是以臨床意義大小的方式，分別說明處置的療效和安全性。NNT是指要有一患者得到想到的結果（如：癌症存活）時，所需治療的人數。例如，如果治療增加存活概率5％，那麽需要治療20個人，才能使另外1名患者因治療而存活。這概念也可用在診斷檢驗上。例如，為了防止一名婦女死於乳腺癌，需要邀請1339位女性，年齡在50ー59歲之間，進行乳腺癌篩檢十年^[69]，那麽邀請參加乳腺癌篩檢的NNT是1339。

臨床試驗的品質

此章節尚無參考來源，內容或許無法查證。 (2017年6月1日)

實證醫學試圖客觀地評估臨床研究的品質，嚴格評讀研究人員在論文中報告的技術。

試驗設計考量：高品質研究有明確定義的入選標準，並且數據遺失最少。
推廣性考量：研究可能僅適用於少數符合定義的病患族群，因此可能無法推廣至其他臨床情境。
追蹤：有足夠的時間讓定義的結果發生，會影響前瞻性研究的結果和區分治療組與對照組間差異的統計檢定力。
檢定力：一種數學計算，可以決定患者數量是否足以區別治療組間的差異。陰性研究可能是無效，或只是沒有足夠的患者數量突顯其差異。

限制和批評

雖然實證醫學被視為臨床診療的黃金標準（英語：gold standard (test)），但仍有許多限制和批評^[70]^[71]。各種針對EBM發表的批評，廣為引用的分類系統有兩種，包括史特勞斯（Straus）和麥克亞利斯特（McAlister）的三分法（醫學診療普遍存在限制，實證醫學特有的限制，和對實證醫學的誤解^[72]）和柯恩（Cohen），斯塔夫里（Stavri）和赫許（Hersh）的五點分類（實證醫學是醫學的一種不良哲學基礎，證據定義太狹隘，沒有實證根據，應用於個別患者時實用性有限，減少醫病關系的自主權^[73]）。

一些已發表的反對意見，無特別排序，包括：

實證醫學的理論理想（納入數個RCT的統合分析和系統性評論可能回答每個狹小的臨床問題，有數十萬個這樣的問題存在）面臨限制，如：昂貴的研究（特別是RCT）；因此，實際上，在可預見的未來，對實證的需求總是遠遠超過供給，人類最好依優先級分類應用稀缺的資源。
研究產生實證醫學，如來自隨機對照試驗（RCT），可能無法符合所有的治療情境^[74]。研究傾向於關注特定族群，但個人可能與一般大眾差異很大。由於某些族群在歷史上一直未被充分研究（少數族裔和患有共病者），來自RCT的證據可能無法推廣到這些人^[75]。因此，應用實證到某群人，不應妨礙臨床醫師依個人經驗決定如何治療個別患者。一位作者提到「從臨床研究中獲得的知識，無法直接回答最適合身旁患者的主要臨床問題」，並建議實證醫學不應低估臨床經驗的價值^[61]。另一位作者指出「應用實證醫學等於整合個人臨床專業知識，和來自系統性評論的最佳外部臨床證據^[76]。」
研究可能受偏誤影響，包括：出版偏誤和學術出版中的利益衝突（英語：conflict of interest in academic publishing）。例如，研究若有業界資金贊助而產生的衝突，結論更可能偏向他們的產品^[77]^[78]。
RCT由進行到結果發表，有時間延滯^[79]。
結果發表到結果能正確應用，有時間延滯^[80]。
認知不足（英語：Hypocognition）（缺乏新信息可代入的一個簡易且穩固的心理框架）可能會阻礙實證醫學的應用^[81]。
價值觀：雖然實證醫學的原始定義納入患者價值觀，但在實證醫學的訓練中並未普遍強調價值觀的重要性，這是當前研究的一個潛在問題^[82]^[83]^[84]。

一個2018年研究，以〈為什麽所有隨機對照試驗產生具偏誤見的結果〉為題，評估10篇引用率最高的RCTs，認為試驗面臨廣泛的偏誤和限制，包括：試驗只適合研究易於隨機化的一小組問題，通常只能評估樣本的平均治療效果，將結果外推到其它情境時的限制，還有其它問題總結在研究中^[70]。

臨床的實證應用

實證醫學有個不斷挑戰，部分臨床工作者不依實證診療。這種情況發生的部分原因是支持或反對當前治療的證據結論不斷變化，要了解每個變化並不可能^[85]。例如，2003到2017年間，有數百種醫學診療的實證結論改變，從激素替代療法是否安全，到嬰兒是否應該服用某些維生素，以及抗憂鬱藥對阿茲海默症是否有效^[86]。即使證據明確反對治療，通常需經過十年才會採用其他治療^[85]。在其他情況，可能需要等一個世代的醫師退休或死亡，並由接受最新實證培訓的醫師取代後才有重大變化^[85]。

醫師和其他醫療服務提供者依無實證支持的方式治療患者的另一個主因是這些醫療人員與所有其他人一樣受到相同的認知偏誤影響。他們可能會拒絕實證，因為對罕見但令人震驚的結果有着鮮明記憶（可得性偏差），例如患者在拒絕治療後死亡^[85]。他們可能會為了「做些什麼」或解決患者的情感需求而過度治療^[85]。因患者的期望與推薦的實證間有落差，而擔心發生醫療過失告訴^[85]。也可能因治療在學理上看似合理，而過度治療或提供無效治療^[85]。

教育

在醫學教育的連續過程中，提供實證醫學訓練^[87]。

柏林問卷和弗雷斯諾測試^[88]^[89]是評估實證醫學教育有效性的可信工具^[90]^[91]。這些問卷已用於不同情境中^[92]^[93]。

一篇納入24個試驗的坎貝爾系統性評論，評估電子學習能否改善實證健康照護的知識和應用。結果發現，與沒有學習相比，電子學習可以改善實證健康照護的知識和技能，但不會改善態度和行為。比較電子學習與面對面學習，結果沒有差異。結合電子學習與面對面學習（混合式學習），對實證知識、技能、態度和行為有積極影響^[94]。與電子學習有關，醫學院學生編輯維基百科，能提高他們的實證技能^[95]。

參見

軼事證據
臨床決策支持系統
臨床流行病學
醫療共識
流行病學
實證牙醫學（英語：Evidence-based dentistry）
實證設計（英語：Evidence-based design）
實證護理（英語：Evidence-based nursing）
實證政策（英語：Evidence-based policy）
實證應用
實證研究
醫學算法（英語：Medical algorithm）
個人化醫學（英語：Personalized medicine）
政策導向的證據製作（英語：Policy-based evidence making）
精準醫學
病人安全
轉化醫學

參考文獻

Loading content...

參考書目

Loading content...

外部連結

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.