證據等級,或稱證據金字塔(英語:levels of evidence,常以縮寫LOE代表;或 英語:hierarchy of evidence),係指以啟發法為科學研究結果的相對強度來進行排名。針對大型流行病學研究的相對強度排名已廣獲普遍認可;目前用以評估醫學證據所提出的等級,已超過80種以上[1]。研究的設計方法和及試驗指標也會影響證據強度;前者例如特定病人的案例報告或依盲法進行的隨機對照試驗,後者例如存活率或生活品質。臨床研究中,治療效能的最佳證據,主要就是基於統整有多篇隨機對照實驗的統合分析[2][3]。統合了高品質的完整隨機對照試驗之系統性回顧,和囊括了治療副作用的高品質完整觀察型研究之系統性回顧,二者相較的話,其等級可評估為相同重要。前者的例子即為考科藍實證醫學資料庫所發表的文章[4]。實證應用中經常應用證據等級,並將其整合至實證醫學之中。
定義
2014年,斯特根加(Stegenga)將證據金字塔定義為「依各種研究方法所受到潛在的系統誤差之影響的大小,來進行證據等級排序。」在此證據金字塔中,位居頂端的研究方法,在經驗證的醫學處置中對假設性的療效,所受系統性偏誤影響最小,或者說它的內部效度最高[5]:313。1997年,格林哈爾(Greenhalgh)稱證據品質金字塔為「在臨床處置的決策時,所依循的原始研究,依不同的研究方法類型,分別代表的相對權重[6]。」
美國國家癌症研究所將證據等級定義為「一種排名系統,用來描述臨床試驗或研究的結果強度。研究設計的方法和所測量的臨床指標,都會影響到證據強度[7]。」
例子
現今已經提出許多評估證據等級的方法,但用於評估研究品質的類似草案仍在發展中。目前可用的草案較少關注於結果研究比較關注於「治療效能」(efficacy,即理想狀態下,治療得到的結果)或是「治療效益」(effectiveness,在一般日常、可預期狀態下治療得到的結果)。
建議強度評比系統,全稱「建議強度的評估、發展和評價分級」(GRADE,Grading of Recommendations Assessment, Development and Evaluation)是一種評估證據確定性(也稱為「證據品質」或「對預估效果的可信度」)和建議強度的方法[8]。建議強度評比始於2000年,由方法學家、指引制定者、生物統計學家、臨床醫生、公共衛生科學家和其他對此議題有興趣的成員組成。
超過100個組織(包括世界衛生組織、英國國家健康與照顧卓越研究院(NICE)、加拿大衛生保健預防工作小組(the Canadian Task Force for Preventive Health Care)、哥倫比亞衛生和社會保障部等)認同且已使用或正在使用建議強度評比系統來評估證據品質和衛生保健建議的強度[9][10]。
高 | 非常有把握觀察值接近實際值。 |
中 | 對觀察值有中等把握:觀察值可能接近實際值,但也可能存有顯著差異。 |
低 | 對觀察值的把握有限:觀察值可能和實際值顯著不同。 |
極低 | 對觀察值沒有把握:觀察值和實際值極有可能顯著不同。 |
1995年,蓋亞特(Guyatt)和薩克特(Sackett)發表第一個這樣的金字塔層級架構[13]。
格林哈爾(Greenhalgh)將不同類型的初級研究按以下順序排列:[6]
桑德斯(Saunders)等人提出草案建議將研究報告分為六大類,依:研究設計、理論背景、可能產生的傷害及大眾的接受度。依這個草案進行分類時,處置必須有敘述性的文獻發表,包含手冊或類似的描述。此草案並不考量對照組的特質、干擾因子的效果、統計分析的特性或是各種其他的條件。
處置可被評估而分為以下六類:[14]
- 第一類:有優良研究支持且療效顯著的處置。指有兩個或是以上的隨機對照試驗,比較目標處置和一個合適的對照組,且目標處置的療效顯着地優於對照組。
- 第二類:有研究支持且可能有療效的處置。根據非隨機分組,有某種類型的對照組(可能是未接受治療的對照組),且研究結果有顯著療效。
- 第三類:有研究支持且療效尚可的處置。支持的研究類型,包括一個有對照組或無對照組的研究,或一系列由單一病患組成的病例系列研究,或是由不同族群組成的研究,而這族群並非我們感興趣的族群。
- 第四類:有前膽性且療效尚可的處置。處置除了過去普遍被接受和被臨床歷史文獻提到外,並沒有良好的臨床研究支持;但若有任何證據顯示處治可能有害,則不應列在此類。
- 第五類:創新或新興的處置,包含:不認為會造成傷害,但目前文獻上並無廣泛討論或使用。
- 第六類:有疑慮的處置,包含可能造成傷害,及理論基礎不明或不合理的處置。
可汗(Khan)等人在實證回顧與傳播中心提出一個評估研究品質的草案,做為評估醫學和社會心理處置的一般方法。雖然強烈建議使用隨機分派設計,但草案指出,此類設計只有滿足以下嚴格的準則時才適用,如:正確的隨機分派,且對所有受試者及研究人員隱匿分組資訊(隱匿分組資訊),包括那些評估研究結果的研究人員(盲法)。這份草案也強調需使用「治療意向分析」(intention to treat)進行比較,以避免任一組中的受測者退出的人數或原因不相近而產生偏差。草案也為非隨機研究設立嚴格的標準,包括根據可能的潛在干擾因子進行配對分析,充分描述每個階段的分組和治療,並對評估結果的人隱瞞受試者的治療選擇(盲法)。這個草案沒有為證據等級分類,但根據研究是否符合規定的標準,將治療分為符合或不符合實證。 [15]
美國國家實證應用暨計劃註冊中心(英語:U.S. National Registry of Evidence-Based Practices and Programs,縮寫為 NREPP)已制定出一個評估草案。需符合以下條件才會依草案進行評估:當處置措施至少有一個或以上的統計顯著(概率小於 0.05)正向結果;已發表於同行評審的期刊或評估報告中;且可取得文件內容,如可供培訓的資料。評估結果會將研究品質由 0 到 4 級評分,參考標準包括:研究所採用的結果測量,其可靠性和有效性、支持處置再現性(可預測每次治療都以相同方式進行)的證據、數據遺失和失訪受試者的數量、可能的干擾因素及是否使用合適的統計方法調整,包括足夠的樣本數。[16]
歷史
這個術語源於 1979 年的加拿大定期健康檢查工作組(Canadian Task Force on the Periodic Health Examination,縮寫為 CTF)報告中,「依所根據證據的品質衡量治療的有效程度[17]:1195」。
它使用的分級制有三個等級,第 II 級再細分成二個子等級:
- 第 I 級:參考至少一個隨機對照試驗的證據
- 第 II1 級:參考至少一個設計良好的世代研究或病例對照研究,特別是由一個以上的研究小組或醫學中心組成
- 第 II2 級:在不同時間或地點,有無處置間的比較
- 第 III 級:參考權威機構基於臨床經驗、描述性研究或專家委員會而給予的意見
CTF 將建議分為 A-E 共 5 級[17]:1195:針對特定情境
- A:良好證據支持的建議
- B:尚可證據支持的建議
- C:不良證據支持的建議
- D:尚可證據支持的建議,反對這樣做
- E:良好證據支持的建議,反對這樣做
美國的預防服務工作小組(USPSTF)於 1988 年根據加拿大定期健康檢查工作組提出了他們的指引[21][22],同樣分為三等級,並將第二級再分成二個子等級。
- I 級:證據來自於至少一個設計優良的隨機對照試驗
- II-2 級:證據來自於設計優良的世代研究或病例對照研究,最好由一個以上的醫學中心或研究團體組成
- II-3 級:證據來自於數個時間序列研究,比較有無處置間的結果。具戲劇性結論的非對照試驗中也屬於這個等級。
- III 級:由權威專家提出,基於臨床經驗、描述性研究或專家委員會報告的意見。
此後數年,還有數個評分標準被提出[23]。
2000 年 9 月,英國牛津實證中心(英語:Centre for Evidence-Based Medicine,縮寫為 CEBM)發表有關預後、診斷、治療效果、治療危害和篩檢問題的「證據等級」指南。它不僅涉及治療和預防,還包含診斷檢測、預後指標或傷害。原始的 CEBM 證據等級是刊在《實證值班》(Evidence-Based On Call)中,讓證據檢索及評估結果的過程精確可行。發表在 2009 年的版本[24][25],如下:
證據等級 | 研究種類 | 解釋 | |
---|---|---|---|
第一級 | 1a | 由隨機對照試驗組成的系統性回顧 | 結果間異質性低 |
1b | 單一隨機對照試驗 | 結果的信賴區間小 | |
1c | 全或無 | 指過去絕對死亡的情況,治療後有可能存活;或過去可能會死亡的情況,治療後全數存活 | |
第二級 | 2a | 由世代研究組成的系統性回顧 | 結果間異質性低 |
2b | 單一世代研究或低品質的隨機對照試驗 | 例如完成追蹤比率 <80% | |
2c | 「結果」研究;生態學研究 | ||
第三級 | 3a | 由病例對照研究組成的系統性回顧 | 結果間異質性低 |
3b | 單一病例對照研究 | ||
第四級 | 4 | 個案病例系列 、品質較差的世代研究和病例對照研究 | |
第五級 | 5 | 專家意見,且未經明確地嚴格評讀,或基於生理學、實驗研究或符合第一性原理 |
2011 年,國際團隊重新設計了牛津 CEBM 證據等級,使其更易於理解,並參考證據排名方案的最新發展。這個等級已被患者及臨床醫生使用,並用於製定臨床指引,包括:銀屑病最佳化使用光療和局部治療的建議[26]及在加拿大使用 BCLC 分期系統診斷和監測肝細胞癌的指引[27]。
2007 年,世界癌症研究基金會的分級系統分成:令人信服的、高可能性的、低可能性的和證據不足的,共四個等級[28]。所有疾病的全球負擔研究都以它來評估支持因果關係的流行病學證據[29]。
支持
1995 年威爾遜等人[30]、1996 年哈多恩等人[31]與 1996 年阿特金斯等人[32]描述各種類型的分級系統並為它們辯護。
反對
提出證據等級十年後,在21世紀對它的批評逐漸增加。2011年,一篇針對重要文獻的系統回顧整理出三類批評:實證醫學的程序問題(特別是卡特賴特 Cartwright、沃拉爾 Worrall和豪威克 Howick)、實證醫學的易錯性高於預期(約阿尼迪斯Ioaanidis等人)及實證醫學被視為一種不完備的科學哲學(阿什克羅夫特Ashcroft等人)[33]。多數批評發表在哲學期刊上,因此並未得到支持實證醫學的臨床醫師們關注。邁克爾·羅林斯[34]及羅賓·布魯姆表明,實證醫學限制了研究結果應用在個別病人照護上,且要了解病因,必須同時了解人口研究和實驗室研究。此外,實證醫學的證據等級並不考量醫療處置的安全性與有效性的研究。隨機對照實驗設計需要說明組內差異,而這需要將證據等級由一種同時參考流行病學與實驗室研究關係的網絡體系取代才能達成[35]。
根據研究設計建立證據等級一直受到質疑,因為「指引無法正確地為此定義,衡量某些非隨機分配對照研究的優點,及考量研究設計上所有局限性的完整清單[36]。」
施泰根加(Stegenga)特別批評將統合分析視為證據等級最高的做法[37]。隨機對照試驗應該被放在證據等級的最頂端的假設也被沃勒爾(Worrall)[38]和卡特賴特(Cartwright)[39]批評。
羅斯·尤普舒爾於2005年表示,實證醫學是讓醫師變得更好的指南,但不是哲學教條。他指出實證醫學支持者表現出「近乎福音教徒般」的熱情,並深信實證醫學的優越性,而忽略那些有助拓展實證醫學邊界的批評[40]。
博格森(Borgerson)於 2009 年寫到證據等級的高低並非絕對,不要知識論般地為他們辯護,但「醫學研究者更應該注意那些處理普遍存在偏差的社會機制」[41]。拉卡茲(La Caze)指出雖然基礎科學位於實證醫學較低的階級,但是它卻在「指出實驗方向、分析與解讀資料上扮演重要角色」[42]。
康卡托(Concato)於 2004 年反駁證據等級給於隨機對照試驗過多的影響力,且並非所有研究問題都可以用隨機對照試驗回答,不論是因為實務或倫理議題。即便已有高品質的隨機對照試驗,其他研究類型的證據仍然重要[43]。相較其他系統,施泰根加認為證據等級評估系統不合理地侷限且相較其它的評比提供的資訊更少[5]。
2015 年,克里斯托弗·布朗特(Christopher J Blunt)的博士論文專門研究各種醫學上的證據等級,論文指出「廣為接受的等級,像是拉卡茲模型、條件式層次結構(如:GRADE 建議強度)及豪威克等人捍衛的啟發式方法,以上皆通過先前的哲學批評,但他認為這些都非常薄弱,無助於臨床應用。例如,「GRADE 建議強度和類似的條件式模型,忽略臨床相關信息,如:治療效果的變異程度,及造成治療反應不同的原因;而啟發式方法缺乏必要的經驗支持」。布朗特進一步提到「階層結構對在臨床上應用證據的基礎不足」,因為證據等級背後的核心假設,「將由高品質證據支持的平均治療效果,視為強烈建議的合理性」是站不住腳的,因此,由個別研究支持的證據應單獨評讀[44]。
參見
參考文獻
延伸閱讀
外部連節
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.