信度(英語:reliability)又稱可信度,指的是測量方法的品質,即對同一現象進行重複觀察之後是否可以得到相同資料值[1]。科學研究者試圖使用一系列的指標來測量個人或社會現象。可信度概念是研究者們提出用來測量的量度工具穩定的程度。比如說如果用磅秤來測量一個人的體重,如果第一次稱重是100公斤,而第二次稱重是150公斤,那麼很明顯用這台磅秤來反應體重不是很可信的辦法。這個類比也適用於其他的社會科學測量方式,比方各種問卷調查、心理量表、以及更廣義上的觀察。

分類

主要信度是研究量度工具是否能重覆顯示同一個結果或數值。形式如下[2]

  • 再測信度(英語:test–retest reliability):用同一個測驗但不同時間點測試同一群受試者[3]。例如,上下學期的考試,早上與夜上會一樣「外向」
  • 複本信度(英語:inter-method reliability):用不同相似工具來量度同一個項目,例如用邁爾斯-布里格斯性格分類測驗及大五測驗人格。
  • 內部一致性信度(英語:internal consistency reliability):同一個測驗中不同子項目是否一致[4],例如量度「外向」,可以用「朋友數目」、「友善程度」、「經常笑」等來測。一般可用克隆巴赫係數(英語:Cronbach's alpha)來檢驗[5]
  • 評分者間信度(英語:inter-rater reliability):由於個人因素的影響(如情緒、既有觀念等),有些測驗不能以客觀的方法進行鑑定,例如作文考試。所評的分數通常受評分者的主觀感受而受到影響,因此要由2人或以上各自根據標準評分,再求大家分數是否大致相同。

影響信度的因素

通常因以下因素影響[6][7]

  1. 目標的短暫特徵,如健康、身高、疲倦
  2. 目標的特質:語言能力、答題技巧
  3. 測試環境:如有沒有干擾、指示是否清晰、考試員的身份

可觀察的數值等於測量誤差再加上真實分數。而信度則評估有多少變化是各自來自這兩者。解決方法可以

  1. 標準化步驟(英語:constant scripted procedure):實驗員要一字不漏地根據劇本來給予指示
  2. 聚合(英語:Aggregation):用多個相關項目來量度同一事物。例如香港大學的相片研究將不同學生的相片疊加之後揭示甚麽是華人的「大眾面」[8]

與有效度的分別

可信度高並不意味着一種測量方式更準確,這是有效度(英語:validity)的問題。可信度所討論的是針對同樣或者類似的現象,一種測量方式能否忠實地反應現實(每次都可否量度相同結果),而後者討論的是,是否能量度想要量度的問題(試想像用天秤來量度高度,或用某工具去量度一個人高1.8米的人只得1.5米)。 雖然可信度高並不完全代表着有效度高,可信度依然可以一定程度上限制一種測量方式的有效度。不論是對於測量人的某種特質,抑或是對於一個標準的預測性判斷,如果一種測量方式並不可信,那麼它的有效度也一定不高。一個可信度高的測試並不一定有很高的有效度,但是可信度低的測試一定沒有。 一個例子是:如果一個秤一直在真實的重量上多一斤,這個秤的可信度依然很高,因為能夠持續的給一個秤重的物體提供相同的結果,但是它的有效度並不高,因為它所展示的並不是真實的重量。

參見

參考文獻

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.