From Wikipedia, the free encyclopedia
假說檢定(hypothesis testing)可以話係推論統計學當中最重要嘅一個工序,指驗證一個假說(指一個仲未搵到證據支撐,但研究者有理由認為好可能係真確嘅論述)嘅過程。一個做假說檢定嘅研究者所做嘅工序如下:
假說檢定嘅過程會用到以下嘅概念:
嚴格嚟講,個總體嘅參數(parameter;指形容緊某個系統嘅特性)係不可知嘅-淨係有得透過個樣本嘅數值嚟估吓呢啲參數嘅數值。例如喺上面個中華白海豚研究嘅例子噉,要知道嗮古往今來所有中華白海豚嘅身長原則上係冇可能嘅,所以研究者亦都冇方法知道「全世界嘅白海豚嘅平均身長」嘅真正數值-唔單只啲科學家唔夠人力物力度嗮世上咁多隻白海豚,而且過去嘅白海豚同埋仲未出世嘅白海豚嘅身長都係冇辦法量度嘅,所以成個研究啲科學家都係喺度假設緊個樣本能夠代表到全世界嘅白海豚,並且用個樣本入面嘅白海豚嘅平均身長嚟估計全世界嘅白海豚嘅平均身長。除咗平均值,個樣本嘅變異數等嘅敘述性統計資料都會俾科學家攞嚟估計個總體嘅參數,呢啲俾人用嚟估計總體參數嘅就係所謂嘅估計量(estimator)[2]。
做科研嗰陣啲研究人員可以睇到嘅就淨係得個樣本嗰啲數值,而個總體嗰柞真實嘅數值係不可知嘅,所以任何由個樣本嗰度估計出嚟嘅數值頂嗮櫳都淨係有得話係個總體嘅近似值。信心區間(confidence interval,CI)係指「有信心總體個真實數值係喺入面嘅區間」,喺做統計嗰時會俾人攞嚟表述個樣本嘅數值同個總體嘅真實數值之間估計差幾遠,
舉個例說明,最常用嘅係「95% 信心區間」(),用返上面白海豚嘅例子,啲科研人員會用個樣本入面嘅海豚嘅身長平均值嚟估計嗰個不可知嘅「世上所有白海豚嘅身長嘅平均值」(),而佢哋可以用一啲統計方法計個「白海豚身長平均值嘅 95% 信心區間」出嚟-呢個值係指「有信心 95% 機會世上所有白海豚嘅身長嘅平均值嘅真實數值係喺 同 之間」[3]。
虛無假說(null hypothesis;符號:)同備擇假說(alternative hypothesis;符號:)係做科研上成日會用到嘅行話:
舉個例說明,假想有個認知心理學家想驗證「年紀」同「記憶力」呢兩個變數之間嘅關係,於是佢就搵咗兩批人返嚟做佢嘅樣本,第一批人年紀喺 20 至 30 歲之間,第二批人年紀喺 50 至 60 歲之間,再用一啲測試量度呢兩批人嘅記憶力,設第一批人喺記憶力測試上嘅平均得分係 ,而第二批人喺同一柞測試上嘅平均得分係 ,噉呢份研究嘅 係 , 係 ,當中後者係個認知科學家想證實嘅嘢[4]。虛無假說同備擇假說呢兩個詞語查實好簡單,但呢兩個詞語令到寫科研報告嗰陣慳好多位-啲科學家唔使吓吓都講嗮成句假說出嚟[5]。
喺做假說檢定嗰陣,一般會將可能會出現嘅錯誤分兩種[6]:
呢啲錯誤會發生有好多原因,包括係科研入面嘅某啲隨機性-例如有份研究想睇吓兩個地區嘅狼嘅平均身長係咪有分別,佢哋隨機噉喺兩個地區度抽樣,再度吓啲狼嘅身長,可能兩個地區啲狼嘅平均身長係冇分別嘅( 係真),但喺隨機抽樣嘅過程當中,咁啱得咁橋喺地區 抽咗啲嗰頭最大隻嘅狼出嚟,而喺地區 又咁橋淨係抽嗮啲嗰頭最細隻嘅狼出嚟,搞到最後搵到出嚟個結果話兩個地區啲狼嘅身長有顯著分別,即係錯誤噉排除咗 -第一型錯誤。喺呢個個案入面,啲科研人員之所以搵到兩個變數(「地區」同埋「啲狼嘅身長」)之間有關唔係因為兩者之間真係有關,而係抽樣嗰陣唔好彩。呢啲事喺科學界間唔鐘會發生[7]。
統計顯著性(statistical significance;符號係 ),簡稱「顯著性」,反映一個俾統計者接受咗嘅假說「有幾大機會係真確」。事實上,統計學喺答問題嗰陣好少可會話俾到「真」同「假」咁二元嘅答案。統計方法本質上係帶咗些少隨機性喺度,好似係頭先提咗嘅第一型錯誤嘅例子就顯示到,無論一份研究點精密,都梗會有少少機會會出錯,而呢啲錯誤好多時係人為冇可能控制得到嘅:啲科學家一方面冇可能度得嗮古往今來所有嘅狼嘅身長,但另一方面,佢哋一做抽樣,就梗會有機會攞到個代表唔到個總體嘅樣本-即係話無論點,用統計方法硬係會或多或少帶有啲不確定性。於是乎統計學家就決定咗:用統計學做親啲乜嘢研究嗰陣,都唔會俾二元性嘅答案,而係會俾出好似信心區間呢類「某句嘢有幾大機會係啱」呢類帶咗啲機會率喺度嘅答案,而 就係用嚟做呢樣嘢嘅概念[8]。
一般嚟講,如果柞統計分析顯示 嘅數值係細過某個特定嘅數值(通常係 5%)嘅話()[註 2]-「如果 係真,會得出呢個結果嘅機會好微」,噉研究者就有夠強嘅理由相信 好有可能唔係真,噉做分析嗰個人就會當句 係真確嘅,並且拒絕個虛無假說(reject the null hypothesis)。喺實際嘅科研論文當中做統計嘅話,研究者幾乎實會報告自己做咗統計分析得出嘅 值,並且用「 值好細」呢一點嚟說服人,話自己嗰句 係真嘅[1]。
要測試一個 ,其中一種最常見嘅做法就係比較平均值(comparison of means),即係比較個樣本入面唔同組之間喺個變數嘅平均值上有冇差異。喺最簡單嗰種情況-得兩組要比較-之下,研究者可以用學生 t 測試(Student's t-test;以下簡稱 t 測試)。學生 t 測試呢種方法可以攞嚟分析兩個組(通常係實驗組同對照組)之間喺個指定變數嘅數值上係咪有顯著嘅差異,當中最原始嗰種獨立樣本 t 測試(independent samples t-test)係 t 測試嘅一種,獨立樣本 t 測試假設咗三點[9]:
用返同上面類似嘅例子,班研究人員可能想做個實驗,睇吓提高氣溫會唔會改變狼嘅食量,佢哋可以
用好似 t 測試噉嘅統計分析可以提高一份研究嘅說服力:一方面,啲研究者可以淨係靠直接比較兩個組喺個變數上各自嘅平均值( 同 ),但噉做唔會有乜嘢說服力;個變數係大致上呈常態分佈嘅-一隻狼嘅日常食量通常會接近所有狼嘅日常食量嘅平均值,離平均值愈遠嘅數值就會出現得愈少;如果齋靠比較兩個組嘅平均值,就等於冇考慮到抽樣等過程入面嘅隨機性-可能只係抽樣嗰陣唔好彩,大食嘅狼咁橋分嗮去實驗組嗰度,而食嘢少嘅狼就咁啱分嗮去對照組。於是啲研究人員為咗要提高佢哋份研究嘅說服力,就要攞啲數據嚟計吓[10]。
要評估兩組之間嘅差異嘅顯著性,首先要計兩組嘅標準差(符號係「」或者「」)出嚟:
係樣本大細(sample size;個樣本入面嘅個體數量), 係個體 喺個變數上嘅數值,而 就係成個樣本喺個變數上嘅平均值。 呢個數值反映咗個樣本入面每一個個體喺個變數上面嘅數值平均嚟講同成個樣本嘅平均值差幾遠,亦即係反映咗一個組嘅內部差異,而呢啲內部差異係隨機性嘅個體差異。 大嘅話就表示個體同個體之間嘅差異好大,而 細嘅話就表示啲個體普遍同成個樣本嘅平均唔係差好遠。得到兩個組嘅 嘅數值,仲可以用另外一啲統計方法顯示到兩個組嘅標準差冇明顯差異。假設兩組嘅 冇差異(等分散性[11])嘅話,就可以做下一步,計以下嘅數值:
係成個樣本嘅大細,而 同 就係兩個組分別喺個變數上嘅平均值, 係兩個組嘅標準差(假設咗兩個組嘅標準差相等),最後計到一個 值出嚟,呢個數值同「兩個組嘅平均值嘅差距」成正比,同「兩個組嘅標準差」成反比。如果 值好大,噉就表示咗「兩個組之間嘅差異」大過「組嘅內部差異」好多,噉就表示「個實驗嘅操作造成嘅差異」大過「隨機性嘅個體差異」- 值愈大愈表示個實驗嘅操作嘅效果明顯過個體差異,愈係表示兩個組之間嘅差異係因為實驗嘅操作造成嘅。所以 值愈大, 值()理應會愈細[註 3][10]。
...等等。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.