推論統計學

假說檢定（hypothesis testing）可以話係推論統計學當中最重要嘅一個工序，指驗證一個假說（指一個仲未搵到證據支撐，但研究者有理由認為好可能係真確嘅論述）嘅過程。一個做假說檢定嘅研究者所做嘅工序如下：

睇過有關佢所研究嗰樣嘢嘅文獻，
建基於已有嘅知識，作出一啲有關嗰樣嘢嘅新假說（「我睇過打前嘅研究，我認為有咗已知嘅嘢，我可以作出以下嘅判斷，而驗證呢個判斷係咪正確能夠帶嚟新知識」），
諗出一個驗證呢假說嘅程序，
用呢個程序攞數據，
對數據作出分析，
用分析結果判斷個假說係咪真確^[1]。

假說檢定嘅過程會用到以下嘅概念：

做估計

估計量

嚴格嚟講，個總體嘅參數（parameter；指形容緊某個系統嘅特性）係不可知嘅－淨係有得透過個樣本嘅數值嚟估吓呢啲參數嘅數值。例如喺上面個中華白海豚研究嘅例子噉，要知道嗮古往今來所有中華白海豚嘅身長原則上係冇可能嘅，所以研究者亦都冇方法知道「全世界嘅白海豚嘅平均身長」嘅真正數值－唔單只啲科學家唔夠人力物力度嗮世上咁多隻白海豚，而且過去嘅白海豚同埋仲未出世嘅白海豚嘅身長都係冇辦法量度嘅，所以成個研究啲科學家都係喺度假設緊個樣本能夠代表到全世界嘅白海豚，並且用個樣本入面嘅白海豚嘅平均身長嚟估計全世界嘅白海豚嘅平均身長。除咗平均值，個樣本嘅變異數等嘅敘述性統計資料都會俾科學家攞嚟估計個總體嘅參數，呢啲俾人用嚟估計總體參數嘅就係所謂嘅估計量（estimator）^[2]。

信心區間

内文：信心區間

做科研嗰陣啲研究人員可以睇到嘅就淨係得個樣本嗰啲數值，而個總體嗰柞真實嘅數值係不可知嘅，所以任何由個樣本嗰度估計出嚟嘅數值頂嗮櫳都淨係有得話係個總體嘅近似值。信心區間（confidence interval，CI）係指「有信心總體個真實數值係喺入面嘅區間」，喺做統計嗰時會俾人攞嚟表述個樣本嘅數值同個總體嘅真實數值之間估計差幾遠，

P(L_{n}<\theta <U_{n})=\gamma

舉個例說明，最常用嘅係「95% 信心區間」（ $\gamma =0.95$ ），用返上面白海豚嘅例子，啲科研人員會用個樣本入面嘅海豚嘅身長平均值嚟估計嗰個不可知嘅「世上所有白海豚嘅身長嘅平均值」（ $\theta$ ），而佢哋可以用一啲統計方法計個「白海豚身長平均值嘅 95% 信心區間」出嚟－呢個值係指「有信心 95% 機會世上所有白海豚嘅身長嘅平均值嘅真實數值係喺 $L_{n}$ 同 $U_{n}$ 之間」^[3]。

Thumb — 「有信心變數 $X$ 嘅真實平均值 95% 機會係喺 -1.96 同 1.96 之間。」

虛無同備擇假說

内文：虛無假說同備擇假說

虛無假說（null hypothesis；符號： $H_{0}$ ）同備擇假說（alternative hypothesis；符號： $H_{1}$ ）係做科研上成日會用到嘅行話：

虛無假說係指做一份研究嗰陣嘅預設立場，指「兩個量度嘅變數之間冇關係」呢句嘢，而
備擇假說係做一份研究嗰陣嘗試驗證嘅立場，指「兩個量度嘅變數之間有關係」呢句嘢。

舉個例說明，假想有個認知心理學家想驗證「年紀」同「記憶力」呢兩個變數之間嘅關係，於是佢就搵咗兩批人返嚟做佢嘅樣本，第一批人年紀喺 20 至 30 歲之間，第二批人年紀喺 50 至 60 歲之間，再用一啲測試量度呢兩批人嘅記憶力，設第一批人喺記憶力測試上嘅平均得分係 $\mu _{1}$ ，而第二批人喺同一柞測試上嘅平均得分係 $\mu _{2}$ ，噉呢份研究嘅 $H_{0}$ 係 $\mu _{1}=\mu _{2}$ ， $H_{1}$ 係 $\mu _{1}\neq \mu _{2}$ ，當中後者係個認知科學家想證實嘅嘢^[4]。虛無假說同備擇假說呢兩個詞語查實好簡單，但呢兩個詞語令到寫科研報告嗰陣慳好多位－啲科學家唔使吓吓都講嗮成句假說出嚟^[5]。

錯誤類型

内文：第一型同第二型錯誤

喺做假說檢定嗰陣，一般會將可能會出現嘅錯誤分兩種^[6]：

第一型錯誤（Type I Error）指錯誤噉否定咗 $H_{0}$ ，得出咗個假陽性（false positive）結果－兩個變數查實有啦掕，研究者但搵到咗一個陽性結果出嚟。
第二型錯誤（Type II Error）指 $H_{0}$ 其實係錯，但就冇俾人成功噉否定到，得出咗個假陰性（false negative）－兩個變數實際上有關但就搵到個陰性結果。

呢啲錯誤會發生有好多原因，包括係科研入面嘅某啲隨機性－例如有份研究想睇吓兩個地區嘅狼嘅平均身長係咪有分別，佢哋隨機噉喺兩個地區度抽樣，再度吓啲狼嘅身長，可能兩個地區啲狼嘅平均身長係冇分別嘅（ $H_{0}$ 係真），但喺隨機抽樣嘅過程當中，咁啱得咁橋喺地區 $A$ 抽咗啲嗰頭最大隻嘅狼出嚟，而喺地區 $B$ 又咁橋淨係抽嗮啲嗰頭最細隻嘅狼出嚟，搞到最後搵到出嚟個結果話兩個地區啲狼嘅身長有顯著分別，即係錯誤噉排除咗 $H_{0}$ －第一型錯誤。喺呢個個案入面，啲科研人員之所以搵到兩個變數（「地區」同埋「啲狼嘅身長」）之間有關唔係因為兩者之間真係有關，而係抽樣嗰陣唔好彩。呢啲事喺科學界間唔鐘會發生^[7]。

顯著性

内文：統計顯著性

統計顯著性（statistical significance；符號係 $p$ ），簡稱「顯著性」，反映一個俾統計者接受咗嘅假說「有幾大機會係真確」。事實上，統計學喺答問題嗰陣好少可會話俾到「真」同「假」咁二元嘅答案。統計方法本質上係帶咗些少隨機性喺度，好似係頭先提咗嘅第一型錯誤嘅例子就顯示到，無論一份研究點精密，都梗會有少少機會會出錯，而呢啲錯誤好多時係人為冇可能控制得到嘅：啲科學家一方面冇可能度得嗮古往今來所有嘅狼嘅身長，但另一方面，佢哋一做抽樣，就梗會有機會攞到個代表唔到個總體嘅樣本－即係話無論點，用統計方法硬係會或多或少帶有啲不確定性。於是乎統計學家就決定咗：用統計學做親啲乜嘢研究嗰陣，都唔會俾二元性嘅答案，而係會俾出好似信心區間呢類「某句嘢有幾大機會係啱」呢類帶咗啲機會率喺度嘅答案，而 $p$ 就係用嚟做呢樣嘢嘅概念^[8]。

$p$ 嘅定義係「如果虛無假說係真，呢個結果出現嘅機會率」，

p=P{\big (}{\text{have this result}}\mid H_{0}{\text{ is true}}{\big )}

^{[註 1]}

一般嚟講，如果柞統計分析顯示 $p$ 嘅數值係細過某個特定嘅數值（通常係 5%）嘅話（ $p<.05$ ）^{[註 2]}－「如果 $H_{0}$ 係真，會得出呢個結果嘅機會好微」，噉研究者就有夠強嘅理由相信 $H_{0}$ 好有可能唔係真，噉做分析嗰個人就會當句 $H_{1}$ 係真確嘅，並且拒絕個虛無假說（reject the null hypothesis）。喺實際嘅科研論文當中做統計嘅話，研究者幾乎實會報告自己做咗統計分析得出嘅 $p$ 值，並且用「 $p$ 值好細」呢一點嚟說服人，話自己嗰句 $H_{1}$ 係真嘅^[1]。

比較平均值

内文：比較平均值同T 測試

要測試一個 $H_{1}$ ，其中一種最常見嘅做法就係比較平均值（comparison of means），即係比較個樣本入面唔同組之間喺個變數嘅平均值上有冇差異。喺最簡單嗰種情況－得兩組要比較－之下，研究者可以用學生 t 測試（Student's t-test；以下簡稱 t 測試）。學生 t 測試呢種方法可以攞嚟分析兩個組（通常係實驗組同對照組）之間喺個指定變數嘅數值上係咪有顯著嘅差異，當中最原始嗰種獨立樣本 t 測試（independent samples t-test）係 t 測試嘅一種，獨立樣本 t 測試假設咗三點^[9]：

個總體喺個變數上嘅概率分佈係一個常態分佈；
要比較嗰兩個組係獨立（指兩個組入面啲個體係分別噉抽樣入組嘅）嘅；
要比較嗰兩個組喺個變數上嘅變異數相等。

用返同上面類似嘅例子，班研究人員可能想做個實驗，睇吓提高氣溫會唔會改變狼嘅食量，佢哋可以

隨機噉由全世界嘅狼嗰度抽一柞（例如係 200 隻）出嚟，將佢哋分做兩組－實驗組同對照組，兩組各有 100 隻狼，將前者擺喺一個有暖氣嘅環境度養，而後者就擺喺一棟模仿自然環境（氣溫正常）嘅地方度養（「氣溫」係自變數）；
跟手啲研究人員就要量度個應變數（食量）－一個可能嘅方法係用攝影機監察住啲狼嘅一舉一動，佢哋一食嘢就記錄低，並且用影片影到嘅影像估計樣本入面嘅每隻狼大約每日食咗幾多公斤嘅嘢食。呢個步驟會得出一大柞數據，表述每一個個體喺個應變數上嘅數值（即係每隻狼嘅日常食量），而
由呢啲數據嗰度，研究者亦會順理成章噉計到兩個組分別喺個應變數上嘅平均值－「實驗組啲狼嘅平均日常食量」（ $\mu _{1}$ ）同「對照組啲狼嘅平均日常食量」（ $\mu _{2}$ ）；
下一步就要睇吓 $\mu _{1}$ 同 $\mu _{2}$ 之間係咪有顯著嘅分別－如果有，研究人員就有得否定個 $H_{0}$ ，並且話今次攞到嘅實驗數據撐佢哋個 $H_{1}$ （ $H_{1}$ 係「提高氣溫會影響狼嘅食量」呢句嘢）。
因為佢哋嗰兩個組入面個體係分別噉抽樣嘅，而且得一個應變數（「狼嘅食量」），所以佢哋可以用獨立樣本 t 測試。

用好似 t 測試噉嘅統計分析可以提高一份研究嘅說服力：一方面，啲研究者可以淨係靠直接比較兩個組喺個變數上各自嘅平均值（ $\mu _{1}$ 同 $\mu _{2}$ ），但噉做唔會有乜嘢說服力；個變數係大致上呈常態分佈嘅－一隻狼嘅日常食量通常會接近所有狼嘅日常食量嘅平均值，離平均值愈遠嘅數值就會出現得愈少；如果齋靠比較兩個組嘅平均值，就等於冇考慮到抽樣等過程入面嘅隨機性－可能只係抽樣嗰陣唔好彩，大食嘅狼咁橋分嗮去實驗組嗰度，而食嘢少嘅狼就咁啱分嗮去對照組。於是啲研究人員為咗要提高佢哋份研究嘅說服力，就要攞啲數據嚟計吓^[10]。

t 測試流程

睇埋：等分散性

要評估兩組之間嘅差異嘅顯著性，首先要計兩組嘅標準差（符號係「 $s$ 」或者「 $\sigma$ 」）出嚟：

s={\sqrt {\frac {\sum _{i=1}^{N}(x_{i}-{\overline {x}})^{2}}{N-1}}}.

，當中

$N$ 係樣本大細（sample size；個樣本入面嘅個體數量）， $x_{i}$ 係個體 $i$ 喺個變數上嘅數值，而 ${\overline {x}}$ 就係成個樣本喺個變數上嘅平均值。 $s$ 呢個數值反映咗個樣本入面每一個個體喺個變數上面嘅數值平均嚟講同成個樣本嘅平均值差幾遠，亦即係反映咗一個組嘅內部差異，而呢啲內部差異係隨機性嘅個體差異。 $s$ 大嘅話就表示個體同個體之間嘅差異好大，而 $s$ 細嘅話就表示啲個體普遍同成個樣本嘅平均唔係差好遠。得到兩個組嘅 $s$ 嘅數值，仲可以用另外一啲統計方法顯示到兩個組嘅標準差冇明顯差異。假設兩組嘅 $s$ 冇差異（等分散性^[11]）嘅話，就可以做下一步，計以下嘅數值：

t={\frac {{\bar {X}}_{1}-{\bar {X}}_{2}}{s_{p}{\sqrt {2/n}}}}

$n$ 係成個樣本嘅大細，而 ${\bar {X}}_{1}$ 同 ${\bar {X}}_{2}$ 就係兩個組分別喺個變數上嘅平均值， $s_{p}$ 係兩個組嘅標準差（假設咗兩個組嘅標準差相等），最後計到一個 $t$ 值出嚟，呢個數值同「兩個組嘅平均值嘅差距」成正比，同「兩個組嘅標準差」成反比。如果 $t$ 值好大，噉就表示咗「兩個組之間嘅差異」大過「組嘅內部差異」好多，噉就表示「個實驗嘅操作造成嘅差異」大過「隨機性嘅個體差異」－ $t$ 值愈大愈表示個實驗嘅操作嘅效果明顯過個體差異，愈係表示兩個組之間嘅差異係因為實驗嘅操作造成嘅。所以 $t$ 值愈大， $p$ 值（ $p=P{\big (}{\text{have this result}}\mid H_{0}{\text{ is true}}{\big )}$ ）理應會愈細^{[註 3]}^[10]。

t 測試變種

睇埋：變異數分析

配對樣本 t 測試（paired samples t-test / repeated-measure t-test）：指做 t 測試嗰兩個組唔係獨立同分佈嘅，研究者做咗某啲嘢，令一組數值當中每一個都喺另外嗰組當中有個對應，例如做個心理學實驗，研究者想知個實驗操作會引致變數 $X$ 有乜變化，於是就喺實驗前量度 $X$ 一次，跟住對受試者做實驗操作，然後喺實驗後又量度 $X$ 一次（睇返重複量數設計）。喺呢個情況下，每位受試者都有一個「實驗前嘅 $X$ 值」（ $X_{\text{pre}}$ ）同「實驗後嘅 $X$ 值」（ $X_{\text{post}}$ ），研究者想比較兩組數值（總共有 $n$ 個數值，而受試者數量係 $n/2$ ），但兩組數值唔係獨立同分佈嘅－每個 $X_{\text{pre}}$ 值都有一個相應嘅 $X_{\text{post}}$ 值（一位受試者嘅 $X_{\text{pre}}$ 值同佢嘅 $X_{\text{post}}$ 值）^[10]。
變異數分析（analysis of variance，ANOVA）：一系列用嚟分析唔同組嘅平均值嘅方法；假想家陣個研究者想比較三組喺變數 $x$ $x$ 嘅平均值上嘅差異，如果三組之間有顯著嘅差異，噉組之間嘅 $x$ $x$ 嘅變異數應該會大過組內部嘅好多。最簡單嘅單因子變異數分析（one-way ANOVA）分析一個應變數喺三個或者以上嘅組之間嘅差異（「組」就係自變數），考慮以下嘅數值^[12]：
$F={\frac {\text{variance between groups}}{\text{variance within groups}}}$
- 原則上， $F$ 數值愈大，研究者就愈有理由相信組之間有顯著嘅差異。

...等等。

假說檢定

做估計

估計量