統計学および確率論において、t分布(ティーぶんぷ、またはスチューデントのt分布、英: Student's t-distribution)は、連続確率分布の一つであり、正規分布する母集団の平均と分散が未知で標本サイズが小さい場合に平均を推定する問題に利用される。また、2つの平均値の差の統計的有意性を検討するt検定で利用される。t分布は、一般化双曲型分布の特別なケースである。
|
この項目では、確率分布の一つであるt分布について説明しています。統計での使用については「t検定|t検定」をご覧ください。 |
t分布は1908年にウィリアム・シーリー・ゴセットにより発表された。当時の彼はビール醸造会社であるギネスに雇用されており、ギネスでは秘密保持のため従業員による科学論文の公表を禁止していたので、彼はこの問題を回避するため「スチューデント」というペンネームを使用して論文を発表した[2]。
その後、ロナルド・フィッシャーがこの論文の重要性を見抜きスチューデントのt分布と呼んだため、このように呼ばれるようになった。
X1, …, Xn を平均 μ、分散 σ2 の正規分布に従う独立な確率変数とする。また標本平均を
とし、不偏分散を
とする。ここで次の変数
を考えると、これは
(ただし ν = n − 1, Γ はガンマ関数)という確率密度関数に従うことが、ゴセットによって示された。ここで t の従う分布をt 分布(またはスチューデント分布)と呼ぶ。ν は自由度と呼ばれる。この分布は ν によるが、元の正規分布の母標準偏差σ にはよらないという重要な性質を持っている。
この確率密度関数は、元の正規分布の母数であるμおよびσが既知と仮定しているので、厳密には条件付確率密度関数と書くべきものである。μおよびσを確率変数と考え、その確率密度関数を適当に仮定し(例えばテーブル状の一様分布関数)、ベイズの定理を適用することによって、標本平均
および不偏標準偏差が既知の場合の条件付確率密度関数を計算することができる(もう少し正確に言えば、まず条件付確率密度関数を求め、これにベイズの定理を適用してを求め、さらにσについて積分してを求める)。実はこの関数はと全く同じ形をしている。つまり、
である。これが、t分布が母標準偏差σ にはよらないという性質の反映である。不偏標準偏差は既知であるから、tの確率分布から母平均値μの確率分布を求めることができ、これを用いてμの区間推定や、仮説検定を行うことができる。
t分布を用いた母集団の平均値μの区間推定では、t=0について対称な区間で、その区間に亘る確率密度の積分値が95%となる区間(95%信頼区間)を考え、これに対応するμの区間を信頼区間 (CI) とする方法が広く用いられている(99%信頼区間を用いる場合も有る)。
t分布を用いた母集団の平均値μの仮説検定では、tの値が予め定めたα水準の下での信頼区間(95%あるいは99%)に含まれるか否かを判定基準とし、含まれる場合は母集団の平均値がμであるという仮説(帰無仮説)は棄却されず、区間からはみ出す場合は仮説を棄却する。
累積分布関数は、正則不完全ベータ関数を用いて以下のように表される。
ただし、
t分布のモーメントは以下の式で表される。
ν の値により、簡単な形となる。
ν = 1 の場合
コーシー分布と一致する。
累積分布関数:
確率密度関数:
ν = 2 の場合
累積分布関数:
確率密度関数:
ν → ∞ の場合
自由度 ν が ∞(無限大)に近づくにつれ、t分布は正規分布に近づく。
Walpole, Ronald; Myers, Raymond; Ye, Keying. Probability and Statistics for Engineers and Scientists. Pearson Education, 2002, 7th edition, pg. 237