From Wikipedia, the free encyclopedia
喺搵咗數據返嚟之後,研究者手上會有個數據庫(database),每個個案都會喺每個變數上有個數值,而一般嚟講,研究者首先會做嘅係搵一啲指標描述吓柞數據大致係點樣嘅,常用嘅描述統計指標包括咗[1]:
... 呀噉。
概率分佈(probability distribution)係成日用嚟描述「柞數據乜嘢樣」嘅架生。一個概率分佈係一個數學函數(mathematical function),而呢個函數表達咗每個數值喺某個總體或者樣本入面出現嘅概率(又做「機會率」;probability),,當中 就係個概率分佈。例如假設而家掟一個銀仔,用 代表掟個銀仔嘅結果,掟 10 次(個總體係「全世界嘅掟銀仔結果」,而呢 10 次就係一個樣本)。 係「公」(Head)嘅機會率係 0.5(即係 50%),而 係「字」(Tail)嘅機會率都係 0.5(假設個銀仔冇做過手腳),相應嘅概率分佈如下[2][註 1]:
响現實世界嘅科研入面,啲變數好少可會「一係公一係字」咁二元,但個原理一樣:常態分佈(normal distribution)就係科學入面最常用嘅概率分佈之一,如果由一個常態分佈嘅總體嗰度抽樣,個變數嘅平均值會係出現得最密嘅數值,低過平均嘅數值同高過平均嘅數值出現嘅機會率一樣,而離平均值愈遠嘅數值,抽到出嚟嘅機會率就愈低,如果按住個樣本畫一個概率分佈圖(打橫個條 X 軸係「個變數嘅可能數值」,而打戙嗰條 Y 軸係「每個數值出現嘅機會率」),一個常態分佈會俾出一條好似鐘噉嘅形狀嘅線(即係所謂嘅 bell curve)。常態分佈嘅概率密度函數係( 係個分佈嘅標準差)[3]:
譬如話以下呢個情況噉:想像有生物學家想研究成年中華白海豚嘅身長,但佢冇可能捉嗮世界上咁多隻白海豚遂隻遂隻嚟度佢哋幾長,於是乎佢就抽個樣本出嚟,用個樣本嚟估計全世界嘅白海豚嘅身長;呢個樣本入面有 20 隻白海豚,佢哋嘅平均身長係 2.2 米,唔係隻隻都啱啱好 2.2 米長-有隻係 1.8 米長,有隻係 2.6 米長呀噉-但一隻白海豚身長高過呢個值嘅機會率大致上等如佢身長低過呢個值嘅機會率,而且離 2.2 米愈遠嘅數值出現嘅機會率愈低。如果畫幅概率分佈圖,「隻白海豚嘅身長」做 X 軸,而「每個身長數值出現嘅機會率」做 Y 軸,幅圖會出一條近似鐘形嘅線。
一般嚟講,做統計嗰陣都會假設抽樣個過程係獨立同分佈(independent and identically distributed,IID)嘅-噉講嘅意思係指,樣本入面每個個體嘅數值喺由個總體嗰度抽出嚟嗰陣嘅概率分佈都係一樣,而且相互之間獨立(independent;一個抽到嘅數值嘅概率分佈唔會影響到下一個抽到嘅數值嘅)。呢個假設慳咗好多時間同精神-如果吓吓做統計都要諗第二個抽出嚟嘅數值同第一個抽出嚟嘅數值嘅概率分佈會唔會唔同咗嘅話,計起統計上嚟就會撈絞得好交關[4]。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.