統計學是在資料分析的基礎上,研究測定、收集、整理、歸納和分析反映數據資料,以便給出正確訊息的科學。這一門學科自17世紀中葉產生並逐步發展起來,它廣泛地應用在各門學科,從自然科學社會科學人文學科,甚至被用於工商業政府的情報決策。隨着大數據時代來臨,統計的面貌也逐漸改變,與資訊、計算等領域密切結合,是數據科學中的重要主軸之一。

譬如自一組數據中,可以摘要並且描述這份數據的集中和離散情形,這個用法稱作為描述統計學。另外,觀察者以數據的形態,建立出一個用以解釋其隨機性和不確定性的數學模型,以之來推論研究中的步驟及總體,這種用法被稱做推論統計學。這兩種用法都可以被稱作為應用統計學數理統計學則是討論背後的理論基礎的學科。

總覽

Thumb
統計可以推測趨勢和規律,說明自然和人文現象。

很多人認為統計學是一種科學的數學分支,是關於收集、分析、解釋、陳述數據的科學。[1]另一些人認為它是數學的一個分支,因為統計學是關於收集解釋數據的。[2]由於它基於觀測、重視應用,統計學常被看作是一門獨特的數學科學,而不是一個數學分支。[3][4]很多統計學都不是數學的:如確保所收集來的數據能得出有效的結論;將數據編碼、存檔以使得資訊得以儲存,可以在國際上進行比對;匯報結果、總結數據,以便統計員可以明白它們的意思;採取必要措施,保護數據來源物件的私隱。

統計學家通過專門的試驗設計和調查樣本來提升數據質素。統計學自身也為數據的概率模型提供了預測工具。統計學在其他學術科目上得到了廣泛的應用,如自然科學、社會科學、政府、商業等。統計顧問可以幫助沒有入戶調查經驗組織與公司進行問卷研究。

總結敘述收集來的數據被稱之為描述統計學。這在進行實驗研究資訊交流中十分有用。另外,從數據的分佈上也可以得出觀測上的隨機性和不確定性。

將資料中的數據模型化,計算它的概率並且做出對於母群體的推論被稱之為推論統計學。推論是科學進步的重要因素,因為它可能從隨機變量中得出數據的結論。推論統計學將命題進行更深入的研究,將結果進行檢測。這些都是科學方式的一部分。描述統計學和對新數據的分析更傾向於提供更多的資訊,逼近命題所述的真理。

「應用統計學」包括描述統計學推論統計學中的應用成分。[5]理論統計學則注重統計推論背後的邏輯證明,以及數理統計學數理統計學不但包括推導估測推論法的概率分佈,還包括了計算統計和試驗設計

統計學與概率論聯絡緊密,並常以後者為理論基礎。簡單地講,兩者不同點在於概率論從母群體中推導出樣本的概率。統計推論則正好相反——從小的樣本中得出大的母群體的資訊。

歷史

統計手法最早可以追溯至公元前5世紀。最早的統計著作來自公元9世紀的《密碼破譯》(Manuscript on Deciphering Cryptographic Messages)一書,由阿拉伯人肯迪編著。在書中,肯迪詳細記錄了如何使用統計數據和頻率分析進行密碼破譯。根據沙特阿拉伯工程師易卜拉欣·阿凱笛(Ibrahim Al-Kadi)的說法,統計學和密碼學分析便如此一同誕生了[6][7]

Thumb
正態分配鐘型曲線的圖

佛羅倫薩銀行家、執政官喬瓦尼·維拉尼編訂了佛羅倫薩14世紀歷史書籍Nuova Cronica ,包括了如人口、法令、商貿、教育、宗教場所在內的統計數據,被譽之為歷史上統計學入門的第一本書。[8]一些學者將1663年約翰·格蘭特根據死亡率統計表編訂出版的《自然與政治觀察》(Natural and Political Observations)一書定格為統計學的誕生。[9]

統計學的英語詞statistics是源於現代拉丁語statisticum collegium(國會)以及意大利語statista(國民或政治家)。德語Statistik,最早是由Gottfried Achenwall(1749)所使用,代表對國家的資料進行分析的學問,也就是「研究國家的科學」。在十九世紀統計學在廣泛的數據以及資料中探究其意義,並且由John Sinclair引進到英語世界。

統計學的初衷是作為政府(通常是中央政府)以及管理階層的工具。它大量透過國家以及國際統計服務蒐集國家以及本土的資料。另外依照各方面,普查則提供關總體的資訊。統計背後牽涉到更多數學導向的領域,如概率,或是從經驗科學(特別在天文學)中獲得的經驗證據設置估計參數。在今日的世界裏統計已經被使用在不僅僅是國家或政府的事務,更延伸到商業,自然以及社會科學,醫療等甚至更多方面。因為統計學擁有深厚的歷史以及廣泛的應用性,統計學通常不只被認為是數學所處理的對象,而是與數學本身的哲學定義與意義有密切的關聯。許多知名的大學擁有獨立的數理統計學系。統計學也在如心理學教育學以及公共衛生學系中被視為是一門主科。

統計學的數學基礎建立在17世紀布萊茲·帕斯卡皮埃爾·德·費馬發展的概率論上。概率論從研究幾率得來。最小平方法卡爾·弗里德里希·高斯於1794年第一次得出。現代電腦可以進行更大尺度的統計運算,生成了許多無法用人工計算的新公式。

統計學的觀念

Thumb
費舍爾鳶尾花數據集之中雜色鳶尾花萼片寬度數據的分佈直方圖

為了將統計學應用到科學、工業以及社會問題上,我們由研究總體開始。這可能是一個國家的人民,石頭中的水晶,或者是某家特定工廠所生產的商品。一個母群體甚至可能由許多次同樣的觀察程式所組成;由這種資料蒐集所組成的母群體我們稱它叫時間序列

為了實際的理由,我們選擇研究母群體的子集代替研究母群體的每一筆資料,這個子集稱做樣本。以某種經驗設計實驗所蒐集的樣本叫做資料。資料是統計分析的對象,並且被用做兩種相關的用途:描述和推論。

  • 描述統計學處理有關敘述的問題:是否可以摘要的說明資料的情形,不論是以數學或是圖片表現,以用來代表母群體的性質?基礎的數學描述包括了平均數標準差等。圖像的摘要則包含了許多種的表和圖。主要是就說明資料的集中和離散情形。
  • 推論統計學被用來將資料中的數據模型化,計算它的概率並且做出對於母群體的推論。這個推論可能以對/錯問題的答案所呈現(假設檢定),對於數字特徵量的估計(估計),對於未來觀察的預測,關聯性的預測(相關性),或是將關係模型化(迴歸)。其他的模型化技術包括方差分析時間序列,以及數據探勘

相關的觀念特別值得被拿出來討論。對於資料集合的統計分析可能顯示兩個變量(母群體中的兩種性質)傾向於一起變動,好像它們是相連的一樣。舉例來說,對於人收入和死亡年齡的研究期刊可能會發現窮人比起富人平均來說傾向擁有較短的生命。這兩個變量被稱做相關的。但是實際上,我們不能直接推論這兩個變量中有因果關係;參見相關性推論因果關係(邏輯謬誤)。

如果樣本足以代表母群體的,那麼由樣本所做的推論和結論可以被引申到整個母群體之上。最大的問題在於決定樣本是否足以代表整個母群體。統計學提供了許多方法來估計和修正樣本和蒐集資料過程中的隨機性(誤差),如同上面所提到的透過經驗所設計的實驗。參見實驗設計

要了解隨機性或是概率必須具備基本的數學觀念。數理統計(通常又叫做統計理論)是應用數學的分支,它使用概率論來分析並且驗證統計的理論基礎。

任何統計方法是有效的只有當這個系統或是所討論的母群體滿足方法論的基本假設。誤用統計學可能會導致描述面或是推論面嚴重的錯誤,這個錯誤可能會影響社會政策,醫療實踐以及橋樑或是核能發電計劃結構的可靠性。

即使統計學被正確的應用,結果對於不是專家的人來說可能會難以陳述。一些統計科學的結果對於大眾而言相當費解。舉例來說,統計資料中顯著的改變可能是由樣本的隨機變量所導致,但是這個顯著性可能與大眾而言難以理解。另外,某些統計學分析(尤其當涉及概率論時)得出的結論可能非常違悖一般人的直覺,如蒙提霍爾問題。人們(甚至包括一些科學家)往往需要統計的技巧(或懷疑)才能理解其正確性。

統計方法

實驗與觀察性研究

統計研究中的共同目標是分析因果關係,具體來講就是從預估數據變化中得出結論,或是研究自變量與應變量之間的關係。因果統計研究主要有兩種:實驗研究和觀察研究。在兩種研究中,自變量改變對應變量所造成的影響可以被觀測到。兩種實驗間的不同在於實驗時如何進行的。兩種實驗都很厲害。實驗研究包括將系統尺度進行研究、操縱系統、使用更多的尺度進行同樣的實驗來確定操作是否改變了尺度的值。與之相對的是觀察研究,觀察研究不包括實驗性操作。在此,數據被收集,預估數據與回覆數據間的相關係數被研究。

實驗研究

統計實驗的基本步驟如下:

  1. 設立研究計劃,包括找到代表研究專案的數據,使用如下資訊:根據處理效應進行初步預估,備用假說,預估實驗變率。對實驗目標的選擇和道德上的考慮也是必不可少的。統計學家推薦實驗(至少)應與另一個相同標準、不同專案的參照組進行對比,以減少偏差
  2. 試驗設計,使用區組變數來減少干擾變數的影響,將物件進行隨機處理,消除估算處理效用與實驗誤差中的偏差。在此階段,實驗參與者和統計學家填寫實驗草案,並依此指導實驗行程,對實驗數據的原始分析進行細化。
  3. 根據實驗草案進行實驗、方差分析
  4. 在第二次分析中進一步解析數據,為進一步研究提出新假說
  5. 匯報研究結果並將其存檔。

對人類行為的實驗研究應該多加謹慎。著名的霍桑效應西方電器公司英語Western Electric位於伊利諾伊州的霍桑工廠(Hawthorne Works)進行心理學實驗,研究工作環境改變對生產率的影響。研究人員嘗試增強照明,觀察它是否有助於提高管線化工人的生產率。研究人員首先檢測了工廠的生產率,爾後改變車間的照明強度,觀察結果。結果是生產率在實驗環境下的確提升了。然而,該實驗因其流程誤差在今天飽受批評,特別是實驗缺乏參照組和雙盲霍桑效應指僅從觀測來得出結論。該實驗中生產率的提升不是因為照明強度的改變,而是因為工人們發覺他們被圍觀了。

觀察研究

觀察研究的具體例子是研究吸煙與肺癌之間的相關係數。這種研究常用調查來收集所需資訊的觀測結果,並對其進行統計分析。在本案例中,研究人員會收集吸煙和不吸煙者的觀察數據,進行病例對照研究,然後觀察每組中肺癌患者的數量。

測量的尺度

根據Stevens(1951)對數字的尺度分類,統計學一共有四種測量的尺度或是四種測量的方式。這四種測量(名目、順序、等距、等比)在統計過程中各具有不等的實用性。等比尺度(Ratio measurements)擁有零值及資料間的距離是相等被定義的;等距尺度(Interval measurements)資料間的距離是相等被定義的,但是它的零值並非絕對的無,而是自行定義的(如智力或溫度的測量);順序尺度(Ordinal measurements)的意義並非表現在其值而是在其順序之上;名目尺度(Nominal measurements)的測量值則不具量的意義。

統計術語

虛無假設

對統計資訊的解釋時常涉及到構建虛無假設,在該假設中,所有因素對變數都不起任何作用。

對新手來說最佳的比喻就是法庭窘境了。虛無假設H0認為被告是清白的,而對立假設H1則認為被告有罪。起訴是因為懷疑被告有罪。H0(現狀)與H1對立並且被認可,除非H1被「超過合理質疑」的證據證偽。然而,「無法排除H0」並不能代表被告清白,只是說證據無法將其定罪。所以,陪審團沒有必要在H0「無法推翻」的情況下將其「接受」。當虛無假設無法被「證明」時,可以通過強度檢測判斷假設是否近似成立,即進行第二型錯誤檢測。

誤差

虛無假設中存在兩種基本誤差

當對樣本的個體觀察偏離了中心數據,如樣本或母群體平均數,誤差就出現了。許多統計方法嘗試將中位數乘法的誤差最小化,這種方法被稱之為「最小平方法」。

生成統計數據的過程也會產生誤差。很多類似誤差被是隨機(噪音)性的,或是系統(偏倚)性的。但很多其他類型的重大誤差(如疏忽:分析員把單位填錯了)也是不容忽視的。

區間估計

許多時候研究只觀察母群體的樣本部分,所以結果並不能完全代表整個母群體。任何來自樣本的估算只能得到母群體的近似值。置信區間是統計學家用來表述樣本結果離整個母群體真實數值之間的差距。這常被表述為95%置信區間。形式上,數值為95%置信區間意味着如果在同樣情況下重複樣本分析(這回生成不同的數據集),95%的區間會得出符合(母群體)情況的實際結果。這並不意味着真實數值的概率也在95%置信區間之內。從頻率論的角度來說,這樣的說法毫無意義,因為真實數值不是一個隨機變量。真實數值要麼在,要麼不再給定的區間裏。然而,任何數據在被抽取樣本,設計置信區間之前,將要被計算的區間確實有95%的概率能代表真實數值:在這一點上,區間的極限仍然是有待被觀測的隨機變量。利用貝氏統計置信區間可以得出區間包涵真實數值的概率:這種方法對「概率」有另一種解釋,即貝氏機率

顯著性的差異

對於給出的問題,統計學很少回答簡單的是或否。它的解釋常常是以統計的顯著性差異出現,匯報可以將虛無假設精確證偽的概率值(這也被稱作是p值、假定值)。

顯著性差異並不一定代表所有的結果在現實世界裏都很顯著。例如對藥品的研究得出其具有統計的顯著性差異,但是實際上藥品可能毫無益處。這樣的藥品不會很有效地幫助病人康復。

由於假設檢定中可能更加偏向於某一假設(如虛無假設),在大尺度研究中可能會對微小差異過度誇張,因此這中方法受到批評。顯著性差異所得出的重大差額並不一定在現實中有意義,但是我們仍舊可以據此設計出相應的實驗。

在報告假設是否被證偽時,一些方法不僅僅報告顯著性差異和p值。p值並不代表效應的尺度。更好更常用的方法使報告置信區間。雖然該值是從相同的假設測試或p值計算過程中得出的,但是它對效應的尺度及其不確定性都給出了描述。

例子

以下列出一些有名的統計檢驗方法以及可供驗證實驗數據的程式

範疇

延伸的科目

有些科學廣泛的應用統計的方法使得他們擁有各自的統計術語,這些學科包括:

Thumb
統計軟件gretl
  • 社會統計(包括所有的社會科學)
  • 文獻統計分析
  • 化學與程式分析(所有有關化學的資料分析與化工科學)
  • 運動統計學,特別是棒球以及曲棍球

統計對於商業以及工業是一個基本的關鍵。他被用來了解與測量系統變異性,程式控制,對資料作出結論,並且完成資料取向的決策。在這些領域統計扮演了一個重要的角色。

統計計算

電腦在20世紀後半葉的大量應用對統計科學產生了極大的影響。早期統計模型常常為迴歸線性模型,但強勁的電腦及其演算法導致非線性模型(如神經網絡)和新式演算法(如廣義線性模式等級線性模型支持向量機)的大量應用。

電腦效能的增強使得需要大量計算的再取樣演算法成為時尚,如置換檢驗、自助法。Gibbs取樣法也使得貝葉斯模型更加可行。電腦革命使得統計在未來更加注重「實驗」和「經驗」。大量普通或專業的統計軟件現已面市。

濫用

Thumb
同樣的銷售量原點不同,看起來差距很大。

統計數據時常被濫用,對結果的解釋時常有利於演講者。[10]對統計的懷疑與誤導可被稱為:「世上有三種謊言:謊言,該死的謊言,統計數字」。許多對統計的濫用可能出於無意,也可能出於故意。《如何用統計來說謊》一書(How to Lie With Statistics[10]揭露了許多類似詭計,並在統計的應用與濫用中,回顧了許多案例中的統計方法(e.g. Warne, Lazo, Ramos, and Ritter(2012)。[11]

預防統計濫用包括使用合適的圖表、規避偏差[12]當結論被輕率概化,超過了它所能代表的範圍時,濫用就出現了。這常常是因無意或故意忽視樣本偏差所導致的。[13] 條形統計圖可能是最容易使用、最容易理解的圖表了,它可以用手或電腦繪製而成。[13]不巧的是,許多人忽視其中的偏差、誤差,因為他們不留意。因此,雖然圖表質素低劣,但人們常常願意去相信。[13]只有當樣本可以代表總體時,統計結果才是可信、精確的。[14]哈弗(Huff)稱:「樣本的可靠性可以被偏差破壞...給你自己點懷疑的空間吧。」[15]

參考文獻

參見

外部連結

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.