Remove ads
學科 来自维基百科,自由的百科全书
統計學是在資料分析的基礎上,研究測定、收集、整理、歸納和分析反映數據資料,以便給出正確訊息的科學。這一門學科自17世紀中葉產生並逐步發展起來,它廣泛地應用在各門學科,從自然科學、社會科學到人文學科,甚至被用於工商業及政府的情報決策。隨著巨量資料時代來臨,統計的面貌也逐漸改變,與資訊、計算等領域密切結合,是數據科學中的重要主軸之一。
譬如自一組數據中,可以摘要並且描述這份數據的集中和離散情形,這個用法稱作為敘述統計學。另外,觀察者以數據的形態,建立出一個用以解釋其隨機性和不確定性的數學模型,以之來推論研究中的步驟及母體,這種用法被稱做推論統計學。這兩種用法都可以被稱作為應用統計學。數理統計學則是討論背後的理論基礎的學科。
很多人認為統計學是一種科學的數學分支,是關於收集、分析、解釋、陳述資料的科學。[1]另一些人認為它是數學的一個分支,因為統計學是關於收集解釋資料的。[2]由於它基於觀測、重視應用,統計學常被看作是一門獨特的數學科學,而不是一個數學分支。[3][4]很多統計學都不是數學的:如確保所收集來的資料能得出有效的結論;將資料編碼、存檔以使得資訊得以儲存,可以在國際上進行比對;匯報結果、總結資料,以便統計員可以明白它們的意思;採取必要措施,保護資料來源物件的隱私。
統計學家通過專門的試驗設計和調查樣本來提升資料品質。統計學自身也為資料的機率模型提供了預測工具。統計學在其他學術科目上得到了廣泛的應用,如自然科學、社會科學、政府、商業等。統計顧問可以幫助沒有入戶調查經驗組織與公司進行問卷研究。
總結敘述收集來的資料被稱之為敘述統計學。這在進行實驗研究資訊交流中十分有用。另外,從資料的分布上也可以得出觀測上的隨機性和不確定性。
將資料中的數據模型化,計算它的機率並且做出對於母群體的推論被稱之為推論統計學。推論是科學進步的重要因素,因為它可能從隨機變數中得出資料的結論。推論統計學將命題進行更深入的研究,將結果進行檢測。這些都是科學方式的一部分。敘述統計學和對新資料的分析更傾向於提供更多的資訊,逼近命題所述的真理。
「應用統計學」包括敘述統計學和推論統計學中的應用成分。[5]理論統計學則注重統計推論背後的邏輯證明,以及數理統計學。數理統計學不但包括推導估測推論法的機率分布,還包括了計算統計和試驗設計。
統計學與機率論聯絡緊密,並常以後者為理論基礎。簡單地講,兩者不同點在於機率論從母群體中推導出樣本的機率。統計推論則正好相反——從小的樣本中得出大的母群體的資訊。
統計手法最早可以追溯至公元前5世紀。最早的統計著作來自公元9世紀的《密碼破譯》(Manuscript on Deciphering Cryptographic Messages)一書,由阿拉伯人肯迪編著。在書中,肯迪詳細記錄了如何使用統計資料和頻率分析進行密碼破譯。根據沙烏地阿拉伯工程師易卜拉欣·阿凱笛(Ibrahim Al-Kadi)的說法,統計學和密碼學分析便如此一同誕生了[6][7]
佛羅倫斯銀行家、執政官喬瓦尼·維拉尼編訂了佛羅倫斯14世紀歷史書籍Nuova Cronica ,包括了如人口、法令、商貿、教育、宗教場所在內的統計資料,被譽之為歷史上統計學入門的第一本書。[8]一些學者將1663年約翰·格蘭特根據死亡率統計表編訂出版的《自然與政治觀察》(Natural and Political Observations)一書定格為統計學的誕生。[9]
統計學的英語詞statistics是源於現代拉丁語statisticum collegium(國會)以及義大利語statista(國民或政治家)。德語Statistik,最早是由Gottfried Achenwall(1749)所使用,代表對國家的資料進行分析的學問,也就是「研究國家的科學」。在十九世紀統計學在廣泛的數據以及資料中探究其意義,並且由John Sinclair引進到英語世界。
統計學的初衷是作為政府(通常是中央政府)以及管理階層的工具。它大量透過國家以及國際統計服務蒐集國家以及本土的資料。另外依照各方面,普查則提供關母體的資訊。統計背後牽涉到更多數學導向的領域,如機率,或是從經驗科學(特別在天文學)中獲得的經驗證據設定估計參數。在今日的世界裡統計已經被使用在不僅僅是國家或政府的事務,更延伸到商業,自然以及社會科學,醫療等甚至更多方面。因為統計學擁有深厚的歷史以及廣泛的應用性,統計學通常不只被認為是數學所處理的對象,而是與數學本身的哲學定義與意義有密切的關聯。許多知名的大學擁有獨立的數理統計學系。統計學也在如心理學,教育學以及公共衛生學系中被視為是一門主科。
統計學的數學基礎建立在17世紀布萊茲·帕斯卡和皮埃爾·德·費馬發展的機率論上。機率論從研究機率得來。最小平方法由卡爾·弗里德里希·高斯於1794年第一次得出。現代電腦可以進行更大尺度的統計運算,生成了許多無法用人工計算的新公式。
為了將統計學應用到科學、工業以及社會問題上,我們由研究母體開始。這可能是一個國家的人民,石頭中的水晶,或者是某家特定工廠所生產的商品。一個母群體甚至可能由許多次同樣的觀察程式所組成;由這種資料蒐集所組成的母群體我們稱它叫時間序列。
為了實際的理由,我們選擇研究母群體的子集代替研究母群體的每一筆資料,這個子集稱做樣本。以某種經驗設計實驗所蒐集的樣本叫做資料。資料是統計分析的對象,並且被用做兩種相關的用途:描述和推論。
相關的觀念特別值得被拿出來討論。對於資料集合的統計分析可能顯示兩個變數(母群體中的兩種性質)傾向於一起變動,好像它們是相連的一樣。舉例來說,對於人收入和死亡年齡的研究期刊可能會發現窮人比起富人平均來說傾向擁有較短的生命。這兩個變數被稱做相關的。但是實際上,我們不能直接推論這兩個變數中有因果關係;參見相關性推論因果關係(邏輯謬誤)。
如果樣本足以代表母群體的,那麼由樣本所做的推論和結論可以被引申到整個母群體之上。最大的問題在於決定樣本是否足以代表整個母群體。統計學提供了許多方法來估計和修正樣本和蒐集資料過程中的隨機性(誤差),如同上面所提到的透過經驗所設計的實驗。參見實驗設計。
要了解隨機性或是機率必須具備基本的數學觀念。數理統計(通常又叫做統計理論)是應用數學的分支,它使用機率論來分析並且驗證統計的理論基礎。
任何統計方法是有效的只有當這個系統或是所討論的母群體滿足方法論的基本假設。誤用統計學可能會導致描述面或是推論面嚴重的錯誤,這個錯誤可能會影響社會政策,醫療實踐以及橋梁或是核能發電計畫結構的可靠性。
即使統計學被正確的應用,結果對於不是專家的人來說可能會難以陳述。一些統計科學的結果對於大眾而言相當費解。舉例來說,統計資料中顯著的改變可能是由樣本的隨機變數所導致,但是這個顯著性可能與大眾而言難以理解。另外,某些統計學分析(尤其當涉及機率論時)得出的結論可能非常違悖一般人的直覺,如蒙提霍爾問題。人們(甚至包括一些科學家)往往需要統計的技巧(或懷疑)才能理解其正確性。
統計研究中的共同目標是分析因果關係,具體來講就是從預估資料變化中得出結論,或是研究自變數與應變數之間的關係。因果統計研究主要有兩種:實驗研究和觀察研究。在兩種研究中,自變數改變對應變數所造成的影響可以被觀測到。兩種實驗間的不同在於實驗時如何進行的。兩種實驗都很厲害。實驗研究包括將系統尺度進行研究、操縱系統、使用更多的尺度進行同樣的實驗來確定操作是否改變了尺度的值。與之相對的是觀察研究,觀察研究不包括實驗性操作。在此,資料被收集,預估資料與回覆資料間的相關係數被研究。
統計實驗的基本步驟如下:
對人類行為的實驗研究應該多加謹慎。著名的霍桑效應在西方電器公司位於伊利諾州的霍桑工廠(Hawthorne Works)進行心理學實驗,研究工作環境改變對生產率的影響。研究人員嘗試增強照明,觀察它是否有助於提高管線工人的生產率。研究人員首先檢測了工廠的生產率,爾後改變車間的照明強度,觀察結果。結果是生產率在實驗環境下的確提升了。然而,該實驗因其流程誤差在今天飽受批評,特別是實驗缺乏參照組和雙盲。霍桑效應指僅從觀測來得出結論。該實驗中生產率的提升不是因為照明強度的改變,而是因為工人們發覺他們被圍觀了。
觀察研究的具體例子是研究吸菸與肺癌之間的相關係數。這種研究常用調查來收集所需資訊的觀測結果,並對其進行統計分析。在本案例中,研究人員會收集吸菸和不吸菸者的觀察資料,進行病例對照研究,然後觀察每組中肺癌患者的數量。
根據Stevens(1951)對數字的尺度分類,統計學一共有四種測量的尺度或是四種測量的方式。這四種測量(名目、順序、等距、等比)在統計過程中各具有不等的實用性。等比尺度(Ratio measurements)擁有零值及資料間的距離是相等被定義的;等距尺度(Interval measurements)資料間的距離是相等被定義的,但是它的零值並非絕對的無,而是自行定義的(如智力或溫度的測量);順序尺度(Ordinal measurements)的意義並非表現在其值而是在其順序之上;名目尺度(Nominal measurements)的測量值則不具量的意義。
對統計資訊的解釋時常涉及到構建虛無假說,在該假設中,所有因素對變數都不起任何作用。
對新手來說最佳的比喻就是法庭窘境了。虛無假說H0認為被告是清白的,而對立假說H1則認為被告有罪。起訴是因為懷疑被告有罪。H0(現狀)與H1對立並且被認可,除非H1被「超過合理質疑」的證據證偽。然而,「無法排除H0」並不能代表被告清白,只是說證據無法將其定罪。所以,陪審團沒有必要在H0「無法推翻」的情況下將其「接受」。當虛無假說無法被「證明」時,可以通過強度檢測判斷假設是否近似成立,即進行型二錯誤檢測。
當對樣本的個體觀察偏離了中心資料,如樣本或母群體平均數,誤差就出現了。許多統計方法嘗試將中位數乘法的誤差最小化,這種方法被稱之為「最小平方法」。
生成統計資料的過程也會產生誤差。很多類似誤差被是隨機(噪音)性的,或是系統(偏倚)性的。但很多其他類型的重大誤差(如疏忽:分析員把單位填錯了)也是不容忽視的。
許多時候研究只觀察母群體的樣本部分,所以結果並不能完全代表整個母群體。任何來自樣本的估算只能得到母群體的近似值。信賴區間是統計學家用來表述樣本結果離整個母群體真實數值之間的差距。這常被表述為95%信賴區間。形式上,數值為95%信賴區間意味著如果在同樣情況下重複樣本分析(這回生成不同的資料集),95%的區間會得出符合(母群體)情況的實際結果。這並不意味著真實數值的機率也在95%信賴區間之內。從頻率論的角度來說,這樣的說法毫無意義,因為真實數值不是一個隨機變數。真實數值要麼在,要麼不再給定的區間裡。然而,任何資料在被抽取樣本,設計信賴區間之前,將要被計算的區間確實有95%的機率能代表真實數值:在這一點上,區間的極限仍然是有待被觀測的隨機變數。利用貝氏統計信賴區間可以得出區間包涵真實數值的機率:這種方法對「機率」有另一種解釋,即貝氏機率。
對於給出的問題,統計學很少回答簡單的是或否。它的解釋常常是以統計的顯著性差異出現,匯報可以將虛無假說精確證偽的機率值(這也被稱作是p值、假定值)。
顯著性差異並不一定代表所有的結果在現實世界裡都很顯著。例如對藥品的研究得出其具有統計的顯著性差異,但是實際上藥品可能毫無益處。這樣的藥品不會很有效地幫助病人康復。
由於假說檢定中可能更加偏向於某一假設(如虛無假說),在大尺度研究中可能會對微小差異過度誇張,因此這中方法受到批評。顯著性差異所得出的重大差額並不一定在現實中有意義,但是我們仍舊可以據此設計出相應的實驗。
在報告假設是否被證偽時,一些方法不僅僅報告顯著性差異和p值。p值並不代表效應的尺度。更好更常用的方法使報告信賴區間。雖然該值是從相同的假設測試或p值計算過程中得出的,但是它對效應的尺度及其不確定性都給出了描述。
以下列出一些有名的統計檢定方法以及可供驗證實驗數據的程式
有些科學廣泛的應用統計的方法使得他們擁有各自的統計術語,這些學科包括:
統計對於商業以及工業是一個基本的關鍵。他被用來了解與測量系統變異性,程式控制,對資料作出結論,並且完成資料取向的決策。在這些領域統計扮演了一個重要的角色。
電腦在20世紀後半葉的大量應用對統計科學產生了極大的影響。早期統計模型常常為迴歸線性模型,但強勁的電腦及其演算法導致非線性模型(如神經網路)和新式演算法(如廣義線性模式、等級線性模型、支持向量機)的大量應用。
電腦效能的增強使得需要大量計算的再取樣演算法成為時尚,如置換檢定、自助法。Gibbs取樣法也使得貝葉斯模型更加可行。電腦革命使得統計在未來更加注重「實驗」和「經驗」。大量普通或專業的統計軟體現已面市。
統計資料時常被濫用,對結果的解釋時常有利於演講者。[10]對統計的懷疑與誤導可被稱為:「世上有三種謊言:謊言,該死的謊言,統計數字」。許多對統計的濫用可能出於無意,也可能出於故意。《如何用統計來說謊》一書(How to Lie With Statistics)[10]揭露了許多類似詭計,並在統計的應用與濫用中,回顧了許多案例中的統計方法(e.g. Warne, Lazo, Ramos, and Ritter(2012)。[11]
預防統計濫用包括使用合適的圖表、規避偏差。[12]當結論被輕率概化,超過了它所能代表的範圍時,濫用就出現了。這常常是因無意或故意忽視樣本偏差所導致的。[13] 條形統計圖可能是最容易使用、最容易理解的圖表了,它可以用手或電腦繪製而成。[13]不巧的是,許多人忽視其中的偏差、誤差,因為他們不留意。因此,雖然圖表品質低劣,但人們常常願意去相信。[13]只有當樣本可以代表母體時,統計結果才是可信、精確的。[14]哈弗(Huff)稱:「樣本的可靠性可以被偏差破壞...給你自己點懷疑的空間吧。」[15]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.