Remove ads
學科 来自维基百科,自由的百科全书
统计学是在資料分析的基础上,研究测定、收集、整理、归纳和分析反映數據資料,以便给出正确訊息的科學。這一门学科自17世纪中叶产生并逐步发展起来,它廣泛地應用在各門學科,從自然科学、社會科學到人文學科,甚至被用於工商業及政府的情報決策。隨著大数据時代來臨,統計的面貌也逐漸改變,與資訊、計算等領域密切結合,是數據科學中的重要主軸之一。
譬如自一組數據中,可以摘要並且描述這份數據的集中和離散情形,這個用法稱作為描述統計學。另外,觀察者以數據的形態,建立出一個用以解釋其隨機性和不確定性的數學模型,以之來推論研究中的步驟及母體,這種用法被稱做推論統計學。這兩種用法都可以被稱作為應用統計學。數理統計學则是討論背後的理論基礎的學科。
很多人认为统计学是一种科学的数学分支,是关于收集、分析、解释、陈述数据的科学。[1]另一些人认为它是数学的一个分支,因为统计学是关于收集解释数据的。[2]由于它基于观测、重视应用,统计学常被看作是一门独特的数学科学,而不是一个数学分支。[3][4]很多统计学都不是数学的:如确保所收集来的数据能得出有效的结论;将数据编码、存档以使得信息得以保存,可以在国际上进行比对;汇报结果、总结数据,以便统计员可以明白它们的意思;采取必要措施,保护数据来源对象的隐私。
统计学家通过专门的试验设计和调查样本来提升数据质量。统计学自身也为数据的概率模型提供了预测工具。统计学在其他学术科目上得到了广泛的应用,如自然科学、社会科学、政府、商业等。统计顾问可以帮助没有入户调查经验组织与公司进行问卷研究。
总结敘述收集来的数据被称之为描述統計學。这在进行实验研究信息交流中十分有用。另外,从数据的分布上也可以得出观测上的随机性和不确定性。
將資料中的數據模型化,計算它的機率並且做出對於母群體的推論被称之为推論統計學。推論是科学进步的重要因素,因为它可能从随机变量中得出数据的结论。推論統計學将命题进行更深入的研究,将结果进行检测。这些都是科学方式的一部分。描述統計學和对新数据的分析更倾向于提供更多的信息,逼近命题所述的真理。
“应用统计学”包括描述統計學和推論統計學中的应用成分。[5]理论统计学则注重统计推论背后的逻辑证明,以及数理统计学。数理统计学不但包括推导估测推论法的概率分布,还包括了计算统计和试验设计。
统计学与概率论联系紧密,并常以后者为理论基础。简单地讲,两者不同点在于概率论从母群體中推导出样本的概率。统计推论则正好相反——从小的样本中得出大的母群體的信息。
统计手法最早可以追溯至公元前5世纪。最早的统计著作来自公元9世纪的《密码破译》(Manuscript on Deciphering Cryptographic Messages)一书,由阿拉伯人肯迪编著。在书中,肯迪详细记录了如何使用统计数据和频率分析进行密码破译。根据沙特阿拉伯工程师易卜拉欣·阿凯笛(Ibrahim Al-Kadi)的说法,统计学和密码学分析便如此一同诞生了[6][7]
佛罗伦萨银行家、执政官乔瓦尼·维拉尼编订了佛罗伦萨14世纪历史书籍Nuova Cronica ,包括了如人口、法令、商贸、教育、宗教场所在内的统计数据,被誉之为历史上统计学入门的第一本书。[8]一些学者将1663年约翰·格兰特根据死亡率统计表编订出版的《自然与政治观察》(Natural and Political Observations)一书定格为统计学的诞生。[9]
統計學的英语词statistics是源於現代拉丁语statisticum collegium(國會)以及義大利语statista(國民或政治家)。德语Statistik,最早是由Gottfried Achenwall(1749)所使用,代表對國家的資料進行分析的學問,也就是“研究國家的科學”。在十九世紀統計學在廣泛的數據以及資料中探究其意義,並且由John Sinclair引進到英語世界。
統計學的初衷是作為政府(通常是中央政府)以及管理階層的工具。它大量透過國家以及國際統計服務蒐集國家以及本土的資料。另外依照各方面,普查則提供關母體的資訊。統計背後牽涉到更多數學導向的領域,如機率,或是從經驗科學(特別在天文學)中獲得的經驗證據設定估計參數。在今日的世界裡統計已經被使用在不僅僅是國家或政府的事務,更延伸到商業,自然以及社會科學,醫療等甚至更多方面。因為統計學擁有深厚的歷史以及廣泛的應用性,統計學通常不只被認為是數學所處理的對象,而是與數學本身的哲學定義與意義有密切的關聯。許多知名的大學擁有獨立的數理統計學系。統計學也在如心理學,教育学以及公共衛生學系中被視為是一門主科。
统计学的数学基础建立在17世纪布莱兹·帕斯卡和皮埃爾·德·費馬发展的概率论上。概率论从研究几率得来。最小二乘法由卡爾·弗里德里希·高斯于1794年第一次得出。现代计算机可以进行更大尺度的统计运算,生成了许多无法用人工计算的新公式。
為了將統計學應用到科學、工業以及社會問題上,我們由研究总体開始。這可能是一個國家的人民,石頭中的水晶,或者是某家特定工廠所生產的商品。一個母群體甚至可能由許多次同樣的觀察程序所組成;由這種資料蒐集所組成的母群體我們稱它叫時間序列。
為了實際的理由,我們選擇研究母群體的子集代替研究母群體的每一筆資料,這個子集稱做樣本。以某種經驗設計實驗所蒐集的樣本叫做資料。資料是統計分析的對象,並且被用做兩種相關的用途:描述和推論。
相關的觀念特別值得被拿出來討論。對於資料集合的統計分析可能顯示兩個變數(母群體中的兩種性質)傾向於一起變動,好像它們是相連的一樣。舉例來說,對於人收入和死亡年齡的研究期刊可能會發現窮人比起富人平均來說傾向擁有較短的生命。這兩個變數被稱做相關的。但是實際上,我們不能直接推論這兩個變數中有因果關係;參見相關性推論因果關係(邏輯謬誤)。
如果樣本足以代表母群體的,那麼由樣本所做的推論和結論可以被引申到整個母群體之上。最大的問題在於決定樣本是否足以代表整個母群體。統計學提供了許多方法來估計和修正樣本和蒐集資料過程中的隨機性(誤差),如同上面所提到的透過經驗所設計的實驗。參見實驗設計。
要了解隨機性或是機率必須具備基本的數學觀念。數理統計(通常又叫做統計理論)是應用數學的分支,它使用機率論來分析並且驗證統計的理論基礎。
任何統計方法是有效的只有當這個系統或是所討論的母群體滿足方法論的基本假設。誤用統計學可能會導致描述面或是推論面嚴重的錯誤,這個錯誤可能會影響社會政策,醫療實踐以及橋樑或是核能發電計畫結構的可靠性。
即使統計學被正確的應用,結果對於不是專家的人來說可能會難以陳述。一些統計科學的結果對於大眾而言相當費解。舉例來說,統計資料中顯著的改變可能是由樣本的隨機變量所導致,但是這個顯著性可能與大眾而言難以理解。另外,某些統計學分析(尤其當涉及概率論時)得出的結論可能非常違悖一般人的直覺,如蒙提霍爾問題。人們(甚至包括一些科學家)往往需要統計的技巧(或懷疑)才能理解其正確性。
统计研究中的共同目标是分析因果关系,具体来讲就是从预估数据变化中得出结论,或是研究自变量与因变量之间的关系。因果统计研究主要有两种:实验研究和观察研究。在两种研究中,自变量改变对因变量所造成的影响可以被观测到。两种实验间的不同在于实验时如何进行的。两种实验都很厉害。实验研究包括将系统尺度进行研究、操纵系统、使用更多的尺度进行同样的实验来确定操作是否改变了尺度的值。与之相对的是观察研究,观察研究不包括实验性操作。在此,数据被收集,预估数据与回复数据间的相关系数被研究。
统计实验的基本步骤如下:
对人类行为的实验研究应该多加谨慎。著名的霍桑效应在西方電器公司位于伊利诺伊州的霍桑工厂(Hawthorne Works)进行心理学实验,研究工作环境改变对生产率的影响。研究人员尝试增强照明,观察它是否有助于提高流水线工人的生产率。研究人员首先检测了工厂的生产率,尔后改变车间的照明强度,观察结果。结果是生产率在实验环境下的确提升了。然而,该实验因其流程误差在今天饱受批评,特别是实验缺乏参照组和双盲。霍桑效应指仅从观测来得出结论。该实验中生产率的提升不是因为照明强度的改变,而是因为工人们发觉他们被围观了。
观察研究的具体例子是研究吸烟与肺癌之间的相关系数。这种研究常用调查来收集所需信息的观测结果,并对其进行统计分析。在本案例中,研究人员会收集吸烟和不吸烟者的观察数据,进行病例對照研究,然后观察每组中肺癌患者的数量。
根據Stevens(1951)對數字的尺度分類,統計學一共有四種測量的尺度或是四種測量的方式。這四種測量(名目、順序、等距、等比)在統計過程中各具有不等的實用性。等比尺度(Ratio measurements)擁有零值及資料間的距離是相等被定義的;等距尺度(Interval measurements)資料間的距離是相等被定義的,但是它的零值並非絕對的無,而是自行定義的(如智力或溫度的測量);順序尺度(Ordinal measurements)的意義並非表現在其值而是在其順序之上;名目尺度(Nominal measurements)的測量值則不具量的意義。
对统计信息的解释时常涉及到构建零假设,在该假设中,所有因素对变量都不起任何作用。
对新手来说最佳的比喻就是法庭窘境了。零假设H0认为被告是清白的,而备择假设H1则认为被告有罪。起诉是因为怀疑被告有罪。H0(现状)与H1对立并且被认可,除非H1被“超过合理质疑”的证据证伪。然而,“无法排除H0”并不能代表被告清白,只是说证据无法将其定罪。所以,陪审团没有必要在H0“无法推翻”的情况下将其“接受”。当零假设无法被“证明”时,可以通过强度检测判断假设是否近似成立,即进行第二型错误检测。
当对样本的个体观察偏离了中心数据,如样本或母群體平均数,误差就出现了。许多统计方法尝试将中位数乘法的误差最小化,这种方法被称之为“最小二乘法”。
生成统计数据的过程也会产生误差。很多类似误差被是随机(噪音)性的,或是系统(偏倚)性的。但很多其他类型的重大误差(如疏忽:分析员把单位填错了)也是不容忽视的。
许多时候研究只观察母群體的样本部分,所以结果并不能完全代表整个母群體。任何来自样本的估算只能得到母群體的近似值。置信区间是统计学家用来表述样本结果离整个母群體真实数值之间的差距。这常被表述为95%置信区间。形式上,数值为95%置信区间意味着如果在同样情况下重复样本分析(这回生成不同的数据集),95%的区间会得出符合(母群體)情况的实际结果。这并不意味着真实数值的概率也在95%置信区间之内。从频率论的角度来说,这样的说法毫无意义,因为真实数值不是一个随机变量。真实数值要么在,要么不再给定的区间里。然而,任何数据在被抽取样本,设计置信区间之前,将要被计算的区间确实有95%的概率能代表真实数值:在这一点上,区间的极限仍然是有待被观测的随机变量。利用贝叶斯统计置信区间可以得出区间包涵真实数值的概率:这种方法对“概率”有另一种解释,即贝叶斯概率。
对于给出的问题,统计学很少回答简单的是或否。它的解释常常是以统计的显著性差异出现,汇报可以将零假设精确证伪的概率值(这也被称作是p值、假定值)。
显著性差异并不一定代表所有的结果在现实世界里都很显著。例如对药品的研究得出其具有统计的显著性差异,但是实际上药品可能毫无益处。这样的药品不会很有效地帮助病人康复。
由于假设检验中可能更加偏向于某一假设(如零假设),在大尺度研究中可能会对微小差异过度夸张,因此这中方法受到批评。显著性差异所得出的重大差额并不一定在现实中有意义,但是我们仍旧可以据此设计出相应的实验。
在报告假设是否被证伪时,一些方法不仅仅报告显著性差异和p值。p值并不代表效应的尺度。更好更常用的方法使报告置信区间。虽然该值是从相同的假设测试或p值计算过程中得出的,但是它对效应的尺度及其不确定性都给出了描述。
以下列出一些有名的統計檢定方法以及可供驗證實驗數據的程序
有些科學廣泛的應用統計的方法使得他們擁有各自的統計術語,這些學科包括:
統計對於商業以及工業是一個基本的關鍵。他被用來了解與測量系統變異性,程序控制,對資料作出結論,並且完成資料取向的決策。在這些領域統計扮演了一個重要的角色。
计算机在20世纪后半叶的大量应用对统计科学产生了极大的影响。早期统计模型常常為迴歸线性模型,但强劲的计算机及其算法导致非线性模型(如神经网络)和新式算法(如廣義線性模式、等级线性模型、支持向量机)的大量应用。
计算机性能的增强使得需要大量计算的再取样算法成为时尚,如置换检验、自助法。Gibbs取样法也使得贝叶斯模型更加可行。计算机革命使得统计在未来更加注重“实验”和“经验”。大量普通或专业的统计软件现已面市。
统计数据时常被滥用,对结果的解释时常有利于演讲者。[10]对统计的怀疑与误导可被称为:“世上有三种谎言:谎言,该死的谎言,统计数字”。许多对统计的滥用可能出于无意,也可能出于故意。《如何用统计来说谎》一书(How to Lie With Statistics)[10]揭露了许多类似诡计,并在统计的应用与滥用中,回顾了许多案例中的统计方法(e.g. Warne, Lazo, Ramos, and Ritter(2012)。[11]
预防统计滥用包括使用合适的图表、规避偏差。[12]当结论被輕率概化,超过了它所能代表的范围时,滥用就出现了。这常常是因无意或故意忽视样本偏差所导致的。[13] 条形统计图可能是最容易使用、最容易理解的图表了,它可以用手或计算机绘制而成。[13]不巧的是,许多人忽视其中的偏差、误差,因为他们不留意。因此,虽然图表质量低劣,但人们常常愿意去相信。[13]只有当样本可以代表总体时,统计结果才是可信、精确的。[14]哈弗(Huff)称:“样本的可靠性可以被偏差破坏...给你自己点怀疑的空间吧。”[15]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.