scienco pri la kolektado, organizado, analizado, interpretado kaj prezentado de datenoj From Wikipedia, the free encyclopedia
Statistiko estas scienco pri la metodoj por kolekti, analizi kaj interpreti empiriajn nombrajn donitaĵojn kaj por prezenti la rezultojn. Tio fariĝas komplike, kiam la donitaĵoj kaj la interdependoj ne estas tute konataj, estas neprecizaj aŭ tro multenombraj por esti detale traktataj. Statistiko estas rimedo por kompari sciencan teorion kun la reala mondo kaj por serĉi novajn interrilatojn por nova teorio.
Statistiko uzas probablo-teorion, matematikan mezurteorion kaj modeladon. Nuntempe matematiko, komputoscienco kaj statistiko formas novan kampon, Datum-scienco, kun novaj rimedoj por kalkulado, modelado, inferencado kaj prezentado.
Kvanteca scienca esplorado baziĝas sur statistikaj metodoj (kp. kvaliteca esplorado).
Fojfoje oni renkontas la vorton statistiko (minuskle kaj ofte plurale) ankaŭ por bazaj statistikaĵoj: statistikaj datumoj, tabeloj kaj aliaj statistikaj datum-prezentoj. Tio imitas uzadon en iuj gentaj lingvoj, sed en Esperanto tia malpreciza uzado impresas nenature, eĉ misgvide, kaj estas evitinda.
Statistiko estas transversa apogo al ampleksa varieco de disciplinoj, de la fiziko ĝis la sociaj sciencoj, de la sciencoj de la sano ĝis la kontrolo de kvalito. Ĝi estas uzata por la decidado en areoj de negocoj aŭ institucioj registaraj.
La statistiko dividiĝas en du grandaj areoj:
Ambaŭ branĉoj apartenas al la aplikita statistiko. Estas ankaŭ disciplino nomata matematika statistiko, kiu referencas al la teoriaj bazoj de la materio. La vorto «statistikoj» ankaŭ aludas al la rezulto apliki algoritmon statistikan al aro de datumoj, kiel en ekonomiaj, kriminalaj statistikoj, inter aliaj.
La germana termino Statistik, kiu estis unue enkondukita de Gottfried Achenwall (1749), referencis origine al la analizo de datumoj de la Ŝtato, tio estas, la "scienco de la ŝtato" (ankaŭ nomata aritmetika politiko laŭ ĝia rekta traduko).[1] La termino statistiko akiris la signifon de kolektado kaj klasifikado de datumoj nur en la 19a jarcento. Ĉi tiun koncepton enkondukis anglo John Sinclair.
Formalaj studoj pri dedukta statistiko datiĝas el arabaj matematikistoj kaj kriptografoj, dum la Islama Orepoko inter la 8-a kaj la 13-a jarcentoj. Al-Ĥalil (717–786) verkis la Libron de Kriptografiaj Mesaĝoj, kiu enhavas unu el la unuaj uzoj de permutaĵoj kaj kombinaĵoj, por listigi ĉiujn eblajn arablingvajn vortojn kun kaj sen vokaloj.[2] La verko de Al-Kindi nome Manuskripto pri Deĉifrado de Kriptografiaj Mesaĝoj havigis detalan priskribon kiel uzi analizon pri frekvencoj por deĉifri ĉifritajn mesaĝojn, havigante fruan ekzemplon de dedukta statistiko por dekodigi. Ibn Adlan (1187–1268) poste faris gravan kontribuon al la uzado de montrogrando en analizo pri frekvencoj.[2]
La termino 'statistiko' estis enkondukita fare de la itala fakulo Girolamo Ghilini en 1589 reference al tiu scienco.[3][4] La plej frua verko enhavanta statistikojn en Eŭropo datiĝas el 1663, pro la publikigo de la verko Natural and Political Observations upon the Bills of Mortality de John Graunt.[5] Fruaj aplikaĵoj de statistika pensaro temis pri la bezonoj de ŝtatoj bazi sian politikon sur demografiaj kaj ekonomiaj datumoj, kaj el tio devenas la etimologio de statistiko el ŝtato. La alrigardo de la fako statistiko ampleksiĝis en la komenco de la 19-a jarcento por inkludi la kolektadon kaj analizon de ĝeneralaj datumoj. Nuntempe, statistiko estas amplekse uzata en politiko, aparte regado, negocado, kaj naturaj kaj sociaj sciencoj. Malfacile oni povas nun atenti gazetaron aŭ televidan novaĵprogramon netrafinte statistikojn.
La matematikaj fundamentoj de statistiko disvolviĝis el studoj pri hazardludoj inter matematikistoj kiel Gerolamo Cardano, Blaise Pascal, Pierre de Fermat, kaj Christiaan Huygens. Kvankam la ideo de probablo estis jam pritraktita en antikva kaj mezepoka juro kaj filozofio (kiel ĉe la verkaro de Juan Caramuel), la probabloteorio kiel matematika fako formiĝis nur en la plej frua komenco de la 17-a jarcento, partikulare en la postmorta verko de Jacob Bernoulli nome Ars Conjectandi.[6] Tiu estis la unua libro en kiu la temoj de hazardludoj kaj de probableco (kiuj postulis opinion, pruvaron kaj argumentojn) estis kombinitaj kaj submetitaj al la matematika analizo.[7][8] La metodo de "malplej nombraj kvadratoj" estis por la unua fojo priskribita de Adrien-Marie Legendre en 1805, kvankam Carl Friedrich Gauss supozeble uzis ĝin unu jardekon antaŭe, nome en 1795.[9]
La moderna fako de statistiko aperis fine de la 19-a kaj komenco de la 20-a jarcentoj en tri etapoj.[10] La unuan ondon, fine de la jarcento, enkondukis la verkaroj de Francis Galton kaj Karl Pearson, kiuj transformis statistikon en rigore matematika fako uzebla por analizoj, ne nur en scienco, sed ankaŭ en ekonomio kaj politiko. La kontribuoj de Galton inkludis la enkondukon de la konceptoj de norma devio, korelacio, analizo de regreso kaj la aplikadon de tiuj metodoj al la studo de la varieco de homaj trajtoj — alto, pezo kaj eĉ longo de okulharoj inter aliaj.[11]
Pearson disvolvis la korelacian koeficienton de Pearson difinita per produkt-momanto,[12] la metodon de momantoj por la kongruigo de distribuaĵoj al montraĵoj kaj la Pearson distribuon, inter multaj aliaj konceptoj.[13] Galton kaj Pearson fondis Biometrika nome la unua scienca gazeto pri matematika statistiko kaj biostatistiko (tiam nomita biometrio), kaj la laste menciita fondis la unuan universitatan statistikan departementon en la mondo nome en la Universitato-Kolegio de Londono.[14]
La duan ondon, de la 1910-aj kaj la 1920-aj jaroj, iniciatis William Sealy Gosset, kaj atingis sian kulminon en la alrigardoj fare de Ronald Fisher, kiu verkis la lernolibrojn kiuj difinos la akademian fakon en universitatoj tra la tuta mondo. La plej gravaj publikaĵoj de Fisher estis lia ŝlosila artikolo de 1918 nome The Correlation between Relatives on the Supposition of Mendelian Inheritance (Korelacio inter parencoj pri supozoj de mendela heredo) kiu estis la unua verko kiu uzis la poste tre utilan statistikan terminon, varianco), lia klasika verko de 1925 nome Statistical Methods for Research Workers (Statistikaj metodoj por esploristoj) kaj lia verko de 1935 nome The Design of Experiments (Dezajno de eksperimentoj),[15][16][17] en kiu li disvolvis rigorajn modelojn por dezajno de eksperimentoj.
Fisher kreis la konceptojn de "sufiĉeco" kaj "komplementa statistiko", la diskriminantan analitikon de Fisher kaj la "informaron de Fisher".[18] Li ankaŭ stampis la terminon "nula hipotezo" dum la eksperimento de la "Sinjorino tegustumanta", kio "estas neniam pruvita aŭ establita, sed ĝi estas eble dispruvita, laŭ la daŭro de la eksperimentado".[19][20] En sia libro de 1930 nome The Genetical Theory of Natural Selection (La genetika teorio de natura selektado), li aplikis statistikon al variaj biologiaj konceptoj kiel la "principo de Fisher"[21] (kion A. W. F. Edwards nomis "probable la plej fama argumento en evolucia biologio") kaj la "modelo de natura selektado pere de masklornamo de Fisher",[22][23][24][25][26][27] koncepto pri seksa selektado pri pozitiva reenfuĝa efiko troviĝanta en evolucio.
La fina ondo, kiu ĉefe konsistis el rafinado kaj ekspansio de pli fruaj disvolviĝoj, aperis el la kunlabora verkado inter Egon Pearson kaj Jerzy Neyman en la 1930-aj jaroj. Ili enkondukis la konceptojn de eraroj "Tipo II", "statistika povo" kaj konfidintervaloj. Jerzy Neyman en 1934 montris, ke tavoligita hazarda montraĵaro estas ĝenerale pli bona metodo de ĉirkaŭkalkulado ol la celita (kvota) montraĵaro.[28]
Aktuale, statistikajn metodojn oni aplikas en ĉiaj fakokampoj, kiuj postulas decidfaradon, por atingi akuratajn inferencojn el kolektita korpuso de datumoj kaj por decidfarado antaŭ necerteco bazite sur statistika metodologio. La uzado de modernaj komputiloj ebligis faradon de grandskalaj statistikaj komputadojn kaj ebligis ankaŭ novajn metodojn kiuj estis nepraktike plenumeblaj permane. Statistiko plue estas areo de aktiva esplorado, por ekzemplo por la problemo kiel analizi datumaregon (angle big data).[29]
La metodoj statistika-matematikaj emerĝis de la teorio de probablo, kiu datiĝas de la mesaĝado inter Blaise Pascal kaj Pierre de Fermat (1654). Christiaan Huygens (1657) donis la unuan sciencan traktadon de la fako. La Ars coniectandi (postmorta, 1713) de Jakob Bernoulli kaj la Doktrino de ebloj (1718) de Abraham de Moivre studis la disciplinon kiel branĉo de la matematikoj. En la moderna erao, la laboro de Andrej Kolmogorov estis kolono en la formulado de la fundamenta modelo de probablo-teorio, kiu estas uzita tra la statistiko.
Pierre-Simon Laplace (1774) faras la unuan provon dedukti regulon por la ĉifro de observoj de la komencoj de probablo-teorio. Laplace reprezentis la leĝon de probabloj de eraroj per kurbo kaj li deduktis formulon por la mezumo de tri observoj. La metodo de minimumaj kvadratajoj, kiu estis uzita por minimumigi la erarojn en mezuradoj, estis eldonita sendepende por Adrien-Marie Legendre (1805), Robert Adrain (1808), kaj Carl Friedrich Gauss (1809). Gaŭso estis uzinta la metodon en lia fama antaŭdiro de la lokigado de la nanoplanedo Cereso en 1801. Pliaj provoj estis skribitaj de Laplace (1810, 1812), Gaŭso (1823), James Ivory (1825, 1826), Hagen (1837), Friedrich Bessel (1838), W.F. Donkin (1844, 1856), John Herschel (1850) kaj Morgan Crofton (1870). Aliaj kontribuintoj estis Ellis (1844), Augustus De Morgan (1864), Glaisher (1872) kaj Giovanni Schiaparelli (1875). La formulo de Peters por , la probabla eraro de simpla observo estas bone konita.
La 19a jarcento inkludas aŭtorojn kiel Laplace, Silvestre Lacroix (1816), Littrow (1833), Richard Dedekind (1860), Helmert (1872), Hermann Laurent (1873), Liagre, Didion kaj Karl Pearson. Augustus De Morgan kaj George Boole plibonigis la prezenton de la teorio. Adolphe Quetelet (1796-1874),fariĝis alia grava fondinto de la statistiko kaj enkondukis la nocion de la «averaĝa homo» (l’homme moyen) kiel maniero kompreni la kompleksajn sociajn fenomenojn.
Dum la 20a jarcento, la kreo de precizaj instrumentoj por aferoj de publika sano (Epidemiologio, biostatistiko, ktp.) kaj sociaj kaj ekonomiaj celoj (proporcio de senlaboreco, Ekonometrio, ktp.) necesigis la konstantan uzadon de la oportunaj statistikoj.
Hodiaŭ la uzo de la statistiko etendiĝis for de ĝiaj originoj kiel servo al la Ŝtato aŭ al la registaro. Personoj kaj organizoj uzas statistikon por kompreni datumojn kaj preni decidojn en sociaj kaj naturaj sciencoj, medicino, negocoj kaj aliaj areoj. La statistiko estas komprenita ĝenerale ne kiel sub-areo de la matematikoj sed kiel malsama scienco «aliancita». Multaj universitatoj havas akademiajn fakojn de matematiko kaj statistiko aparte. La statistiko instruas en fakoj tiel diversaj kiel psikologio, eduko kaj publika sano.
Se la probablodistribuo de variablo X estas normala, la aritmetika averaĝo estas la plej efika (minimumvarianca) pritakso de ekspekto de la variablo:
kaj la ekspektofidela estimanto por la varianco estas
La kvadratradiko pritaksas disiĝgradon de la (kvankam ne estas ekspektofidela pritakso de ).
Praktike oni plej ofte uzas la suprajn pritaksojn, kiam oni volas scii lokon ĉirkaŭ kiu X varias kaj la koncernan gradon de disiĝo.
Oni povas dividi statistikajn metodojn diversmaniere:
t.e. la distribuo estas konata (parametra metodo), aŭ en alia ekstremo, la valoroj estas kodigitaj per klaso aŭ vicnombro (neparametra metodo)
Inter statistikaj metodoj menciendas jenaj:
Regresa statistiko estas unu el aro da statistikaj metodoj tre uzataj por analizi rilaton de dependa variablo al unu aŭ pluraj aliaj nedependaj variabloj. Pli specife, regreso helpas komprenigi, kiel tipa valoro de dependa variablo ŝanĝas, kiam unu el la nedependaj variabloj varias, dum la aliaj nedependaj variabloj restas senŝanĝaj. Regresanalizo estas vaste uzata por prognozo kaj antaŭvido, kiam la laborkampo proksimiĝas al artefarita intelekto.
Granda aro da teĥnikoj por trakti analizojn estis realigitaj. Konataj metodoj, kiel la lineara regreso kaj la metodo de kvadrataj minimumoj, estas parametraj regresoj, ĉar ilia regresofunkcio, kiu bildigas la problemon, estas difinita per finia nombro da nekonataj parametroj, kiuj estas laŭtaksataj el la datenoj. Neparametraj regresoj estas malpli konataj, kaj rilatas al teĥnikoj, kiuj permesas regresojn ligitajn al specifa aro da funkcioj, kun okazeble nefiniaj dimensioj.
Statistika mekaniko, unu el la pilieroj de la moderna fiziko, priskribas kiel makroskopaj observoj (kiel temperaturo kaj premo) estas rilataj al mikroskopaj parametroj kiuj fluktuas averaĝe. Ĝi konektas termodinamikajn kvantojn (kiel varmokapacito) al mikroskopa konduto, dum, en klasika termodinamiko, la nura disponebla eblo estus la mezuro kaj tabeligo de tiaj kvantoj por variaj materialoj.[30]
Statistika mekaniko estas necesa por la fundamenta studo de ajna fizika sistemo kiu havas multajn gradojn de libereco. La alproksimigo estas bazata sur statistikaj metodoj, probabloteorio kaj la mikroskopaj fizikaj leĝoj.[30][31][32] [33]
Statistikajn teknikojn oni uzas en ampleksa gamo de tipoj de sciencaj kaj sociaj esploroj, inter kiuj: biostatistiko, komputika biologio, komputika sociologio, reta biologio, sociaj sciencoj, sociologio kaj socia esplorado. Kelkaj esplorkampoj uzas aplikatan statistikon tiom etende ke ili havas specializitan terminaron. Inter tiuj fakoj menciendas jenaj:
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.