Loading AI tools
Lehre von Methoden zum Umgang mit quantitativen Informationen Aus Wikipedia, der freien Enzyklopädie
Statistik „ist die Lehre von Methoden zum Umgang mit quantitativen Informationen“ (Daten).[1] Sie ist eine Möglichkeit, „eine systematische Verbindung zwischen Erfahrung (Empirie) und Theorie herzustellen“.[1] Unter Statistik versteht man die Zusammenfassung bestimmter Methoden zur Analyse empirischer Daten. Ein alter Ausdruck für „Statistik“ ist Sammelforschung. Wenn moderne Technologien und Methoden (z. B. Maschinelles Lernen) zum Einsatz kommen, wird Statistik heute auch als Data Science bezeichnet.
Die Statistik wird als Hilfswissenschaft von allen empirischen Disziplinen und Naturwissenschaften verwendet, wie zum Beispiel der Medizin (Medizinische Statistik), der Psychologie (Psychometrie), der Politologie, der Soziologie, der Wirtschaftswissenschaft (Ökonometrie), der Biologie (Biostatistik), der Chemie (Chemometrie) und der Physik. Die Statistik stellt somit die theoretische Grundlage aller empirischen Forschung dar. Da die Menge an Daten in allen Disziplinen rasant zunimmt, gewinnt auch die Statistik und die aus ihr abgeleitete Analyse dieser Daten an Bedeutung. Andererseits ist die Statistik ein Teilgebiet der reinen Mathematik. Das Ziel der reinen mathematischen Statistik ist das Beweisen allgemeingültiger Aussagen mit den Methoden der reinen Mathematik. Sie bedient sich dabei der Erkenntnisse der mathematischen Grundlagendisziplinen Analysis und lineare Algebra.
Das Wort „Statistik“ stammt von lateinisch statisticum „den Staat betreffend“ und italienisch statista Staatsmann oder Politiker, was wiederum aus dem griechischen στατίζω (einordnen) kommt. Die deutsche Statistik, eingeführt von Gottfried Achenwall 1749, bezeichnete ursprünglich die „Lehre von den Daten über den Staat“. Im 19. Jahrhundert hatte der Schotte John Sinclair das Wort erstmals in seiner heutigen Bedeutung des allgemeinen Sammelns und Auswertens von Daten benutzt.
Statistik wird einerseits als eigenständige mathematische Disziplin über das Sammeln, die Analyse, die Interpretation oder Präsentation von Daten betrachtet, andererseits als Teilgebiet der Mathematik, insbesondere der Stochastik, angesehen.[2][3][4]
Die Statistik wird in die folgenden drei Teilbereiche eingeteilt:
Der Unterschied zwischen deskriptiver und explorativer Statistik wird auch an den Fragestellungen deutlich:[5]
Die moderne Statistik entstand aus verschiedenen historischen (datenanalytischen) Entwicklungen, die im Laufe des 19. und 20. Jahrhunderts zu der heutigen Statistik zusammengewachsen sind. Insbesondere die Teilung der Statistik in eine deskriptive und eine schließende Statistik spiegelt diese historische Entwicklung wider.
Die Anfänge der amtlichen Statistik reichen bis weit vor Christi Geburt zurück. Die ersten amtlichen Statistiken waren Volkszählungen (vermutlich erstmals in Ägypten zirka 2700 v. Chr.[6], während der Xia-Dynastie zirka 2000 v. Chr., in der Stadt Mari in Mesopotamien zirka 1700 v. Chr.). Im alten Griechenland gab es zumindest in Athen Bürgerregister, Register zur Bevölkerungsbewegung, Einfuhrlisten zollpflichtiger Waren (wie Importe von Getreide) und Vermögenskataster. Bei römischen Volkszählungen wurden die Bürger und ihr Vermögen erfasst.
In Deutschland fand die erste Volkszählung 1449 in Nürnberg statt. Die Stadtverwaltung wollte die Bevölkerung und Vorräte erfassen, um zu entscheiden, ob man Flüchtlinge aus dem Markgrafenkrieg noch in die Stadt lassen konnte oder nicht. Den Anfang mit umfangreichen (amtlichen) statistischen Erhebungen machte der französische Staatsmann Colbert 1665 mit der Einrichtung einer Handelsstatistik.
In Preußen wurden seit 1683 auf Anordnung des Kurfürsten Friedrich Wilhelm Bevölkerungsstatistiken (Geburten, Eheschließungen und Todesfälle) erstellt und im Lauf der Zeit erweitert: 1719 der Hausbestand und Kommunalfinanzen, 1778 der Viehbestand, Aussaat, Getreidepreise, Flachs- und Tabakanbau, Fabriken, Hütten- und Bergwerke, Schifffahrt und Handel. Andere deutsche Staaten und Städte zogen nach, so Bayern im Jahre 1771 mit der Dachsbergschen Volksbeschreibung. Seit der Errichtung des Statistischen Amtes des Deutschen Reiches 1872 wird in Deutschland eine gesamte amtliche Statistik geführt.[7] Auch in Österreich wurde 1753 durch Maria Theresia eine erste Volkszählung durchgeführt.
Um 1870 existierten in den meisten großen Staaten in Europa moderne statistische Behörden. Auf den Konferenzen des Statistischen Kongresses (1853–1878) wurden Qualitätsnormen formuliert, derer sich die meisten Staaten bedienten.[8]
Im Gegensatz zu heutigen Ergebnissen der amtlichen Statistik wurden die erstellten Statistiken nicht veröffentlicht und galten als Staatsgeheimnisse.
Unabhängig von der amtlichen Statistik hat sich die sogenannte Universitätsstatistik, ein inzwischen kaum mehr geläufiger Begriff für die beschreibende Staats- und Länderkunde, entwickelt. Das Sammelwerk des Italieners Sansovino (1562) ist eine erste Auflistung der Regierungsformen von zwanzig Staaten.[9] Ähnliche Werke entstanden unter anderem von dem Italiener Botero (1589), dem Franzosen d'Avitys (1616) und dem Niederländer de Laet (1624–1640).[10] Der Hauptvertreter der Universitätsstatistik in Deutschland war der Statistiker Achenwall.
Die amtliche Statistik diente der Verwaltung und der Unterstützung von Regierungs- oder Verwaltungsentscheidungen. Die Universitätsstatistik sollte mehr eine allgemeine Informationsquelle für Staatsmänner sein und enthielt anfangs nur textuelle Beschreibungen. Dazu gehörten Regierungsform, Gesetzesbestimmungen und Einzeltatsachen, eben „Staatsmerkwürdigkeiten“ im Sinne von des Merkens würdig. Erst später kamen tabellarische Aufstellungen hinzu, wie bei Büsching. Die Universitätsstatistiker haben jedoch selbst keine Erhebungen durchgeführt, sondern durch den Zugang zu den amtlichen Statistiken diese bearbeitet und veröffentlicht.
Das 19. Jahrhundert brachte Verfeinerungen der Beobachtungspraktiken, ihre institutionelle Verstetigung und die Idee der Objektivierung. Am Ende des 19. Jahrhunderts fand der Begriff der „Population“ vermehrt Anwendung. Bis 1890 lag eine voll ausgebildete mathematisierte Statistik vor. Adolphe Quetelet ergründete seit der Mitte des Jahrhunderts gesellschaftliches Zahlenmaterial nach Durchschnitten, Korrelationen und Gesetzmäßigkeiten und erfand den „Statistischen Durchschnittsbürger“ (l'homme moyen).[11]
Erst die politischen Arithmetiker begannen, nach Gesetzmäßigkeiten in den Daten zu forschen. Dies hatte ihren Ursprung in den populärer werdenden Tontinen, einer Art Rentenversicherung.[12] Der Engländer Graunt analysierte 1660 Geburts- und Sterbelisten und wollte allgemeine Gesetzmäßigkeiten über das Geschlechterverhältnis, das Verhältnis von Sterbe- und Geburtsfällen, Sterbehäufigkeiten finden.[13] Der englische Statistiker und Ökonom Petty übertrug diese Art von Analyse auf Wirtschaftsdaten. Der Hauptvertreter der politischen Arithmetiker in Deutschland ist der Statistiker Süßmilch mit seinem Werk Die Göttliche Ordnung in den Verhältnissen des menschlichen Geschlechts, aus der Geburt, dem Tode und der Fortpflanzung desselben erwiesen von 1741.
Diese Art von Statistiken hatte auch Einfluss auf philosophische Fragen, beispielsweise zur Existenz des freien Willens des Individuums.[14] Quetelet stellte fest, dass die Zahl der Eheschließungen in belgischen Städten geringere Abweichungen vom Durchschnitt zeigt als die Zahl der Todesfälle. Und das, obwohl der Zeitpunkt der Eheschließung dem freien Willen unterliegt und der Todeszeitpunkt (in der Regel) nicht.
Aus Betrachtungen von Glücksspielen entstand die moderne Wahrscheinlichkeitsrechnung. Als Geburtsstunde der Wahrscheinlichkeitsrechnung gilt der Briefwechsel zwischen Pascal und Fermat im Jahr 1654. Das Fundament der modernen Wahrscheinlichkeitsrechnung wurde mit dem Erscheinen von Kolmogorovs Lehrbuch Grundbegriffe der Wahrscheinlichkeitsrechnung im Jahr 1933 abgeschlossen.
Die Durchführung einer statistischen Untersuchung erfolgt immer im Zusammenspiel von statistisch-mathematischer Methodik und theoretischem Fachwissen. Sie kann grob in fünf Schritte eingeteilt werden:
In der Planungsphase (oder auch Definitionsphase) müssen die Forschungsfragen (Problem- und Zielstellung der Untersuchung und ihre theoretische Begründung) klar festgelegt werden. Zur Beantwortung muss folgendes entschieden werden:
Eine statistische Untersuchung ist selten eine unmittelbare Abfolge der fünf Schritte, sondern meist ein ständiger Wechsel zwischen den verschiedenen Phasen in Abhängigkeit von den Daten, Analyseergebnissen und theoretischen Überlegungen. Ein wichtiges Teilgebiet ist das statistische experimentelle Design, das üblicherweise auch eine sog. Fallzahlplanung (z. B. bei klinischen Studien) enthält. Sind diese Fallzahlen zu gering, so kann es vorkommen, dass die Studie zu wenig Power besitzt, um den Zusammenhang zu zeigen. Grundsätzlich ist zu sagen, dass Studien mit höheren Fallzahlen auch mehr Power besitzen. Mithilfe von statistischen Verfahren ist es möglich bei der Anwendung eines t-Tests (dieser prüft, ob sich zwei Mittelwerte einer Stichprobe statistisch signifikant voneinander unterscheiden) die Fallzahl genau zu berechnen.
Nach der Festlegung der Erhebungsart ergeben sich entsprechende Schritte.
Der Forscher erhebt seine Daten selbst, etwa durch Umfrage. Damit muss das Prozedere der Datenerhebung, etwa durch das ADM-Design, festgelegt werden und die Erhebung nach diesen Vorschriften durchgeführt werden.
Der Forscher nutzt Einzeldaten, die von anderen erhoben wurden, etwa durch ein Statistisches Amt. So spart er Arbeit, da er nicht selbst erhebt. Oft jedoch passen die erhobenen Variablen nicht exakt zur Forschungsfrage oder der gewünschten Operationalisierung.
Der Forscher nutzt nur für eine statistische Raumbezugseinheit[15] aggregierte Daten, die von anderen erhoben und veröffentlicht wurden.
Ferner differenziert man zwischen randomisierten Daten und reinen Observationsdaten (aus denen durch Computer-Simulationen noch quasirandomisierte Daten erstellt werden können, z. B. durch Propensity Score Matching).
Die Aufbereitungsphase umfasst die Kodierung der Daten, die Datenbereinigung (Plausibilitätsprüfung und Korrektur, Ausreißer, fehlende Werte) und evtl. (statistisch oder sachlogisch) notwendige Transformationen der erhobenen Variablen.
In die Aufbereitung fallen auch Imputationsmethoden für fehlende Werte. Dies bezeichnet Methoden, die fehlenden Werte durch ein zu begründendes Modell einzufügen. Hierbei ist äußerste Vorsicht geboten, mittlerweile existiert eine eigene Forschung im Bereich der Imputationsmethoden.
Konventionen und Zeichen präzisieren die Ergebnisse einer sorgfältigen Aufbereitung. Die Statistik der Stadt Bern arbeitet nach den folgenden Regeln:[16]
Symbol | Bedeutung |
---|---|
– | Gedankenstrich: Es kommt nichts vor (Wert genau Null). Ein Strich wird außerdem gesetzt, wenn die begrifflichen Voraussetzungen für eine Eintragung fehlen, das Zeichen bei Berechnungen aber durch eine Null ersetzt werden darf. |
0 0.0 | Eine Größe, die kleiner ist als die Hälfte der kleinsten verwendeten Einheit. |
() | Leere Klammer: Eine Zahlenangabe unterbleibt aus Gründen des Datenschutzes. |
… | Drei Punkte bedeuten je nach Kontext: Zahl nicht bekannt, gegenstandslos, aus statistischen Gründen nicht aufgeführt oder nicht anwendbar. |
1, 2 | Eine hochgestellte Zahl dient als Hinweis auf eine Fußnote. |
r | Ein hochgestelltes r macht einen gegenüber früher korrigierten Wert ersichtlich („restated“). |
g | Ein hochgestelltes g steht bei geschätzten Daten. |
/ | Ein Schrägstrich zwischen zwei Jahreszahlen kennzeichnet die zugehörigen Werte als Mittelwert. |
– | Ein Bindestrich zwischen zwei Jahreszahlen kennzeichnet die zugehörigen Werte als Summe. |
Σ | Allfällige Unterschiede zwischen Gesamtsumme und addierten Einzelwerten oder Teilsummen sind auf zufällige Rundungsdifferenzen zurückzuführen. |
In der Analysephase werden die Methoden der explorativen, deskriptiven und induktiven Statistik auf die Daten angewandt (Kennziffern, Grafiken und Tests). Aufgrund der teilweise automatisch erhobenen Datenmengen und der immer komplexeren Auswertungsverfahren (etwa Bootstrapping-Verfahren) ist eine Analyse ohne eine geeignete Statistik-Software (wie z. B. R) kaum möglich.
Die Interpretation der Ergebnisse der statistischen Analyse erfolgt natürlich unter Berücksichtigung des jeweiligen Fachgebietes. Von großer und fachübergreifender Wichtigkeit jedoch ist die Umsetzung von Zahlen in Sprache, die treffsichere sprachliche Umsetzung der gewonnenen Ergebnisse, die wissenschaftliche Kriterien erfüllt. Ohne den Rückbezug auf die im Verlauf des im wissenschaftlichen Erkenntnisprozess aufgestellten Hypothesen und Fragestellungen bleibt die statistische Analyse ohne Belang. In der statistischen Auswertung werden auch die meisten Schwächen einer statistischen Analyse sichtbar. Zu oft bleibt nur die reine Zahlendarstellung und zu wenig wird das Augenmerk auf eine klare sprachliche Ergebnissicherung gelegt. Eine überzeugende statistische Auswertung wird die gewonnenen Ergebnisse in einen flüssigen Text einbauen, versehen mit der Relevanz, den ersten Schritten von der Frage zur statistischen Methode, dem Höhepunkt einer strukturierten Ergebnisdarstellung und zu guter Letzt dem Verweis auf den größeren wissenschaftlichen Kontext, durchaus auch im Bewusstsein möglicher Schwachstellen der Analyse. Erst der Verweis und Querbezug auf andere wissenschaftlich gewonnene und valide Studienergebnisse trägt dann zu einem Erkenntnisfortschritt bei.
Statistiken stellen eine Repräsentation gesammelter Daten dar. Je nach Art und Weise der Datengewinnung entspricht der Gehalt der Informationen einem brauchbaren Ergebnis. Bei Verlassen der reellen und objektiven Prozesse können aber auch falsche Schlüsse aus Statistiken gezogen werden. So lässt sich ermitteln, wie groß der Anteil von Schwarzfahrern in Zügen oder die Durchschnittseinkommen der Bevölkerung an einem bestimmten Ort sein könnten. Allein aus statistisch verknüpfbaren Daten sollten aber keine Zusammenhänge gebildet werden.
Im Umgang mit Statistiken gilt es stets, den gesamten Datengehalt auf Relevanz, auf Beziehung der Teilinformationen zueinander und zum Umfeld zu prüfen. Bei bewusster Manipulation von Daten können falsche Belege gefunden werden, wenn die eine oder andere Beziehung weggelassen oder ins falsche Umfeld gesetzt wird. Es wird daher von Statistiken gefordert, dass sie „objektiv“ (unabhängig vom Standpunkt des Statistikerstellers), „reliabel“ (verlässlich), „valide“ (überkontextuell gültig), „signifikant“ (bedeutend) und „relevant“ (wichtig) sind.
In Lehrbüchern wird mitunter der Eindruck vermittelt, es gäbe nur das eine, sich ständig weiterentwickelnde Statistikmodell. In der Deskriptiven Statistik gibt es wenig Kontroversen, in der Induktiven Statistik gibt es jedoch verschiedene Denkschulen, die ein Problem unterschiedlich analysieren, bewerten und numerisch berechnen.[17] Wenig bekannte Ansätze sind
Dominiert wird die induktive Statistik durch
Die folgende Tabelle zeigt einige Unterschiede zwischen den Inferenzarten auf:
klassische Inferenz | Bayes-Inferenz | statistische Entscheidungstheorie | |
---|---|---|---|
verwendetes Inferenzkonzept | objektivistisch, kognitivistisch, frequentistisch | subjektivistisch, kognitivistisch, nichtfrequentistisch | subjektivistisch, dezisionistisch, nichtfrequentistisch |
Verwendete Information | früher: Priorinformation → jetzt: Stichprobendaten → später: Handlungsfolgen | ||
nur Stichprobendaten | zusätzlich Priorinformation | zusätzlich Handlungsfolgen | |
Informationsverarbeitung | Stichproben- und Likelihood-Funktionen | zusätzlich Priorverteilungen für Priorinformationen und Posteriorverteilung mittels Bayes Formel | zusätzlich Verlustfunktion für Handlungsfolgen |
Eingesetzte Methoden | Punkt- und Intervallschätzung sowie Testverfahren auf Basis der Stichprobenverteilungen | Punkt- und Intervallschätzung sowie Testverfahren auf Basis der Posteriorverteilungen | Aufstellung von Entscheidungsfunktionen |
Methodenbeurteilung | Unbekannter Parameter ist fix und Wahrscheinlichkeitsaussagen betreffen nur die Schätzung . | Unbekannter Parameter ist stochastisch und Wahrscheinlichkeitsaussagen betreffen auch . |
Ursprünglich wurde die Statistik entwickelt für die amtliche Statistik und auch für die Analyse von Glücksspielen. Bei vielen Fachwissenschaften bestand der Bedarf nach „objektiver“ Überprüfung und Entscheidung von Theorien, wozu die Mathematik und Regeln der Statistik geeignet sind. So haben sich aus der Anwendung von statistischen Methoden in den Fachwissenschaften eigene Teilgebiete entwickelt.
Die Entwicklung der Computer seit der zweiten Hälfte des 20. Jahrhunderts hat einen großen Einfluss auf die Statistik. Frühe statistische Modelle waren fast immer lineare Modelle. Die immer größere Rechenkapazität und die Entwicklung geeigneter numerischer Algorithmen verursachte ein gesteigertes Interesse an nicht-linearen Modellen, wie künstlichen neuronalen Netzwerken und führte zur Entwicklung komplexer statistischer Modelle, beispielsweise verallgemeinerte lineare Modelle oder Mehrebenenmodelle.
Durch die individuelle Verfügbarkeit von Statistik-Software kann man auch Daten selbst darstellen und eine Vielzahl von Berechnungen durchführen. Dies reicht von der Berechnung von Lageparametern (wie Mittelwerte, Median, Modus) und Streuungsmaßen (wie Standardabweichung, Varianz, Spannweite) bis zu komplexen statistischen Modellen. Auch ist in der Regel die Darstellung von Daten in einer Vielzahl von Diagrammen, wie Box-Plots, Stamm-Blatt-Diagrammen möglich. Für spezialisierte Grafiken kann man auf Visualisierungsprogramme zurückgreifen.
Der Zuwachs an Rechenleistung hat ebenfalls zu einer zunehmenden Popularität computerintensiver Methoden auf der Basis von Resampling-Techniken (Permutationstests, Bootstrapping-Verfahren) geführt. Auch die Anwendung der Bayessche Statistik ist durch Verwendung von Monte-Carlo-Simulationen, wie z. B. dem Gibbs-Sampling oder den Metropolis-Algorithmus, wesentlich einfacher und umsetzbarer geworden.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.