Das Bootstrapping-Verfahren oder Bootstrap-Verfahren (selten: Münchhausenmethode) ist in der Statistik eine Methode des Resampling.

Beim Bootstrapping-Verfahren ist die Grundannahme, dass die vorliegende Zufallsstichproberepräsentativ“ für die Grundgesamtheit ist, aus der sie gezogen wurde. Konzeptionell wird nun diese Grundgesamtheit durch die Stichprobe ersetzt. Durch wiederholtes Ziehen mit Zurücklegen werden neue unabhängige Stichproben (die Stichprobenwiederholungen) erzeugt, auf deren Grundlage dann Statistiken sowie deren Verteilungen berechnet werden können.

Verwendung finden Bootstrap-Methoden, wenn die theoretische Verteilung der interessierenden Statistik nicht bekannt ist. Die Methode wurde erstmals von Bradley Efron 1979 beschrieben[1] und geht aus Überlegungen zur Verbesserung der Jackknife-Methode hervor[2].

Der Bootstrap ersetzt in der Regel die theoretische Verteilungsfunktion einer Zufallsvariablen durch die empirische Verteilungsfunktion der Stichprobe . Es ist daher offensichtlich, dass Bootstrapping nur dann gut funktioniert, wenn die empirische Verteilungsfunktion die tatsächliche Verteilungsfunktion hinreichend gut approximieren kann, was eine gewisse Größe der ursprünglichen Stichprobe voraussetzt (vergleiche Konvergenzeigenschaften der empirischen Verteilungsfunktion).

Bootstrapping kann als Monte-Carlo-Methode verstanden werden, da es wiederholt zufällige Stichproben einer Verteilung zieht.[3]

Nichtparametrisches Bootstrapping ermöglicht weitestgehend ohne oder mit wenigen Modellannahmen, zuverlässig Verteilungen von Statistiken zu schätzen. Es ist unzuverlässig, falls die zugrundeliegende Verteilung unendliche Varianz besitzt[4].

Die Bezeichnung „Bootstrapping“ geht zurück auf die englische Redewendung: „To pull oneself up by one's bootstraps“ (dt. sich am eigenen Schopf aus dem Sumpf ziehen). Dies spielt darauf an, dass beim Bootstrapping-Verfahren aus einer Stichprobe erneut Stichproben gezogen werden. Baron Münchhausen erklärte bekanntlich, sich an den eigenen Haaren aus einem Sumpf gezogen zu haben. Daher der Name „Münchhausenmethode“.[5]

Bootstrapping kann intuitiv als Beobachtung der Realisierungen in Parallelwelten (der Bootstrap-Welt) verstanden werden[6].

Anwendungen

Bootstrapping als zufälliges wiederholtes Ziehen kann auf eine Vielzahl von Grundgesamtheiten angewendet werden. Voraussetzung ist nur, dass die Daten (zeit-)unabhängig verwendet werden können. Wenn man bspw. aus einer Reihe von 60 historischen aufeinander folgender Monatsrenditen rj 12 einzelne Monatsrenditen zufällig zieht und die Wachstumsfaktoren (1+rj) zu Jahresrenditen multipliziert und diesen Vorgang wie beim Monte-Carlo-Verfahren sehr häufig wiederholt, so erhält man dadurch eine Verteilungsfunktion der (erwarteten) Jahresrenditen, die man statistisch auswerten kann[7].

Das Verfahren eignet sich einerseits für deskriptive Kennzahlen wie das arithmetische Mittel oder den Median, aber auch für komplexere Methoden der Inferenzstatistik wie Regressionsmodelle. Durch die Flexibilität des Verfahrens ist es möglich, Standardfehler beliebiger Statistiken zu generieren und somit Inferenzen zu erleichtern.

Verfahren

Es gibt viele Bootstrap-Verfahren, unter anderem Bayesian Bootstrap, Smooth Bootstrap, Parametric Bootstrap, Residual Bootstrap, Gaussian process regression Bootstrap, Wild Bootstrap, Block Bootstrap.

i.i.d. Bootstrap

Thumb
Aus einer Population wird eine Stichprobe gezogen. Aus dieser Stichprobe werden durch Ziehen mit Zurücklegen Stichprobenwiederholungen gezogen (orange). Datenpunkte welche mehrfach gezogen wurden (circa 26,4 % bei großen Stichproben) sind rot und leicht versetzt doppelt gezeichnet. Aus den Stichprobenwiederholungen wird jeweils die Statistik berechnet, wodurch ein Histogramm zum Schätzen der Verteilung von berechnet werden kann.
Thumb
Histogramm der Bootstrap-Mittelwerte (blau)

Gegeben sei eine Stichprobe , die wir als Realisierung von unabhängig und identisch verteilten (i. i. d.) Zufallsvariablen mit unbekannter Verteilungsfunktion verstehen. Nun werden im einfachsten Fall Bootstrap-Stichprobenwiederholungen generiert, indem je Ziehung mal aus der gegebenen Stichprobe ein Wert mit Zurücklegen gezogen wird. Dieses Vorgehen entspricht dem wiederholten Ziehen von Zufallszahlen aus der empirischen Verteilungsfunktion . Für jede Bootstrap-Stichprobe wird der Wert der interessierenden Statistik berechnet. Die Verteilung von wird schließlich durch die empirische Verteilung der Werte approximiert. Aus dieser Verteilung der Statistik T kann direkt ein Konfidenzintervall mithilfe der inversen Verteilungsfunktion erzeugt werden.[2] Zudem lassen sich Erwartungswert und Varianz durch den Stichprobenmittelwert und Stichprobenvarianz schätzen.

Die Zahl der möglichen unterschiedlichen Stichprobenwiederholungen (bei Beachtung der Reihenfolge[9]) beim Ziehen mit Zurücklegen ist und steigt somit sehr schnell mit zunehmender Stichprobengröße . Daher beschränkt man sich typischerweise auf eine Monte-Carlo-Simulation, welche eine bestimmte Zahl zufälliger Stichprobenwiederholungen zieht.

Block-Bootstrap

Block-Bootstrap[10][11] wird bei zeitlich korrelierten Daten eingesetzt, da i.i.d Bootstrap die zeitliche Korrelation zerstören würde. Beim Block-Bootstrap werden die Daten zunächst in überlappende oder nichtüberlappende, zusammenhängende, Blöcke eingeteilt. Das Signal wird dann z. B. durch Anpassung einer Modellfunktion in einen Trend- und einen Residualanteil aufgeteilt. Nun werden so viele Residualblöcke durch Zurücklegen gezogen und aneinander angehängt, bis die ursprüngliche Länge des Signals erreicht ist. Diese gezogenen Residuuen werden auf die Trendzeitreihe addiert und so wird eine Stichprobenwiederholung erhalten. Dieser Vorgang wird nun oft (z. B. ) wiederholt. Dann kann auf diesen Stichprobenwiederholungen die gewünschte Statistik (Funktion) berechnet werden.

Parametrisches Bootstrap

Beim parametrischen Bootstrap wird angenommen, dass die originale Stichprobe einer bekannten Verteilung mit Parametern folgt. Diese Parameter werden zum Beispiel mithilfe der Maximum-Likelihood-Methode geschätzt, sodass man den Schätzwert erhält. Die geschätzte Verteilungsfunktion ist und aus dieser Verteilung werden wie beim nichtparametrischen Bootstrap wiederholt Stichproben gezogen.

m-out-of-n Bootstrap

Bei dieser Version des Bootstrap werden kleinere Stichprobenwiederholungen gezogen[12][13], dies ist beispielsweise beim bootstrapping von Extremwerten notwendig.

Bootstrap-Stichprobenverteilungen

Wenn eine hinreichend große Stichprobe repräsentativ für die Grundgesamtheit ist, kann die Stichprobenverteilung für eine beliebige Stichprobenfunktion nichtparametrisch mit Hilfe des Bootstrap-Verfahrens geschätzt werden, ohne dass die Verteilung der Stichprobenvariablen bekannt sein muss.

Beispiel

Efron und Tibshirani[14] geben folgendes Beispiel für den parametrischen Bootstrap: Die Titelseite der New York Times vom 27. Januar 1987 berichtete von einer Studie, nach der das Risiko für einen Herzinfarkt durch die regelmäßige Einnahme kleiner Dosen Aspirin reduziert würde. Folgende Daten wurden erhoben:

Weitere Informationen Herzinfarkt (tödlich und nicht tödlich), Probanden ...
Herzinfarkt

(tödlich und nicht tödlich)

Probanden
Aspirin-Gruppe 104 11037
Placebo-Gruppe 189 11034
Schließen

Für die Herzinfarktraten beider Gruppen ergibt sich . Der Quotient der Raten beträgt . Diese Zahl ist , sodass diese Daten tatsächlich suggerieren, dass die Einnahme von Aspirin das Herzinfarktsrisiko reduziert. Ist diese Erhebung statistisch signifikant und kann auf die Grundgesamtheit übertragen werden oder können diese Ergebnisse durch zufällige Einflüsse erklärt werden? Eine Möglichkeit, dies zu prüfen, bietet der exakte Test nach Fisher. Eine andere Möglichkeit bietet das Bootstrapping-Verfahren. Bezeichne mit bzw. die Wahrscheinlichkeit, dass eine Person der Aspiringruppe bzw. Placebo-Gruppe innerhalb des Studienzeitraums einen Herzinfarkt erleidet. Ziel ist es nun, ein approximatives Bootstrap-Konfidenzintervall für zu konstruieren.

Wähle und . In der Studie wurde die Realisierung beobachtet. Ein Schätzer für ist gegeben durch . In der o. g. Studie wurde die Realisierung beobachtet. Um weitere Realisierungen für zu generieren, benötigt man weitere Realisierungen von und . Die Studie könnte wiederholt werden, aber das ist zeitaufwendig und ggf. teuer. Hier hilft die parametrische Bootstrap-Methode. Man schätzt zunächst und mit den Daten, die wir beobachtet haben. So erhält man und . Anstelle von simulieren wir nun mit der Bootstrap-Variante , wobei und . Über mit erhält man Bootstrap-Realisierungen von . Der empirische Mittelwert und die empirische Varianz dieser Datenpunkte sind nun Schätzwerte für den theoretischen Erwartungswert bzw. die theoretische Varianz. Weiterhin lässt sich das gesuchte Konfidenzintervall für über die empirischen Quantile konstruieren.

Bootstrap-Test

Gegeben zwei Stichproben aus den Verteilungen und , verläuft ein Bootstrap-Test für die Nullhypothese wie ein Permutationstest, allerdings mit Ziehen mit Zurücklegen aus dem fusionierten Datensatz anstelle von Permutationen.

Bootstrap-Tests können auch die Nullhypothese testen und somit für Äquivalenztests benutzt werden.

Theoretischer Hintergrund

Theoretische ist das Bootstrapping-Verfahren durch den Satz von Gliwenko-Cantelli gestützt[15].

Probleme

In hohen Dimensionen ist Residual-Bootstrap (eine Methode zum Bootstrappen von Regressionsmodellen)[16] sehr anti-konservativ bzw. Pair-Bootstrap sehr konservativ[17].

Bei der Stichprobenwiederholung mit Zurücklegen gilt für eine Stichprobe der Größe , dass die Wahrscheinlichkeit für ein Sample, nicht ausgewählt zu werden, ist. Somit ist bei einer Stichprobenwiederholung mit Zurücklegen die Wahrscheinlichkeit, dass der Wert n-mal nicht ausgewählt wird (für große Stichprobenumfänge im Limes) . Daher enthält eine Stichprobenwiederholung im Schnitt nur 63,2 % der zugrundeliegenden Werte (wobei diese dann auch mehrfach vorliegen dürfen). Dies führt zu Korrekturen wie dem 632 Bootstrap zum Abschätzen des Generalisierungsfehlers eines gefitteten Modells[18].

Die Größe der Bootstrap-Stichprobe kann zum Beispiel beim Bootstrapping der Verteilung von Extremwerten Einfluss auf das Ergebnis haben, dort muss die Bootstrap-Stichproben-Größe kleiner sein als die originale Stichprobengröße, um konsistente Ergebnisse zu erhalten.[19]

Literatur

  • Felix Bittmann: Bootstrapping - An Integrated Approach with Python and Stata. De Gruyter, 2021.
  • Bradley Efron: Bootstrap Methods: Another Look at the Jackknife. In: The Annals of Statistics. Band 7, Nr. 1, 1979, S. 1–26, doi:10.1214/aos/1176344552.
  • Bradley Efron, Robert J. Tibshirani: An Introduction to the Bootstrap. Chapman & Hall, New York 1993.
  • Jun Shao, Dongsheng Tu: The Jackknife and Bootstrap. Springer, 1995.
  • A. C. Davison, D. V. Hinkley: Bootstrap Methods and their Application (= Cambridge Series in Statistical and Probability Mathematics. Band 1). Cambridge University Press, 1997, doi:10.1017/CBO9780511802843.
  • Gail Gong (1986) Cross-Validation, the Jackknife, and the Bootstrap: Excess Error Estimation in Forward Logistic Regression, Journal of the American Statistical Association, 81:393, 108-113, DOI:10.1080/01621459.1986.10478245

Einzelnachweise

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.