Bootstrap (statystyka)

Bootstrap^[1] (pol. metody samowsporne) – wprowadzone przez Bradleya Efrona metody szacowania rozkładu błędów estymacji, za pomocą wielokrotnego losowania ze zwracaniem z próby. Są przydatne szczególnie, gdy nie jest znana postać rozkładu zmiennej w populacji. Ponieważ bootstrap w podstawowej wersji nie czyni założeń co do rozkładu w populacji, może być zaliczony do metod nieparametrycznych. Metody bootstrap zalicza się do metod repróbkowania, do których należą również testy permutacyjne, sprawdzian krzyżowy i metoda jackknife^[2].

Remove ads

Próbą bootstrap (lub próbą typu bootstrap) nazywamy $n$ -elementową próbę losową $\mathbf {X} ^{*}$ z rozkładu pewnej ustalonej $n$ -elementowej próby $\mathbf {X} =(x_{1},x_{2},\dots ,x_{n})$ z populacji $\Omega .$

Innymi słowy jest to próba powstała przez losowanie ze zwracaniem $n$ elementów z $\mathbf {X} .$

Remove ads

Niech $T$ będzie pewną statystyką, dającą się przedstawić jako funkcja dystrybuanty:

\theta =T(F)

i w przypadku zastosowania do rozkładu empirycznego jej wynikiem jest estymator ${\widehat {\theta }}{:}$

{\widehat {\theta }}=T({\widehat {F}}).

Warunki te spełnia szeroka klasa statystyk.

Zasada bootstrap mówi, że rozkład statystyki

T(F(\mathbf {X} ^{*}))-T(F(\mathbf {X} )),

przy ustalonej realizacji $X,$ jest bliski rozkładowi statystyki

T(F(\mathbf {X} ))-T(F(\Omega )),

czyli rozkładowi błędów estymacji parametru $\theta$ w populacji.

Remove ads

Zgodnie z zasadą bootstrap w celu oszacowania rozkładu błędów estymacji, należy:

wielokrotnie ( $k$ razy) wylosować niezależne próby losowe bootstrap $\mathbf {X} _{1}^{*},\mathbf {X} _{2}^{*},\dots ,\mathbf {X} _{k}^{*}$ na podstawie jednej realizacji $\mathbf {X} .$
obliczyć dla nich wartości:
${\widehat {\theta }}_{1}^{*}=T(F(\mathbf {X} _{1}^{*}))-{\widehat {\theta }},$

${\widehat {\theta }}_{2}^{*}=T(F(\mathbf {X} _{2}^{*}))-{\widehat {\theta }},$

$\dots ,$

${\widehat {\theta }}_{k}^{*}=T(F(\mathbf {X} _{k}^{*}))-{\widehat {\theta }}.$

Otrzymany rozkład $({\widehat {\theta }}_{1}^{*},{\widehat {\theta }}_{2}^{*},\dots ,{\widehat {\theta }}_{k}^{*})$ jest przybliżeniem rozkładu błędów estymacji za pomocą statystyki $T$ zastosowanej do próby $n$ -elementowej parametru $\theta$ w populacji.

Liczba $k$ powinna być możliwie duża (im większa tym dokładniejsze oszacowanie). W literaturze podawane są coraz większe liczby, w miarę jak rosną możliwości obliczeniowe komputerów.

Remove ads

Histogram uzyskanego rozkładu błędów można przedstawić na wykresie. Można też obliczyć dla niego rozmaite dalsze statystyki, takie jak błąd standardowy:

\operatorname {SE} _{{\widehat {\theta }}^{*}}={\sqrt {{\frac {1}{k-1}}\sum \limits _{i=1}^{k}({\widehat {\theta }}_{i}^{*}-{\overline {\theta ^{*}}})^{2}}},

gdzie:

{\overline {\theta ^{*}}}={\frac {\sum \limits _{i=1}^{k}{\widehat {\theta }}_{i}^{*}}{k}}.

Remove ads

Najprostszą metodą stworzenia przedziału ufności estymatora za pomocą rozkładu ${\widehat {\theta }}^{*}$ jest przybliżenie go rozkładem normalnym. Jest to metoda bardzo prosta, poszukiwany przedział ma postać:

\left({\widehat {\theta }}-z_{1-{\tfrac {\alpha }{2}}}\operatorname {SE} _{{\widehat {\theta }}^{*}},\ \ {\widehat {\theta }}+z_{1-{\tfrac {\alpha }{2}}}\operatorname {SE} _{{\widehat {\theta }}^{*}}\right).

Metoda ta nie zawsze daje się jednak zastosować, gdyż często błąd nie ma rozkładu normalnego. Wymaga ona zatem sprawdzenia normalności rozkładu i arbitralnej decyzji, czy jest on wystarczająco normalny.

Alternatywną metodą jest percentylowy przedział ufności typu bootstrap, który może być stosowany przy dowolnej postaci rozkładu błędów:

\left({\widehat {\theta }}-q_{1-{\tfrac {\alpha }{2}}}^{*},\ \ {\widehat {\theta }}+q_{1-{\tfrac {\alpha }{2}}}^{*}\right),

gdzie $q_{\alpha }^{*}$ to kwantyl rzędu $\alpha$ z rozkładu ${\widehat {\theta }}^{*}-{\widehat {\theta }}.$

Jeszcze inna metoda postuluje najpierw wykonanie studentyzacji rozkładu przed wyliczeniem przedziału percentylowego. To, która metoda daje najdokładniejsze wyniki, zależy od typu rozkładu w populacji (w szczególności obecności obserwacji odstających) oraz założonej metody oceny dokładności.

Remove ads

Metoda bootstrap jest też używana do weryfikacji hipotez statystycznych, o ile da się tę weryfikację sprowadzić do badania błędu estymacji za pomocą statystyki spełniającej warunki bootstrapu.

Na przykład gdy hipotezą zerową jest wartość oczekiwana w populacji $\mu =10,$ a w próbie uzyskaliśmy średnią ${\overline {\mathbf {X} }}=9{,}23,$ wówczas wartość $p$ jest prawdopodobieństwem, że średnia z próby będzie się różniła od średniej w populacji o co najmniej $10-9{,}23=0{,}77.$ Prawdopodobieństwo to można oszacować, losując próby bootstrap z $\mathbf {X}$ i sprawdzając w jakim odsetku losowań średnia wykracza poza przedział $(9{,}23-0{,}77,\ 9{,}23+0{,}77).$

Remove ads

Istnieje wiele odmian bootstrapu. W jednej z nich próby bootstrap nie są losowane bezpośrednio z próby $\mathbf {X} ,$ lecz z rozkładu podobnego do rozkładu $\mathbf {X} ,$ z wygładzoną dystrybuantą.

Istnieją też bardziej skomplikowane procedury bootstrapu dla próbkowania bez zwracania, problemów obejmujących dwie próby, regresji, szeregów czasowych, próbkowania hierarchicznego i innych problemów statystycznych.

Odmiana bootstrapu zwana bagging jest stosowana przy konstruowaniu modeli klasyfikacyjnych i regresyjnych, ograniczając zjawisko przeuczenia (Breiman 1984).

Remove ads

[1]
Etymologia w artykule bootstrap.
[2]
Chernick, M. R. (2012). Resampling methods. „Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery”, 2(3), 255-262.

Jacek Koronacki, Jan Mielniczuk: Statystyka dla studentów kierunków technicznych i przyrodniczych. Warszawa: WNT, 2001, s. 445–454. ISBN 83-204-2684-7.
Bradley Efron: The jackknife, the bootstrap, and other resampling plans. Philadelphia: Pa. Society for Industrial and Applied Mathematics, 1982.
L. Breiman, J.H. Friedman, R.A. Olshen, C.J. Stone: Classification and regression trees. Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software, 1984.

Bootstrap Sampling Tutorial (ang.): wprowadzenie do bootstrapu z użyciem Microsoft Excel
Bootstrap tutorial from ICASSP 99 (ang.): podręcznik napisany z punktu widzenia przetwarzania sygnałów

[1] [1]
Etymologia w artykule bootstrap.

[2] [2]
Chernick, M. R. (2012). Resampling methods. „Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery”, 2(3), 255-262.

[1]

[2]

Bootstrap (statystyka)

Wikiwand in your browser!

Bootstrap (statystyka)

Wikiwand in your browser!

Próba bootstrap

Zasada bootstrap

Metoda bootstrap

Błąd standardowy typu bootstrap

Przedziały ufności typu bootstrap

Testowanie hipotez metodą bootstrap

Odmiany metody

Przypisy

Bibliografia

Linki zewnętrzne