Remove ads
Z Wikipedii, wolnej encyklopedii
Wnioskowanie częstościowe (ang. frequentist inference), NHST (ang. null hypothesis significance testing), statystyka częstościowa – podejście w dziedzinie wnioskowania statystycznego oparte na falsyfikacji hipotez statystycznych na podstawie ich oczekiwanych długoterminowych właściwości. Jest ono amalgamatem metod wypracowanych przez Ronalda Fishera oraz Neymana i Pearsona[1]. Jego główną właściwością jest to, że w długim horyzoncie czasowym badacz posługujący się prawidłowo metodami częstościowymi nie popełni błędów decyzyjnych statystycznie częściej, niż założył. Charakterystycznym dla statystyki częstościowej narzędziem jest wartość p testu. Głównymi alternatywnymi podejściami jest wnioskowanie bayesowskie i stosowanie ilorazów wiarygodności.
Wnioskowanie statystyczne wyróżnia dwa rodzaje błędów decyzyjnych i dwa rodzaje prawidłowych decyzji, co ilustruje następująca tablica pomyłek:
|
Modele statystyczne używane w podejściu częstościowym mają dobrze znane właściwości, w związku z czym można określić, jak często przez naturalną zmienność prób statystycznych (błąd przypadkowy) możemy spodziewać się obserwacji przypadkowo wprowadzających badacza w błąd. W częstościowej interpretacji prawdopodobieństwa wynik każdego eksperymentu rozpatruje się jako jeden z nieskończonej liczby losowych, potencjalnych pomiarów nieznanych stałych wartości. Ponieważ znane są właściwości statystyczne modelu, można obliczyć – prawdopodobieństwo uzyskania obserwacji danych D, lub bardziej skrajnych, przy założeniu hipotezy H. Jeśli prawdopodobieństwo to (tzw. wartość p) jest mniejsze od przyjętej przez badacza wartości krytycznej, może przyjąć, że dane są przesłanką na rzecz falsyfikacji hipotezy H, i nie pomyli się czyniąc tak częściej niż wyznacza wybrana wartość krytyczna. Należy zwrócić jednak uwagę, że – kontrintuicyjnie – w podejściu częstościowym nie mówi się o odwrotnym, często bardziej interesującym badaczy prawdopodobieństwie: a więc pewności jaką można przypisać badanej hipotezie na podstawie obserwacji. Wartość ta koreluje jedynie słabo, zależnie od mocy i poziomu istotności użytego testu, z [2]. Podejście częstościowe zapewnia więc konkretny poziom pewności co do decyzji, ale nie daje bezpośrednio wiedzy co do prawdopodobieństwa hipotez. Wynika to z fundamentalnych założeń filozoficznych twórców tej metody – Fisher, i zwłaszcza Neyman, uważali że mówienie o prawdopodobieństwie hipotez jest błędem logicznym, ponieważ hipoteza może być jedynie albo prawdziwa, albo fałszywa. W opozycji do tego poglądu, wnioskowanie bayesowskie opiera się na pojęciu prawdopodobieństwa subiektywnego, a wynik każdego eksperymentu traktuje jako stałe dane, reprezentujące w modelu nieznane zmienne losowe[3].
Wnioskowanie częstościowe jest amalgamatem modeli stworzonych przez Fishera oraz Neymana i Pearsona[1]. Ronald Fisher zaproponował w 1925 r., aby weryfikacja hipotez statystycznych polegała na teście istotności – obliczaniu wartości p danych (prawdopodobieństwa uzyskania takich, lub bardziej ekstremalnych obserwacji) przy założeniu hipotezy zerowej: najczęściej, braku jakichkolwiek różnic. Napisał również, że wartość p jest wyrazem wartości dowodowej danych przeciwko hipotezie zerowej. Zaproponował przyjęcie krytycznej wartości na poziomie 5% jako luźnej konwencji, która może być dostosowywana do konkretnego obszaru badawczego[4]. Jego propozycja testowania hipotezy zerowej wyglądała zatem następująco[5]:
Neyman i Pearson odrzucili interpretację Fishera m.in. w pracy z 1933 r., krytykując subiektywną naturę sądów o prawdziwości hipotez (z którą to obiekcją Fisher się zgadzał), i zaproponowali sformułowanie procesu weryfikacji hipotez statystycznych jako testu hipotez, w języku teorii decyzji: jakie należy przyjąć zasady postępowania, aby w długim horyzoncie czasowym nie popełniać błędów częściej niż przyjęto[6]. Rozróżnili dwie hipotezy: podstawową i alternatywną, oraz ryzyko popełnienia błędu pierwszego i drugiego rodzaju (odpowiednio, błędnym przyjęciu hipotezy zerowej i alternatywnej). W ich ujęciu, testowanie hipotez polega na zero-jedynkowym podejmowaniu decyzji co do wyboru jednej lub drugiej hipotezy, przy kontroli częstości podejmowania błędów, i z użyciem testu statystycznego wybranego według kryterium najwyższej mocy statystycznej w danym zastosowaniu. Neyman i Pearson odrzucili możliwość bezpośredniego rozważania wartości p zaobserwowanych danych jako ich wartości dowodowej, i podkreślali, że procedura wymaga przyjęcia a priori dopuszczalnego poziomu obu błędów, a parametry danych a posteriori nie powinny być poza tym traktowane jako informatywne. Model Neymana/Pearsona wyglądał zatem w ten sposób[5]:
Fisher nie uważał tego rozwiązania za dobre, twierdząc że mechaniczne podejście jest szkodliwe dla nauki. W publicznych wypowiedziach m.in. porównał Neymana do komunistycznego planisty. Spór statystyków pozostał burzliwy i niepogodzony do końca ich życia. Jednocześnie obie strony konfliktu uważały podejście bayesowskie również za błędne[5][7]. Po 1940 r. procedury Fishera i Neymana/Pearsona zaczęły być, wbrew wypowiedziom ich twórców, łączone w podręcznikach w hybrydową postać, i przedstawiane przy pomocy języka sugerującego, że pojedyncze wyniki mogą być używane do wyciągania bayesowskich wniosków o subiektywnym prawdopodobieństwie hipotez[8]. Sprawia to, że podejście częstościowe wiąże się z wieloma nieintuicyjnymi problemami interpretacyjnymi[1][5][7].
W modelu Neymana/Pearsona, częstościowa procedura weryfikacji hipotez statystycznych ma sens tylko wtedy, jeśli badacz postępuje według z góry ustalonego planu badawczego. Badacz który testuje hipotezy powinien przedstawić wyniki wszystkich zaplanowanych porównań, i ani nie pomijać, ani nie uwzględniać żadnych dodatkowych testów. Badania metodologiczne potwierdzają, że tego typu decyzje co do analizy danych ad hoc, po ich zebraniu, sprawiają, że nominalne ryzyko błędów w rzeczywistości bardzo wzrasta. Błędy tego typu obejmują m.in. zjawiska nazywane P-hackingiem oraz HARKingiem (od ang. hypothesizing after the results are known – stawianie hipotez po poznaniu danych)[9][10]. Dopuszczalne są badania, które służą eksploracji danych (badania eksploracyjne), a nie testowaniu hipotez (badania konfirmacyjne), ale nieuprawnione jest przedstawianie jednych jako drugich. Wyniki przeglądów publikacji sugerują, że takie błędy metodologiczne mogą być w naukach powszechne[11][12]. W związku z tym zaproponowano, aby naukowcy mieli obowiązek prerejestracji projektów badań przed ich wykonaniem[13].
Wynik istotny statystycznie uprawnia do przyjęcia, że można postępować tak, jakby hipoteza alternatywna była prawdziwa. Działając w zgodzie z tą zasadą nie popełnimy błędów częściej niż stanowi przyjęta przez nas nominalna wartość krytyczna. Nie daje jednak bezpośrednio informacji o tym, czy ta konkretna hipoteza jest rzeczywiście prawdziwa, ponieważ jest to inne prawdopodobieństwo warunkowe: które to wartości w praktyce jedynie słabo ze sobą korelują (r≈0,37 w symulacjach zakładających hipotezę zerową i losowy poziom mocy)[2]. Testowana jest ponadto z reguły hipoteza zerowa – jej odrzucenie nie oznacza, że prawdopodobna jest konkretna hipoteza alternatywna. O prawdopodobieństwie konkretnej hipotezy pozwalają mówić metody bayesowskie lub ilorazy wiarygodności.
Poziom wartości p obliczony a posteriori na podstawie zaobserwowanych danych nie wyraża tego, jakim ryzykiem popełnienia błędu pierwszego rodzaju są obarczone – prawdopodobieństwo warunkowe popełnienia błędu pierwszego rodzaju jest równe poziomowi istotności przyjętemu a priori – z reguły α=0,05[7].
Rozkład wartości p przy założeniu hipotezy zerowej jest jednostajny – każdy wynik jest jednakowo prawdopodobny. W przypadku hipotezy alternatywnej, przy wysokiej mocy statystycznej badania, oczekiwany rozkład wartości p jest mocno prawoskośny. Prowadzi to do sytuacji, w których przy wysokiej mocy pewne wartości p, choć znajdują się poniżej wartości krytycznej, są jednak bardziej typowe dla hipotezy zerowej[14].
Wysoka moc statystyczna badania powoduje, że nawet mikroskopijne różnice w obserwacjach zaowocują osiągnięciem przez test istotności statystycznej. Istotność statystyczna nie świadczy bezpośrednio o wartości dowodowej danych, ani o istotności praktycznej badanego zjawiska. Praktyczną istotność należy rozważać rozpatrując wielkość efektu wraz z jej przedziałem ufności[15]. Stosowanie tych miar jest obecnie rekomendowane np. przez Amerykańskie Towarzystwo Psychologiczne[16].
Wynik nieistotny jest nieinformatywny – nie świadczy ani na rzecz, ani przeciwko hipotezie zerowej. Uprawnia do postępowania tak, jakby była prawdziwa. W celu rozstrzygnięcia jej prawdziwości, można zastosować iloraz wiarygodności lub metody wnioskowana bayesowskiego. Jeśli badacz po uzyskaniu wyniku nieistotnego nadal uważa, że jego hipoteza alternatywna jest prawdziwa, może rozważyć wykonanie replikacji badania z wyższą mocą statystyczną.
Kluczowa dla metody naukowej jest ograniczona wiarygodność pojedynczych zbiorów obserwacji. Dopiero badanie, które niezależnie zreplikowano, pozwala mówić o jakiejś wiedzy. Statystyk Ronald Fisher stwierdza: „możemy uznać, że zjawisko jest udowodnione eksperymentalnie wówczas, gdy wiemy, jak przeprowadzić eksperyment, który rzadko zawiedzie w wykazaniu istotnych statystycznie rezultatów.”[17] Nieudane replikacje nie świadczą przy tym koniecznie o nieprawdziwości hipotezy, ponieważ nawet przy wysokiej mocy statystycznej i badaniu prawdziwego zjawiska można oczekiwać, że wystąpią przypadkowe nieistotne powtórzenia testów. Właściwą metodą, która służy rzetelnemu agregowaniu wyników wielu badań i wyciąganiu z nich wniosków jest metaanaliza[18]. Neyman i Pearson zaznaczyli ponadto już w 1928 r.: „metody statystyczne powinny być używane z rozwagą i zrozumieniem, a nie jako narzędzia które same w sobie udzielają ostatecznych odpowiedzi”[19].
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.