Loading AI tools
graniczny poziom istotności Z Wikipedii, wolnej encyklopedii
Wartość p, p-wartość, prawdopodobieństwo testowe (ang. p-value, probability value) – prawdopodobieństwo uzyskania wyników testu co najmniej tak samo skrajnych, jak te zaobserwowane w rzeczywistości (w próbie losowej z populacji), obliczone przy założeniu, że hipoteza zerowa jest prawdziwa. Może być interpretowana jako miara niezgodności danych z założonym modelem, wyrażonym w hipotezie zerowej. Wyniki testów statystycznych sugerujące istnienie poszukiwanych zależności mogą być obserwowane wskutek losowej zmienności prób, choć w populacji wcale nie występują, dlatego błąd losowy powinien być kontrolowany, na przykład przy pomocy wartości . Jest to jednak narzędzie, które świadczy o wartości dowodowej danych jedynie pośrednio. Według wielu przeglądów i komentarzy błędne interpretacje wartości są w naukach powszechne[2].
Wartość jest używana we wnioskowaniu częstościowym przy weryfikacji hipotez statystycznych jako narzędzie kontroli błędów pierwszego rodzaju, polegających na uznawaniu fałszywych hipotez za prawdziwe. Jeśli wartość jest niższa, niż przyjęty z góry poziom istotności statystycznej (oraz jeśli model jest trafny, a jego założenia spełnione) można postępować tak, jakby hipoteza zerowa została odrzucona[3][4].
Wartość to prawdopodobieństwo skrajnych danych przy założeniu hipotezy zerowej: Można je rozumieć jako stopień, w jakim dane są zaskakujące, jeśli nie spodziewaliśmy się wykryć w danych niczego odbiegającego od założonej hipotezy zerowej (często jest nią brak efektu). Wartości nie należy mylić z prawdopodobieństwem danych przy założeniu alternatywnej hipotezy badawczej ani z prawdopodobieństwem hipotez w świetle danych; mogą mieć one zupełnie inne wartości:
Według oryginalnej propozycji Ronalda Fishera wartość może być używana do oceny wartości dowodowej danych, jednak jest to interpretacja obarczona licznymi zastrzeżeniami. Współtwórcy podejścia częstościowego, Spława-Neyman i Pearson, uważali, że takie oceny są nieuprawnione[3][4]. W realistycznych sytuacjach wartość nie musi silnie korelować z prawdziwością hipotezy zerowej[5]. Prawidłowo stosowana metodologia częstościowa nie służy do decydowania wprost o prawdziwości hipotez, zwłaszcza na podstawie pojedynczych badań, ale do unikania błędów decyzyjnych przy wielokrotnym powtarzaniu testów.
Istnieją sytuacje, w których wniosek, do którego prowadzi obliczanie wartości , jest błędny lub wręcz absurdalny, przede wszystkim jeśli badacz popełni błędy metodologiczne lub oszustwa (tzw. P-hacking): np. nie zastosuje poprawki na porównania wielokrotne. Autorzy postera konferencyjnego z 2009 r. zilustrowali to, wykonując badanie fMRI na martwym łososiu. Próby, w których nieżywej rybie pokazywano fotografie ludzi, wiązały się z istotną statystycznie zmianą aktywacji obszarów w jej mózgu (przed poprawkami)[6][7].
W modelu wnioskowania częstościowego przed wykonaniem eksperymentu wybiera się krytyczny poziom istotności odpowiadający dopuszczalnemu w ocenie badacza ryzyku popełniania błędu pierwszego rodzaju oraz model statystyczny odpowiadający hipotezie zerowej tj. zakładający brak istnienia jakiegokolwiek efektu w populacji. W praktyce z reguły stosowany jest poziom istotności Wartość to obliczone na podstawie danych prawdopodobieństwo uzyskania takich lub bardziej skrajnych obserwacji w modelu hipotezy zerowej Odczytuje się ją zależnie od testu i tego, czy zakładamy jedno-, czy dwustronną hipotezę alternatywną – z jednej lub obu stron dystrybuanty właściwego dla niego rozkładu. Przed rozpowszechnieniem komputerów korzystano z tablic statystycznych, co było zaletą podejścia częstościowego, zapewniającego w ten sposób gotowe rozwiązania dla najczęściej spotykanych postaci problemów. Jeśli wartość jest mniejsza od przyjętego poziomu istotności, wynik uważa się za zaskakujący w świetle i określa się go jako istotny statystycznie. Jest to rozstrzygnięcie zero-jedynkowe – wynik jest albo istotny na przyjętym poziomie, albo nie[8][9]. Jeśli eksperyment uwzględnia wielokrotne wykonywanie testów statystycznych, poziom istotności powinien uwzględniać poprawkę przeciwdziałającą problemowi porównań wielokrotnych, np. Bonferroniego.
Użycie unormowanej wielkości, w przeciwieństwie do różnorodnych statystyk testowych (z, F, t, chi-kwadrat, D Kołmogorowa-Smirnowa itp.), pozwala bezpośrednio porównywać to, na ile dane z różnych eksperymentów są zaskakujące – przy założeniu hipotezy zerowej.
Wartość niższa od krytycznego poziomu istotności w podejściu częstościowym uprawnia jedynie do postępowania doraźnie tak, jakby hipoteza zerowa została odrzucona. Jest parametrem konkretnych obserwacji (próby statystycznej), a nie hipotezy badawczej. Nie wyraża wprost prawdopodobieństwa hipotezy alternatywnej: Nie wyraża też ryzyka popełnienia błędu pierwszego rodzaju (wynosi ono zawsze tyle, jaki przyjęto poziom istotności, najczęściej ). Nie wyraża również istotności praktycznej badanego zjawiska – niską wartość można uzyskać przy mikroskopijnych różnicach międzygrupowych (wielkości efektu), jeśli wielkość próby (moc statystyczna) jest bardzo duża. Jacob Cohen zwraca uwagę, że w naturze nie istnieją efekty idealnie zerowe, i w każdej parze zmiennych można oczekiwać jakiejś współzmienności, choćby mikroskopijnej. Miarą istotności praktycznej wyniku jest wielkość efektu z jej przedziałem ufności[2][10].
Wartość wyższa od poziomu istotności jest nieinformacyjna – nie świadczy ani za, ani przeciwko hipotezie zerowej. Wartość taka może oznaczać, że badanie miało zbyt niską moc statystyczną – w takim przypadku przedział ufności rezultatu będzie obejmować zarówno zero, jak i wyniki odległe od zera. Aby rzetelnie stwierdzić, czy zaobserwowane dane rzeczywiście świadczą na rzecz braku efektu praktycznie różnego od zera, a nie wynikają np. z niskiej mocy, można na przykład wykonać test równoważności (taki jak TOST – od ang. two one sided tests)[11]. Możliwe jest też na przykład, że badane zjawisko jest powierzchownie podobne do hipotezy zerowej – jak np. niektóre mechanizmy doboru naturalnego w biologii ewolucyjnej – i hipoteza badawcza musi być wyrażona w postaci bardziej szczegółowego modelu[12].
To, czy badanie może być uważane za przekonujące, zależy od jego konstrukcji i powtarzalności, a nie surowej wartości pojedynczego badania czy alternatywnych odpowiedników takich jak czynnik Bayesa[2][9].
Przy bardzo wysokiej mocy statystycznej testów, wyniki, które leżą poniżej, ale blisko progu istotności statystycznej (np. o wartości z przedziału 0,02–0,05), mogą świadczyć wbrew konwencjonalnym interpretacjom procedury bardziej na rzecz hipotezy zerowej. Jest to wariant paradoksu Lindleya.
Gdy różnica, której istnienie testujemy, jest w rzeczywistości nieobecna (hipoteza zerowa jest prawdziwa), rozkład oczekiwanych wartości jest jednostajny – każda wartość jest identycznie prawdopodobna. Spodziewamy się, że 5% wyników przypadkowo znajdzie się w każdym 5% rozkładu istotności, także w 0–0,05.
Gdy testujemy faktycznie istniejącą różnicę (hipoteza zerowa jest fałszywa), rozkład wartości jest silnie prawoskośny – w stopniu zależącym od mocy statystycznej badania. Przy bardzo wysokiej mocy statystycznej większość testów fałszywej hipotezy zerowej powinna osiągać wartości bliskie zeru. Wartości tylko trochę bardziej odległe – już np. w przedziale 0,02–0,05 – mogą wbrew spełniania kryterium „istotności statystycznej” świadczyć bardziej na rzecz prawdziwości hipotezy zerowej[13][14].
Jeśli zbiór badań tego samego zjawiska, szczególnie pochodzących z jednej publikacji lub od jednego autora, nie jest w pełni zgodny z oczekiwanym rozkładem – nie jest jednostajnie prawoskośny – można podejrzewać, że ma miejsce tendencyjność publikacji, błąd lub oszustwo naukowe (P-hacking). Narzędziem służącym do sprawdzania tego podejrzenia jest na przykład -curve[15].
Wyobraźmy sobie eksperyment sprawdzający, czy moneta jest symetryczna (jednakowa jest szansa otrzymania orła, jak i reszki). Hipoteza zerowa jest więc taka, że moneta jest symetryczna i każde odchylenie liczby otrzymanych orłów od liczby reszek jest tylko przypadkiem. Przypuśćmy, że wyniki eksperymentu to wyrzucenie 14 orłów z 20 rzutów. Wartość takiego wyniku jest szansą na to, żeby uczciwa moneta dała przynajmniej 14 orłów na 20 rzutów lub najwyżej 6 reszek na 20 rzutów. Prawdopodobieństwo tego, że na 20 rzutów symetrycznej monety otrzymamy co najmniej 14 orłów wynosi:
Otrzymujemy zatem wartość większą od konwencjonalnego poziomu istotności 0,05, tak więc nie ma podstaw do podważania hipotezy o tym, że moneta jest symetryczna.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.