Wartość p
graniczny poziom istotności / Z Wikipedii, wolnej encyclopedia
Drogi AI, mówmy krótko, odpowiadając po prostu na te kluczowe pytania:
Czy możesz wymienić najważniejsze fakty i statystyki dotyczące Wartość p?
Podsumuj ten artykuł dla 10-latka
Wartość p, p-wartość, prawdopodobieństwo testowe (ang. p-value, probability value) – prawdopodobieństwo uzyskania wyników testu co najmniej tak samo skrajnych, jak te zaobserwowane w rzeczywistości (w próbie losowej z populacji), obliczone przy założeniu, że hipoteza zerowa jest prawdziwa. Może być interpretowana jako miara niezgodności danych z założonym modelem, wyrażonym w hipotezie zerowej. Wyniki testów statystycznych sugerujące istnienie poszukiwanych zależności mogą być obserwowane wskutek losowej zmienności prób, choć w populacji wcale nie występują, dlatego błąd losowy powinien być kontrolowany, na przykład przy pomocy wartości . Jest to jednak narzędzie, które świadczy o wartości dowodowej danych jedynie pośrednio. Według wielu przeglądów i komentarzy błędne interpretacje wartości są w naukach powszechne[2].
Wartość jest używana we wnioskowaniu częstościowym przy weryfikacji hipotez statystycznych jako narzędzie kontroli błędów pierwszego rodzaju, polegających na uznawaniu fałszywych hipotez za prawdziwe. Jeśli wartość jest niższa, niż przyjęty z góry poziom istotności statystycznej (oraz jeśli model jest trafny, a jego założenia spełnione) można postępować tak, jakby hipoteza zerowa została odrzucona[3][4].
Wartość to prawdopodobieństwo skrajnych danych przy założeniu hipotezy zerowej: Można je rozumieć jako stopień, w jakim dane są zaskakujące, jeśli nie spodziewaliśmy się wykryć w danych niczego odbiegającego od założonej hipotezy zerowej (często jest nią brak efektu). Wartości nie należy mylić z prawdopodobieństwem danych przy założeniu alternatywnej hipotezy badawczej ani z prawdopodobieństwem hipotez w świetle danych; mogą mieć one zupełnie inne wartości:
Według oryginalnej propozycji Ronalda Fishera wartość może być używana do oceny wartości dowodowej danych, jednak jest to interpretacja obarczona licznymi zastrzeżeniami. Współtwórcy podejścia częstościowego, Spława-Neyman i Pearson, uważali, że takie oceny są nieuprawnione[3][4]. W realistycznych sytuacjach wartość nie musi silnie korelować z prawdziwością hipotezy zerowej[5]. Prawidłowo stosowana metodologia częstościowa nie służy do decydowania wprost o prawdziwości hipotez, zwłaszcza na podstawie pojedynczych badań, ale do unikania błędów decyzyjnych przy wielokrotnym powtarzaniu testów.
Istnieją sytuacje, w których wniosek, do którego prowadzi obliczanie wartości , jest błędny lub wręcz absurdalny, przede wszystkim jeśli badacz popełni błędy metodologiczne lub oszustwa (tzw. P-hacking): np. nie zastosuje poprawki na porównania wielokrotne. Autorzy postera konferencyjnego z 2009 r. zilustrowali to, wykonując badanie fMRI na martwym łososiu. Próby, w których nieżywej rybie pokazywano fotografie ludzi, wiązały się z istotną statystycznie zmianą aktywacji obszarów w jej mózgu (przed poprawkami)[6][7].