Loading AI tools
Z Wikipedii, wolnej encyklopedii
Ranga – numer kolejny obserwacji statystycznej w próbie po uporządkowaniu obserwacji według wartości jednej ze zmiennych. Zwykle stosuje się uporządkowanie rosnące i numerowanie od 1.
Zastąpienie zmiennej przez wyliczone według niej rangi jest operacją zwaną rangowaniem. Rangowanie jest zwykle stosowane w celu uniezależnienia się od rozkładu zmiennej oraz możliwych wystąpień obserwacji odstających. Pozwala ono również na stosowanie metod statystycznych w odniesieniu do zmiennych porządkowych, a nie tylko przedziałowych i ilorazowych. Rangowanie jest też pierwszym krokiem wielu metod statystyki nieparametrycznej, tzw. metod rangowych, takich jak np. korelacja rangowa.
Rangowanie można zastosować do wielu zmiennych w próbie, porządkując każdą zmienną z osobna, nadając odpowiednie rangi, a następnie wracając do pierwotnego ustawienia obserwacji.
W przypadku występowania obserwacji o równej wartości rangowanej zmiennej (tzw. rangi wiązane, ang. tied ranks), zwykle wszystkim tym obserwacjom przypisuje się identyczną rangę, równą średniej z ich numerów kolejnych. Stąd rangi mogą mieć wartości niecałkowite.
Pakiety statystyczne posiadają też możliwość traktowania rang wiązanych w inny sposób, np.
W pięcioelementowej próbie[uwaga 1] znajdują się następujące obserwacje zmiennej
Po posortowaniu według wartości x, uzyskujemy kolejność:
Jak widać obserwacje i mają tę samą wartość zmiennej Rangi zmiennej
Po przywróceniu pierwotnej kolejności obserwacji w zbiorze:
Jeśli rangom wiązanym nadano wartości średnie, średnia rang wynosi:
Wariancja rang wynosi:
gdzie:
Gdy nie ma rang wiązanych, jest równe zeru i wariancja rang zależna jest wyłącznie od liczności próby, a rangi mają rozkład jednostajny dyskretny. Ta właściwość jest podstawą wielu typowych metod rangowych, takich jak rho Spearmana. Sprawia ona także, iż metody rangowe są odporne na obserwacje odstające.
Opisane powyżej rangi zwane są regularnymi. Stosowane są też rangi ułamkowe – powstałe przez podzielenie rang regularnych przez liczbę obserwacji danej zmiennej (z wyłączeniem brakujących danych), oraz rangi procentowe, czyli rangi ułamkowe wyrażone w procentach.
Stosowanie rang ułamkowych i procentowych ma sens w przypadku zbiorów z brakami danych. Wówczas rangi ułamkowe i procentowe zapewniają lepszą od rang regularnych porównywalność zmiennych o różnym udziale brakujących danych.
Rangi ułamkowe przy braku rang wiązanych są równe dystrybuancie empirycznej. W nieskończonej populacji nie ma rang wiązanych, co sprawia, że wiele metod rangowych ma swoje odpowiedniki wyrażone za pomocą dystrybuant (np. rho Spearmana).
Jak napisano wcześniej, zmienne porangowane (przy braku rang wiązanych) mają rozkład jednostajny dyskretny. Z drugiej strony wiele klasycznych metod statystycznych dostosowanych jest do rozkładu normalnego. Stąd niekiedy stosuje się dodatkowe przekształcenie rang, które zapewnia wymagany rozkład.
Dla rozkładu normalnego stosowane są wzory:
gdzie:
W przypadku istnienia w zbiorze rang wiązanych, należy powyższe wzory zastosować najpierw i dopiero potem uśrednić ich wyniki.
Przekształcenia te są stosowane głównie w testach położenia (ANOVA, testy równości wartości oczekiwanych itp.).
Aby otrzymać rozkład wykładniczy stosuje się wzór Savage’a:
Jest on stosowany do testów równości parametru skali w rozkładzie wykładniczym oraz testów równości parametru położenia w rozkładzie wartości ekstremalnych[3].
Dla testów skali stosowane są też inne przekształcenia rang:
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.