Loading AI tools
Z Wikipedii, wolnej encyklopedii
Obserwacja odstająca, element odstający (ang. outlier) – obserwacja relatywnie odległa od pozostałych elementów próby[1]. Innymi słowy, posiadająca nietypową wartość zmiennej niezależnej (objaśniającej) lub nietypowe wartości obydwu zmiennych – zależnej (objaśnianej) i objaśniającej (objaśniających w analizie regresji wielokrotnej). Oznacza to, że związek między Xi a Yi dla danej obserwacji może być inny niż dla reszty obserwacji w zbiorze danych.
Obserwacje odstające mogą odzwierciedlać rzeczywisty rozkład lub być rezultatem przypadku, ale mogą świadczyć też o błędnym pomiarze czy pomyłkach we wprowadzaniu informacji do bazy danych, itp. Duża liczba elementów odstających może też być sygnałem dobrania złego modelu.
Obserwacje odstające powstałe na skutek błędów w danych utrudniają i w skrajnym przypadku uniemożliwiają analizę. Szczególnie mało odporne na nie są metody i współczynniki bazujące na założeniu rozkładu normalnego i zależnościach liniowych, takie jak korelacja Pearsona, regresja liniowa, klasyczna analiza korespondencji, itp. Jeden element odstający może całkowicie zmienić wartość i znak korelacji, nawet z 0,9 do -0,9.
Konieczne jest więc albo usuwanie obserwacji odstających, albo stosowanie odpornych metod statystycznych (ang. robust), np. metod rangowych. Przykładowo zamiast zwykłej korelacji można stosować korelację rangową Spearmana albo tau Kendalla.
W przypadku regresji liniowej wielokrotnej stosuje się testy diagnostyczne wykrywające obserwacje wpływowe oraz obserwacje wysokiej dźwigni. Są to najczęściej analiza reszt standaryzowanych, odległość Mahalanobisa oraz odległość Cooka[2]. Ich metodologia jest najczęściej zbliżona: w regresji liniowej prostej to odległość danej obserwacji od średniej wartości tej zmiennej. W regresji wielokrotnej obserwacje nietypowe wyznacza odległość problematycznej obserwacji od punktu średnich wartości wszystkich zmiennych objaśniających.
Przykładem obserwacji odstającej jest zamach z 11 września 2001 roku. Ofiary zamachów terrorystycznych z 11 września nie są uwzględniane w oficjalnych statystykach przestępczości Nowego Jorku, śmierć Henryka Siwiaka jest jedynym zabójstwem zarejestrowanym w mieście tego dnia. FBI również nie odnotowało 2977 zgonów w wyniku ataków na WTC w swoim rocznym wskaźniku przestępczości z użyciem przemocy za 2001 rok, powołując się na fakt, że zgony te wypaczyłyby analizy FBI.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.