Kvantil (z lat. quantilis, jak malý/velký?[zdroj?]) je ve statistice charakteristika datového souboru reálných čísel nebo rozdělení náhodné proměnné udávající hodnotu, kterou stanovená část p (uváděná jako číslo z intervalu nebo v procentech v rozmezí 0–100 %) hodnot nepřesahuje. Je také možné říct, že kvantily jsou hodnoty, které dělí soubor seřazených (například naměřených) hodnot na několik zhruba stejně velkých částí. Příklad: výrok, že 90 % účastníků závodu mělo čas pod 2 hodiny, vlastně konstatuje, že 90. percentil (nebo devátý decil) dosažených časů je 2 hodiny. Výrok, že medián hrubé měsíční nominální mzdy je 34360 Kč, znamená, že polovina osob, které pobírají mzdu, má hrubou měsíční nominální mzdu nejvýše 34360 Kč, druhá polovina má mzdu vyšší.
Protože pro daný datový soubor nebo rozdělení pravděpodobnosti závisí hodnota kvantilu na velikosti stanovené části p, je možné kvantil chápat jako binární relaci (za určitých podmínek funkci) mezi p a množinou hodnot určitého (přinejmenším pořadového) statistického znaku nebo náhodné veličiny. Pokud funkce, která udává vztah mezi p a Qp, existuje, nazýváme ji kvantilová funkce. Jde o inverzní funkci k distribuční funkci.
Kvantil je míra polohy rozdělení pravděpodobnosti náhodné veličiny. Popisují body, ve kterých distribuční funkce náhodné proměnné prochází danou hodnotou.
Definice
Kvantily tvoří vlastně inverzní funkci k funkci distribuční. V případě spojitého rozdělení s distribuční funkcí F(x) je kvantil Qp takové číslo, pro které platí:
- P(X ≤ Qp) = p, tedy F(Qp) = p.
Pokud je distribuční funkce rostoucí (tedy i prostá), lze kvantil psát přímo jako inverzní funkci:
- Qp = F−1(p).
Distribuční funkce však nemusí být prostá (byť je vždy neklesající), takže tuto definici nelze použít vždy. U diskrétních rozdělení pak ani vždy nemusí existovat bod, kde by distribuční funkce dosahovala přesně požadované hodnoty. Obecněji se proto kvantil Qp definuje jako takové číslo, pro které platí, že:
- P(X ≤ Qp) ≥ p a zároveň P(X < Qp) ≤ p,
distribuční funkcí to lze vyjádřit jako:
- F(Qp+) = F(Qp) ≥ p a zároveň F(Qp−) ≤ p.
Ani tato obecná definice však přesně neurčuje kvantil v případě, že distribuční funkce není prostá. V takovém případě může jedné hodnotě p odpovídat několik čísel Qp, která tuto definici splňují. To se zpravidla nepovažuje za problém, někdy se definice doplňuje o způsob výběru jednoznačné hodnoty, např. největší (příp. nejmenší) z těchto čísel, jejich průměr apod., jedná se však jen o konvence bez nějakého hlubšího matematického významu.
Speciální označení kvantilů
Kvantily pro některé význačné hodnoty jsou označovány zvláštními jmény a pro nejdůležitější rozdělení jsou hodnoty základních kvantilů uváděny v tabulkách.
Medián
Kvantil rozdělující statistický soubor na dvě stejně početné množiny se nazývá medián, tzn. jedná se o kvantil .
Tercil
Dva tercily rozdělují statistický soubor na třetiny. 1/3 prvků má hodnoty menší nebo rovné hodnotě prvního tercilu, 2/3 prvků mají hodnoty menší nebo rovné hodnotě tercilu druhého.
Kvartil
Tři kvartily rozdělují statistický soubor na čtvrtiny. 25 % prvků má hodnoty menší než dolní kvartil a 75 % prvků hodnoty menší než horní kvartil ; někdy se označují a .
Kvartilová odchylka je jedna z měr určující variabilitu znaku ve statistickém znaku souboru. Rovná se polovině rozdílu horního a dolního kvartilu.
Kvintil
Čtyři kvintily dělí statistický soubor na pět stejných dílů. 20 % prvků souboru má hodnoty menší (nebo rovné) hodnotě prvního kvintilu, 80 % hodnoty větší (nebo rovné).
Decil
Decil dělí statistický soubor na desetiny. Jako tý decil označujeme .
Percentil
Percentil dělí statistický soubor na setiny. Jako -tý percentil označujeme . Používá se například při vyhodnocení testů: Pokud má účastník umístění na 85. percentilu, znamená to, že 85 % účastníků mělo horší výsledek (a 15 % účastníků je lepších nebo stejných jako on [včetně jeho samého]).[1][2][3] Znamená to, že účastník s nejlepším umístěním nebude mít percentil 100 %, ale nižší (o část vyjadřující procento jeho vlastního podílu na výsledku). Percentil tak vypočteme:
Kde PR je hodnota percentilu, CF je kumulativní počet výsledků a F je počet výskytů počítaného výsledku (percentilu), viz obrázek vpravo.
Charakteristiky variability
Hodnoty kvantilů představují charakteristiky polohy. Znalosti kvantilů lze však použít i k určení charakteristiky variability.
Mezikvartilové rozpětí
Pomocí horního a dolního kvartilu lze zavést mezikvartilové rozpětí, které definujeme jako hodnotu .
Mezidecilové rozpětí
Pomocí decilů lze zavést mezidecilové rozpětí, které je definováno jako .
Mezipercentilové rozpětí
Pomocí percentilů lze zavést mezipercentilové rozpětí, které je definováno jako .
Použití
Kvantily lze používat např. pro vyhodnocování přijímacích testů: bodové výsledky všech zájemců tvoří statistický soubor, zatímco příslušné kvantily označují, jaká část zájemců dosáhla daného výsledku. Pokud například kvantil 90 % má hodnotu 150 bodů a některý student v testu získal právě 150 bodů, ví, že má lepší hodnocení než 90 % všech studentů (je tedy mezi 10 % nejlepších a pokud má být přijato např. 15 % zájemců, měl by se kvalifikovat).
Příklad
U normálního rozdělení s nulovou střední hodnotou a jednotkovou směrodatnou odchylkou jsou některé kvantily:
p | 0,5 | 0,9 | 0,95 | 0,975 | 0,99 | 0,995 |
Qp | 0,0 | 1,2816 | 1,6449 | 1,9600 | 2,3263 | 2,5758 |
Zde je například vidět, že necelý trojnásobek směrodatné odchylky u tohoto rozdělení pokrývá 99 % hodnot.
Odkazy
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.