From Wikipedia, the free encyclopedia
Analýza hlavných komponentov (skratka: AHK) alebo analýza základných komponentov (angl. principal component analysis, skratka: PCA) je matematická štatistická metóda, ktorá využíva ortogonálnu transformáciu na to, aby previedla prvky množiny pozorovaní, u ktorých je možné, že sú korelované, na prvky takej množiny hodnôt, ktoré sú lineárne nekorelované. Tieto sa potom označujú ako hlavné komponenty alebo základné komponenty (angl. principal components).
Matematicky je analýza hlavných komponentov takmer to isté ako singulárny rozklad (iné názvy: singulárny rozklad matice, rozklad na singulárne hodnoty, dekompozícia singulárnej hodnoty; angl. singular value decomposition, skratka: SVD)[1].
Pri analýze hlavných komponentov ide teda o to, že hľadáme takú množinu lineárnych kombinácií pôvodných premenných (pozorovaní), ktorá zachováva čo najväčšie množstvo informácií o pôvodných premenných (pozorovaniach) a zároveň jej dimenzia bude menšia alebo nanajvýš rovná ako dimenzia pôvodnej množiny (počet prvkov novej množiny bude menší alebo nanajvýš rovný ako počet prvkov pôvodnej množiny). Týmto postupom sa docieli to, že bude možné študovať daný štatistický problém v podpriestore s menšou dimenziou, čo má veľký význam pri ďalšej analýze štatistického súboru (testovanie hypotéz, hľadanie oblastí spoľahlivosti, grafické znázorňovanie pozorovaní, a pod.).
Počet hlavných komponentov je teda vždy menší alebo nanajvýš rovný pôvodnému počtu prvkov. Ortogonálna transformácia, ktorá sa pri tejto metóde používa, je definovaná tak, aby mal prvý hlavný komponent najväčšiu varianciu spomedzi všetkých možných lineárnych kombinácii vektora pozorovaní.
Metódu analýzy hlavných komponentov navrhol v roku 1901 anglický matematik Karl Pearson a v roku 1933 ju zovšeobecnil americký matematik Harold Hotelling.
Uvažujme p-rozmerný náhodný vektor , ktorého kovariančnú maticu označme (táto matica je štvorcová typu a kladne semidefinitná). Podľa Jordanovej spektrálnej dekompozičnej vety o symetrických maticiach vieme, že každú symetrickú štvorcovú maticu môžeme zapísať v nasledovnom tvare:
Kde:
Strednú hodnotu vektora označme . Potom náhodný vektor , ktorý je definovaný nasledujúcim vzťahom:
nazývame vektorom hlavných komponentov náhodného vektora .
Pre strednú hodnotu a kovariančnú maticu vektora platí nasledovné:
Zložky vektora sú nekorelované a pre disperzie týchto zložiek platí, že: . Jednotlivé zložky vektora sa nazývajú hlavné komponenty, teda pre je náhodná premenná tvaru:
k-ty hlavný komponent náhodného vektora .
Základné vlastnosti hlavných komponentov sú nasledovné:
Kde a je k, l-ty prvok matice a .
Prvý hlavný komponent náhodného vektora má najväčšiu disperziu spomedzi všetkých normovaných lineárnych kombinácií prvkov vektora . Matematicky môžeme túto vlastnosť zapísať nasledovne:
kde je ľubovoľný p-rozmerný vektor normy 1.
Pre druhý a každý ďalší hlavný komponent, teda pre , má i-ty hlavný komponent náhodného vektora najväčšiu disperziu spomedzi všetkých tých normovaných lineárnych kombinácií prvkov vektora , ktoré sú nekorelované s hlavnými komponentmi .
Hlavné komponenty sú závislé od mierky, v ktorej sa vyskytujú jednotlivé premenné. Teda máme štatistický súbor, ktorý obsahuje rôzne premenné, pričom niektoré sú merané napríklad v metroch, iné v kilometroch, a ďalšie napríklad v sekundách. Hlavné komponenty sa v tomto prípade zmenia. Preto sa v praxi niekedy pristupuje k tzv. štandardizácii premenných, čo znamená, že sa na odhady vektorov hlavných komponentov namiesto výberovej kovariančnej matici používa výberová korelačná matica. Po aplikovaní tejto metódy dostaneme vektory výberových hlavných komponentov, ktoré nezávisia od mierky.
Z teoretického pohľadu je však najvhodnejšie použiť metódu analýzy hlavných komponentov v takých prípadoch, kedy sú jednotlivé premenné skúmaného štatistického súboru rovnakého charakteru (teda boli zmerané v rovnakých jednotkách).
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.