Метод головних компонент

Remove ads

Ме́тод головни́х компоне́нтів (МГК, англ. principal component analysis, PCA) — метод факторного аналізу в статистиці, який використовує ортогональне перетворення множини спостережень з можливо пов'язаними змінними (сутностями, кожна з яких набуває різних числових значень) у множину змінних без лінійної кореляції, які називаються головними компонентами.

Метод головних компонент — один з основних способів зменшити розмірність даних, втративши найменшу кількість інформації. Винайдений Карлом Пірсоном у 1901 році та доповнений і розширений Гарольдом Готелінґом в 1933 р. Застосовується в багатьох галузях, зокрема, в економетриці, біоінформатиці, обробці зображень, для стиснення даних, у суспільних науках.

Обчислення головних компонент може бути зведене до обчислення сингулярного розкладу матриці даних або до обчислення власних векторів і власних чисел коваріаційної матриці початкових даних. Іноді метод головних компонент називають перетворенням Кархунена — Лоева^[1] або перетворенням Хотеллінга (англ. Hotelling transform).

Remove ads

Загальна характеристика

Узагальнити

Перспектива

Метод головних компонент — один із найпоширеніших методів факторного аналізу.^[2]

Серед інших подібних методів, що дозволяють узагальнювати значення елементарних ознак, МГК виділяється простою логічною конструкцією, і, разом з тим, на його прикладі стають зрозумілими загальна ідея й цілі чисельних методів факторного аналізу.

Метод головних компонент дає можливість за m — числом початкових ознак виділити r головних компонент, або узагальнених ознак. Простір головних компонент ортогональний. Математична модель методу головних компонент базується на логічному припущенні, що значення множини взаємозалежних ознак породжують деякий загальний результат.

Розв'язування задачі методом головних компонент зводиться до поетапного перетворення матриці початкових даних X.

Remove ads

Формальна постановка задачі

Узагальнити

Перспектива

Задача аналізу головних компонент має щонайменше чотири базових версії:

апроксимувати дані лінійними многовидами меншої розмірності;
знайти підпростори меншої розмірності, в ортогональній проєкції на які розкид даних (тобто середньоквадратичне відхилення від середнього значення) максимальний;
знайти підпростори меншої розмірності, в ортогональній проєкції на які середньоквадратична відстань між точками максимальна;
для даної багатовимірної випадкової величини побудувати таке ортогональне перетворення координат, внаслідок якого кореляції між окремими координатами перетворяться в нуль.

Перші три версії оперують скінченними множинами даних. Вони еквівалентні і не використовують жодної гіпотези про статистичне породження даних. Четверта версія оперує випадковими величинами. Скінченні множини з'являються тут як вибірки з даного розподілу, а розв'язання трьох перших завдань — як наближення до розкладу за теоремою Кархунена — Лоева («істинного перетворення Кархунена — Лоева»). При цьому виникає додаткове і не цілком тривіальне питання про точність цього наближення.

Апроксимація даних лінійними многовидами

Метод головних компонент починався з задачі найкращої апроксимації скінченної множини точок прямими і площинами (Пірсон, 1901). Дано скінченну множину векторів $x_{1},x_{2},\dots ,x_{m}\in \mathbb {R} ^{n}$ для кожного $k=0,1,\dots ,n-1$ серед всіх $k$ -вимірних лінійних многовидів у $\mathbb {R} ^{n}$ знайти таке $L_{k}\subset \mathbb {R} ^{n}$ , що сума квадратів відхилень $x_{i}$ від $L_{k}$ мінімальна:

\sum _{i=1}^{m}\operatorname {dist} ^{2}(x_{i},L_{k})\to \min

де $\operatorname {dist} (x_{i},L_{k})$ — евклідова відстань від точки до лінійного многовиду. Кожен $k$ -вимірний лінійний многовид в $\mathbb {R} ^{n}$ може бути заданий як множина лінійних комбінацій $L_{k}=\{a_{0}+\beta _{1}a_{1}+\dots +\beta _{k}a_{k}|\beta _{i}\in \mathbb {R} \}$ , де параметри $\beta _{i}$ пробігають дійсну пряму $\mathbb {R}$ , $a_{0}\in \mathbb {R} ^{n}$ а $\left\{a_{1},\dots ,a_{k}\right\}\subset \mathbb {R} ^{n}$ — ортонормований набір векторів

\operatorname {dist} ^{2}(x_{i},L_{k})=\Vert x_{i}-a_{0}-\sum _{j=1}^{k}a_{j}(a_{j},x_{i}-a_{0})\Vert ^{2}

де $\Vert \cdot \Vert$ евклідова норма, $\left(a_{j},x_{i}\right)$ — евклідів скалярний добуток, або в координатній формі:

\operatorname {dist} ^{2}(x_{i},L_{k})=\sum _{l=1}^{n}\left(x_{il}-a_{0l}-\sum _{j=1}^{k}a_{jl}\sum _{q=1}^{n}a_{jq}(x_{iq}-a_{0q})\right)^{2}

Розв'язок задачі апроксимації для $k=0,1,\dots ,n-1$ дається набором вкладених лінійних многовидів $L_{0}\subset L_{1}\subset \dots L_{n-1}$ , $L_{k}=\{a_{0}+\beta _{1}a_{1}+...+\beta _{k}a_{k}|\beta _{i}\in \mathbb {R} \}$ . Ці лінійні многовиди визначаються ортонормованим набором векторів $\left\{a_{1},...,a_{n-1}\right\}$ (векторами головних компонент) та вектором $a_{0}$ . Вектор $a_{0}$ шукається як розв'язок задачі мінімізації для $L_{0}$ :

a_{0}={\underset {a_{0}\in \mathbb {R} ^{n}}{\operatorname {argmin} }}\left(\sum _{i=1}^{m}\operatorname {dist} ^{2}(x_{i},L_{0})\right)

тобто

a_{0}={\underset {a_{0}\in \mathbb {R} ^{n}}{\operatorname {argmin} }}\left(\sum _{i=1}^{m}\Vert x_{i}-a_{0}\Vert ^{2}\right)

Це — вибіркове середнє: $a_{0}={\frac {1}{m}}\sum _{i=1}^{m}x_{i}={\overline {X}}$ .

Фреше в 1948 році звернув увагу, що варіаційне визначення середнього (як точки, що мінімізує суму квадратів відстаней до точок даних) дуже зручно для побудови статистики в довільному метричному просторі, і побудував узагальнення класичної статистики для загальних просторів (узагальнений метод найменших квадратів).

Вектори головних компонент можуть бути знайдені як розв'язки однотипних задач оптимізації:

Централізуються дані (відніманням середнього): $x_{i}:=x_{i}-{\overline {X}}$ . Тепер $\sum _{i=1}^{m}x_{i}=0$ ;
Відшукується перша головна компонента як розв'язок задачі:
$a_{1}={\underset {\Vert a_{1}\Vert =1}{\operatorname {argmin} }}\left(\sum _{i=1}^{m}\Vert x_{i}-a_{1}(a_{1},x_{i})\Vert ^{2}\right)$ .

якщо розв'язок не єдиний, то вибирається один з них.
З даних віднімається проєкція на першу головну компоненту:
$x_{i}:=x_{i}-a_{1}\left(a_{1},x_{i}\right)$ ;
Відшукується друга головна компонента як розв'язок задачі:
$a_{2}={\underset {\Vert a_{2}\Vert =1}{\operatorname {argmin} }}\left(\sum _{i=1}^{m}\Vert x_{i}-a_{2}(a_{2},x_{i})\Vert ^{2}\right)$ .

Якщо розв'язок не єдиний, то вибирається один з них.

Далі процес триває, тобто на кроці $2k-1$ віднімається проєкція на $(k-1)$ -у головну компоненту (до цього моменту проєкції на попередні $(k-2)$ головні компоненти вже відняті):

x_{i}:=x_{i}-a_{k-1}\left(a_{k-1},x_{i}\right)

;

і на кроці $2k$ визначається $k$ -а головна компонента як розв'язок задачі:

a_{k}={\underset {\Vert a_{k}\Vert =1}{\operatorname {argmin} }}\left(\sum _{i=1}^{m}\Vert x_{i}-a_{k}(a_{k},x_{i})\Vert ^{2}\right)

(якщо розв'язок не єдиний, то вибирається один з них).

На кожному підготовчому кроці $(2k-1)$ віднімається проєкція на попередню головну компоненту. Знайдені вектори $\left\{a_{1},...,a_{n-1}\right\}$ ортонормовані просто внаслідок розв'язування описаної задачі оптимізації, однак, щоб не дати похибкам обчислення порушити взаємну ортогональність векторів головних компонент, можна включати $a_{k}\bot \{a_{1},...,a_{k-1}\}$ в умови задачі оптимізації.

Неєдиність у визначенні $a_{k}$ крім тривіальної довільності у виборі знака ( $a_{k}$ і $-a_{k}$ розв'язують ту саму задачу) може бути більш істотною і походити, наприклад, з умов симетрії даних. Остання головна компонента $a_{n}$ — одиничний вектор, ортогональний всім попереднім $a_{k}$ .

Пошук ортогональних проєкцій з найбільшим розсіянням

Нехай нам дано центрований набір векторів даних $x_{i}\in \mathbb {R} ^{n}\;(i=1,...,m)$ (середнє арифметичне значення $x_{i}$ дорівнює нулю). Завдання — знайти таке ортогональне перетворення в нову систему координат, для якого б виконувались такі умови:

Вибіркова дисперсія даних уздовж першої координати максимальна (цю координату називають першою головною компонентою);
Вибіркова дисперсія даних уздовж другої координати максимальна за умови ортогональності першій координаті (друга головна компонента);
…
Вибіркова дисперсія даних уздовж значень $k$ -ї координати максимальна за умови ортогональності першим $k-1$ координатами;
…

Вибіркова дисперсія даних уздовж напрямку, заданого нормованим вектором $a_{k}$ , це

S_{m}^{2}\left[(X,a_{k})\right]={\frac {1}{m}}\sum \limits _{i=1}^{m}(a_{k},x_{i})^{2}={\frac {1}{m}}\sum \limits _{i=1}^{m}\left(\sum \limits _{j=1}^{n}x_{ij}a_{kj}\right)^{2}

(оскільки дані центровані, вибіркова дисперсія тут збігається із середнім квадратом ухилення від нуля).

Розв'язок задачі про найкращу апроксимацію дає ту ж множину головних компонент $\left\{a_{i}\right\}$ , що й пошук ортогональних проєкцій з найбільшим розсіянням, з дуже простої причини: $\Vert x_{i}-a_{k}(a_{k},x_{i})\Vert ^{2}=\Vert x_{i}\Vert ^{2}-(a_{k},x_{i})^{2},$ і перший доданок не залежить від $a_{k}$ .

Пошук ортогональних проєкцій з найбільшою середньоквадратичною відстанню між точками

Ще одне еквівалентне формулювання випливає з очевидної тотожності, правильної для будь-яких $m$ векторів $x_{i}$ :

{\frac {1}{m(m-1)}}\sum _{i,j=1}^{m}(x_{i}-x_{j})^{2}={\frac {2m^{2}}{m(m-1)}}\left[{\frac {1}{m}}\sum _{i=1}^{m}x_{i}^{2}-\left({\frac {1}{m}}\sum _{i}^{m}x_{i}\right)^{2}\right].

У лівій частині цієї тотожності стоїть середньоквадратична відстань між точками, а в квадратних дужках праворуч — вибіркова дисперсія. Таким чином, у методі головних компонент шукаються підпростори, в проєкції на які середньоквадратична відстань між точками максимальна (або, що те ж саме, її спотворення внаслідок проєкції мінімальне)^[3]. Таке переформулювання дозволяє будувати узагальнення зі зважуванням різних парних відстаней (а не тільки точок).

Анулювання кореляцій між координатами

Для заданої $n$ -вимірної випадкової величини $X$ знайти такий ортонормований базис, $\left\{a_{1},...,a_{n}\right\}$ , в якому коефіцієнт коваріації між різними координатами дорівнює нулю. Після перетворення до цього базису

\operatorname {cov} (X_{i},X_{j})=0

для

i\neq j

Тут $\operatorname {cov} (X_{i},X_{j})=\operatorname {E} [(X_{i}-\operatorname {E} [X_{i}])(X_{j}-\operatorname {E} [X_{j}])]$ — коефіцієнт коваріації, де $\operatorname {E}$ — математичне сподівання.

Remove ads

Діагоналізація коваріаційної матриці

Узагальнити

Перспектива

Всі задачі про головні компоненти приводять до задачі діагоналізації коваріаційної матриці або вибіркової коваріаційної матриці. Емпірична або вибіркова коваріаційна матриця, це

C=[c_{ij}],\ c_{ij}={\frac {1}{m-1}}\sum _{l=1}^{m}(x_{li}-{\overline {X_{i}}})(x_{lj}-{\overline {X_{j}}}).

Коваріаційна матриця багатовимірної випадкової величини $X$ , це

\Sigma =[\sigma _{ij}],\ \sigma _{ij}=\operatorname {cov} (X_{i},X_{j})=\operatorname {E} [(X_{i}-\operatorname {E} [X_{i}])(X_{j}-\operatorname {E} [X_{j}])].

Вектори головних компонент для задач про найкращу апроксимацію і про пошук ортогональних проєкцій з найбільшим розсіянням — це ортонормований набір $\left\{a_{1},...,a_{n}\right\}$ власних векторів емпіричної коваріаційної матриці $C$ , розташованих у порядку спадання власних значень ${\displaystyle \lambda$ Ці вектори слугують оцінкою для власних векторів коваріаційної матриці $\operatorname {cov} (X_{i},X_{j})$ . У базисі власних векторів коваріаційної матриці вона, природно, діагональна, і в цьому базисі коефіцієнт коваріації між різними координатами дорівнює нулю.

Якщо спектр коваріаційної матриці вироджений, то вибирають довільний ортонормований базис власних векторів. Він існує завжди, а власні числа коваріаційної матриці завжди дійсні і невід'ємні.

Remove ads

Сингулярний розклад матриці даних

Узагальнити

Перспектива

Ідея сингулярного розкладу

Математичний зміст методу головних компонент — це спектральне розкладання коваріаційної матриці $C$ , тобто подання простору даних у вигляді суми взаємно ортогональних власних підпросторів $C$ , а самої матриці $C$ — у вигляді лінійної комбінації ортогональних проєкторів на ці підпростори з коефіцієнтами $\lambda _{i}$ . Якщо $\operatorname {X} =\left\{x_{1},...,x_{m}\right\}^{T}$ — матриця, складена з векторів-рядків (розмірності $n$ ) центрованих даних, то $C={\frac {1}{m-1}}\operatorname {X} ^{T}\operatorname {X}$ і задача про спектральний розклад коваріаційної матриці $C$ перетворюється на задачу про сингулярний розклад матриці даних $\operatorname {X}$ .

Число $\sigma \geq 0$ називається сингулярним числом матриці $\operatorname {X}$ тоді і тільки тоді, коли існують правий і лівий сингулярні вектори: такі $m$ -вимірний вектор-рядок $b_{\sigma }$ і $n$ -вимірний вектор-стовпець $a_{\sigma }$ (обидва одиничної довжини), що виконуються дві рівності:

\operatorname {X} a_{\sigma }=\sigma b_{\sigma }^{T};\,\,b_{\sigma }\operatorname {X} =\sigma a_{\sigma }^{T}.

Нехай $p=\operatorname {rang} \operatorname {X} \leq \min\{n,m\}$ — ранг матриці даних. Сингулярний розклад матриці даних $\operatorname {X}$ — це її подання у вигляді

\operatorname {X} =\sum _{l=1}^{p}\sigma _{l}b_{l}^{T}a_{l}^{T};\;\operatorname {X} ^{T}=\sum _{l=1}^{p}\sigma _{l}a_{l}b_{l}\;\left(x_{ij}=\sum _{l=1}^{p}\sigma _{l}b_{li}a_{lj}\right),

де $\sigma _{l}>0$ — сингулярне число, $a_{l}=(a_{lj}),\,j=1,...n$ — відповідний правий сингулярний вектор-стовпець, а $b_{l}=(b_{li}),\,i=1,...m$ — відповідний лівий сингулярний вектор-рядок ( $l=1,...p$ ). Праві сингулярні вектори-стовпці $a_{l}$ , що беруть участь у цьому розкладі, є векторами головних компонент і власними векторами емпіричної коваріаційної матриці $C={\frac {1}{m-1}}\operatorname {X} ^{T}\operatorname {X}$ , що відповідають додатним власним числам $\lambda _{l}={\frac {1}{m-1}}\sigma _{l}^{2}>0$ .

Хоча формально завдання сингулярного розкладу матриці даних і спектрального розкладу коваріаційної матриці збігаються, алгоритми обчислення сингулярного розкладу безпосередньо, без обчислення коваріаційної матриці і її спектра, більш ефективні і стійкі^[4].

Теорія сингулярного розкладання була створена Джеймсом Джозефом Сильвестром у 1889 році і викладена в усіх докладних посібниках з теорії матриць^[5].

Простий ітераційний алгоритм сингулярного розкладання

Основна процедура — пошук найкращого наближення довільної $m\times n$ матриці $X=(x_{ij})$ матрицею виду $b\otimes a=(b_{i}a_{j})$ (де $b$ — $m$ -вимірний вектор, а $a$ — $n$ -вимірний вектор) методом найменших квадратів:

F(b,a)={\frac {1}{2}}\sum _{i=1}^{m}\sum _{j=1}^{n}(x_{ij}-b_{i}a_{j})^{2}\to \min

Розв'язок цієї задачі дається послідовними ітераціями за явними формулами. При фіксованому векторі $a=(a_{j})$ значення $b=(b_{i})$ , що надають мінімум формі $F(b,a)$ однозначно і явно визначаються з рівностей $\partial F/\partial b_{i}=0$ :

{\frac {\partial F}{\partial b_{i}}}=-\sum _{j=1}^{n}(x_{ij}-b_{i}a_{j})a_{j}=0;\;\;b_{i}={\frac {\sum _{j=1}^{n}x_{ij}a_{j}}{\sum _{j=1}^{n}a_{j}^{2}}}\,.

Аналогічно, при фіксованому векторі $b=(b_{i})$ визначаються значення $a=(a_{j})$ :

a_{j}={\frac {\sum _{i=1}^{m}b_{i}x_{ij}}{\sum _{i=1}^{m}b_{i}^{2}}}\,.

Як початкове наближення вектора $a$ береться випадковий вектор одиничної довжини, обчислюємо вектор $b$ , далі для цього вектора $b$ обчислюємо вектор $a$ і т. д. Кожен крок зменшує значення $F(b,a)$ . Як критерій зупинки використовується малість відносного зменшення значення функціоналу $F(b,a)$ , що мінімізується, за крок ітерації ( $\Delta F/F$ ) або малість самого значення $F$ .

Внаслідок цього для матриці $X=(x_{ij})$ отримується найкраще наближення матрицею $P_{1}$ виду $b^{1}\otimes a^{1}=(b_{i}^{1}a_{j}^{1})$ (тут верхнім індексом позначено номер наближення). Далі, з матриці $X$ віднімається отримана матриця $P_{1}$ , і для отриманої матриці ухилень $X_{1}=X-P_{1}$ знову шукається найкраще наближення $P_{2}$ цього ж виду і т. д., поки, наприклад, норма $X_{k}$ не стане достатньо малою. В результаті отримали ітераційну процедуру розкладання матриці $X$ у вигляді суми матриць рангу 1, тобто $X=P_{1}+P_{2}+...+P_{q}\;(P_{l}=b^{l}\otimes a^{l})$ . Приймаємо $\sigma _{l}=\|a^{l}\|\|b^{l}\|$ і нормуємо вектори $a^{l}\,,\,b^{l}$ : $a^{l}:=a^{l}/\|a^{l}\|;\,\,b^{l}:=b^{l}/\|b^{l}\|.$ В результаті отримано апроксимацію сингулярних чисел $\sigma _{l}$ і сингулярних векторів (правих — $a^{l}$ і лівих — $b^{l}$ ).

До переваг цього алгоритму відноситься його виняткова простота і можливість майже без змін перенести його на дані з прогалинами^[6], а також зважені дані.

Існують різні модифікації базового алгоритму, що поліпшують точність і стійкість. Наприклад, вектори головних компонент $a^{l}$ при різних $l$ повинні бути ортогональні «за побудовою», однак за великого числа ітерацій (велика розмірність, багато компонент) малі відхилення від ортогональності накопичуються і може знадобитися спеціальна корекція $a^{l}$ на кожному кроці, що забезпечує його ортогональність раніше знайденим головним компонентам.

Для квадратних симетричних додатно визначених матриць описаний алгоритм перетворюється на метод прямих ітерацій для пошуку власних векторів (див. статтю Власні вектори та власні числа).

Сингулярне розкладання тензорів і тензорний метод головних компонент

Часто вектор даних має додаткову структуру прямокутної таблиці (наприклад, плоске зображення) або навіть багатовимірної таблиці — тобто тензора: $x_{i_{1}i_{2}...i_{q}}$ , $1\leq i_{j}\leq n_{j}$ . У цьому випадку також ефективно застосовувати сингулярне розкладання. Визначення, основні формули та алгоритми переносяться практично без змін: замість матриці даних маємо $q+1$ -індексну величину $\operatorname {X} =(x_{i_{0}i_{1}i_{2}...i_{q}})$ , де перший індекс $i_{0}$ -номер точки (тензора) даних.

Основна процедура — пошук найкращого наближення тензора $x_{i_{0}i_{1}i_{2}...i_{q}}$ тензором виду $a_{i_{0}}^{0}a_{i_{1}}^{1}a_{i_{2}}^{2}...a_{i_{q}}^{q}$ (де $a^{0}=(a_{i_{0}}^{0})$ — $m$ -вимірний вектор ( $m$ — кількість точок даних), $a^{l}=(a_{i_{l}}^{l})$ — вектор розмірності $n_{l}$ при $l>0$ ) методом найменших квадратів:

F={\frac {1}{2}}\sum _{i_{0}=1}^{m}\sum _{i_{1}=1}^{n_{1}}...\sum _{i_{q}=1}^{n_{q}}(x_{i_{0}i_{1}...i_{q}}-a_{i_{0}}^{0}a_{i_{1}}^{1}...a_{i_{q}}^{q})^{2}\to \min

Розв'язок цієї задачі отримується послідовними ітераціями за явними формулами. Якщо задано всі вектори-співмножники крім одного $a_{i_{k}}^{k}$ , то він визначається явно з достатніх умов мінімуму.

a_{i_{k}}^{k}={\frac {\sum _{i_{0}=1}^{m}\sum _{i_{1}=1}^{n_{1}}...\sum _{i_{k-1}=1}^{n_{k-1}}\sum _{i_{k+1}=1}^{n_{k+1}}...\sum _{i_{q}=1}^{n_{q}}x_{i_{0}i_{1}...i_{k-1}i_{k}i_{k+1}...i_{q}}a_{i_{0}}^{0}a_{i_{k-1}}^{k-1}a_{i_{k+1}}^{k+1}...a_{i_{q}}^{q}}{\prod _{j\neq k}\|a^{j}\|^{2}}}\,.

Як початкове наближення векторів $a^{l}=(a_{i_{l}}^{l})$ ( $l>0$ ) беруться випадкові вектори одиничної довжини, обчислимо вектор $a^{0}$ далі для цього вектора $a^{0}$ і даних векторів $a^{2},a^{3},...$ обчислюється вектор $a^{1}$ і так далі (циклічно перебираючи індекси). Кожен крок зменшує значення $F(b,a)$ . Алгоритм, очевидно, збігається. Як критерій зупинки використовується малість відносного зменшення значення функціоналу $F$ , що мінімізується, за цикл або малість самого значення $F$ . Далі, від тензора $\operatorname {X}$ віднімається отримане наближення $a_{i_{0}}^{0}a_{i_{1}}^{1}a_{i_{2}}^{2}...a_{i_{q}}^{q}$ і для залишку знову шукається найкраще наближення цього ж вигляду і т. д., поки, наприклад, норма чергового залишку не стане достатньо малою.

Це багатокомпонентне сингулярне розкладання (тензорний метод головних компонент) успішно застосовується при обробці зображень, відеосигналів, і, ширше, будь-яких даних, що мають табличну або тензорну структуру.

Remove ads

Матриця перетворення до головних компонентів

Узагальнити

Перспектива

Матриця $A$ перетворення даних до головних компонент складається з векторів головних компонент, розташованих у порядку спадання власних значень:

A=\left\{a_{1},...,a_{n}\right\}^{T}

(

{\,}^{T}

означає транспонування), причому

AA^{T}=1.

Тобто, матриця $A$ є ортогональною.

Велика частина варіації даних буде зосереджена в перших координатах, що дозволяє перейти до простору меншої розмірності.

Remove ads

Залишкова дисперсія

Узагальнити

Перспектива

Нехай дані центровані, ${\overline {X}}=0$ . При заміні векторів даних $x_{i}$ їх проєкцією на перші $k$ головних компонент $x_{i}\mapsto \sum _{j=1}^{k}a_{j}(a_{j},x_{i})$ вноситься середній квадрат помилки в розрахунку на один вектор даних:

{\frac {1}{m}}\sum _{i=1}^{m}\left\Vert x_{i}-\sum _{j=1}^{k}a_{j}(a_{j},x_{i})\right\Vert ^{2}=\sum _{l=k+1}^{n}\lambda _{l},

де $\lambda _{1}\geq \lambda _{2}\geq ...\geq \lambda _{n}\geq 0$ — власні значення емпіричної коваріаційної матриці $C$ , розташовані в порядку спадання, з урахуванням кратності.

Ця величина називається залишковою дисперсією. Величина

{\frac {1}{m}}\sum _{i=1}^{m}\left\Vert \sum _{j=1}^{k}a_{j}(a_{j},x_{i})\right\Vert ^{2}={\frac {1}{m}}\sum _{i=1}^{m}\sum _{j=1}^{k}(a_{j},x_{i})^{2}=\sum _{l=1}^{k}\lambda _{l}

називається поясненою дисперсією. Їх сума дорівнює вибірковій дисперсії. Відповідний квадрат відносної помилки — це відношення залишкової дисперсії до вибіркової дисперсії (тобто частка непоясненої дисперсії):

\delta _{k}^{2}={\frac {\lambda _{k+1}+\lambda _{k+2}+...+\lambda _{n}}{\lambda _{1}+\lambda _{2}+...+\lambda _{n}}}.

За відносною помилкою $\delta _{k}$ оцінюється придатність методу головних компонент з проєціюванням на перші $k$ компонент.

Зауваження: в більшості обчислювальних алгоритмів власні числа $\lambda _{i}$ з відповідними власними векторами головними компонентами $a_{i}$ обчислюються в порядку «від великих $\lambda _{i}$ — до менших». Для обчислення $\delta _{k}$ достатньо обчислити перші $k$ власних чисел і слід емпіричної коваріаційної матриці $C$ , $\operatorname {tr} C$ (суму діагональних елементів $C$ , тобто дисперсій за осями). Тоді

\delta _{k}^{2}={\frac {1}{\operatorname {tr} C}}\left(\operatorname {tr} C-\sum _{i=1}^{k}\lambda _{i}\right).

Remove ads

Відбір головних компонент за правилом Кайзера

Узагальнити

Перспектива

Цільовий підхід до оцінки числа головних компонент з необхідною часткою поясненої дисперсії формально застосовується завжди, однак неявно він припускає, що немає поділу на «сигнал» і «шум», і будь-яка наперед задана точність має сенс. Тому часто більш продуктивна інша евристика, яка ґрунтується на гіпотезі про наявність «сигналу» (порівняно мала розмірність, відносно велика амплітуда) і «шуму» (велика розмірність, відносно мала амплітуда). З цієї точки зору метод головних компонент працює як фільтр: сигнал міститься, в основному, в проєкції на перші головні компоненти, а в інших компонентах пропорція шуму значно вища.

Питання: як оцінити число необхідних головних компонент, якщо відношення «сигнал/шум» заздалегідь не відоме?

Найпростіший і найстаріший метод відбору головних компонент дає правило Кайзера (англ. Kaiser's rule): значущі ті головні компоненти, для яких

\lambda _{i}>{\frac {1}{n}}\operatorname {tr} C,

тобто $\lambda _{i}$ перевищує середнє значення $\lambda$ (середню вибіркову дисперсію координат вектора даних). Правило Кайзера добре працює в простих випадках, коли є декілька головних компонент з $\lambda _{i}$ , які значно перевищують середнє значення, а інші власні числа, менші за нього. У більш складних випадках воно може давати занадто багато значущих головних компонент. Якщо дані нормовані на одиничну вибіркову дисперсію за осями, то правило Кайзера набуває особливо простого вигляду: значущі тільки ті головні компоненти, для яких $\lambda _{i}>1$ .

Remove ads

Оцінка числа головних компонент за правилом зламаної тростини

Узагальнити

Перспектива

Одним з найбільш популярних евристичних підходів до оцінки числа необхідних головних компонент є правило зламаної тростини (англ. Broken stick model)^[7]. Набір нормованих на одиничну суму власних чисел ( $\lambda _{i}/\operatorname {tr} C$ , $i=1,...n$ ) порівнюється з розподілом довжин уламків тростини одиничної довжини, зламаної в $n-1$ -й випадково вибраній точці (точки зламу вибираються незалежно і рівномірно розподілені вздовж тростини). Нехай $L_{i}$ ( $i=1,...n$ ) — довжини отриманих шматків тростини, занумеровані в порядку зменшення довжини $L_{1}\geq L_{2}\geq ...L_{n}$ . Нескладно знайти математичне сподівання $L_{i}$ :

l_{i}=\operatorname {E} (L_{i})={\frac {1}{n}}\sum _{j=i}^{n}{\frac {1}{j}}.

За правилом зламаної тростини $k$ -й власний вектор (у порядку зменшення власних чисел $\lambda _{i}$ ) зберігається в списку головних компонент, якщо

{\frac {\lambda _{1}}{\operatorname {tr} C}}>l_{1}\;and\;{\frac {\lambda _{2}}{\operatorname {tr} C}}>l_{2}\;and\;...{\frac {\lambda _{k}}{\operatorname {tr} C}}>l_{k}.

На рисунку наведено приклад для 5-вимірного випадку:

l_{1}

=(1+1/2+1/3+1/4+1/5)/5;

l_{2}

=(1/2+1/3+1/4+1/5)/5;

l_{3}

=(1/3+1/4+1/5)/5;

l_{4}

=(1/4+1/5)/5;

l_{5}

=(1/5)/5.

Для прикладу вибрано

{\frac {\lambda _{1}}{\operatorname {tr} C}}

=0.5;

{\frac {\lambda _{2}}{\operatorname {tr} C}}

=0.3;

{\frac {\lambda _{3}}{\operatorname {tr} C}}

=0.1;

{\frac {\lambda _{4}}{\operatorname {tr} C}}

=0.06;

{\frac {\lambda _{5}}{\operatorname {tr} C}}

=0.04.

За правилом зламаної тростини в цьому прикладі слід залишати 2 головні компоненти:

{\frac {\lambda _{1}}{\operatorname {tr} C}}>l_{1}\;;\;{\frac {\lambda _{2}}{\operatorname {tr} C}}>l_{2}\;;\;{\frac {\lambda _{3}}{\operatorname {tr} C}}<l_{3}\;.

За оцінками користувачів, правило зламаної тростини має тенденцію занижувати кількість значущих головних компонент.

Remove ads

Нормування

Узагальнити

Перспектива

Нормування після зведення до головних компонент

Після проєціювання на перші $k$ головних компонент з $\lambda _{1}\geq \lambda _{2}\geq ...\geq \lambda _{k}>0$ зручно провести нормування на одиничну (вибіркову) дисперсію за осями. Дисперсія вздовж $i$ -ї головної компоненти дорівнює $\lambda _{i}>0\;(1\leq i\leq k$ ), тому для нормування треба поділити відповідну координату на ${\sqrt {\lambda _{i}}}$ . Це перетворення не є ортогональним і не зберігає скалярного добутку. Коваріаційна матриця проєкції даних після нормування стає одиничною, проєкції на будь-які два ортогональні напрямки стають незалежними величинами, а будь-який ортонормований базис стає базисом головних компонент (нагадаємо, що нормування змінює відношення ортогональності векторів). Відображення простору початкових даних на перші $k$ головних компонент разом з нормуванням задається матрицею

K=\left\{{\frac {a_{1}}{\sqrt {\lambda _{1}}}},{\frac {a_{2}}{\sqrt {\lambda _{2}}}},...,{\frac {a_{k}}{\sqrt {\lambda _{k}}}}\right\}^{T}

Саме це перетворення найчастіше називається перетворенням Кархунена — Лоева. Тут $a_{i}$ — вектори-стовпці, а верхній індекс $T$ означає транспонування.

Нормування до обчислення головних компонент

Попередження: не слід плутати нормування, що проводиться після перетворення до головних компонент, з нормуванням і «знерозмірюванням» при передобробці даних, що проводиться до обчислення головних компонент. Попереднє нормування потрібне для обґрунтованого вибору метрики, в якій буде обчислюватися найкраща апроксимація даних, або будуть шукатися напрямки найбільшого розкиду (що еквівалентно). Наприклад, якщо дані являють собою просторові вектори з «метрів, літрів і кілограмів», то при використанні стандартної евклідової відстані різниця на 1 метр за першою координатою робитиме такий самий внесок, що й різниця на 1 літр за другою, або на 1 кг за третьою. Зазвичай системи одиниць, в яких подані початкові дані, недостатньо точно відображають наші уявлення про природні масштаби за осями, і проводиться «знерозмірювання»: кожна координата ділиться на певний масштаб, який визначається даними, цілями їх обробки і процесами вимірювання і збору даних.

Є три істотно різних стандартних підходи до такого нормування: на одиничну дисперсію за осями (масштаби за осями дорівнюють середнім квадратичним ухиленням — після цього перетворення коваріаційна матриця збігається з матрицею коефіцієнтів кореляції), на рівну точність вимірювання (масштаб за віссю пропорційний точності вимірювання даної величини) і на рівні вимоги в задачі (масштаб за віссю визначається необхідною точністю прогнозу даної величини або допустимим її спотворенням — рівнем толерантності). На вибір передобробки впливають змістовна постановка задачі, а також умови збору даних (наприклад, якщо колекція даних принципово не завершена і дані будуть ще надходити, то нераціонально вибирати нормування строго на одиничну дисперсію, навіть якщо це відповідає змісту завдання, оскільки це передбачає ренормалізацію всіх даних після отримання нової порції; розумніше вибрати певний масштаб, що грубо оцінює стандартне відхилення, і далі його не змінювати).

Попереднє нормування на одиничну дисперсію за осями руйнується поворотом системи координат, якщо осі не є головними компонентами, і нормування при передобробці даних не замінює нормування після зведення до головних компонент.

Механічна аналогія і метод головних компонент для зважених даних

Якщо зіставити кожному вектору даних одиничну масу, то емпірична коваріаційна матриця $C$ збіжиться з тензором інерції цієї системи точкових мас (поділеним на повну масу $m$ ), а задача про головні компоненти — із задачею зведення тензора інерції до головних осей. Можна використовувати додаткову свободу у виборі значень мас для врахування важливості точок даних або надійності їхніх значень (важливим даними або даними з більш надійних джерел приписуються великі маси). Якщо вектору даних $x_{l}$ надається маса $w_{l}$ , то замість емпіричної коваріаційної матриці $C$ отримаємо

C^{w}=[c_{ij}^{w}],\ c_{ij}^{w}={\frac {1}{\sum _{l}w_{l}}}\sum _{l=1}^{m}w_{l}(x_{li}-{\overline {X_{i}}})(x_{lj}-{\overline {X_{j}}}).

Всі подальші операції зі зведення до головних компонент виконуються так само, як і в основній версії методу: шукається ортонормований власний базис $C^{w}$ , впорядковується за спаданням власних значень, оцінюється середньозважена помилка апроксимації даних першими $k$ компонентами (за сумами власних чисел $C^{w}$ ), проводиться нормування і так далі.

Більш загальний спосіб зважування дає максимізація зваженої суми попарних відстаней^[8] між проєкціями. Для кожних двох точок даних, $x_{l},\ x_{q}$ вводиться вага $d_{lq}$ ; $d_{lq}=d_{ql}$ і $d_{l}=\sum _{q=1}^{m}d_{lq}$ . Замість емпіричної коваріаційної матриці $C$ використовується

C^{d}=[c_{ij}^{d}],\ c_{ij}^{d}=\sum _{l=1}^{m}d_{l}(x_{li}-{\overline {X_{i}}})(x_{lj}-{\overline {X_{j}}})-\sum _{l\neq q,\ l,q=1}^{m}d_{lq}(x_{li}-{\overline {X_{i}}})(x_{qj}-{\overline {X_{j}}}).

При $d_{lq}>0$ симетрична матриця $C^{d}$ додатно визначена, оскільки додатна квадратична форма:

\sum _{ij}c_{ij}^{d}a_{i}a_{j}={\frac {1}{2}}\sum _{lq}d_{lq}\left(\sum _{i}a_{i}(x_{li}-x_{qi})\right)^{2}.

Далі шукаємо ортонормований власний базис $C^{d}$ , впорядковуємо його за спаданням власних значень, оцінюємо середню помилку апроксимації даних першими $k$ компонентами і т. д. — так само, як і в основному алгоритмі.

Цей спосіб застосовується за наявності класів: для $x_{l},\ x_{q}$ з різних класів вага $d_{lq}$ вага вибирається більшою, ніж для точок одного класу. Як наслідок, у проєкції на зважені головні компоненти різні класи «розсуваються» на більшу відстань.

Інше застосування — зниження впливу великих ухилень, так званих викидів (en.:outlier), які можуть спотворювати картину через використання середньоквадратичної відстані: якщо вибрати $d_{lq}=1/\|x_{l}-x_{q}\|$ , то вплив великих ухилень буде зменшено. Таким чином, описана модифікація методу головних компонент є більш робастною, ніж класична.

Спеціальна термінологія

Узагальнити

Перспектива

В статистиці при використанні методу головних компонент використовують кілька спеціальних термінів.

Матриця даних — $\mathbf {X} =\{x_{1},...x_{m}\}^{T}$ ; кожен рядок — вектор передоброблених даних (центрованих і правильно нормованих), число рядків — $m$ (кількість векторів даних), число стовпців — $n$ (розмірність простору даних);
Матриця навантажень (англ. loadings) — $\mathbf {P} =\{a_{1},...a_{k}\}$ ; кожен стовпець — вектор головних компонент, число рядків — $n$ (розмірність простору даних), число стовпців — $k$ (кількість векторів головних компонент, вибраних для проєціювання);
Матриця рахунків (англ. scores) — $\mathbf {T} =[t_{ij}];\;t_{ij}=(x_{i},a_{j})$ ; кожен рядок — проєкція вектора даних на $k$ головних компонент; число рядків — $m$ (кількість векторів даних), число стовпців — $k$ (кількість векторів головних компонент, вибраних для проєціювання);
Матриця $Z$ -рахунків (англ. $Z$ -scores) — $\mathbf {Z} =[z_{ij}];\;z_{ij}={\frac {(x_{i},a_{j})}{\sqrt {\lambda _{j}}}}$ ; кожен рядок — проєкція вектора даних на $k$ головних компонент, нормована на одиничну вибіркову дисперсію; число рядків — $m$ (кількість векторів даних), число стовпців — $k$ (кількість векторів головних компонент, вибраних для проєктування);
Матриця помилок (або залишків) (англ. errors або residuals) — $\mathbf {E} =\mathbf {X} -\mathbf {T} \mathbf {P} ^{T}$ .
Основна формула: $\mathbf {X} =\mathbf {T} \mathbf {P} ^{T}+\mathbf {E}$ .

Межі застосування та обмеження ефективності методу

Узагальнити

Перспектива

Метод головних компонент застосовний завжди. Розповсюджене твердження про те, що він застосовний тільки до нормально розподілених даних (або для розподілів близьких до нормальних) хибне: у початковому формулюванні Пірсона ставиться задача про наближення скінченної множини даних та відсутня навіть гіпотеза про їх статистичне породження, не кажучи вже про розподіл.

Однак метод не завжди ефективно знижує розмірність за заданих обмежень на точність $\delta _{k}$ . Прямі і площини не завжди забезпечують гарну апроксимацію. Наприклад, дані можуть з хорошою точністю дотримуватися якоїсь кривої, а ця крива може бути складно розташована у просторі даних. У цьому випадку метод головних компонент для прийнятної точності зажадає декількох компонент (замість однієї), або взагалі не дасть зниження розмірності за прийнятної точності. Для роботи з такими «кривими» головними компонентами винайдено метод головних многовидів^[9] і різні версії нелінійного методу головних компонент^[10]^[11]. Найбільше неприємностей можуть спричинити дані складної топології. Для їх апроксимації також винайдено різні методи, наприклад самоорганізаційні карти Кохонена, нейронний газ^[12] або топологічні граматики^[13]. Якщо дані статистично породжені з розподілом, що дуже відрізняється від нормального, то для апроксимації розподілу корисно перейти від головних компонент до незалежних компонент^[14], які вже не ортогональні у початковому скалярному добутку. Нарешті, для ізотропного розподілу (навіть нормального) замість еліпсоїда розсіювання отримуємо кулю, і зменшити розмірність методами апроксимації неможливо.

Приклади використання

Узагальнити

Перспектива

Візуалізація даних

Візуалізація даних — подання в наочній формі даних експерименту або результатів теоретичного дослідження.

Першим вибором у візуалізації множини даних є ортогональне проєціювання на площину перших двох головних компонент (або 3-вимірний простір перших трьох головних компонент). Площина проєціювання є, по суті, плоским двовимірним «екраном», розташованим таким чином, щоб забезпечити «картинку» даних з найменшими спотвореннями. Така проєкція буде оптимальною (серед усіх ортогональних проєкцій на різні двовимірні екрани) в трьох аспектах:

Мінімальна сума квадратів відстаней від точок даних до проєкцій на площину перших головних компонент, тобто екран розташований максимально близько по відношенню до хмари точок.
Мінімальна сума спотворень квадратів відстаней між усіма парами точок з хмари даних після проєціювання точок на площину.
Мінімальна сума спотворень квадратів відстаней між усіма точками даних і їх «центром тяжіння».

Візуалізація даних є одним з найбільш широко використовуваних застосувань методу головних компонент та його нелінійних узагальнень^[3].

Стиснення зображень і відео

Для зменшення просторової надмірності пікселів під час кодування зображень і відео використовується лінійне перетворення блоків пікселів. Подальші квантування отриманих коефіцієнтів і кодування без втрат дозволяють отримати значні коефіцієнти стиснення. Використання перетворення PCA як лінійне перетворення є для деяких типів даних оптимальним з точки зору розміру отриманих даних за однакового спотворення^[15]. На даний момент цей метод активно не використовується, в основному через велику обчислювальну складність. Також стиснення даних можна досягти відкидаючи останні коефіцієнти перетворення.

Придушення шуму на фотографіях

Основна суть методу^[16] — при видаленні шуму з блоку пікселів подати окіл цього блоку у вигляді набору точок у багатовимірному просторі, застосувати до нього PCA і залишити тільки перші компоненти перетворення. При цьому передбачається, що в перших компонентах міститься основна корисна інформація, решта ж компонент містять непотрібний шум. Застосувавши зворотне перетворення після редукції базису головних компонент, отримаємо зображення без шуму.

Індексація відео

Основна ідея — подати за допомогою PCA кожен кадр відео кількома значеннями, які в подальшому будуть використовуватися при побудові бази даних та запитів до неї. Настільки істотна редукція даних дозволяє значно збільшити швидкість роботи і стійкість до ряду спотворень у відео.

Біоінформатика

Метод головних компонент інтенсивно використовується в біоінформатиці для скорочення розмірності опису, виділення значущої інформації, візуалізації даних тощо. Один з поширених варіантів використання — аналіз відповідностей^[17]^[18]^[19]. На ілюстраціях (рис. А, Б) генетичний текст^[20] поданий як множина точок у 64-вимірному просторі частот триплетів. Кожна точка відповідає фрагменту ДНК у ковзному вікні завдовжки 300 нуклеотидів (ДНК-блукання). Цей фрагмент розбивається на триплети, що не перекриваються, починаючи з першої позиції. Відносні частоти цих триплетів у фрагменті і складають 64-вимірний вектор. На рис. А наведено проєкцію на перші 2 головні компоненти для геному бактерії Streptomyces coelicolor^[en]. На рис. Б наведено проєкцію на перші 3 головні компоненти. Відтінками червоного і коричневого виділено фрагменти кодувальних послідовностей у прямому ланцюгу ДНК, а відтінками зеленого виділено фрагменти кодувальних послідовностей у зворотному ланцюгу ДНК. Чорним позначено фрагменти, що належать некодувальній частині. Аналіз методом головних компонент більшості відомих бактеріальних геномів представлений на спеціалізованому сайті^[21].

Хемометрика

Метод головних компонент — один з основних методів в хемометриці. Дозволяє розділити матрицю вихідних даних X на дві частини: «змістовну» і «шум».

Психодіагностика

Психодіагностика є однією з найбільш розроблених галузей застосування методу головних компонент^[22]. Стратегія використання ґрунтується на гіпотезі про автоінформативність експериментальних даних, яка передбачає, що діагностичну модель можна створити шляхом апроксимації геометричної структури множини об'єктів у просторі початкових ознак. Хорошу лінійну діагностичну модель вдається побудувати, коли значна частина початкових ознак є внутрішньо збалансованою. Якщо ця внутрішня узгодженість відображає шуканий психологічний конструкт, то параметри лінійної діагностичної моделі (ваги ознак) дає метод головних компонент.

Економетрика

Метод головних компонент — один з ключових інструментів економетрики, він застосовується для наочного подання даних, забезпечення лаконізму моделей, спрощення підрахунку та інтерпретації, стиснення обсягів збереженої інформації. Метод забезпечує максимальну інформативність та мінімальне спотворення геометричної структури початкових даних.

Соціологія

В соціології метод необхідний для вирішення перших двох основних завдань^[23]:

аналіз даних (опис результатів опитувань або інших досліджень, представлених у вигляді масивів числових даних);
опис соціальних явищ (побудова моделей явищ, у тому числі і математичних моделей).

Політологія

У політології метод головних компонент був основним інструментом проєкту «Політичний атлас сучасності»^[24] для лінійного і нелінійного аналізу рейтингів 192 країн світу з п'яти спеціально розроблених інтегральних індексів (рівня життя, міжнародного впливу, загроз, державності і демократії). Для картографії результатів цього аналізу розроблено спеціальну геоінформаційну систему, що об'єднує географічний простір з простором ознак. Також створено карти даних політичного атласу, що використовують як підкладку двовимірні головні многовиди у 5-вимірному просторі країн. Відмінність карти даних від географічної карти полягає в тому, що на географічній карті поруч виявляються об'єкти, які мають подібні географічні координати, в той час як на карті даних поруч виявляються об'єкти (країни) зі схожими ознаками (індексами).

Скорочення розмірності динамічних моделей

Прокляття розмірності ускладнює моделювання складних систем. Скорочення розмірності моделі — необхідна умова успіху моделювання. Для досягнення цієї мети створена розгалужена математична технологія. Метод головних компонент також використовується в цих завданнях (часто під назвою істинне або власне ортогональне розкладання — англ. proper orthogonal decomposition (POD)). Наприклад, під час опису динаміки турбулентності динамічні змінні — поле швидкостей — належать нескінченновимірному простору (або, якщо подавати поле його значеннями на досить дрібній сітці, — скінченновимірного простору великої розмірності). Можна набрати велику колекцію миттєвих значень полів і застосувати до цієї множини багатовимірних «векторів даних» метод головних компонент. Ці головні компоненти називаються також емпіричними власними векторами. У деяких випадках (структурна турбулентність) метод дає значне скорочення розмірності^[25] Інші галузі застосування цієї техніки скорочення динамічних моделей надзвичайно різноманітні — від теоретичних основ хімічної технології до океанології і кліматології.

Сенсорна оцінка харчових продуктів

Своє застосування метод головних компонент знайшов при проведенні сенсорної (органолептичної) оцінки властивостей харчових продуктів^[26]. Метод головних компонент дозволяє проводити класифікацію харчових продуктів у тих випадках, коли для характеристики їхніх властивостей використовується одночасно велика кількість дескрипторів, наприклад при оцінці властивостей вина,^[27] мармеладу,^[28] екструдованих харчових продуктів,^[29] сиру^[30] та інших.

Альтернативи та узагальнення

Метод головних компонент — найпоширеніший підхід до зниження розмірності, однак існують й інші методи, зокрема, метод незалежних компонент^[en], багатовимірне шкалювання, а також численні нелінійні узагальнення: метод головних кривих і многовидів, метод пружних карт^[ru], пошук найкращої проєкції^[ru] (англ. Projection Pursuit), нейромережеві методи «вузького горла^[ru]», самоорганізаційні карти Кохонена.

Примітки

Loading content...

Див. також

Loading content...

Література

Loading content...

Посилання

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads