Loading AI tools
З Вікіпедії, вільної енциклопедії
У статистиці, коефіціє́нт кореля́ції Пі́рсона (ККП, англ. Pearson correlation coefficient, PCC)[a] — це коефіцієнт кореляції, який вимірює лінійну[en] кореляцію між двома наборами даних. Це відношення коваріації двох змінних до добутку їхніх стандартних відхилень; таким чином, це, по суті, унормована міра коваріації, така, що її результат завжди має значення між −1 та 1. Як і сама коваріація, ця міра може відображати лише лінійну кореляцію змінних, і не враховує багатьох інших типів взаємозв'язків і кореляцій. Як простий приклад, можна було би очікувати, що вік і зріст групи підлітків із середньої школи матимуть коефіцієнт кореляції Пірсона значно більший за 0, але менший за 1 (оскільки 1 означало би нереалістично ідеальну кореляцію).
Розробив його Карл Пірсон на основі спорідненої ідеї, запропонованої Френсісом Гальтоном у 1880-х роках, математичну формулу для якої вивів та опублікував Огюст Браве 1844 року.[b][6][7][8][9] Назва цього коефіцієнта є одним із прикладів закону Стіглера.
Коефіцієнт кореляції Пірсона це коваріація двох змінних, поділена на добуток їхніх стандартних відхилень. Вигляд цього визначення містить «момент добутку», тобто середнє значення (перший момент відносно початку координат) добутку змінних, скоригованих на їхні середні значення; тому в назві й використовують означення «моменту добутку».
Коефіцієнт кореляції Пірсона, коли його застосовують до сукупності, зазвичай позначують грецькою літерою ρ (ро), й можуть називати коефіцієнтом кореляції сукупності (англ. population correlation coefficient) або коефіцієнтом кореляції Пірсона для сукупності (англ. population Pearson correlation coefficient). Для пари випадкових змінних (наприклад, Зріст та Вага), формулою для ρ[10] є[11]
де
Формулу для можливо виразити через середнє значення та математичне сподівання. Оскільки[10]
формулу для також можливо записати як
де
Формулу для можливо виразити через нецентровані моменти. Оскільки
формулу для також можливо записати як
Коефіцієнт кореляції Пірсона, коли його застосовують до вибірки, зазвичай позначують через і можуть називати коефіцієнтом кореляції вибірки (англ. sample correlation coefficient) або коефіцієнтом кореляції Пірсона для вибірки (англ. sample Pearson correlation coefficient). Формулу для можливо отримати, підставивши оцінки коваріацій та дисперсій на основі вибірки до наведеної вище формули. Для парних даних , що складаються з пар, визначають як
де
Перегрупування дає таку формулу для :
де визначено як вище.
Ця формула пропонує зручний однопрохідний алгоритм обчислення кореляцій вибірок, хоча, залежно від задіяних чисел, вона іноді може бути чисельно нестійкою.
Подальше перегрупування дає таку[10] формулу для :
де визначено як вище.
Еквівалентний вираз дає формулу для як середнє добутків стандартних оцінок наступним чином:
де
Доступні й альтернативні формули для . Наприклад, можливо використовувати наступну формулу для :
де
Якщо спільно гауссові, з нульовим середнім значенням і дисперсією , то .
В умовах сильного шуму виділяння коефіцієнта кореляції між двома наборами стохастичних змінних нетривіальне, особливо коли канонічно-кореляційний аналіз показує зниження значень кореляції через значний внесок шуму. Узагальнення цього підходу наведено в іншому місці.[12]
У випадку відсутності даних, Ґаррен вивів оцінювання максимальною правдоподібністю.[13]
Деякі розподіли (наприклад, стійкі розподіли, відмінні від нормального) не мають визначеної дисперсії.
Значення коефіцієнта кореляції Пірсона як для вибірки, так і для сукупності перебувають на або між −1 та 1. Кореляції, які дорівнюють +1 чи −1, відповідають точкам даних, що лежать точно на прямій (у випадку коефіцієнта кореляції вибірки), або двовимірному розподілу, носій[en] якого лежить на прямій (у випадку коефіцієнта кореляції сукупності). Коефіцієнт кореляції Пірсона симетричний: corr(X,Y) = corr(Y,X).
Ключовою математичною властивістю коефіцієнта кореляції Пірсона є його інваріантність[en] щодо окремих змін розташування та масштабу в обох змінних. Тобто ми можемо перетворити X на a + bX, і перетворити Y на c + dY, де a, b, c, та d сталі, а b, d > 0, не змінивши коефіцієнта кореляції. (Це справджується як для коефіцієнта кореляції сукупності, так і для коефіцієнта кореляції вибірки.) Загальніші лінійні перетворення кореляцію змінюють: щодо того, як це застосовувати, див. § Декореляція n випадкових змінних.
Коефіцієнт кореляції набуває значень з −1 по 1. Абсолютне рівне значення 1 означає, що лінійне рівняння описує взаємозв'язок між X та Y ідеально, з усіма точками даних на одній прямій. Знак кореляції визначається нахилом регресії: значення +1 означає, що всі точки даних лежать на прямій, за якої Y зростає зі зростанням X, і навпаки для −1.[14] Значення 0 означає, що між змінними немає лінійної залежності.[15]
Загальніше, (Xi − X)(Yi − Y) додатний тоді й лише тоді, коли Xi та Yi перебувають з одного боку від своїх середніх значень. Відтак, коефіцієнт кореляції додатний, коли Xi та Yi схильні бути одночасно більшими або одночасно меншими за свої середні значення. Коефіцієнт кореляції від'ємний (антикореляція), коли Xi та Yi схильні перебувати по різні боки від своїх середніх значень. Більше того, що сильніша будь-яка з цих тенденцій, то більше абсолютне значення коефіцієнта кореляції.
Роджерс та Найсвандер[16] перелічили тринадцять способів тлумачення кореляції або простих функцій від неї:
Для нецентрованих даних існує зв'язок між коефіцієнтом кореляції та кутом φ між двома регресійними лініями, y = gX(x) та x = gY(y), отриманими в результаті регресії y на x та x на y відповідно. (Тут φ відкладають проти годинникової стрілки в першому квадранті, утвореному навколо точки перетину ліній, якщо r > 0, чи проти годинникової стрілки з четвертого до другого квадранту, якщо r < 0.) Можливо показати,[17] що якщо стандартні відхилення рівні, то r = sec φ − tg φ, де sec та tg — тригонометричні функції.
Для центрованих даних (тобто даних, зміщених на середні значення їхніх відповідних змінних, таким чином, щоби середнє значення кожної змінної було нульовим) коефіцієнт кореляції також можливо розглядати як косинус кута θ між двома спостережуваними векторами в N-вимірному просторі (для N спостережень кожної змінної).[18]
Коефіцієнти як нецентрованої (не пірсоново сумісної), так і центрованої кореляції можливо визначати для набору даних. Наприклад, припустімо, що виявлено, що п'ять країн мають валовий національний продукт 1, 2, 3, 5 та 8 мільярдів доларів відповідно. Припустімо, що ці ж п'ять країн (у тому ж порядку) мають 11 %, 12 %, 13 %, 15 % та 18 % бідності. Тоді нехай x та y будуть впорядкованими 5-елементними векторами, що містять наведені вище дані: x = (1, 2, 3, 5, 8) та y = (0.11, 0.12, 0.13, 0.15, 0.18).
За звичайною процедурою визначення кута θ між двома векторами (див. скалярний добуток) коефіцієнт нецентрованої кореляції становить
Цей коефіцієнт нецентрованої кореляції ідентичний косинусній подібності. Наведені вище дані було свідомо обрано так, щоби вони бути ідеально корельованими: y = 0.10 + 0.01 x. Тому коефіцієнт кореляції Пірсона мусить дорівнювати рівно одиниці. Центрування даних (зміщення x на ℰ(x) = 3.8 та y на ℰ(y) = 0.138) дає x = (−2.8, −1.8, −0.8, 1.2, 4.2) та y = (−0.028, −0.018, −0.008, 0.012, 0.042), звідки
як і очікувалося.
Декілька авторів запропонували настанови для тлумачення коефіцієнта кореляції.[19][20] Проте всі такі критерії дещо довільні.[20] Тлумачення коефіцієнта кореляції залежить від контексту та цілей. Кореляція 0,8 може бути дуже низькою, якщо йдеться про перевірку фізичного закону з використанням високоякісних інструментів, але може вважатися дуже високою в соціальних науках, де внесок від ускладнювальних чинників може бути більшим.
Статистичне висновування на основі коефіцієнті кореляції Пірсона часто зосереджується на одній з наступних двох цілей:
Методи досягнення однієї або обох цих цілей обговорюються нижче.
Перстановкові критерії забезпечують прямий підхід до здійснення перевірок гіпотез і побудови довірчих інтервалів. Перестановковий критерій для коефіцієнта кореляції Пірсона містить наступні два кроки:
Щоби виконати перевірку перестановкового критерію, повторіть кроки (1) та (2) велику кількість разів. p-значення для перестановкового критерію — це частка значень r, породжених на кроці (2), більших за коефіцієнт кореляції Пірсона, обчислений із первинних даних. Тут «більший» може означати як більший за абсолютним значенням, так і більший за значенням зі знаком, залежно від того, чи потрібен двобічний[en], чи однобічний[en] критерій.
Для побудови довірчих інтервалів для коефіцієнта кореляції Пірсона можливо використовувати натяжку. В «непараметричній» натяжці n пар (xi, yi) перевибирають зі спостережуваного набору з n пар «з повторами», й коефіцієнт кореляції r обчислюють на основі цих перевибраних даних. Цей процес повторюють велику кількість разів, і цей емпіричний розподіл перевибраних значень r використовують для наближення вибіркового розподілу цієї статистики. 95 %-вий довірчий інтервал для ρ можливо визначити як інтервал, що простягається від 2,5-го до 97,5-го перцентиля перевибраних значень r.
Якщо та — випадкові змінні, то стандартною похибкою, пов'язаною з кореляцією у випадку нульової гіпотези, є
де — кореляція (за припущення r≈0), а — розмір вибірки.[21][22]
Для пар з некорельованого двовимірного нормального розподілу, вибірковий розподіл ст'юдентованого коефіцієнта кореляції Пірсона дотримується t-розподілу Ст'юдента зі ступенями вільності n − 2. Зокрема, якщо змінні в основі мають двовимірний нормальний розподіл, то змінна
у випадку нульової гіпотези (нульової кореляції) має розподіл Ст'юдента.[23] Це приблизно виконується у випадку не нормальних спостережуваних значень, якщо розміри вибірок достатньо великі.[24] Для визначення критичних значень для r потрібна обернена функція:
Також можливо використовувати асимптотичні підходи для великих вибірок.
Інша рання стаття[25] пропонує графіки та таблиці для загальних значень ρ, для малих розмірів вибірки, та обговорює підходи до обчислень.
У випадку, якщо змінні в основі не нормальні, вибірковий розподіл коефіцієнта кореляції Пірсона дотримується розподілу Ст'юдента, але ступені вільності знижуються.[26]
Для даних, що слідують двовимірному нормальному розподілу, точною функцією густини f(r) для вибіркового коефіцієнта кореляції r нормального двовимірного розподілу є[27][28][29]
де — це гамма-функція, а — гауссова гіпергеометрична функція.
В окремому випадку, коли (нульова кореляція в сукупності), точну функцію густини f(r) можливо записати як
де — це бета-функція, що є одним зі способів запису густини t-розподілу Ст'юдента для ст'юдентованого вибіркового коефіцієнта кореляції, як зазначено вище.
Довірчі інтервали та критерії можливо розраховувати з довірчого розподілу[en]. Точна довірча густина для ρ становить[30]
де — це гауссова гіпергеометрична функція, а .
На практиці обчислення довірчих інтервалів та перевірки гіпотез щодо ρ зазвичай виконують за допомогою перетворення Фішера[en], :
F(r) приблизно дотримується нормальному розподілу, де
де n — розмір вибірки. Похибка наближення найнижча для великого розміру вибірки і малих значень та , і збільшується в іншому випадку.
За використання цього наближення z-оцінка становить
за нульовою гіпотезою, що , за припущення, що пари вибірки незалежні й однаково розподілені та дотримуються двовимірного нормального розподілу. Відтак, можливо отримати наближене p-значення з таблиці нормальної ймовірності. Наприклад, якщо спостерігається z = 2.2 й потрібне двобічне p-значення для перевірки нульової гіпотези, що , то p-значення становитиме 2 Φ(−2.2) = 0.028, де Φ — це стандартна нормальна функція розподілу.
Щоб отримати довірчий інтервал для ρ, спочатку обчислімо довірчий інтервал для F():
Обернене перетворення Фішера повертає інтервал до шкали кореляції.
Наприклад, припустімо, що ми спостерігаємо r = 0.7 з розміром вибірки n=50, і хочемо отримати 95 %-вий довірчий інтервал для ρ. Перетворене значення становить , тому довірчий інтервал у перетвореній шкалі становить , або (0.5814, 1.1532). Перетворення назад до шкали кореляції дає (0.5237, 0.8188).
Квадрат коефіцієнта кореляції вибірки зазвичай позначують через r2, він є окремим випадком коефіцієнта детермінації. У цьому випадку він оцінює частку дисперсії Y, яку пояснює X через просту лінійну регресію. Отже, якщо є спостережуваний набір даних та допасований набір даних , то як відправну точку повну дисперсію Yi навколо їхнього середнього значення можливо розкласти як
де — це допасовані значення з регресійного аналізу. Це можливо переформулювати як
Обидва доданки вище — це частка дисперсії в Y, яку пояснює X (правий), та яку X не пояснює (лівий).
Далі, ми застосовуємо властивість регресійних моделей найменших квадратів, що вибіркова коваріація між та нульова. Тож вибірковий коефіцієнт кореляції між спостережуваними та допасованими значеннями відгуку в регресії можливо записати (обчислення виконується виходячи з очікування гауссової статистики) як
Тож
де — частка дисперсії Y, пояснювана лінійною функцією X.
У наведеному вище виведенні той факт, що
можливо довести, відмітивши, що частинні похідні залишкової суми квадратів[en] (RSS) за β0 та β1 у моделі найменших квадратів дорівнюють 0, де
Кінець кінцем, рівняння можливо записати як
де
Символ називають сумою квадратів регресії, також відомою як пояснена сума квадратів, а — повна сума квадратів[en] (пропорційна дисперсії даних).
Коефіцієнт кореляції Пірсона для сукупності визначено через моменти, й тому він існує для будь-якого двовимірного розподілу ймовірності, для якого визначені коваріація сукупності та відособлені дисперсії сукупності, й вони ненульові. Деякі розподіли ймовірності, такі як розподіл Коші, мають невизначену дисперсію, й відтак якщо X або Y відповідають такому розподілові, то ρ невизначений. У деяких практичних застосуваннях, дані в яких підозрюють на відповідність розподілові з повільно спадним хвостом[en], це важливий аспект. Проте, існування коефіцієнта кореляції зазвичай не проблема; наприклад, якщо діапазон розподілу обмежений, ρ завжди визначений.
Як і багато інших часто використовуваних статистик, вибіркова статистика r не робастна,[32] тож за наявності викидів її значення може бути оманливим.[33][34] Зокрема, коефіцієнт кореляції моменту добутку не робастний ані щодо розподілу,[35] ані щодо викидів[32] (див. Робастність у статистиці § Поняття робастності). Перевірка діаграми розсіяння між X та Y зазвичай виявляє ситуацію, коли робастність може бути проблемою, і в таких випадках може бути рекомендовано використовувати робастну міру пов'язаності. Проте слід зазначити, що хоч більшість робастних оцінювачів пов'язаності і вимірюють якимось чином статистичну залежність, вони зазвичай не інтерпретовні тою ж мірою, що й коефіцієнт кореляції Пірсона.
Статистичне висновування для коефіцієнта кореляції Пірсона чутливе до розподілу даних. Точні критерії та асимптотичні критерії на основі перетворення Фішера[en] можливо застосовувати, якщо дані розподілені приблизно нормально, але в іншому разі вони можуть бути оманливими. У деяких ситуаціях можливо використовувати натяжку для створення довірчих інтервалів, а перестановкові критерії — для здійснення перевірки гіпотез. Ці непараметричні[en] підходи можуть давати змістовніші результати в деяких ситуаціях, коли двовимірна нормальність не виконується. Проте стандартні версії цих підходів покладаються на взаємозамінність[en] даних, що означає, що не існує впорядкування чи групування аналізованих пар даних, які могли би вплинути на поведінку оцінки кореляції.
Стратифікований аналіз — це один зі способів або пристосування до відсутності двовимірної нормальності, або для відокремлення кореляції, що випливає з одного чинника при контролі над іншим. Якщо W подає приналежність до кластеру або інший чинник, який хочеться контролювати, можливо стратифікувати дані на основі значення W, а потім обчислити коефіцієнт кореляції в межах кожної страти. Оцінки на рівні страт потім можливо об'єднати для оцінки загальної кореляції при контролі над W.[36]
Існують різні варіації коефіцієнта кореляції, які можливо обчислювати для різних цілей. Ось декілька прикладів.
Вибірковий коефіцієнт кореляції r не є незміщеною оцінкою ρ. Для даних, що дотримуються двовимірному нормальному розподілу, математичне сподівання E[r] вибіркового коефіцієнта кореляції r нормальної двовимірності становить[37]
Унікальний мінімально-дисперсійний незміщений оцінювач (англ. unique minimum variance unbiased estimator) radj задається як[38]
|
( ) |
де:
Приблизно незміщений оцінювач (англ. approximately unbiased estimator) radj можливо отримати[джерело?] шляхом утинання E[r] та розв'язання цього утятого рівняння:
|
( ) |
Приблизним розв'язком[джерело?] рівняння (2) є
|
( ) |
де у (3)
Іншим запропонованим[10] скоригованим коефіцієнтом кореляції (англ. adjusted correlation coefficient) є[джерело?]
radj ≈ r за великих значень n.
Покладімо, що спостереження, які потрібно скорелювати, мають різні ступені важливості, які можливо виразити ваговим вектором w. Щоб обчислити кореляцію між векторами x та y з ваговим вектором w (всі довжиною n),[39][40]
Віддзеркалювальна кореляція (англ. reflective correlation) — це варіант пірсонової кореляції, в якому дані не центровано навколо їхніх середніх значень.[джерело?] Віддзеркалювальна кореляція сукупності це
Віддзеркалювальна кореляція симетрична, але не інваріантна щодо паралельного перенесення:
Віддзеркалювальна кореляція вибірки еквівалентна косинусній подібності:
Зважена версія вибіркової віддзеркалювальної кореляції це
Масштабна кореляція (англ. scaled correlation) — це варіант кореляції Пірсона, в якому діапазон даних обмежують навмисно й контрольовано, щоби виявляти кореляції між швидкими складовими в часових рядах.[41] Масштабну кореляцію визначають як середню кореляцію над короткими сегментами даних.
Нехай це кількість сегментів, які можуть вміститися в загальну довжину сигналу для заданого масштабу :
Тоді масштабну кореляцію над усім сигналом обчислюють як
де — коефіцієнт кореляції Пірсона для сегмента .
Шляхом обирання параметра зменшують діапазон значень, і кореляції на довгих часових масштабах відфільтровуються, так, що виявляються лише кореляції на коротких часових масштабах. Таким чином усувають внески повільних складових і зберігають внески швидких складових.
Метрику відстані для двох змінних X та Y, відому як відстань Пірсона (англ. Pearson's distance), можливо визначати з коефіцієнта їхньої кореляції як[42]
Враховуючи те, що коефіцієнт кореляції Пірсона перебуває в межах [−1, +1], відстань Пірсона лежить на проміжку [0, 2]. Відстань Пірсона використовували в кластерному аналізі та виявлянні даних для передавання та зберігання з невідомими передавальним коефіцієнтом та зміщенням.[43]
Визначена таким чином «відстань» Пірсона для від'ємних кореляцій встановлює відстань понад 1. Насправді, значення мають як сильна додатна, так і сильна від'ємна кореляції, тому потрібно бути обережними при використанні «відстані» Пірсона в алгоритмах найближчих сусідів, оскільки такі алгоритми включатимуть лише сусідів із додатною кореляцією й виключати сусідів із від'ємною. Як альтернативу, можливо застосовувати відстань з абсолютним значенням, , яка враховуватиме як додатні, так і від'ємні кореляції. Інформацію про додатну та від'ємну пов'язаність можливо виділяти окремо пізніше.
Для змінних X = {x1,…,xn} та Y = {y1,…,yn}, визначених на одиничному колі , можливо визначити коловий (англ. circular) аналог коефіцієнта Пірсона.[44] Це робиться шляхом такого перетворення даних в X та Y за допомогою функції синуса, що коефіцієнт кореляції визначається як
де та — колові середні[en] X та Y. Ця міра може бути корисною в таких галузях як метеорологія, де важливий кутовий напрямок даних.
Якщо сукупність або набір даних характеризується понад двома змінними, коефіцієнт частинної кореляції вимірює силу залежності між парою змінних, яка не пояснюється тим, як вони обидві змінюються у відповідь на варіації в обраній підмножині інших змінних.
Завжди можливо усунути кореляції між усіма парами довільного числа випадкових змінних за допомогою перетворення даних, навіть якщо взаємозв'язок між цими змінними нелінійний. Подання цього результату для розподілів сукупностей навели Кокс та Гінклі.[45]
Існує відповідний результат для зведення до нуля й вибіркових кореляцій. Припустімо, що вектор з n випадкових змінних спостерігають m разів. Нехай X — матриця, де — j-та змінна спостереження i. Нехай — квадратна матриця m на m з усіма елементами 1. Тоді D — це дані, перетворені так, що кожна випадкова змінна має нульове середнє, а T — це дані, перетворені так, що всі змінні мають нульове середнє й нульову кореляцію з усіма іншими змінними, — вибіркова кореляційна матриця T буде одиничною матрицею. Це потрібно додатково поділити на стандартне відхилення, щоб отримати одиничну дисперсію. Перетворені змінні будуть некорельованими, хоч вони й можуть бути не незалежними.
де степінь −+1⁄2 подає квадратний корінь оберненої матриці. Матриця кореляції T буде одиничною. Якщо нове спостереження даних x це рядковий вектор з n елементів, то те саме перетворення можливо застосувати й до x, щоб отримати перетворені вектори d та t:
Декореляція пов'язана з аналізом головних компонент для багатовимірних даних.
cor(x, y)
, або (з P-значенням) через cor.test(x, y)
.pearsonr(x, y)
.pandas.DataFrame.corr
Correlation
, або (з P-значенням) через CorrelationTest
.correlation_coefficient
.correl(array1, array2)
для обчислення коефіцієнта кореляції Пірсона.Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.