Дисперсія випадкової величини

Диспе́рсія (англ. variance) — це міра розсіяння значень випадкової величини відносно середнього значення розподілу. Більші значення дисперсії свідчать про більші відхилення значень випадкової величини від центру розподілу.

У Вікіпедії є статті про інші значення цього терміна: Дисперсія.

У простому розумінні, дисперсія дозволяє виміряти наскільки далеко випадкові значення розподілені від їх середнього значення. Дисперсія відіграє важливу роль в статистиці, в якій вона використовується в таких напрямах як описова статистика, статистичне висновування, перевірка статистичних гіпотез, допасованість, і Метод Монте-Карло. Дисперсія дорівнює квадрату стандартного відхилення, що є другим центральним моментом розподілу, і коваріації випадкової величини із самою собою, тому зазвичай вона позначається як $\sigma ^{2}$ , $s^{2}$ , або $\operatorname {Var} (X)$ .

Приклади

Дисперсія випадкової величини — це один з параметрів розподілу ймовірностей — це середньоквадратичне відхилення від середнього значення. Інакше кажучи, це математичне сподівання квадрату відхилення цієї змінної від її очікуваного значення (її математичного сподівання). Отже дисперсія є вимірюванням величини розпорошеності значень цієї змінної, беручи до уваги всі її значення і їхні ймовірності або ваги.

Наприклад, якщо підкинути ідеальний гральний кубик, то очікування значення буде:

{\frac {1}{6}}(1+2+3+4+5+6)=3.5.

Очікуване середнє абсолютне відхилення таке:

{\frac {1}{6}}(|1-3.5|+|2-3.5|+|3-3.5|+|4-3.5|+|5-3.5|+|6-3.5|)={\frac {1}{6}}(2.5+1.5+0.5+0.5+1.5+2.5)=1.5.

Але очікуване квадратичне відхилення таке:

{\frac {1}{6}}(2.5^{2}+1.5^{2}+0.5^{2}+0.5^{2}+1.5^{2}+2.5^{2})=17.5/6\approx 2.9.

Якщо монету підкинути двічі, кількість аверсів становить: 0 з імовірністю 0.25, 1 з імовірністю 0.5 і 2 з імовірністю 0.25. Отже, очікування кількості аверсів таке:

0.25\times 0+0.5\times 1+0.25\times 2=1,

і дисперсія така:

0.25\times (0-1)^{2}+0.5\times (1-1)^{2}+0.25\times (2-1)^{2}=0.25+0+0.25=0.5.

Дисперсією випадкової величини $X$ називається математичне сподівання квадрата відхилення цієї величини від її математичного сподівання (середнього значення). Дисперсія є центральним моментом другого порядку.^[1]

Нехай випадкова змінна $X$ може набувати значення $x_{1},x_{2},\ldots ,$ відповідно з ймовірностями $p(x_{1}),p(x_{2}),\ldots ,$ причому $\sum _{x}p(x)=1\,$ .

Дисперсія дискретної випадкової величини $X$ має такий вигляд:

\sigma ^{2}\equiv \operatorname {D} (X)=\operatorname {E} [(X-\mu )^{2}]=\sum _{x}(x-\mu )^{2}p(x)

,

де

\sigma ={\sqrt {\sigma ^{2}}}\,

і називається стандартним відхиленням величини

X

від її середнього значення

\mu \,

;

\operatorname {D}

— це оператор дисперсії випадкової величини.

Якщо випадкова величина ${\xi =x\,}$ задана густиною імовірності, тоді дисперсія виглядає так:^[2]

\sigma ^{2}\equiv \operatorname {D} (\xi )=\operatorname {E} [(\xi -\mu )^{2}]=\int _{X}(x-\mu )^{2}p_{\xi }(x)dx

,

де

\mu \equiv \operatorname {E} (\xi )=\int _{X}xp_{\xi }(x)dx

, тобто це середнє значення величини

\xi \,

;

p_{\xi }(x)\,

— функція густини імовірності.

Дисперсія являє собою різницю математичного очікування квадрата випадкової величини $\operatorname {E} (X^{2})$ і квадрата середнього значення $\mu \,$ цієї величини:^[2]

\sigma ^{2}=\operatorname {E} (X^{2})-\mu ^{2}=\sum _{x}x^{2}\,p(x)-\mu ^{2}

.

Теорема Чебишова: Ймовірність будь-якої випадкової величини $X\,$ , яка набуває значення в границях $k\,$ стандартних відхилень від середнього значення $\mu \,$ , не менше $1-{\frac {1}{k^{2}}}$ , тобто^[3]

P(\mu -k\sigma <X<\mu +k\sigma )\geq \,1-{\frac {1}{k^{2}}}

.

Основні властивості

Дисперсія випадкової змінної є невід'ємною величиною, оскільки число піднесене в квадрат може бути додатнім або нулем:

\operatorname {D} (X)\geq 0.

Дисперсія сталої величини дорівнює нулю, тобто $\operatorname {D} (c)=0$ , де $c=const\,$ , а якщо дисперсія випадкової величини у наборі даних дорівнює 0, тоді всі входження цього набору мають однакове значення:

P(X=a)=1\Leftrightarrow \operatorname {D} (X)=0.

Дисперсія є інваріантною до змін коефіцієнту зсуву. Таким чином, додавання константи до значень випадкової величини не змінює дисперсії:

\operatorname {D} (X+a)=\operatorname {D} (X).

Якщо всі значення випадкової величини помножено на константу, дисперсія буде помножена на квадрат цієї константи. Тобто константу можна виносити в квадраті за знак дисперсії:

\operatorname {D} (aX)=a^{2}\operatorname {D} (X).

Дисперсія суми двох випадкових величин дорівнюватиме

\operatorname {D} (aX+bY)=a^{2}\operatorname {D} (X)+b^{2}\operatorname {D} (Y)+2ab\,\operatorname {Cov} (X,Y),

\operatorname {D} (aX-bY)=a^{2}\operatorname {D} (X)+b^{2}\operatorname {D} (Y)-2ab\,\operatorname {Cov} (X,Y),

де $Cov(\cdot, \cdot)$ — коваріація. У загальному випадку для суми $N$ випадкових величин $\{X_{1},\dots ,X_{N}\}$ :

\operatorname {D} \left(\sum _{i=1}^{N}X_{i}\right)=\sum _{i,j=1}^{N}\operatorname {Cov} (X_{i},X_{j})=\sum _{i=1}^{N}\operatorname {D} (X_{i})+\sum _{i\neq j}\operatorname {Cov} (X_{i},X_{j}).

Ці результати приводять до результату, що дисперсія для лінійної комбінації величин є наступною:

{\begin{aligned}\operatorname {D} \left(\sum _{i=1}^{N}a_{i}X_{i}\right)&=\sum _{i,j=1}^{N}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j})\\&=\sum _{i=1}^{N}a_{i}^{2}\operatorname {D} (X_{i})+\sum _{i\not =j}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j})\\&=\sum _{i=1}^{N}a_{i}^{2}\operatorname {D} (X_{i})+2\sum _{1\leq i<j\leq N}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j}).\end{aligned}}

Якщо випадкові величини $X_{1},\dots ,X_{N}$ є такими, що

\operatorname {Cov} (X_{i},X_{j})=0\ ,\ \forall \ (i\neq j),

говорять, що вони є некорельованими. Це випливає на пряму із виразу описаного раніше, яке говорить про те, що якщо випадкові величини $X_{1},\dots ,X_{N}$ є некорельованими, тоді дисперсії їх суми дорівнює сумі дисперсій. Символічно це виглядає наступним чином:

\operatorname {D} \left(\sum _{i=1}^{N}X_{i}\right)=\sum _{i=1}^{N}\operatorname {D} (X_{i}).

Оскільки незалежні випадкові величини завжди є некорельованими, вищенаведене рівняння є дійсним зокрема для випадку, коли випадкові величини $X_{1},\dots ,X_{n}$ незалежні. Таким чином, незалежність є достатньою але не необхідною умовою, для того щоб дисперсія суми величин дорівнювала сумі дисперсій.

Сума некорельованих випадкових величин (формула Бієнайме)

Однією з переваг використання дисперсії перед іншими мірами варіабельності є те, що дисперсія суми (або різниці) некорельованих випадкових величин:

\operatorname {D} \left(\sum _{i=1}^{n}X_{i}\right)=\sum _{i=1}^{n}\operatorname {D} (X_{i}).

Цей вираз має назву — формула Бієнайме^[en]^[4] і був відкритий в 1853.^[5]^[6] Її зазвичай формулюють із більш суворою вимогою, що випадкові величини повинні бути незалежними, але достатньою умовою є те, що величини є некорельованими. Таким чином, якщо всі змінні мають однакову дисперсію σ², тоді, оскільки ділення на n є лінійним перетворенням, ця формула одразу дозволяє визначити, що дисперсії їх середніх значень становить:

\operatorname {D} \left({\overline {X}}\right)=\operatorname {D} \left({\frac {1}{n}}\sum _{i=1}^{n}X_{i}\right)={\frac {1}{n^{2}}}\sum _{i=1}^{n}\operatorname {D} \left(X_{i}\right)={\frac {\sigma ^{2}}{n}}.

Таким чином, дисперсія середнього зменшується із збільшенням n. Ця формула дисперсії середнього використовується у визначенні стандартної похибки для вибіркового середнього, що використовується у центральній граничній теоремі.

Аби довести початковий вираз, достатньо показати що

\operatorname {D} (X+Y)=\operatorname {D} (X)+\operatorname {D} (Y).

У загальному результаті за цим слідує індуктивний вивід. Починаючи із визначення,

{\begin{aligned}\operatorname {D} (X+Y)&=E[(X+Y)^{2}]-(E[X+Y])^{2}\\&=E[X^{2}+2XY+Y^{2}]-(E[X]+E[Y])^{2}.\\\end{aligned}}

Використавши лінійність оператора мат. сподівання і припущення про незалежність (або відсутність кореляції) величин X і Y, далі цей вираз спрощується наступним чином:

{\begin{aligned}\operatorname {D} (X+Y)&=E[X^{2}]+2E[XY]+E[Y^{2}]-(E[X]^{2}+2E[X]E[Y]+E[Y]^{2})\\&=E[X^{2}]+E[Y^{2}]-E[X]^{2}-E[Y]^{2}\\&=\operatorname {D} (X)+\operatorname {D} (Y).\end{aligned}}

Сума корельованих змінних

У загальному випадку, якщо випадкові величини корельовані, тоді дисперсія їх суми дорівнює сумі їх коваріацій:

\operatorname {D} \left(\sum _{i=1}^{n}X_{i}\right)=\sum _{i=1}^{n}\sum _{j=1}^{n}\operatorname {Cov} (X_{i},X_{j})=\sum _{i=1}^{n}\operatorname {D} (X_{i})+2\sum _{1\leq i<j\leq n}\operatorname {Cov} (X_{i},X_{j}).

(Примітка: Друга рівність отримана із факту, що $Cov(X i, X i) = D(X i)$ .)

В даній формулі $Cov(\cdot, \cdot)$ позначає коваріацію, що дорівнює нулю для незалежних випадкових величин (за умови якщо вона існує). Ця формула стверджує, що варіація суми величин дорівнює сумі всіх елементів матриці коваріації їх компонент. Другий вираз стверджує еквівалентне, що дисперсія суми величин дорівнює сумі діагональних елементів матриці коваріацій плюс доданій подвійній сумі елементів її верхньої трикутної половини (або елементів із нижнього трикутника матриці); це випливає з того, що матриця коваріацій є симетричною відносно її діагоналі. Ця формула використовується у теорії альфа Кронбаха із класичної теорії випробувань^[en].

Якщо випадкові величини мають однакову дисперсію σ² а середнє значення кореляції окремих величин дорівнює ρ, тоді дисперсія їх середніх значень дорівнюватиме

\operatorname {D} ({\overline {X}})={\frac {\sigma ^{2}}{n}}+{\frac {n-1}{n}}\rho \sigma ^{2}.

Ця формула визначає, що дисперсія середнього збільшується із збільшенням середнього значення кореляцій. Іншими словами, додавання корельованих спостережень не є настільки ефективним як додавання незалежних спостережень для зменшення стандартної похибки. Крім того, якщо випадкові величини мають одиничну дисперсію, наприклад, якщо їх зведено до стандартних параметрів, тоді цей вираз спрощується до наступного

\operatorname {D} ({\overline {X}})={\frac {1}{n}}+{\frac {n-1}{n}}\rho .

Ця формула використовується у формулі передбачення Спірмена-Брауна^[en] із класичної теорії випробувань. Цей вираз збігається до ρ якщо n прямує до нескінченності, за умови що середня кореляція залишається сталою або збігається до якогось значення також. Таким чином для дисперсії середнього стандартизованих випадкових величин із однаковими кореляціями або збіжною середньою кореляцією маємо наступне:

\lim _{n\to \infty }\operatorname {D} ({\overline {X}})=\rho .

Тому, дисперсія середнього значення для великої кількості стандартизованих величин приблизно дорівнює їх середній кореляції. Із цього стає очевидним, що вибіркове середнє корельованих величин в загальному випадку не збігається до середнього сукупності, навіть зважаючи на те, що закон великих чисел стверджує, що вибіркове середнє буде збіжним у випадку незалежних випадкових величин.

Матрична нотація для дисперсії лінійної комбінації величин

Визначимо величину $X$ у вигляді вектора стовпця із $n$ випадкових величин $X_{1},\ldots ,X_{n}$ , і $c$ у вигляді вектора стовпця із $n$ скалярних значень $c_{1},\ldots ,c_{n}$ . Таким чином, $c^{T}X$ є лінійною комбінацією цих випадкових величин, де $c^{T}$ позначає операцію транспонування вектора $c$ . Також нехай $\Sigma$ є коваріаційною матрицею величини $X$ . Дисперсія для $c^{T}X$ буде задаватися наступним чином:^[7]

\operatorname {D} (c^{T}X)=c^{T}\Sigma c.

Зважена сума величин

Властивість масштабованості і формула Бієнайме, разом із властивістю коваріації $Cov(aX, bY) = ab Cov(X, Y)$ визначають наступне:

\operatorname {D} (aX\pm bY)=a^{2}\operatorname {D} (X)+b^{2}\operatorname {D} (Y)\pm 2ab\,\operatorname {Cov} (X,Y).

Це означає, що для зваженої суми випадкових величин, величина із найбільшою вагою матиме непропорційне великих вплив на загальну дисперсію. Наприклад, якщо X і Y є некорельованими величинами, а вага X в двічі більша за вагу величини Y, тоді вага дисперсії величини X буде в чотири рази більше за вагу дисперсії величини Y.

Цей вираз можна узагальнити для випадку зваженої суми багатьох величин:

\operatorname {D} \left(\sum _{i}^{n}a_{i}X_{i}\right)=\sum _{i=1}^{n}a_{i}^{2}\operatorname {D} (X_{i})+2\sum _{1\leq i}\sum _{<j\leq n}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j})

Добуток незалежних величин

Якщо дві величини X і Y — незалежні, дисперсія їх добутку буде дорівнювати:^[8]

{\begin{aligned}\operatorname {D} (XY)&=[E(X)]^{2}\operatorname {D} (Y)+[E(Y)]^{2}\operatorname {D} (X)+\operatorname {D} (X)\operatorname {D} (Y).\end{aligned}}

Еквівалентно, використавши основні властивості сподівання, можна отримати

\operatorname {D} (XY)=E(X^{2})E(Y^{2})-[E(X)]^{2}[E(Y)]^{2}.

Добуток статистично залежних величин

У загальному випадку для двох випадкових величин, що мають статистичну залежність, дисперсія їх добутку дорівнюватиме:

{\begin{aligned}\operatorname {D} (XY)&=E[X^{2}Y^{2}]-[E(XY)]^{2}\\&=\operatorname {Cov} (X^{2},Y^{2})+E(X^{2})E(Y^{2})-[E(XY)]^{2}\\&=\operatorname {Cov} (X^{2},Y^{2})+(\operatorname {D} (X)+[E(X)]^{2})(\operatorname {D} (Y)+[E(Y)]^{2})-[\operatorname {Cov} (X,Y)+E(X)E(Y)]^{2}\end{aligned}}

Декомпозиція

Загальна формула для декомпозиції дисперсії або закон повної дисперсії^[en] визначається наступним чином: Якщо $X$ і $Y$ дві випадкові величини, і дисперсія величини $X$ існує, тоді

\operatorname {D} [X]=\operatorname {E} _{Y}(\operatorname {D} [X\mid Y])+\operatorname {D} _{Y}(\operatorname {E} [X\mid Y]).

де $\operatorname {E} (X|Y)$ — умовне математичне сподівання величини $X$ за умови $Y$ , а $\operatorname {D} (X\mid Y)$ — умовна дисперсія^[en] величини $X$ за умови $Y$ . (Більш інтуїтивно зрозумілим поясненням, є те що при певному значенні $Y$ , за яким слідує $X$ матиме розподіл із середнім $\operatorname {E} (X\mid Y)$ і дисперсією $\operatorname {D} (X\mid Y)$ ). Оскільки $\operatorname {E} (X\mid Y)$ є функцією величини $Y$ , зовнішнє очікування дисперсії у виразі береться відносно Y. Вищенаведена формула визначає як знайти $\operatorname {D} (X)$ на основі розподілів цих двох величини, коли $Y$ може змінюватися.

Зокрема, якщо $Y$ — дискретна випадкова величина, що припускає $y_{1},y_{2},\ldots ,y_{n}$ із відповідними масами імовірностей $p_{1},p_{2},\ldots ,p_{n}$ , тоді у формулі загальної диспесії, перший терм в правій частині виразу буде наступним:

\operatorname {E} _{Y}(\operatorname {D} [X\mid Y])=\sum _{i=1}^{n}p_{i}\sigma _{i}^{2},

де $\sigma _{i}^{2}=\operatorname {D} [X\mid y_{i}]$ . Аналогічним чином, другий терм в правій частині стане наступним:

\operatorname {D} _{Y}(\operatorname {E} [X\mid Y])=\sum _{i=1}^{n}p_{i}\mu _{i}^{2}-\left(\sum _{i=1}^{n}p_{i}\mu _{i}\right)^{2}=\sum _{i=1}^{n}p_{i}\mu _{i}^{2}-\mu ^{2},

де $\mu _{i}=\operatorname {E} [X\mid y_{i}]$ і $\mu =\sum _{i=1}^{n}p_{i}\mu _{i}$ . Таким чином, загальна дисперсія буде задаватися виразом

\operatorname {D} [X]=\sum _{i=1}^{n}p_{i}\sigma _{i}^{2}+\left(\sum _{i=1}^{n}p_{i}\mu _{i}^{2}-\mu ^{2}\right).

Подібна формула застосовується у дисперсійному аналізі, де вона відповідно є наступною

{\mathit {MS}}_{\text{total}}={\mathit {MS}}_{\text{between}}+{\mathit {MS}}_{\text{within}};

тут ${\mathit {MS}}$ відноситься до середньо квадратичного. Відповідна формула у аналізі лінійної регресії наступна:

{\mathit {MS}}_{\text{total}}={\mathit {MS}}_{\text{regression}}+{\mathit {MS}}_{\text{residual}}.

Цей вираз також можна отримати із адитивності дисперсій, оскільки загальна (спостережувана) оцінка є сумою передбачених оцінок і оцінок похибок, де останні є некорельованими.

Аналогічна декомпозиція є можливою для суми квадратичних відхилень (суми квадратів, ${\mathit {SS}}$ ):

{\mathit {SS}}_{\text{total}}={\mathit {SS}}_{\text{between}}+{\mathit {SS}}_{\text{within}},

{\mathit {SS}}_{\text{total}}={\mathit {SS}}_{\text{regression}}+{\mathit {SS}}_{\text{residual}}.

Формули для дисперсії

Формула що найчастіше використовується для отримання дисперсії теоретичних розподілів є наступною:

\operatorname {D} (X)=\operatorname {E} (X^{2})-(\operatorname {E} (X))^{2}.

Цей вираз є корисним, коли є можливість отримати формули для математичного сподівання і для математичного сподівання в квадраті.

Ця формула часто використовується по відношенню і до вибіркової дисперсії. Хоча її можна застосувати для ручних розрахунків, її не рекомендують застосовувати для комп'ютерних розрахунків, оскільки такий розрахунок призводить до катастрофічної втрати точності коли два компоненти рівняння є близькими за величиною і до них застосовуються арифметичні операції з плавучою точкою. Докладніше це описане в статті Алгоритми розрахунку дисперсії^[en].

Розрахунок із функції розподілу імовірностей

Дисперсію сукупності для не від'ємної випадкової велчини можливо отримати за допомогою кумулятивної функції розподілу F наступним чином:

2\int _{0}^{\infty }u(1-F(u))\,du-{\Big (}\int _{0}^{\infty }(1-F(u))\,du{\Big )}^{2}.

Цей вираз можна використовувати для розрахунку дисперсії у випадках, коли можливо отримати зручний аналітичний вираз для функції розподілу, але не можливо отримати його для функції густини імовірності.

Момент

Другий момент випадкової величини прийматиме мінімальне значення, якщо його отримують в околі довкола першого моменту (тобто, середнього значення) випадкової величини, тобто $\mathrm {argmin} _{m}\,\mathrm {E} ((X-m)^{2})=\mathrm {E} (X)$ . І навпаки, якщо неперервна функція $\varphi$ задовольняє рівняння $\mathrm {argmin} _{m}\,\mathrm {E} (\varphi (X-m))=\mathrm {E} (X)$ для віх випадкових величин X, то вона обов'язково матиме форму $\varphi (x)=ax^{2}+b$ , де a > 0. Це також є вірним і для багатовимірного випадку.^[9]

Одиниці вимірювання

На відміну від абсолютного відхилення, дисперсія випадкової величини має одиниці вимірювання, що дорівнюють квадрату одиниць вимірювання самої випадкової величини. Наприклад, якщо величина вимірювалася у метрах, вона матиме дисперсію у метрах в квадраті. З цієї причини, для описання вибірок даних переважно використовують їх стандартне відхилення замість того, щоб використовувати дисперсію. У прикладі із киданням гральної кістки стандартне відхилення дорівнює √2.9 ≈ 1.7, що є дещо більше за значення середнього абсолютного відхилення — 1.5.

Стандартне відхилення і очікувана абсолютна дисперсія можуть рівнозначно використовуватися для оцінки «розмаху» розподілу. Стандартне відхилення більш придатне до алгебраїчних маніпуляцій ніж абсолютне відхилення, дисперсія і її узагальнення у вигляді коваріації, які частіше використовуються в теоретичній статистиці. Однак абсолютне відхилення як правило є більш придатним, оскільки ця оцінка є менш чутливою до викидів, що виникають в результаті похибки вимірювання та ін..

Нормальний розподіл

Нормальний розподіл із параметрами $\mu$ і $\sigma$ це неперервний розподіл, функція густини імовірності якого задається як

f(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}.

В цьому розподілі, сподівання $\operatorname {E} [X]=\mu$ і дисперсія $\operatorname {D} (X)$ співвідносяться із $\sigma$ наступним чином:

\operatorname {D} (X)=\int _{-\infty }^{\infty }{\frac {x^{2}}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}\,dx-\mu ^{2}=\sigma ^{2}.

Ключова роль нормального розподілу у центральній граничній теоремі є причиною широкого використання дисперсії як такої у статистиці і теорії ймовірності.

Експоненційний розподіл

Експоненційний розподіл із параметром $\lambda$ є неперервним розподілом, який існує у напів-нескінченному інтервалі $[0,\infty )$ . Його функція густини імовірності задається наступним чином:

f(x)=\lambda e^{-\lambda x}

він має математичне сподівання $\mu =\lambda ^{-1}$ . Дисперсія дорівнює

\operatorname {D} (X)=\int _{0}^{\infty }x^{2}\lambda e^{-\lambda x}\,dx-\mu ^{2}=\lambda ^{-2}.

Таким чином, для експоненційно розподіленої випадкової величини, $\sigma ^{2}=\mu ^{2}.$

Розподіл Пуассона

Розподіл Пуассона із параметром $\lambda$ — дискретний розподіл для $k=0,1,2,\ldots$ . Його функція густини імовірності задається наступним чином:

p(k)={\frac {\lambda ^{k}}{k!}}e^{-\lambda },

а його сподівання $\mu =\lambda$ . Дисперсія дорівнює

\operatorname {D} (X)=\left(\sum _{k=0}^{\infty }k^{2}{\frac {\lambda ^{k}}{k!}}e^{-\lambda }\right)-\mu ^{2}=\lambda ,

Таким чином для випадкової величини із розподілом Пуассона, $\sigma ^{2}=\mu$ .

Біноміальний розподіл

Біноміальний розподіл із параметрами $n$ і $p$ є дискретним розподілом для $k=0,1,2,\ldots ,n$ . Його функція густини імовірності задається наступним чином:

p(k)={n \choose k}p^{k}(1-p)^{n-k},

а його математичне сподівання $\mu =np$ . Дисперсія дорівнює

\operatorname {D} (X)=\left(\sum _{k=0}^{n}k^{2}{n \choose k}p^{k}(1-p)^{n-k}\right)-\mu ^{2}=np(1-p).

Як приклад, біноміальний розподіл із $p=1/2$ описує імовірність того, що із купки в $n$ монет $k$ з них випадуть гербом. Таким чином значення мат. сподівання, що відповідає кількості гербів, що випали, становить $n/2,$ а дисперсія $n/4.$

Гральна кістка

Класичну шестигранну гральну кістку можна представити як дискретну випадкову величину, $X$ , із можливими результуючими значеннями від 1 до 6, кожне з яких має імовірність трапитися таку, що дорівнює 1/6. Математичне сподівання величини $X$ становить $(1+2+3+4+5+6)/6=7/2.$ Таким чином, дисперсія $X$ дорівнюватиме

{\begin{aligned}\operatorname {D} (X)&=\sum _{i=1}^{6}{\frac {1}{6}}\left(i-{\frac {7}{2}}\right)^{2}\\&={\frac {1}{6}}\left((-5/2)^{2}+(-3/2)^{2}+(-1/2)^{2}+(1/2)^{2}+(3/2)^{2}+(5/2)^{2}\right)\\&={\frac {35}{12}}\approx 2.92.\end{aligned}}

Загальна формула дисперсії величини $X$ , для $n$ -граної кістки буде наступною:

{\begin{aligned}\operatorname {D} (X)&=\operatorname {E} (X^{2})-(\operatorname {E} (X))^{2}\\&={\frac {1}{n}}\sum _{i=1}^{n}i^{2}-\left({\frac {1}{n}}\sum _{i=1}^{n}i\right)^{2}\\&={\frac {(n+1)(2n+1)}{6}}-\left({\frac {n+1}{2}}\right)^{2}\\&={\frac {n^{2}-1}{12}}.\end{aligned}}

Спостереження реального світу, такі як вимірювання рівня вчорашнього дощу протягом дня зазвичай не можуть забезпечити повний набір всіх можливих спостережень, які можуть відбутися. Дисперсія, що розрахована із скінченної множини даних в загальному випадку не буде дорівнювати дисперсії, яку б можна було розрахувати із повної сукупності всіх можливих спостережень. Це означає, що можна лише оцінити середнє значення дисперсії, отримавши його на основі презентативного набору спостережень за допомогою рівняння оцінки. Оцінка є функцією, що приймає на вхід вибірку із n спостережень виконаних незалежним чином, що є підмножиною усієї сукупності потенційних спостережень. В цьому прикладі вибірка буде складатися із фактичних вимірювань випадіння дощу із усіх доступних датчиків дощу, в рамках деякого географічного регіону.

Найпростішими оцінками середнього значення сукупності і дисперсії сукупності є простий підрахунок середнього і дисперсії вибірки, вибіркове середнє і (некорегована) дисперсія вибірки — є репрезентативними оцінками (оскільки вони збігаються до правильного значення із збільшенням величини вибірки), але ці оцінки можуть бути покращені. Оцінювання дисперсії сукупності за допомогою дисперсії випадку в загальному випадку є близьким до оптимального, але його можна поліпшити двома способами. Самий простий, розраховувати вибіркову дисперсію як середнє значення квадратичних відхилень^[en] від (вибіркового) середнього, ділячи на число n. Однак, оцінку можна поліпшити використавши значення відмінні за n. Чотирма загальними значеннями знаменника можуть бути: n, n − 1, n + 1, і n − 1.5: n використовується для найпростішого випадку (дисперсія сукупності на основі вибірки), n − 1 зменшує зміщення оцінки, n + 1 мінімізує середньоквадратичну похибку для нормального розподілу, а n − 1.5 майже повністю усуває зміщення для незміщеної оцінки стандартного відхилення для нормального розподілу.

По-перше, якщо загальне середнє значення не відоме (і розраховується як середнє значення вибірки), тоді дисперсія вибірки буде зміщеною оцінкою: вона занижує оцінку дисперсії на коефіцієнт, що дорівнює (n − 1) / n; відповідно така поправка (ділення на n − 1 замість n) називається поправкою Бесселя. В результаті отримана оцінка є незміщеною, і тому має назву (корегованої) дисперсії вибірки або незміщеної дисперсії вибірки. Наприклад, якщо n = 1 дисперсія для одного спостереження відносно вибіркового середнього (що є тим самим спостереженням) очевидно дорівнює нулю, незалежно від дисперсії сукупності. Якщо середнє значення визначається якимось іншим способом, ніж на основі тієї ж вибірки, що використовується для оцінки дисперсії, тоді таке зміщення не відбувається і дисперсію можна безпечним чином оцінити для вибірки довкола (незалежно відомого) середнього.

По-друге, вибіркова дисперсія у загальному випадку не мінімізує середньоквадратичну похибку між вибірковою дисперсією і дисперсією сукупності. Поправка на зміщення як правило погіршує ситуацію: завжди можна обрати коефіцієнт поправки при якому оцінка поводитиме себе краще ніж корегована дисперсія вибірки, оскільки оптимальний коефіцієнт поправки залежить від коефіцієнту ексцесу сукупності, але вносить зміщення. Це завжди призводить до зменшення об'єктивної оцінки (при діленні на число більше ніж n − 1). Для нормального розподілу, використання дільника n + 1 (замість n − 1 або n) мінімізує квадратичну похибку. Що призводить до того, що оцінка є зміщеною.

Дисперсія сукупності

В загальному випадку, дисперсія сукупності для скінченної сукупності розміром N із значеннями x_i буде дорівнювати наступному:

\sigma ^{2}={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{i}-\mu \right)^{2}={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{i}^{2}-2\mu x_{i}+\mu ^{2}\right)=\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right)-2\mu \left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}\right)+\mu ^{2}=\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right)-\mu ^{2}

де середнє значення сукупності дорівнює:

\mu ={\frac {1}{N}}\sum _{i=1}^{N}x_{i}

.

Дисперсію сукупності також можна розрахувати як:

\sigma ^{2}={\frac {1}{N^{2}}}\sum _{i<j}\left(x_{i}-x_{j}\right)^{2}={\frac {1}{2N^{2}}}\sum _{i,j=1}^{N}\left(x_{i}-x_{j}\right)^{2}

Це отримано тому, що

{\begin{aligned}{\frac {1}{2N^{2}}}\sum _{i,j=1}^{N}\left(x_{i}-x_{j}\right)^{2}&={\frac {1}{2N^{2}}}\sum _{i,j=1}^{N}\left(x_{i}^{2}-2x_{i}x_{j}+x_{j}^{2}\right)\\&={\frac {1}{2N}}\sum _{j=1}^{N}\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right)-\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}\right)\left({\frac {1}{N}}\sum _{j=1}^{N}x_{j}\right)+{\frac {1}{2N}}\sum _{i=1}^{N}\left({\frac {1}{N}}\sum _{j=1}^{N}x_{j}^{2}\right)\\&={\frac {1}{2}}\left(\sigma ^{2}+\mu ^{2}\right)-\mu ^{2}+{\frac {1}{2}}\left(\sigma ^{2}+\mu ^{2}\right)=\sigma ^{2}\end{aligned}}

Дисперсія сукупності відповідає дисперсії отриманого розподілу імовірностей. У такому розумінні, поняття сукупності можна узагальнити для випадку неперервної випадкової величини із нескінченно великою сукупністю.

Дисперсія вибірки

У багатьох практичних застосуваннях, справжня дисперсія сукупності не відома a priori і її необхідно розрахувати одним із способів. Маючи справу із надто великою сукупністю, практично не можливо підрахувати кожен об'єкт цієї сукупності, тому розрахунки проводяться на основі вибірки із сукупності.^[10] Дисперсія вибірки може також застосовуватися для оцінки дисперсії безперервного розподілу за вибіркою цього розподілу.

Візьмемо вибірку із n значень y₁, …, y_n із сукупності, де n < N, і оцінимо дисперсію на основі цієї вибірки.^[11] Розрахувавши дисперсію на пряму із вибірки ми отримаємо середнє значення квадратичних відхилень:

\sigma _{y}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}y_{i}^{2}\right)-{\overline {y}}^{2}={\frac {1}{n^{2}}}\sum _{i<j}\left(y_{i}-y_{j}\right)^{2}.

Тут, ${\overline {y}}$ позначає вибіркове середнє:

{\overline {y}}={\frac {1}{n}}\sum _{i=1}^{n}y_{i}.

Оскільки y_i обрані випадковим чином, обидві величини $\scriptstyle {\overline {y}}$ і $\scriptstyle \sigma _{y}^{2}$ є випадковими величинами. Їх значення сподівання можливо розрахувати, якщо усереднити послідовність всіх значень вибірки {y_i} розміром n із сукупності. Для $\scriptstyle \sigma _{y}^{2}$ це буде дорівнювати:

{\begin{aligned}E[\sigma _{y}^{2}]&=E\left[{\frac {1}{n}}\sum _{i=1}^{n}\left(y_{i}-{\frac {1}{n}}\sum _{j=1}^{n}y_{j}\right)^{2}\right]\\&={\frac {1}{n}}\sum _{i=1}^{n}E\left[y_{i}^{2}-{\frac {2}{n}}y_{i}\sum _{j=1}^{n}y_{j}+{\frac {1}{n^{2}}}\sum _{j=1}^{n}y_{j}\sum _{k=1}^{n}y_{k}\right]\\&={\frac {1}{n}}\sum _{i=1}^{n}\left[{\frac {n-2}{n}}E[y_{i}^{2}]-{\frac {2}{n}}\sum _{j\neq i}E[y_{i}y_{j}]+{\frac {1}{n^{2}}}\sum _{j=1}^{n}\sum _{k\neq j}^{n}E[y_{j}y_{k}]+{\frac {1}{n^{2}}}\sum _{j=1}^{n}E[y_{j}^{2}]\right]\\&={\frac {1}{n}}\sum _{i=1}^{n}\left[{\frac {n-2}{n}}(\sigma ^{2}+\mu ^{2})-{\frac {2}{n}}(n-1)\mu ^{2}+{\frac {1}{n^{2}}}n(n-1)\mu ^{2}+{\frac {1}{n}}(\sigma ^{2}+\mu ^{2})\right]\\&={\frac {n-1}{n}}\sigma ^{2}.\end{aligned}}

Звідси $\scriptstyle \sigma _{y}^{2}$ отримаємо оцінку дисперсії сукупності, що буде зміщена на коефіцієнт ${\frac {n-1}{n}}$ . З цієї причини, $\scriptstyle \sigma _{y}^{2}$ називається зміщеною дисперсією вибірки. Введення поправки, що усуває зміщення, дозволяє отримати незміщену дисперсію для вибірки:

s^{2}={\frac {n}{n-1}}\sigma _{y}^{2}={\frac {n}{n-1}}\left({\frac {1}{n}}\sum _{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}\right)={\frac {1}{n-1}}\sum _{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}

Будь-яку оцінку спрощено називають вибірковою дисперсію, де різновид оцінки зазвичай розуміють з контексту. Таке ж доведення також застосовується і для неперервних розподілів ймовірностей.

Застосування дільника n − 1 називають Поправкою Бесселя, її також застосовують для вибіркової коваріації і вибіркового стандартного відхилення (квадратного кореня із дисперсії). Функція квадратного кореня є увігнутою функцією і тому вносить від'ємне зміщення (із нерівності Єнсена), що залежить від розподілу, і таким чином скореговане стандартне відхилення вибірки (в якому застосовується поправка Бесселя) залишається зміщеним. Незміщена оцінка стандартного відхилення є технічною задачею, хоча для нормального розподілу застосування поправки n − 1.5 майже повністю усуває зміщення.

Поняття дисперсія (точніше варіація — англ. variance) вперше запропонував Рональд Фішер в своїй статті 1918 р. під назвою The Correlation Between Relatives on the Supposition of Mendelian Inheritance^[en]:^[12]

Велика кількість наявної статистики свідчить, що відхилення вимірювань людини від середнього значення, дуже близько відповідають нормальному закону розподілу похибок, і, таким чином, варіабельність можливо універсальним способом вимірювати за допомогою стандартного відхилення, що відповідає квадратному кореню із середньоквадратичної похибки. Коли існує два незалежних джерела варіабельності, що здатні утворювати інший рівномірний розподіл імовірностей із стандартними відхиленнями $\sigma _{1}$ і $\sigma _{2}$ , можна знайти що розподіл, за умови що ці два джерела варіабельності вносять одночасний вплив, має стандартне відхилення ${\sqrt {\sigma _{1}^{2}+\sigma _{2}^{2}}}$ . Таким чином при аналізі таких варіацій бажано використовувати квадрат стандартного відхилення як міру варіабельності. Будемо використовувати для цієї міри окремий термін — дисперсія …

Дисперсія розподілу імовірностей є аналогом моменту інерції в класичній механіці для відповідного розподілу маси здовж прямої, при обертанні довкола центра мас. За цією аналогією такі поняття як дисперсія мають супутню назву моменти розподілу імовірностей. Матриця коваріацій співвідноситься із тензором моменту інерції для розподілів багатьох величин. Момент інерції хмари з n точок із матрицею коваріацій $\Sigma$ визначається наступним чином:

I=n(\mathbf {1} _{3\times 3}\operatorname {tr} (\Sigma )-\Sigma ).

Відмінність між моментом інерції в фізиці і статистиці стає очевидною для точок, що скупчені довкола прямої. Припустимо що точки, знаходяться близько до осі x і розподілені здовж неї. Матриця коваріацій матиме наступний вигляд

\Sigma ={\begin{bmatrix}10&0&0\\0&0.1&0\\0&0&0.1\end{bmatrix}}.

Оскільки, найбільша дисперсія збігається з напрямком x. Фізики розглядали б це як мале значення моменту здовж осі x і таким чином тензор моменту інерції дорівнює

I=n{\begin{bmatrix}0.2&0&0\\0&10.1&0\\0&0&10.1\end{bmatrix}}.

[1]
Смирнов Н. В., Дунин-Барковский И. В. (1965). Курс теории вероятности и математической статистики. Москва: Наука.
[2]
T. T. Soong (2004). Fundamentals of Probability and Statistics for Engineers (PDF). Wiley. ISBN 0-470-86813-9. Архів (PDF) оригіналу за 3 лютого 2021.
[3]
Walpole Roland E., Myers Raymond H. Probability and Statistics for Engineers and Scientists. — 3-th. edition, Macmillan Publishing Company. — New York, 1985. — 639 p. — ISBN 0-02-424170-9.
[4]
Loeve, M. (1977) «Probability Theory», Graduate Texts in Mathematics, Volume 45, 4th edition, Springer-Verlag, p. 12.
[5]
Bienaymé, I.-J. (1853) «Considérations à l'appui de la découverte de Laplace sur la loi de probabilité dans la méthode des moindres carrés», Comptes rendus de l'Académie des sciences Paris, 37, p. 309–317; digital copy available [Архівовано 23 червня 2018 у Wayback Machine.]
[6]
Bienaymé, I.-J. (1867) «Considérations à l'appui de la découverte de Laplace sur la loi de probabilité dans la méthode des moindres carrés», Journal de Mathématiques Pures et Appliquées, Série 2, Tome 12, p. 158–167; digital copy available [Архівовано 23 червня 2018 у Wayback Machine.] [Архівовано 13 липня 2019 у Wayback Machine.]
[7]
Johnson, Richard; Wichern, Dean (2001). Applied Multivariate Statistical Analysis. Prentice Hall. с. 76. ISBN 0-13-187715-1.
[8]
Goodman, Leo A.(інші мови), «On the exact variance of products», Journal of the American Statistical Association, December 1960, 708—713. DOI: 10.2307/2281592
[9]
Kagan, A.; Shepp, L. A. (1998). Why the variance?. Statistics & Probability Letters. 38 (4): 329—333. doi:10.1016/S0167-7152(98)00041-8.
[10]
Navidi, William (2006) Statistics for Engineers and Scientists, McGraw-Hill, pg 14.
[11]
Montgomery, D. C. and Runger, G. C. (1994) Applied statistics and probability for engineers, page 201. John Wiley & Sons New York
[12]
Ronald Fisher (1918) The correlation between relatives on the supposition of Mendelian Inheritance [Архівовано 3 червня 2013 у Wayback Machine.]

Гнєденко Б. В. Курс теорії ймовірностей. — Київ : ВПЦ Київський університет, 2010. — 464 с.
Карташов М. В. Імовірність, процеси, статистика. — Київ : ВПЦ Київський університет, 2007. — 504 с.
Гихман И. И., Скороход А. В., Ядренко М. В. Теория вероятностей и математическая статистика. — Київ : Вища школа, 1988. — 436 с.(рос.)

Це незавершена стаття зі статистики.
Ви можете допомогти проєкту, виправивши або дописавши її.

[smirnov-1] [1]
Смирнов Н. В., Дунин-Барковский И. В. (1965). Курс теории вероятности и математической статистики. Москва: Наука.

[soong-2] [2]
T. T. Soong (2004). Fundamentals of Probability and Statistics for Engineers (PDF). Wiley. ISBN 0-470-86813-9. Архів (PDF) оригіналу за 3 лютого 2021.

[3] [3]
Walpole Roland E., Myers Raymond H. Probability and Statistics for Engineers and Scientists. — 3-th. edition, Macmillan Publishing Company. — New York, 1985. — 639 p. — ISBN 0-02-424170-9.

[4] [4]
Loeve, M. (1977) «Probability Theory», Graduate Texts in Mathematics, Volume 45, 4th edition, Springer-Verlag, p. 12.

[5] [5]
Bienaymé, I.-J. (1853) «Considérations à l'appui de la découverte de Laplace sur la loi de probabilité dans la méthode des moindres carrés», Comptes rendus de l'Académie des sciences Paris, 37, p. 309–317; digital copy available [Архівовано 23 червня 2018 у Wayback Machine.]

[6] [6]
Bienaymé, I.-J. (1867) «Considérations à l'appui de la découverte de Laplace sur la loi de probabilité dans la méthode des moindres carrés», Journal de Mathématiques Pures et Appliquées, Série 2, Tome 12, p. 158–167; digital copy available [Архівовано 23 червня 2018 у Wayback Machine.] [Архівовано 13 липня 2019 у Wayback Machine.]

[7] [7]
Johnson, Richard; Wichern, Dean (2001). Applied Multivariate Statistical Analysis. Prentice Hall. с. 76. ISBN 0-13-187715-1.

[8] [8]
Goodman, Leo A.(інші мови), «On the exact variance of products», Journal of the American Statistical Association, December 1960, 708—713. DOI: 10.2307/2281592

[9] [9]
Kagan, A.; Shepp, L. A. (1998). Why the variance?. Statistics & Probability Letters. 38 (4): 329—333. doi:10.1016/S0167-7152(98)00041-8.

[10] [10]
Navidi, William (2006) Statistics for Engineers and Scientists, McGraw-Hill, pg 14.

[11] [11]
Montgomery, D. C. and Runger, G. C. (1994) Applied statistics and probability for engineers, page 201. John Wiley & Sons New York

[12] [12]
Ronald Fisher (1918) The correlation between relatives on the supposition of Mendelian Inheritance [Архівовано 3 червня 2013 у Wayback Machine.]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

Приклади

Основні властивості

Сума некорельованих випадкових величин (формула Бієнайме)

Сума корельованих змінних

Матрична нотація для дисперсії лінійної комбінації величин

Зважена сума величин

Добуток незалежних величин

Добуток статистично залежних величин

Декомпозиція

Формули для дисперсії

Розрахунок із функції розподілу імовірностей

Момент

Одиниці вимірювання

Нормальний розподіл

Експоненційний розподіл

Розподіл Пуассона

Біноміальний розподіл

Гральна кістка

Дисперсія сукупності

Дисперсія вибірки

Приклади

Основні властивості

Сума некорельованих випадкових величин (формула Бієнайме)

Сума корельованих змінних

Матрична нотація для дисперсії лінійної комбінації величин

Зважена сума величин

Добуток незалежних величин

Добуток статистично залежних величин

Декомпозиція

Формули для дисперсії

Розрахунок із функції розподілу імовірностей

Момент

Одиниці вимірювання

Нормальний розподіл

Експоненційний розподіл

Розподіл Пуассона

Біноміальний розподіл

Гральна кістка

Дисперсія сукупності

Дисперсія вибірки

Вступ

Означення

Теореми

Властивості

Приклади для розподілів

Дисперсія сукупності і дисперсія вибірки

Історія

Момент інерції

Примітки

Див. також

Джерела