Normalfordeling

Normalfordelingen, eller Gauss-kurven, er i matematikken (hovedsakelig i sannsynlighetsteori og statistikk) den desidert viktigste fordelingen. En normalfordelt variabel antar ofte verdien som ligger nær middelverdien, og sjelden verdien som har stor avvikelse. Derfor ser normalfordelingen ut som en klokke (bjelle), og internasjonalt brukes ofte betegnelsen bell curve. Vi kan bruke egenskaper ved normalfordelingen for å analysere statistikker ved å regne dataen vår om til Z-skår.

Normalfordelingen er statistikkens desidert viktigste fordeling. Dette henger sammen med et matematisk resultat som kalles for sentralgrenseteoremet. Resultatet innebærer at summen av et stort antall uavhengige tilfeldige variabler er tilnærmet normalfordelt under visse allmenne forutsetninger, uavhengig av hvilken fordeling disse variablene hadde i utgangspunktet. Dette resulterer i at normalfordelingen dukker opp flere steder i naturen og samfunnet, og flere hendelser kan med stor nøyaktighet beskrives av normalfordelingen.

Årsaken til at normalfordelingen anvendes så mye er sentralgrenseteoremet. I bl.a. naturvitenskap, sosiologi og økonomi er det normalt at man ikke forstår hvordan en viss mekanisme fungerer, men man kan teoretisk sett motivere til bruk av normalfordelinger ettersom det ofte er slik at fenomener oppstår gjennom mange små, uavhengige, tilfeldige variasjoner.

IQ-tester lages ofte med antagelser om at intelligensen er normalfordelt. En IQ-test vil gi resultater som er normalfordelte med en forventningsverdi på 100, ved å omskalere testresultatene til en normalfordeling. Hvorvidt intelligens virkelig er normalfordelt er uvisst.

Dersom man kaster en mynt 100 ganger og kaller summen for X, så vil X være binomisk fordelt. Men ettersom hvert myntkast er uavhengig av alle de øvrige kastene, vil X være tilnærmet normalfordelt med en forventningsverdi på 50. Ofte er det mye enklere å anta en tilnærmet verdi på en tilfeldig variabel med en normalfordeling enn å beregne eksakte sannsynligheter, og ettersom mange tilfeldige fenomener er summer av veldig mange små, tilfeldige forskyvninger, fungerer det utmerket. Historisk sett var muligheten til å anta tilnærmede verdier på store binomiske fordelinger det første anvendelsesområdet for normalfordelingen.

Normalfordelingen har tetthetsfunksjonen:

f(x)={1 \over \sigma {\sqrt {2\pi }}}\,e^{-{(x-\mu )^{2} \over 2\sigma ^{2}}}

,

der μ og σ er normalfordelingens karakteristiske konstanter: μ er forventningsverdien, og σ er fordelingens standardavvik. Denne normalfordelingen betegnes med $N(\mu ,\sigma )\,$ .

Normalfordelingens tetthetsfunksjon kan ikke integreres med vanlige endimensjonale metoder, ettersom den ikke har noen antiderivert funksjon som kan uttrykkes analytisk. Området under kurven kan derimot ha en verdi på 1 ved bruk av andre metoder, noe den må være for å være en ordentlig sannsynlighetsfordeling.

En standardisert normalfordeling har μ = 0 og σ = 1.

Fordelingsfunksjonen for en standardisert normalfordeling betegnes vanligvis med $\Phi \,$ og sammenhengen mellom fordelingsfunksjonen og tetthetsfunksjonen sier at:

\Phi (x)=\int _{-\infty }^{x}f(x)dx

.

Fordelingsfunksjonen angir sannsynligheten for at en normalfordelt variabel Y er mindre eller lik et gitt tall x:

P(Y<x)=\Phi (x)\,

.

Sannsynligheten for at en normalfordelt variabel havner i et intervall $[a,b]$ er:

P(a<X<b)=\Phi (b)-\Phi (a)\,

.

Følgende egenskaper gjelder for normalfordelinger:

Fordelingsfunksjon

Fordelingsfunksjonen for en vilkårlig normalfordelt variabel $X\in N(\mu ,\sigma )$ kan lett utledes fra fordelingsfunksjonen for en standard-normalfordelt variabel:

P(X<a)=\Phi \left({\frac {a-\mu }{\sigma }}\right)

.

Denne egenskapen gjør at tabeller for normalfordelinger bare gir oss fordelingsfunksjonen $\Phi \,$ , ettersom alle andre normalfordelinger på denne måten kan gjøres om til en med forventningsverdi på 0 og standardavvik på 1.

Symmetri

\Phi (x)=1-\Phi (-x)\,

.

Denne symmetrien gjør at alle tabeller bare gir oss $\Phi (x)\,$ for positive tall x.

Lineær forandring

Dersom $X\in N(\mu ,\sigma )$ og $a,b\,$ er konstanter, er den lineære formen

aX+b\in N(a\mu +b,a\sigma )

,

det vil si at forventningsverdien forandres på samme lineære måte, og standardavviket øker med faktoren a.

Summen av to normalfordelte variabler

Dersom $X\in N(\mu _{X},\sigma _{X})$ og $Y\in N(\mu _{Y},\sigma _{Y})$ så vil summen være

X+Y\in N\left(\mu _{X}+\mu _{Y},{\sqrt {\sigma _{X}^{2}+\sigma _{Y}^{2}}}\right)

.

Differanser av normalfordelte variabler fungerer analogt.

Hovedartikkel: Sentralgrenseteoremet

Sentralgrenseteoremet sier at summen av mange uavhengige, likt fordelte, stokastiske variabler med endelig varians er tilnærmet normalfordelt. Med matematisk notasjon: Dersom $X_{1}\ldots X_{n}\,$ er uavhengige stokastiske variabler med samme forventningsverdi og varians, og $Y=\sum X_{k}$ så er $Y\,$ normalfordelt med forventningsverdi $n\cdot E(X)$ og varians $n\cdot V(X)$