Remove ads
统计学概念 来自维基百科,自由的百科全书
标准差,又称标准偏差、均方差 (英语:standard deviation,缩写SD,符号σ),在概率统计中最常使用作为测量一组数值的离散程度之用。标准差定义:为方差开算术平方根,反映组内个体间的离散程度;标准差与期望之比为标准离差率。测量到分布程度的结果,原则上具有两种性质:
一个总量的标准差或一个随机变量的标准差,及一个子集合样品数的标准差之间,有所差别。其公式如下所列。
标准差的概念由卡尔·皮尔逊引入到统计中。
简单来说,标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。
例如,两组数的集合{0, 5, 9, 14}和{5, 6, 8, 9}其平均值都是7,但第二个集合具有较小的标准差。
表述“相差个标准差”,即在 的样本(sample)范围内考量。
标准差可以当作不确定性的一种测量。例如在物理科学中,做重复性测量时,测量数值集合的标准差代表这些测量的精确度。当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色:如果测量平均值与预测值相差太远(同时与标准差数值做比较),则认为测量值与预测值互相矛盾。这很容易理解,因为如果测量值都落在一定数值范围之外,可以合理推论预测值是否正确。
标准差应用于投资上,可作为量度回报稳定性的指标。标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高。相反,标准差数值越小,代表回报较为稳定,风险亦较小。
为平均值。
上述公式可以如下代换而简化:
所以:
根号里面,亦即方差()的简易口诀为:“平方的平均”减去“平均的平方”。
一随机变量的标准差定义为:
须注意并非所有随机变量都具有标准差,因为有些随机变量不存在期望。 如果随机变量为具有相同概率,则可用上述公式计算标准差。
若是由实数构成的离散随机变量(英语:discrete random variable),且每个值的概率相等,则的标准差定义为:
换成用来写,就成为:
目前为止,与总体标准差的基本公式一致。
然而若每个可以有不同概率,则的标准差定义为:
这里,为的数学期望。
若为概率密度的连续随机变量(英语:continuous random variable),则的标准差定义为:
其中为的数学期望:
对于常数和随机变量和:
在真实世界中,找到一个总体的真实的标准差并不实际。大多数情况下,总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的。
从一大组数值当中取出一样本数值组合,常定义其样本标准差:
这里示范如何计算一组数的标准差。例如一群孩童年龄的数值为{5, 6, 8, 9}:
则平均值为
在实际应用上,常考虑一组数据具有近似于正态分布的概率分布。若其假设正确,则约68%数值分布在距离平均值有1个标准差之内的范围,约95%数值分布在距离平均值有2个标准差之内的范围,以及约99.7%数值分布在距离平均值有3个标准差之内的范围。称为“68-95-99.7法则”。
数字比率 标准差值 |
概率 | 包含之外比例 | |
---|---|---|---|
百分比 | 百分比 | 比例 | |
0.318 639σ | 25% | 75% | 3 / 4 |
490σ 0.674 | % 50 | % 50 | 1 / 2 |
458σ 0.994 | 68% | 32% | 1 / 3.125 |
1σ | 9492% 68.268 | 0508% 31.731 | 1 / 4872 3.151 |
552σ 1.281 | 80% | 20% | 1 / 5 |
854σ 1.644 | 90% | 10% | 1 / 10 |
964σ 1.959 | 95% | 5% | 1 / 20 |
2σ | 9736% 95.449 | 0264% 4.550 | 1 / 895 21.977 |
829σ 2.575 | 99% | 1% | 1 / 100 |
3σ | 0204% 99.730 | 9796% 0.269 | 1 / 370.398 |
527σ 3.290 | 99.9% | 0.1% | 1 / 1000 |
592σ 3.890 | 99.99% | 0.01% | 1 / 000 10 |
4σ | 666% 99.993 | 334% 0.006 | 1 / 787 15 |
173σ 4.417 | 99.999% | 0.001% | 1 / 000 100 |
σ 4.5 | 99.9993204653751% | 0.0006795346249% | 1 / 159.5358 147 3.4 / 000000 (每一边) 1 |
638σ 4.891 | % 99.9999 | % 0.0001 | 1 / 000000 1 |
5σ | 9426697% 99.999 | 0573303% 0.000 | 1 / 744278 1 |
724σ 5.326 | 99% 99.999 | 01% 0.000 | 1 / 000000 10 |
729σ 5.730 | 999% 99.999 | 001% 0.000 | 1 / 000000 100 |
σ 6 | 9998027% 99.999 | 0001973% 0.000 | 1 / 797346 506 |
410σ 6.109 | 9999% 99.999 | 0001% 0.000 | 1 / 000000000 1 |
951σ 6.466 | 99999% 99.999 | 00001% 0.000 | 1 / 000000000 10 |
502σ 6.806 | 999999% 99.999 | 000001% 0.000 | 1 / 000000000 100 |
7σ | 99.9999999997440% | 000000256% 0.000 | 1 / 682215445 390 |
一组数据的平均值及标准差常常同时作为参考的依据。从某种意义上说,如果用平均值来考量数值的中心的话,则标准差也就是对统计的分散度的一个“自然”的测度。因为由平均值所得的标准差要小于到其他任何一个点的标准差。较确切的叙述为:设为实数,定义函数:
使用微积分或者通过配方法,不难算出在下面情况下具有唯一最小值:
从几何学的角度出发,标准差可以理解为一个从维空间的一个点到一条直线的距离的函数。举一个简单的例子,一组数据中有3个值,。它们可以在3维空间中确定一个点。想像一条通过原点的直线。如果这组数据中的3个值都相等,则点就是直线上的一个点,到的距离为0,所以标准差也为0。若这3个值不都相等,过点作垂线垂直于,交于点,则的坐标为这3个值的平均数:
运用一些代数知识,不难发现点与点之间的距离(也就是点到直线的距离)是。在维空间中,这个规律同样适用,把换成就可以了。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.