戴尔指数

数学公式

假设一个人口为N的群体，其收入分别为x_i (i = 1,...,N)，则它的戴尔指数T定义为^[6]：

T_{T}=T_{\alpha =1}={\frac {1}{N}}\sum _{i=1}^{N}{\frac {x_{i}}{\mu }}\ln \left({\frac {x_{i}}{\mu }}\right)

而戴尔指数L则定义为

T_{L}=T_{\alpha =0}={\frac {1}{N}}\sum _{i=1}^{N}\ln \left({\frac {\mu }{x_{i}}}\right)

其中 $x_{i}$ 为第 $i$ 个人的收入， ${\mu }$ 为平均收入， $N$ 为人口数量。加总符号中的第一项可以理解为个人在总收入中所占的比例，第二项为该个人相对于均值的收入。

如果收入分布是个离散分布函数 f_k (k = 0,...,W)，其中f_k是收入为k的人口比例，而W = Nμ 代表总收入，可以得知 $\sum _{k=0}^{W}f_{k}=1$ 。它的戴尔指数T定义为：

T_{T}=\sum _{k=0}^{W}\,f_{k}\,{\frac {k}{\mu }}\ln \left({\frac {k}{\mu }}\right)

这里的 $\mu$ 一样是收入平均

\mu =\sum _{k=0}^{W}kf_{k}

其中应注意到收入k是一个整数，k=1代表最小收入增量（比如新台币1元）。

如果收入分布是个连续分布函数f(k)，k取值0到无穷，其中f(k) dk 是收入为k 到 k + dk的人口数量，那戴尔指数T定义为：

T_{T}=\int _{0}^{\infty }f(k){\frac {k}{\mu }}\ln \left({\frac {k}{\mu }}\right)dk

其中平均 $\mu$ 为：

\mu =\int _{0}^{\infty }kf(k)\,dk

一些常见连续概率分布的戴尔指数如下表所示：

更多信息

...

收入分布函数	PDF(x) (x ≥ 0)	戴尔指数（纳特）
狄拉克δ函数	$\delta (x-x_{0}),\,x_{0}>0$	0
连续型均匀分布	${\begin{cases}{\frac {1}{b-a}}&a\leq x\leq b\\0&{\text{otherwise}}\end{cases}}$	$\ln \left({\frac {2a}{(a+b){\sqrt {e}}}}\right)+{\frac {b^{2}}{b^{2}-a^{2}}}\ln(b/a)$
指数分布	$\lambda e^{-x\lambda },\,\,x>0$	$1-$ $\gamma$
对数正态分布	${\frac {1}{\sigma {\sqrt {2\pi }}}}e^{(-(\ln(x)-\mu )^{2})/\sigma ^{2}}$	${\frac {\sigma ^{2}}{2}}$
帕累托分布	${\begin{cases}{\frac {\alpha k^{\alpha }}{x^{\alpha +1}}}&x\geq k\\0&x<k\end{cases}}$	$\ln(1\!-\!1/\alpha )+{\frac {1}{\alpha -1}}$ (α>1)
卡方分布	${\frac {2^{-k/2}e^{-x/2}x^{k/2-1}}{\Gamma (k/2)}}$	$\ln(2/k)+$ $\psi ^{(0)}$ $(1\!+\!k/2)$
伽玛分布	${\frac {e^{-x/\theta }x^{k-1}\theta ^{-k}}{\Gamma (k)}}$	$\psi ^{(0)}$ $(1+k)-\ln(k)$
韦伯分布	${\frac {k}{\lambda }}\left({\frac {x}{\lambda }}\right)^{k-1}e^{-(x/\lambda )^{k}}$	${\frac {1}{k}}$ $\psi ^{(0)}$ $(1+1/k)-\ln \left(\Gamma (1+1/k)\right)$

关闭

如果每一个人都有相同的收入，即等于均值，则指数为零。如果某个个人拥有所有的收入，则指数为 $\ln {N}$ 。T_T 除以 $\ln N$ 可以将方程归一化到0到1的范围，但这样违反独立公理（英语：Economic inequality metrics）: $T[x\cup x]\neq T[x]$ 并不符合衡量不平等的标准。

信息论推导

戴尔指数导自克劳德·夏农的信息熵，他的一般数学形式为：

S=k\sum _{i=1}^{N}\left(p_{i}\log {\frac {1}{p_{i}}}\right)=-k\sum _{i=1}^{N}\left(p_{i}\log {p_{i}}\right)

其中 $p_{i}$ 是从人群里找到 $i$ 的几率。 $k$ 是玻尔兹曼常数。在信息论中，当信息以二进制数字给出时， $k=1$ 并且对数基底为2。在物理学和戴尔指数的计算中，选择自然对数作为对数基底。当 $p_{i}$ 替换成人均收入 $x_{i}$ 时，需要除以总收入达到归一化 $N{\overline {x}}$ 。那可以导出，观察到的信息熵为：

S_{\text{Theil}}=\sum _{i=1}^{N}\left({\frac {x_{i}}{N{\overline {x}}}}\ln {\frac {N{\overline {x}}}{x_{i}}}\right)

设 $T$ 为戴尔指数， $S$ 为夏农熵，则有

$T=\ln(N)-S$

其中，ln(N)是理论最大熵。香浓根据事件发生概率导出的其熵测度。它可以用戴尔系数解释为自某个特定个人处随机取得一块钱的概率。并与其第一项，即总收入中个人所占份额相同。

更多信息

...

符号	信息论	戴尔指数 T_T
$N$	字符数	人口数
$i$	某个特定字符	某个特定人
$x_{i}$	第i个字符 character	第i个人的收入
$N{\overline {x}}$	总字符数	总收入
$T_{T}$	未被使用的资讯空间	未使用潜在价格机制

关闭

可分解性

戴尔指数的一个优点是它是某个子群体中不平等的加权和^[1]。例如，美国国内的不平等就是每个州的不平等的加权和，由该州收入相对于国家总收入的比值来加权。

如果人口被划分为 $m$ 个子群体， $s_{k}$ 为群体 $k$ 的收入比例， $T_{k}$ 为该子群体的戴尔指数，而 ${\overline {x}}_{k}$ 为子群体 $k$ 的平均收入，则戴尔指数为

T=\sum _{k=1}^{m}s_{k}T_{T_{k}}+\sum _{k=1}^{m}s_{k}\ln {\frac {{\overline {x}}_{k}}{\overline {x}}}

因此，我们可以说某个特定群体给总体“贡献了”一定数量的不平等。

另外一个被广泛使用的不平等度量为基尼系数，该系数对于很多人来说由于基于劳伦茨曲线而非常直观。但是它却没有戴尔指数容易分解。

数学公式

信息论推导

可分解性

参考文献

外部链接

Wikiwand - on