在概率论 和信息论 中,两个随机变量 的互信息 (mutual Information,MI)度量了两个变量之间相互依赖的程度。具体来说,对于两个随机变量,MI是一个随机变量由于已知另一个随机变量而减少的“信息量”(单位通常为比特)。互信息的概念与随机变量的熵 紧密相关,熵 是信息论 中的基本概念,它量化的是随机变量中所包含的“信息量 ”。
独立的(H(X),H(Y)), 联合的(H(X,Y)), 以及一对带有互信息 I(X; Y) 的相互关联的子系统 X,Y 的条件熵。
MI不仅仅是度量实值随机变量和线性相关性(如相关系数 ),它更为通用。MI决定了随机变量
(
X
,
Y
)
{\displaystyle {\displaystyle (X,Y)}}
的联合分布 与
X
{\displaystyle X}
和
Y
{\displaystyle Y}
的边缘分布的乘积之间的差异。MI是点互信息(Pointwise Mutual Information ,PMI)的期望 。克劳德·香农 在他的论文A Mathematical Theory of Communication 中定义并分析了这个度量,但是当时他并没有将其称为“互信息”。这个词后来由罗伯特·法诺 [1] 创造。互信息也称为信息增益 。
互信息的定义
设随机变量
(
X
,
Y
)
{\displaystyle {\displaystyle (X,Y)}}
是空间
X
×
Y
{\displaystyle {\displaystyle {\mathcal {X}}\times {\mathcal {Y}}}}
中的一对随机变量。若他们的联合分布是
p
(
x
,
y
)
{\displaystyle {\displaystyle p(x,y)}}
,边缘分布分别是
p
(
x
)
{\displaystyle {\displaystyle p(x)}}
和
p
(
y
)
{\displaystyle {\displaystyle p(y)}}
,那么,它们之间的互信息可以定义为:
I
(
X
;
Y
)
=
D
K
L
(
p
(
x
,
y
)
‖
p
(
x
)
⊗
p
(
y
)
)
{\displaystyle {\displaystyle I(X;Y)=D_{\mathrm {KL} }(p(x,y)\|p(x)\otimes p(y))}}
其中,
D
K
L
{\displaystyle {\displaystyle D_{\mathrm {KL} }}}
为KL散度(Kullback–Leibler divergence)。注意,根据KL散度的性质,若联合分布
p
(
x
,
y
)
{\displaystyle p(x,y)}
等于边缘分布
p
(
x
)
{\displaystyle p(x)}
和
p
(
y
)
{\displaystyle p(y)}
的乘积,则
I
(
X
;
Y
)
=
0
{\displaystyle I(X;Y)=0}
,即当
X
{\displaystyle X}
和
Y
{\displaystyle Y}
相互独立的时候,观测到Y对于我们预测X没有任何帮助,此时他们的互信息为0。
离散变量的互信息
离散随机变量 X 和 Y 的互信息可以计算为:
I
(
X
;
Y
)
=
∑
y
∈
Y
∑
x
∈
X
p
(
x
,
y
)
log
(
p
(
x
,
y
)
p
(
x
)
p
(
y
)
)
,
{\displaystyle I(X;Y)=\sum _{y\in Y}\sum _{x\in X}p(x,y)\log {\left({\frac {p(x,y)}{p(x)\,p(y)}}\right)},\,\!}
其中 p (x , y ) 是 X 和 Y 的联合概率质量函数,而
p
(
x
)
{\displaystyle p(x)}
和
p
(
y
)
{\displaystyle p(y)}
分别是 X 和 Y 的边缘概率质量函数。
连续变量的互信息
在连续随机变量 的情形下,求和被替换成了二重定积分 :
I
(
X
;
Y
)
=
∫
Y
∫
X
p
(
x
,
y
)
log
(
p
(
x
,
y
)
p
(
x
)
p
(
y
)
)
d
x
d
y
,
{\displaystyle I(X;Y)=\int _{Y}\int _{X}p(x,y)\log {\left({\frac {p(x,y)}{p(x)\,p(y)}}\right)}\;dx\,dy,}
其中 p (x , y ) 当前是 X 和 Y 的联合概率密度 函数,而
p
(
x
)
{\displaystyle p(x)}
和
p
(
y
)
{\displaystyle p(y)}
分别是 X 和 Y 的边缘概率密度函数。
如果对数以 2 为基底,互信息的单位是bit 。
直观上,互信息度量 X 和 Y 共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。例如,如果 X 和 Y 相互独立,则知道 X 不对 Y 提供任何信息,反之亦然,所以它们的互信息为零。在另一个极端,如果 X 是 Y 的一个确定性函数,且 Y 也是 X 的一个确定性函数,那么传递的所有信息被 X 和 Y 共享:知道 X 决定 Y 的值,反之亦然。因此,在此情形互信息与 Y (或 X )单独包含的不确定度相同,称作 Y (或 X )的熵 。而且,这个互信息与 X 的熵和 Y 的熵相同。(这种情形的一个非常特殊的情况是当 X 和 Y 为相同随机变量时。)
互信息是 X 和 Y 的联合分布 相对于假定 X 和 Y 独立情况下的联合分布之间的内在依赖性。
于是互信息以下面方式度量依赖性:I (X ; Y ) = 0 当且仅当 X 和 Y 为独立随机变量。从一个方向很容易看出:当 X 和 Y 独立时,p (x ,y ) = p (x ) p (y ),因此:
log
(
p
(
x
,
y
)
p
(
x
)
p
(
y
)
)
=
log
1
=
0.
{\displaystyle \log {\left({\frac {p(x,y)}{p(x)\,p(y)}}\right)}=\log 1=0.\,\!}
此外,互信息是非负的(即
I
(
X
;
Y
)
≥
0
{\displaystyle I(X;Y)\geq 0}
; 见下文),而且是对称的 (即
I
(
X
;
Y
)
=
I
(
Y
;
X
)
{\displaystyle I(X;Y)=I(Y;X)}
)。
与其他量的关系
互信息又可以等价地表示成
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
|
Y
)
=
H
(
Y
)
−
H
(
Y
|
X
)
=
H
(
X
)
+
H
(
Y
)
−
H
(
X
,
Y
)
=
H
(
X
,
Y
)
−
H
(
X
|
Y
)
−
H
(
Y
|
X
)
{\displaystyle {\begin{aligned}I(X;Y)&{}=H(X)-H(X|Y)\\&{}=H(Y)-H(Y|X)\\&{}=H(X)+H(Y)-H(X,Y)\\&{}=H(X,Y)-H(X|Y)-H(Y|X)\end{aligned}}}
其中
H
(
X
)
{\displaystyle \ H(X)}
和
H
(
Y
)
{\displaystyle \ H(Y)}
是边缘熵 ,H (X |Y ) 和 H (Y |X ) 是条件熵 ,而 H (X ,Y ) 是 X 和 Y 的联合熵 。注意到这组关系和并集、差集和交集的关系类似,于是用Venn图表示。
在互信息定义的基础上使用琴生不等式 ,我们可以证明 I (X ;Y ) 是非负的,因此
H
(
X
)
≥
H
(
X
|
Y
)
{\displaystyle \ H(X)\geq H(X|Y)}
。这里我们给出 I(X;Y) = H(Y) - H(Y|X) 的详细推导:
I
(
X
;
Y
)
=
∑
x
,
y
p
(
x
,
y
)
log
p
(
x
,
y
)
p
(
x
)
p
(
y
)
=
∑
x
,
y
p
(
x
,
y
)
log
p
(
x
,
y
)
p
(
x
)
−
∑
x
,
y
p
(
x
,
y
)
log
p
(
y
)
=
∑
x
,
y
p
(
x
)
p
(
y
|
x
)
log
p
(
y
|
x
)
−
∑
x
,
y
p
(
x
,
y
)
log
p
(
y
)
=
∑
x
p
(
x
)
(
∑
y
p
(
y
|
x
)
log
p
(
y
|
x
)
)
−
∑
y
log
p
(
y
)
(
∑
x
p
(
x
,
y
)
)
=
−
∑
x
p
(
x
)
H
(
Y
|
X
=
x
)
−
∑
y
log
p
(
y
)
p
(
y
)
=
−
H
(
Y
|
X
)
+
H
(
Y
)
=
H
(
Y
)
−
H
(
Y
|
X
)
.
{\displaystyle {\begin{aligned}I(X;Y)&{}=\sum _{x,y}p(x,y)\log {\frac {p(x,y)}{p(x)p(y)}}\\&{}=\sum _{x,y}p(x,y)\log {\frac {p(x,y)}{p(x)}}-\sum _{x,y}p(x,y)\log p(y)\\&{}=\sum _{x,y}p(x)p(y|x)\log p(y|x)-\sum _{x,y}p(x,y)\log p(y)\\&{}=\sum _{x}p(x)\left(\sum _{y}p(y|x)\log p(y|x)\right)-\sum _{y}\log p(y)\left(\sum _{x}p(x,y)\right)\\&{}=-\sum _{x}p(x)H(Y|X=x)-\sum _{y}\log p(y)p(y)\\&{}=-H(Y|X)+H(Y)\\&{}=H(Y)-H(Y|X).\\\end{aligned}}}
上面其他性质的证明类似。
直观地说,如果把熵 H (Y ) 看作一个随机变量於不确定度的量度,那么 H (Y |X ) 就是"在已知 X 事件後Y 事件會發生"的不確定度。於是第一个等式的右边就可以读作“將"Y事件的不确定度",减去 --- "在基於X 事件後Y 事件因此發生的不確定度"”。
这证实了互信息的直观意义为: "因X而有Y事件"的熵( 基於已知隨機變量的不確定性) 在"Y事件"的熵之中具有多少影響地位( "Y事件所具有的不確定性" 其中包含了多少 "Y|X事件所具有的不確性" ),意即"Y具有的不確定性"有多少程度是起因於X事件;
舉例來說,當 I(X;Y) = 0時,也就是 H(Y) = H(Y|X)時,即代表此時 "Y的不確定性" 即為 "Y|X的不確定性",這說明了互信息的具體意義是在度量兩個事件彼此之間的關聯性 。
所以具體的解釋就是: 互信息越小,兩個來自不同事件空間的隨機變量彼此之間的關聯性越低; 互信息越高,關聯性則越高 。
注意到离散情形 H (X |X ) = 0,于是 H (X ) = I (X ;X )。因此 I (X ;X ) ≥ I (X ;Y ),我们可以制定”一个变量至少包含其他任何变量可以提供的与它有关的信息“的基本原理。
互信息也可以表示为两个随机变量的边缘分布 X 和 Y 的乘积 p (x ) × p (y ) 相对于随机变量的联合熵 p (x ,y ) 的相对熵 :
I
(
X
;
Y
)
=
D
K
L
(
p
(
x
,
y
)
‖
p
(
x
)
p
(
y
)
)
.
{\displaystyle I(X;Y)=D_{\mathrm {KL} }(p(x,y)\|p(x)p(y)).}
此外,令 p (x |y ) = p (x , y ) / p (y )。则
I
(
X
;
Y
)
=
∑
y
p
(
y
)
∑
x
p
(
x
|
y
)
log
2
p
(
x
|
y
)
p
(
x
)
=
∑
y
p
(
y
)
D
K
L
(
p
(
x
|
y
)
‖
p
(
x
)
)
=
E
Y
{
D
K
L
(
p
(
x
|
y
)
‖
p
(
x
)
)
}
.
{\displaystyle {\begin{aligned}I(X;Y)&{}=\sum _{y}p(y)\sum _{x}p(x|y)\log _{2}{\frac {p(x|y)}{p(x)}}\\&{}=\sum _{y}p(y)\;D_{\mathrm {KL} }(p(x|y)\|p(x))\\&{}=\mathbb {E} _{Y}\{D_{\mathrm {KL} }(p(x|y)\|p(x))\}.\end{aligned}}}
注意到,这里相对熵涉及到仅对随机变量 X 积分,表达式
D
K
L
(
p
(
x
|
y
)
‖
p
(
x
)
)
{\displaystyle D_{\mathrm {KL} }(p(x|y)\|p(x))}
现在以 Y 为变量。于是互信息也可以理解为相对熵 X 的单变量分布 p (x ) 相对于给定 Y 时 X 的条件分布 p (x |y ) :分布 p (x |y ) 和 p (x ) 之间的平均差异越大,信息增益 越大。
連續互信息的量化
對連續型隨機變數量化的定義如下:
f
(
x
i
)
Δ
=
∫
i
Δ
(
i
+
1
)
Δ
f
(
x
)
d
x
=
p
i
{\displaystyle f(x_{i})\Delta =\int _{i\Delta }^{(i+1)\Delta }f(x)dx=p_{i}}
量化後的隨機變數
X
Δ
{\displaystyle X^{\Delta }}
:
X
Δ
=
x
i
,
i
Δ
≤
X
<
(
i
+
1
)
Δ
{\displaystyle X^{\Delta }=x_{i},i\Delta \leq X<(i+1)\Delta }
。
則,
I
(
X
Δ
;
Y
Δ
)
=
H
(
X
Δ
)
−
H
(
X
Δ
|
Y
Δ
)
{\displaystyle I(X^{\Delta };Y^{\Delta })=H(X^{\Delta })-H(X^{\Delta }|Y^{\Delta })}
≈
h
(
X
)
−
l
o
g
Δ
−
(
h
(
X
|
Y
)
−
l
o
g
Δ
)
{\displaystyle \approx h(X)-log{\Delta }-(h(X|Y)-log{\Delta })}
=
I
(
X
;
Y
)
{\displaystyle =I(X;Y)}
廣義而言,我們可以將互信息定義在有限多個連續隨機變數值域 的劃分 。
令
χ
{\displaystyle \chi }
為連續型隨機變數的值域,
P
i
∈
P
{\displaystyle P_{i}\in P}
, 其中
P
{\displaystyle P}
為
χ
{\displaystyle \chi }
劃分所構成的集合,意即
∪
i
P
i
=
χ
{\displaystyle \cup _{i}P_{i}=\chi }
。
以
P
{\displaystyle P}
量化連續型隨機變數
X
{\displaystyle X}
後,所得結果為離散型隨機變數,
P
r
(
[
X
]
P
=
i
)
=
∫
P
i
d
F
(
x
)
{\displaystyle Pr([X]_{P}=i)=\int _{P_{i}}dF(x)}
。
對於兩連續型隨機變數X、Y,其劃分分別為P、Q,則其互信息可表示為:
I
(
X
;
Y
)
=
s
u
p
P
,
Q
I
(
[
X
]
P
;
[
Y
]
Q
)
{\displaystyle I(X;Y)={\underset {P,Q}{sup}}I([X]_{P};[Y]_{Q})}
。
参见
注释
参考文献
Cilibrasi, Rudi; Paul M.B. Vitan´ yi. Clustering by compression (PDF ) . IEEE Transactions on Information Theory. 2005, 51 (4): 1523–1545. doi:10.1109/TIT.2005.844059 .
Cronbach L. J. (1954). On the non-rational application of information measures in psychology, in Henry Quastler , ed., Information Theory in Psychology: Problems and Methods , Free Press, Glencoe, Illinois, pp. 14–30.
Church, Kenneth Ward; Hanks, Patrick. Word association norms, mutual information, and lexicography (PDF) . Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics. 1989. [永久失效連結 ]
Guiasu, Silviu. Information Theory with Applications. McGraw-Hill, New York. 1977. ISBN 978-0070251090 .
Li, Ming; Paul M.B. Vitan´ yi. An introduction to Kolmogorov complexity and its applications. New York: Springer-Verlag . February 1997. ISBN 0-387-94868-6 .
Lockhead G. R. (1970). Identification and the form of multidimensional discrimination space, Journal of Experimental Psychology 85 (1), 1–10.
David J. C. MacKay. Information Theory, Inference, and Learning Algorithms Cambridge: Cambridge University Press, 2003. ISBN 0-521-64298-1 (available free online)
Haghighat, M. B. A., Aghagolzadeh, A., & Seyedarabi, H. (2011). A non-reference image fusion metric based on mutual information of image features. Computers & Electrical Engineering, 37(5), 744-756.
Athanasios Papoulis . Probability, Random Variables, and Stochastic Processes , second edition. New York: McGraw-Hill, 1984. (See Chapter 15.)
Witten, Ian H. & Frank, Eibe. Data Mining: Practical Machine Learning Tools and Techniques . Morgan Kaufmann, Amsterdam. 2005 [2015-04-02 ] . ISBN 978-0-12-374856-0 . (原始内容存档 于2020-11-27).
Peng, H.C., Long, F., and Ding, C. Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy . IEEE Transactions on Pattern Analysis and Machine Intelligence. 2005, 27 (8): 1226–1238 [2015-04-02 ] . doi:10.1109/tpami.2005.159 . (原始内容存档 于2009-05-22).
Andre S. Ribeiro, Stuart A. Kauffman, Jason Lloyd-Price, Bjorn Samuelsson, and Joshua Socolar. Mutual Information in Random Boolean models of regulatory networks. Physical Review E. 2008, 77 (1). arXiv:0707.3642 .
Wells, W.M. III; Viola; P.; Atsumi; H.; Nakajima; S.; Kikinis; R. Multi-modal volume registration by maximization of mutual information (PDF) . Medical Image Analysis. 1996, 1 (1): 35–51 [2015-04-02 ] . PMID 9873920 . doi:10.1016/S1361-8415(01)80004-9 . (原始内容 (PDF ) 存档于2008-09-06).