离散随机变量 X 和 Y 的互信息可以计算为:
其中 p(x, y) 是 X 和 Y 的联合概率质量函数,而 和 分别是 X 和 Y 的边缘概率质量函数。
在连续随机变量的情形下,求和被替换成了二重定积分:
其中 p(x, y) 当前是 X 和 Y 的联合概率密度函数,而 和 分别是 X 和 Y 的边缘概率密度函数。
如果对数以 2 为基底,互信息的单位是bit。
直观上,互信息度量 X 和 Y 共享的资讯:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。例如,如果 X 和 Y 相互独立,则知道 X 不对 Y 提供任何资讯,反之亦然,所以它们的互信息为零。在另一个极端,如果 X 是 Y 的一个确定性函数,且 Y 也是 X 的一个确定性函数,那么传递的所有资讯被 X 和 Y 共享:知道 X 决定 Y 的值,反之亦然。因此,在此情形互信息与 Y(或 X)单独包含的不确定度相同,称作 Y(或 X)的熵。而且,这个互信息与 X 的熵和 Y 的熵相同。(这种情形的一个非常特殊的情况是当 X 和 Y 为相同随机变量时。)
互信息是 X 和 Y 的联合分布相对于假定 X 和 Y 独立情况下的联合分布之间的内在依赖性。
于是互信息以下面方式度量依赖性:I(X; Y) = 0 当且仅当 X 和 Y 为独立随机变量。从一个方向很容易看出:当 X 和 Y 独立时,p(x,y) = p(x) p(y),因此:
此外,互信息是非负的(即 ; 见下文),而且是对称的(即 )。
互信息又可以等价地表示成
其中 和 是边缘熵,H(X|Y) 和 H(Y|X) 是条件熵,而 H(X,Y) 是 X 和 Y 的联合熵。注意到这组关系和并集、差集和交集的关系类似,于是用Venn图表示。
在互信息定义的基础上使用琴生不等式,我们可以证明 I(X;Y) 是非负的,因此 。这里我们给出 I(X;Y) = H(Y) - H(Y|X) 的详细推导:
上面其他性质的证明类似。
直观地说,如果把熵 H(Y) 看作一个随机变量于不确定度的量度,那么 H(Y|X) 就是"在已知 X 事件后Y事件会发生"的不确定度。于是第一个等式的右边就可以读作“将"Y事件的不确定度",减去 --- "在基于X事件后Y事件因此发生的不确定度"”。
这证实了互信息的直观意义为: "因X而有Y事件"的熵( 基于已知随机变量的不确定性) 在"Y事件"的熵之中具有多少影响地位( "Y事件所具有的不确定性" 其中包含了多少 "Y|X事件所具有的不确性" ),意即"Y具有的不确定性"有多少程度是起因于X事件;
舉例來說,當 I(X;Y) = 0時,也就是 H(Y) = H(Y|X)時,即代表此時 "Y的不確定性" 即為 "Y|X的不確定性",這說明了互信息的具體意義是在度量兩個事件彼此之間的關聯性。
所以具体的解释就是: 互信息越小,两个来自不同事件空间的随机变量彼此之间的关系性越低; 互信息越高,关系性则越高 。
注意到离散情形 H(X|X) = 0,于是 H(X) = I(X;X)。因此 I(X;X) ≥ I(X;Y),我们可以制定”一个变量至少包含其他任何变量可以提供的与它有关的资讯“的基本原理。
互信息也可以表示为两个随机变量的边缘分布 X 和 Y 的乘积 p(x) × p(y) 相对于随机变量的联合熵 p(x,y) 的相对熵:
此外,令 p(x|y) = p(x, y) / p(y)。则
注意到,这里相对熵涉及到仅对随机变量 X 积分,表达式 现在以 Y 为变量。于是互信息也可以理解为相对熵 X 的单变量分布 p(x) 相对于给定 Y 时 X 的条件分布 p(x|y) :分布 p(x|y) 和 p(x) 之间的平均差异越大,资讯增益越大。
对连续型随机变量量化的定义如下:
量化后的随机变量:
。
则,
广义而言,我们可以将互信息定义在有限多个连续随机变量值域的划分。
令为连续型随机变量的值域,, 其中为划分所构成的集合,意即。
以量化连续型随机变量后,所得结果为离散型随机变量,
。
对于两连续型随机变量X、Y,其划分分别为P、Q,则其互信息可表示为:
。
- Cilibrasi, Rudi; Paul M.B. Vitan´ yi. Clustering by compression (PDF). IEEE Transactions on Information Theory. 2005, 51 (4): 1523–1545. doi:10.1109/TIT.2005.844059.
- Cronbach L. J. (1954). On the non-rational application of information measures in psychology, in Henry Quastler, ed., Information Theory in Psychology: Problems and Methods, Free Press, Glencoe, Illinois, pp. 14–30.
- Church, Kenneth Ward; Hanks, Patrick. Word association norms, mutual information, and lexicography (PDF). Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics. 1989.[永久失效链接]
- Guiasu, Silviu. Information Theory with Applications. McGraw-Hill, New York. 1977. ISBN 978-0070251090.
- Li, Ming; Paul M.B. Vitan´ yi. An introduction to Kolmogorov complexity and its applications. New York: Springer-Verlag. February 1997. ISBN 0-387-94868-6.
- Lockhead G. R. (1970). Identification and the form of multidimensional discrimination space, Journal of Experimental Psychology 85(1), 1–10.
- David J. C. MacKay. Information Theory, Inference, and Learning Algorithms Cambridge: Cambridge University Press, 2003. ISBN 0-521-64298-1 (available free online)
- Haghighat, M. B. A., Aghagolzadeh, A., & Seyedarabi, H. (2011). A non-reference image fusion metric based on mutual information of image features. Computers & Electrical Engineering, 37(5), 744-756.
- Athanasios Papoulis. Probability, Random Variables, and Stochastic Processes, second edition. New York: McGraw-Hill, 1984. (See Chapter 15.)
- Witten, Ian H. & Frank, Eibe. Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann, Amsterdam. 2005 [2015-04-02]. ISBN 978-0-12-374856-0. (原始内容存档于2020-11-27).
- Peng, H.C., Long, F., and Ding, C. Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2005, 27 (8): 1226–1238 [2015-04-02]. doi:10.1109/tpami.2005.159. (原始内容存档于2009-05-22).
- Andre S. Ribeiro, Stuart A. Kauffman, Jason Lloyd-Price, Bjorn Samuelsson, and Joshua Socolar. Mutual Information in Random Boolean models of regulatory networks. Physical Review E. 2008, 77 (1). arXiv:0707.3642 .
- Wells, W.M. III; Viola; P.; Atsumi; H.; Nakajima; S.; Kikinis; R. Multi-modal volume registration by maximization of mutual information (PDF). Medical Image Analysis. 1996, 1 (1): 35–51 [2015-04-02]. PMID 9873920. doi:10.1016/S1361-8415(01)80004-9. (原始内容 (PDF)存档于2008-09-06).