情報量

情報量（じょうほうりょう）やエントロピー（英: entropy）は、情報理論の概念で、あるできごと（事象）が起きた際、それがどれほど起こりにくいかを表す尺度である。ありふれたできごと（たとえば「風の音」）が起こったことを知ってもそれはたいした「情報」にはならないが、逆に珍しいできごと（たとえば「曲の演奏」）が起これば、それはより多くの「情報」を含んでいると考えられる。情報量はそのできごとが本質的にどの程度の情報を持つかの尺度であるとみなすこともできる。

なおここでいう「情報」とは、あくまでそのできごとの起こりにくさ（確率）だけによって決まる数学的な量でしかなく、個人・社会における有用性とは無関係である。たとえば「自分が宝くじに当たった」と「見知らぬAさんが宝くじに当たった」は、前者の方が有用な情報に見えるが、両者の情報量は全く同じである（宝くじが当たる確率は所与条件一定のもとでは誰でも同じであるため）。

それぞれのできごとの情報量だけでなく、それらのできごとの情報量の平均値も情報量と呼ぶ。両者を区別する場合には、前者を自己情報量（自己エントロピーとも）、後者を平均情報量（エントロピーとも）と呼ぶ。

事象 $E$ が起こる確率を $P(E)$ とするとき、事象 $E$ が起こったことを知らされたとき受け取る自己情報量 $I(E)$ は、以下で定義される：

I(E)=\log {\frac {1}{P(E)}}=-\log P(E)

確率は $0\leq P(E)\leq 1$ なので自己情報量 $I(E)$ は非負である。また対数の単調増加性により、起こりにくい事象（＝生起確率が低い事象）の情報量ほど値が大きい。

対数の底として何を選んでも情報量の値が定数倍変わるだけなので本質的な差はない。慣習的に底に2を選ぶことが多い。底が2の場合、 $1/2^{n}$ の確率で起こる事象の情報量は $n$ である。

直観的意味

整数 $u$ に対し、 $u$ の対数 $\log _{m}u$ は $m$ 進法での $u$ の桁数にほぼ等しい値を表す。したがって、確率 $1/u$ で起こる事象の情報量は、ほぼ $u$ の桁数になる。

情報量の加法性

情報量は加法性を持つ。すなわち独立な事象AとBに対し、事象「AもBも起こる」の情報量は、Aの情報量とBの情報量の和である。これは以下で証明される。

I(A,B)=-\log P(A,B)=-\log(P(A)\cdot P(B))=-(\log P(A)+\log P(B))=I(A)+I(B)

例えば、52枚のトランプから無作為に1枚を取り出すという試行を考える。「取り出したカードはハートの4である」という事象の情報量は、前述の定義から $log 52$ であると分かる。ここで、「取り出したカードのスートはハートである」という事象と「取り出したカードの数字は4である」という事象の二つを考えると、前者の情報量は $log 4$ 、後者は $log 13$ である。この両者の和は $log 4 + log 13 = log (4\times13) = log 52$ となり、「取り出したカードはハートの4である」という事象の情報量と等しい。これは「独立した情報の和が、全体の情報量と一致する」という直感的要請に合致する。

導出

情報量に対する直感的要請には「発生確率が低いほど大きく（単調減少性）」「確率に関して連続的に変化し（連続性）」「独立同時事象の情報量が周辺事象の情報量和に等しい（加法性）」の三条件が挙げられる。この3条件を満たす関数はコーシーの函数方程式を利用することで $C\log p$ と一意に求まる。よって情報量の定義は上記の3条件から一意に導出できる。典型的には対数の底を2として $p =1/2$ で1となるようにCを設定（ $C=-1$ ）する。

$(\Omega ,{\mathcal {F}},P)$ を確率空間とする。全事象 $Ω$ の分割 $A_{i}$ が与えられたとき^[2]、各事象 $A_{i}\in \Omega$ の自己情報量 $I(A_{i})$ で定義した値

H(P)=\sum _{A_{i}\in \Omega }P(A_{i})\ I(A_{i})=-\sum _{A_{i}\in \Omega }P(A_{i})\log P(A_{i})

を確率測度 $P$ のエントロピー $H (P)$ と呼ぶ（平均情報量、シャノン情報量、情報論のエントロピーとも）。ただし、ここで $P(A_{i})=0$ のときは、 $P(A_{i})\log P(A_{i})=0$ とみなす。これは $\lim _{p\to 0+}{p\log p}=0$ であることによる。

また、離散型確率変数 $X$ が確率分布 $P$ に従う場合には、 $X$ のエントロピー $H (X)$ を自己情報量 $I$ の期待値によって定義する。すなわち、

H(X)=\mathbb {E} _{P}[I(X)]=-\sum _{x\in X}f_{X}(x)\log f_{X}(x)

である^[3]。ここで $f X$ は $X$ の確率質量関数である^[4]。

$0\leqq I(\cdot )$ より、エントロピーは常に非負である。

確率変数 $X$ と $Y$ の組 $(X, Y)$ も確率変数とみなせる。この確率変数の値の発生確率すなわち同時確率を $P_{X,Y}(X,Y)$ とすると、 $(X, Y)$ のエントロピー $H(X,Y)$ は

H(X,Y)=\mathbb {E} _{P_{X,Y}}[I(X,Y)]=-\sum _{(x,y)\in (X,Y)}P_{X,Y}(x,y)\log P_{X,Y}(x,y)

になる。これを結合エントロピーと呼ぶ。

$(X, Y)$ が互いに独立な確率変数である場合には、 $H(X,Y)$ は $H(X)+H(Y)$ に一致する。すなわち、全体の情報量 $H(X,Y)$ は、それぞれの確率変数の情報量の和である。

しかし、 $X$ と $Y$ が互いに独立ではない場合は、 $H(X,Y)$ と $H(X)+H(Y)$ は一致せず、前者より後者の方が大きい値になる。両者の情報量の差を相互情報量と呼び、

I(X,Y)=H(X)+H(Y)-H(X,Y)

で表す。相互情報量は常に非負の値になる。

事象 $B$ が生じているという条件下における事象 $A$ の条件付き情報量を $-\log \Pr(A\mid B)$ によって定める。確率変数 $X$ が与えられたとき、事象「 $X=x$ 」の条件付き情報量 $-\log \Pr(X=x\mid B)$ の $x$ に関する加重平均を条件付きエントロピーと言い、

H(X\mid B)=\mathbb {E} _{P_{X\mid B}}[I(X\mid B)]=-\sum _{x\in X}\Pr(X=x\mid B)\log \Pr(X=x\mid B)

で表す。

さらに確率変数 $Y$ が与えられたとき、事象「 $Y=y$ 」が生じているという条件下における条件付きエントロピー $H(X\mid Y=y)$ の $y$ に関する加重平均

H(X\mid Y)=\sum _{y\in Y}\Pr(Y=y)H(X\mid Y=y)=-\sum _{x\in X,y\in Y}\Pr(X=x,Y=y)\log {\Pr(X=x\mid Y=y)}

も、やはり条件付きエントロピーと呼ぶ。

エントロピーの基本的性質

情報量は確率だけによって決まる。
情報量は非負の値または無限大を取る。
nビットのビット列の空間（情報源）から（一様ランダムとは限らない方法で）ランダムにビット列を選んだときのエントロピーは、n以下になる。エントロピーがnになる必要十分条件は、ビット列が一様ランダムに選ばれることである。
確率変数XとYが独立である必要十分条件は、 $H(X)+H(Y)=H(X,Y)$ が成立することである。

コイン投げの例

あるコインを投げたときに表が出る確率を $p$ 、裏が出る確率を $1-p$ とする。このコインを投げたときに得られる平均情報量（エントロピー）は、

H(X)=-p\log {p}-(1-p)\log {(1-p)}

である。

この関数 $f(p)=-p\log {p}-(1-p)\log {(1-p)}$ をエントロピー関数と呼ぶ。

図を見ると分かるように、 $p=0$ と $p=1$ では $H$ はゼロである。つまり、コインを投げる前から裏または表が出ることが確実に分かっているときに得られる平均情報量は、ゼロである。 $H$ が最大になるのは $p=1/2$ のときであり、一般にすべての事象（できごと）が等確率になるときにエントロピーが最大になる。

実数値を取る確率変数Xの確率密度関数をp(x)とするとき、Xのエントロピーを

h(X)=-\int _{-\infty }^{\infty }p(x)\log p(x)dx

によって定義する。

Xが有限集合に値を取る確率変数である場合には、Xのシャノン情報量 $H(X)$ も定義できる。Xがn通りの値を取るとき、 $H(X)$ と $h(X)$ は、

h(X)=H(U_{n})-H(X)

を満たす。

ただし、ここで $U_{n}$ はn元集合上の一様分布とする（すなわち $H(U_{n})=\log n$ ）。

$\Omega$ を、台が有限集合である確率空間とする。Pを $\Omega$ 上の確率分布とし、 $\alpha$ を非負の実数とする。

$\alpha \neq 1$ のとき、Pのdegee $\alpha$ のRenyiエントロピーを

H_{\alpha }(P)={\frac {\log(\sum _{A\in \Omega }P(A)^{\alpha })}{1-\alpha }}

によって定義する。また、 $\alpha =1,\infty$ の場合には、Renyiエントロピーを

\left\{{\begin{array}{lll}H_{1}(P)&=\lim _{\alpha \to 1}&H_{\alpha }(P)\\H_{\infty }(P)&=\lim _{\alpha \to \infty }&H_{\alpha }(P)\end{array}}\right.

によって定義する。

単にRenyiエントロピーと言った場合は $H_{2}(P)$ を意味することも多い。

さらに、確率変数Xが確率分布Pに従うとき、 $H_{\alpha }(X)$ を $H_{\alpha }(X)=H_{\alpha }(P)$ によって定義する。

Renyiエントロピーは以下の性質を満たす：

$H_{0}(P)=\log \#\Omega$ が成立する。
$H_{1}(P)$ はシャノン情報量 $H(P)=-\sum _{A\in \Omega }P(A)\log P(A)$ と一致する。
$\alpha$ が2以上の整数の場合には、 $H_{\alpha }(P)={\frac {1}{1-\alpha }}\log \Pr(X_{1}=\cdots =X_{\alpha })$ が成立する。ここで、 $X_{1},\ldots ,X_{\alpha }$ は確率分布 $P$ に従う独立同一分布であって、 $\Pr(X_{1}=\cdots =X_{\alpha })$ は $x_{1},\ldots ,x_{\alpha }$ をそれぞれ $X_{1},\ldots ,X_{\alpha }$ に従って選んだときに $x_{1}=\cdots =x_{\alpha }$ が成立する確率とする。
$H_{\infty }(P)=\min _{A\in \Omega }\{-\log P(A)\}$ が成立する。この $H_{\infty }(P)$ をminエントロピーともいう。

「エントロピー」の概念は1865年にルドルフ・クラウジウスがギリシャ語の「変換」を意味する言葉を語源として、熱力学における気体のある状態量として導入した。これは統計力学では微視的な状態数の対数に比例する量として表される。1929年にはレオ・シラードが、気体についての情報を観測者が獲得することと統計力学におけるエントロピーとの間に直接の関係があることを示し、現在 1 ビット（1 シャノン）と呼ぶ量が統計力学で k ln 2 に対応するという関係を導いていた^[5]。

現在の情報理論におけるエントロピーの直接の導入は1948年のクロード・シャノンによるもので、その論文『通信の数学的理論』でエントロピーの概念を情報理論に応用した^[6]。シャノン自身は熱統計力学でこの概念と関連する概念がすでに使われていることを知らずにこの定義に到達したが、その名称を考えていたとき同僚フォン・ノイマンが、熱統計力学のエントロピーに似ていることから示唆したもので、フォン・ノイマンは「統計エントロピーが何なのかを理解してる人は少ないから、議論になったら有利であろう」と語ったとされる^[7]^[8]。しかしシャノンはフォン・ノイマンとの会話は認めつつその影響を否定している^[9]。

なお、シャノン以前にもラルフ・ハートレーが1928年に、集合Aに対して $\log \#A$ という量を考察している（“ $\#A$ ”はAの元数）。 $\log \#A$ はA上の一様分布のエントロピーに一致する。現在では、 $\log \#A$ をAのハートレー・エントロピーと呼ぶ^[10]。

情報量は本来無次元の量である。しかし、対数の底として何を用いたかによって値が異なるので，単位を付けて区別している。前述のように、情報量は確率の逆数の桁数の期待値なので、単位も桁数のそれを流用する。この為、対数の底として2、e、10を選んだときの情報量の単位は、それぞれビット(bit)、ナット(nat)、ディット(dit)である。

また、今のところ主流ではないものの、1997年に日本工業規格 JIS X 0016:1997（これは国際規格 ISO/IEC 2382-16:1996と一致している）は、これらの量を表す単位を別に定めている。

さらに見る 底, 通常の単位 ...

**対数の底と単位**
底	通常の単位	JISおよびISOが定めた単位	備考
2	ビット (bit)	シャノン (shannon)	lb, 二進対数
e=2.718…	ナット (nat)	ナット (nat)	ln, 自然対数
10	ディット (dit)	ハートレー (hartley)	lg, 常用対数

閉じる

単位「シャノン」、「ハートレー」の名称は、それぞれ情報量の概念を提案したクロード・シャノン、ラルフ・ハートレーにちなむ。

[脚注の使い方]

[1]
Gray, Robert M. (2013-03-14) (英語). Entropy and Information Theory. Springer Science & Business Media. ISBN 978-1-4757-3982-4
[2]
この分割は離散型確率変数の確率質量関数から誘導されることもある^[1]。
[3]
Cover, Thomas M.; Thomas, Joy A. (2012-11-28) (英語). Elements of Information Theory. John Wiley & Sons. ISBN 978-1-118-58577-1
[4]
$f X (x)$ を $P_{X}(x)=P(X=x)=P(\{\omega \in \Omega \mid X(\omega )=x\})$ と書くこともある。
[5]
Szilard, L. (1929) "Über die Entropieverminderung in einem Thermodynamischen System bei Eingriffen Intelligenter Wesen", Zeitschrift für Physik 53:840–856
[6]
Cover & Thomas 2006, Historical Notes.
[7]
『ファインマン計算機科学』 p. 96 ファインマンによる脚注*8で、「言い伝えによれば」と断りのうえでこの説を紹介している。
[8]
韓太舜、小林欣吾『情報と符号の数理』
[9]
CLAUDE E. SHANNON: An Interview Conducted by Robert Price, 28 July 1982
[10]
なお、JIS X 0016:1997 で定義される選択情報量（decision content）も同じ定義である。「互いに排反な事象から成る有限集合中の事象の数の対数。」

Shannon entropy calculator (English)
A Mathematical Theory of Communication Shannon 1948 (English)
Cover, Thomas M.; Thomas, Joy A. (2006). Elements of information theory (Second ed.). John Wiley & Sons. ISBN 978-0-471-24195-9. MR 2239987

情報量 - 脳科学辞典
『情報量の意味と対数関数を使う理由』 - 高校数学の美しい物語
“JISX0016:1997 情報処理用語（情報理論）”. kikakurui.com. 2023年10月28日閲覧。

[1] [1]
Gray, Robert M. (2013-03-14) (英語). Entropy and Information Theory. Springer Science & Business Media. ISBN 978-1-4757-3982-4

[2] [2]
この分割は離散型確率変数の確率質量関数から誘導されることもある^[1]。

[3] [3]
Cover, Thomas M.; Thomas, Joy A. (2012-11-28) (英語). Elements of Information Theory. John Wiley & Sons. ISBN 978-1-118-58577-1

[4] [4]
$f X (x)$ を $P_{X}(x)=P(X=x)=P(\{\omega \in \Omega \mid X(\omega )=x\})$ と書くこともある。

[5] [5]
Szilard, L. (1929) "Über die Entropieverminderung in einem Thermodynamischen System bei Eingriffen Intelligenter Wesen", Zeitschrift für Physik 53:840–856

[FOOTNOTECoverThomas2006Historical_Notes-6] [6]
Cover & Thomas 2006, Historical Notes.

[7] [7]
『ファインマン計算機科学』 p. 96 ファインマンによる脚注*8で、「言い伝えによれば」と断りのうえでこの説を紹介している。

[8] [8]
韓太舜、小林欣吾『情報と符号の数理』

[9] [9]
CLAUDE E. SHANNON: An Interview Conducted by Robert Price, 28 July 1982

[10] [10]
なお、JIS X 0016:1997 で定義される選択情報量（decision content）も同じ定義である。「互いに排反な事象から成る有限集合中の事象の数の対数。」

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[1]