熵 (資訊理論)

在資訊理論中，熵（英語：entropy，又稱資訊熵、信源熵、平均資訊本體量）是接收的每條訊息中包含的資訊的平均量。這裏的「訊息」代表來自分佈或數據流中的事件、樣本或特徵。（熵最好理解為不確定性的量度而不是確定性的量度，因為越隨機的信源的熵越大。）來自信源的另一個特徵是樣本的機率分佈。這裏的想法是，比較不可能發生的事情，當它發生了，會提供更多的資訊。由於一些其他的原因，把資訊（熵）定義為機率分佈的對數的相反數是有道理的。事件的機率分佈和每個事件的資訊量構成了一個隨機變量，這個隨機變量的均值（即期望值）就是這個分佈產生的資訊量的平均值（即熵）。熵的單位通常為位元，但也用Sh、nat、Hart計量，取決於定義用到對數的底。

採用機率分佈的對數作為資訊的量度的原因是其可加性。例如，投擲一次硬幣提供了1 Sh的資訊，而擲m次就為m位。更一般地，你需要用log₂(n)位來表示一個可以取n個值的變數。

在1948年，克勞德·艾爾活·山農將熱力學的熵，引入到資訊理論，因此它又被稱為山農熵（Shannon entropy）^[1]^[2]。

簡介

熵的概念最早起源於物理學，用於度量一個熱力學系統的無序程度。在資訊理論裏面，熵是對不確定性的測量。但是在資訊世界，熵越高，則能傳輸越多的資訊，熵越低，則意味着傳輸的資訊越少。

英語文字數據流的熵比較低，因為英語很容易讀懂，也就是說很容易被預測。即便我們不知道下一段英語文字是什麼內容，但是我們能很容易地預測，比如，字母e總是比字母z多，或者qu字母組合的可能性總是超過q與任何其它字母的組合。如果未經壓縮，一段英文文字的每個字母需要8個位元來編碼，但是實際上英文文字的熵大概只有4.7位元。這是由於英文的編碼包含了各式符號，如逗號、引號等。因此英文輸入法使用了8個位元來表達一共256個字母及符號。

如果壓縮是無失真的，即通過解壓縮可以百分之百地恢復初始的訊息內容，那麼壓縮後的訊息攜帶的資訊和未壓縮的原始訊息是一樣的多。而壓縮後的訊息可以通過較少的位元遞移，因此壓縮訊息的每個位元能攜帶更多的資訊，也就是說壓縮資訊的熵更加高。熵更高意味着比較難於預測壓縮訊息攜帶的資訊，原因在於壓縮訊息裏面沒有冗餘，即每個位元的訊息攜帶了一個位元的資訊。山農的信源編碼定理揭示了，任何無損壓縮技術不可能讓一位元的訊息攜帶超過一位元的資訊。訊息的熵乘以訊息的長度決定了訊息可以攜帶多少資訊。

山農的信源編碼定理同時揭示了，任何無損壓縮技術不可能縮短任何訊息。根據鴿籠原理，如果有一些訊息變短，則至少有一條訊息變長。在實際使用中，由於我們通常只關注於壓縮特定的某一類訊息，所以這通常不是問題。例如英語文件和隨機文字，數碼相片和噪音，都是不同類型的。所以如果一個壓縮演算法會將某些不太可能出現的，或者非目標類型的訊息變得更大，通常是無關緊要的。但是，在我們的日常使用中，如果去壓縮已經壓縮過的數據，仍會出現問題。例如，將一個已經是FLAC格式的音樂檔案壓縮為ZIP檔案很難使它佔用的空間變小。

熵的計算

如果有一枚理想的硬幣，其出現正面和反面的機會相等，則拋硬幣事件的熵等於其能夠達到的最大值。我們無法知道下一個硬幣拋擲的結果是什麼，因此每一次拋硬幣都是不可預測的。因此，使用一枚正常硬幣進行若干次拋擲，這個事件的熵是一位元，因為結果不外乎兩個——正面或者反面，可以表示為0, 1編碼，而且兩個結果彼此之間相互獨立。若進行n次獨立實驗，則熵為n，因為可以用長度為n的位元流表示。^[3]但是如果一枚硬幣的兩面完全相同，那個這個系列拋硬幣事件的熵等於零，因為結果能被準確預測。現實世界裏，我們收集到的數據的熵介於上面兩種情況之間。

另一個稍微複雜的例子是假設一個隨機變量X，取三種可能值 ${\begin{smallmatrix}x_{1},x_{2},x_{3}\end{smallmatrix}}$ ，機率分別為 ${\begin{smallmatrix}{\frac {1}{2}},{\frac {1}{4}},{\frac {1}{4}}\end{smallmatrix}}$ ，那麼編碼平均位元長度是： ${\begin{smallmatrix}{\frac {1}{2}}\times 1+{\frac {1}{4}}\times 2+{\frac {1}{4}}\times 2={\frac {3}{2}}\end{smallmatrix}}$ 。其熵為3/2。

因此熵實際是對隨機變量的位元量和順次發生機率相乘再總和的數學期望值。

定義

依據Boltzmann's H-theorem，山農把隨機變量X的熵值 Η（希臘字母Eta）定義如下，其值域為{x₁, ..., x_n}：

\mathrm {H} (X)=\mathrm {E} [\mathrm {I} (X)]=\mathrm {E} [-\ln(\mathrm {P} (X))]

。

其中，P為X的機率質素函數（probability mass function），E為期望值函數，而I(X)是X的資訊量（又稱為資訊本體）。I(X)本身是個隨機變量。

當取自有限的樣本時，熵的公式可以表示為：

\mathrm {H} (X)=\sum _{i}{\mathrm {P} (x_{i})\,\mathrm {I} (x_{i})}=-\sum _{i}{\mathrm {P} (x_{i})\log _{b}\mathrm {P} (x_{i})},

在這裏b是對數所使用的底，通常是2，自然常數e，或是10。當b = 2，熵的單位是bit；當b = e，熵的單位是nat；而當b = 10,熵的單位是Hart。

p_i = 0時，對於一些i值，對應的被加數0 log_b 0的值將會是0，這與極限一致。

\lim _{p\to 0+}p\log p=0

。

還可以定義事件 X 與 Y 分別取 x_i 和 y_j 時的條件熵為

\mathrm {H} (X|Y)=-\sum _{i,j}p(x_{i},y_{j})\log {\frac {p(x_{i},y_{j})}{p(y_{j})}}

其中p(x_i, y_j)為 X = x_i 且 Y = y_j 時的機率。這個量應當理解為你知道Y的值前提下隨機變量 X 的隨機性的量。

範例

如果有一個系統S主記憶體在多個事件S = {E₁,...,E_n}，每個事件的機率分佈P = {p₁, ..., p_n}，則每個事件本身的訊息（資訊本體）為：

I_{e}=-\log _{2}{p_{i}}

（對數以2為底，單位是位元（bit））

I_{e}=-\ln {p_{i}}

（對數以

e

為底，單位是納特/nats）

如英語有26個字母，假如每個字母在文章中出現次數平均的話，每個字母的訊息量為：

I_{e}=-\log _{2}{1 \over 26}=4.7

以日文五十音平假名作為相對範例，假設每個平假名日語文字在文章中出現的機率相等，每個平假名日語文字可攜帶的資訊量為：

I_{e}=-\log _{2}{1 \over 50}=5.64

而漢字常用的有2500個，假如每個漢字在文章中出現次數平均的話，每個漢字的資訊量為：

I_{e}=-\log _{2}{1 \over 2500}=11.3

實際上每個字母和每個漢字在文章中出現的次數並不平均，比方說較少見字母（如z）和罕用漢字就具有相對高的資訊量。但上述計算提供了以下概念：使用書寫單元越多的文字，每個單元所包含的訊息量越大。

熵是整個系統的平均訊息量，即：

H_{s}=\sum _{i=1}^{n}p_{i}I_{e}=-\sum _{i=1}^{n}p_{i}\log _{2}p_{i}

因為和熱力學中描述熱力學熵的玻爾茲曼公式本質相同（僅僅單位不同，一納特的資訊量即相當於k 焦耳每開爾文的熱力學熵），所以也稱為「熵」。

如果兩個系統具有同樣大的訊息量，如一篇用不同文字寫的同一文章，由於漢字的資訊量較大，中文文章應用的漢字就比英文文章使用的字母要少。所以漢字印刷的文章要比其他應用總體數量少的字母印刷的文章要短。即使一個漢字佔用兩個字母的空間，漢字印刷的文章也要比英文字母印刷的用紙少。

熵的特性

可以用很少的標準來描述山農熵的特性，將在下面列出。任何滿足這些假設的熵的定義均正比以下形式

-K\sum _{i=1}^{n}p_{i}\log(p_{i})

其中，K是與選擇的度量單位相對應的一個正比常數。

下文中，p_i = Pr(X = x_i)且 $\mathrm {H} _{n}(p_{1},\ldots ,p_{n})=\mathrm {H} (X)$

連續性

該量度應連續，機率值小幅變化只能引起熵的微小變化。

對稱性

符號x_i重新排序後，該量度應不變。

\mathrm {H} _{n}\left(p_{1},p_{2},\ldots \right)=\mathrm {H} _{n}\left(p_{2},p_{1},\ldots \right)

等。

極值性

當所有符號有同等機會出現的情況下，熵達到最大值（所有可能的事件同等機率時不確定性最高）。

\mathrm {H} _{n}(p_{1},\ldots ,p_{n})\leq \mathrm {H} _{n}\left({\frac {1}{n}},\ldots ,{\frac {1}{n}}\right)=\log _{b}(n)

。

等機率事件的熵應隨符號的數量增加。

\mathrm {H} _{n}{\bigg (}\underbrace {{\frac {1}{n}},\ldots ,{\frac {1}{n}}} _{n}{\bigg )}=\log _{b}(n)<\log _{b}(n+1)=\mathrm {H} _{n+1}{\bigg (}\underbrace {{\frac {1}{n+1}},\ldots ,{\frac {1}{n+1}}} _{n+1}{\bigg )}.

可加性

熵的量與該過程如何被劃分無關。

最後給出的這個函數關係刻畫了一個系統與其子系統的熵的關係。如果子系統之間的相互作用是已知的，則可以通過子系統的熵來計算一個系統的熵。

給定n個均勻分佈元素的集合，分為k個箱（子系統），每個裏面有 b₁, ..., b_k 個元素，合起來的熵應等於系統的熵與各個箱子的熵的和，每個箱子的權重為在該箱中的機率。

對於正整數b_i其中b₁ + ... + b_k = n來說，

\mathrm {H} _{n}\left({\frac {1}{n}},\ldots ,{\frac {1}{n}}\right)=\mathrm {H} _{k}\left({\frac {b_{1}}{n}},\ldots ,{\frac {b_{k}}{n}}\right)+\sum _{i=1}^{k}{\frac {b_{i}}{n}}\,\mathrm {H} _{b_{i}}\left({\frac {1}{b_{i}}},\ldots ,{\frac {1}{b_{i}}}\right)

。

選取k = n，b₁ = ... = b_n = 1，這意味着確定符號的熵為零：Η₁(1) = 0。這就是說可以用n進制熵來定義n個符號的信源符號集的效率。參見資訊冗餘。

進一步性質

山農熵滿足以下性質，藉由將熵看成「在揭示隨機變量X的值後，從中得到的資訊量（或消除的不確定性量）」，可來幫助理解其中一些性質。

增減一機率為零的事件不改變熵：

\mathrm {H} _{n+1}(p_{1},\ldots ,p_{n},0)=\mathrm {H} _{n}(p_{1},\ldots ,p_{n})

可用琴生不等式證明

\mathrm {H} (X)=\operatorname {E} \left[\log _{b}\left({\frac {1}{p(X)}}\right)\right]\leq \log _{b}\left(\operatorname {E} \left[{\frac {1}{p(X)}}\right]\right)=\log _{b}(n)

具有均勻機率分佈的信源符號集可以有效地達到最大熵log_b(n)：所有可能的事件是等機率的時候，不確定性最大。

計算 (X,Y)得到的熵或資訊量（即同時計算X和Y）等於通過進行兩個連續實驗得到的資訊：先計算Y的值，然後在你知道Y的值條件下得出X的值。寫作

\mathrm {H} (X,Y)=\mathrm {H} (X|Y)+\mathrm {H} (Y)=\mathrm {H} (Y|X)+\mathrm {H} (X)

。

如果Y=f(X)，其中f是確定性的，那麼Η(f(X)|X) = 0。應用前一公式Η(X, f(X))就會產生

\mathrm {H} (X)+\mathrm {H} (f(X)|X)=\mathrm {H} (f(X))+\mathrm {H} (X|f(X)),

所以Η(f(X)) ≤ Η(X)，因此當後者是通過確定性函數遞移時，變數的熵只能降低。

如果X和Y是兩個獨立實驗，那麼知道Y的值不影響我們對X值的認知（因為兩者獨立，所以互不影響）：

\mathrm {H} (X|Y)=\mathrm {H} (X)

。

兩個事件同時發生的熵不大於每個事件單獨發生的熵的總和，且僅當兩個事件是獨立的情況下相等。更具體地說，如果X和Y是同一機率空間的兩個隨機變量，而 (X,Y)表示它們的笛卡爾積，則

\mathrm {H} (X,Y)\leq \mathrm {H} (X)+\mathrm {H} (Y)

。

在前兩條熵的性質基礎上，很容易用數學證明這一點。

和熱力學熵的聯繫

物理學家和化學家對一個系統自發地從初始狀態向前演進過程中，遵循熱力學第二定律而發生的熵的變化更感興趣。在傳統熱力學中，熵被定義為對系統的宏觀測定，並沒有涉及機率分佈，而機率分佈是資訊熵的核心定義。

根據Jaynes（1957）的觀點，熱力學熵可以被視為山農資訊理論的一個應用：熱力學熵被解釋成與定義系統的微態細節所需的進一步山農資訊量成正比，波茲曼常數為比例系數，其中系統與外界無交流，只靠古典熱力學的巨觀變數所描述。加熱系統會提高其熱力學熵，是因為此行為增加了符合可測巨觀變數的系統微態的數目，也使得所有系統的的完整敘述變得更長。（假想的）馬克士威妖可利用每個分子的狀態資訊，來降低熱力學熵，但是羅夫·蘭道爾（英語：Rolf Landauer）（於1961年）和及其同事則證明了，讓小妖精行使職責本身——即便只是了解和儲存每個分子最初的山農資訊——就會給系統帶來熱力學熵的增加，因此總的來說，系統的熵的總量沒有減少。這就解決了Maxwell思想實驗引發的悖論。蘭道爾原理也為現代計算機處理大量資訊時所產生的熱量給出了下限，雖然現在計算機的廢熱遠遠比這個限制高。

== 語言學^{[查證請求]} == 語言學的「熵」意思是指「資訊的密度」，資訊熵越低的語言內容越少。

逸聞

貝爾實驗室曾流傳一則可信度不高的傳聞：馮紐曼建議山農為這個概念取名為「熵」，理由是這個熱力學名詞別人不懂，容易被唬住。^[4]

參見

參考

[1]
Shannon, Claude E. A Mathematical Theory of Communication. Bell System Technical Journal. July 1948, 27 (3): 379–423. doi:10.1002/j.1538-7305.1948.tb01338.x. hdl:10338.dmlcz/101429. (PDF, archived from here （頁面存檔備份，存於互聯網檔案館）)
[2]
Shannon, Claude E. A Mathematical Theory of Communication. Bell System Technical Journal. October 1948, 27 (4): 623–656. doi:10.1002/j.1538-7305.1948.tb00917.x. hdl:11858/00-001M-0000-002C-4317-B. (PDF, archived from here （頁面存檔備份，存於互聯網檔案館）)
[3]
Douglas Robert Stinson; Maura Paterson. 第2.4节“熵”. Cryptography Theory and Practice [密碼學理論與實踐] 2.
[4]
占士·格雷克. 第9章“熵及其妖”. The Information: A History, a Theory, a Flood [資訊簡史]. 高博 (翻譯), 樓偉珊 (審校), 高學棟 (審校), 李松峰 (審校) 1. 人民郵電出版社. 2013: 265. ISBN 978-7-115-33180-9 （中文（中國大陸））. 根據在貝爾實驗室里流傳的一個說法，是約翰·馮·諾依曼建議山農使用這個詞，因為沒有人懂這個詞的意思，所以他與人爭論時可以無往而不利。這件事雖然子虛烏有，但聽起來似乎有點道理。

外部連結

Hazewinkel, Michiel (編), Entropy, 数学百科全书, Springer, 2001, ISBN 978-1-55608-010-4

[shannonPaper1-1] [1]
Shannon, Claude E. A Mathematical Theory of Communication. Bell System Technical Journal. July 1948, 27 (3): 379–423. doi:10.1002/j.1538-7305.1948.tb01338.x. hdl:10338.dmlcz/101429. (PDF, archived from here （頁面存檔備份，存於互聯網檔案館）)

[shannonPaper2-2] [2]
Shannon, Claude E. A Mathematical Theory of Communication. Bell System Technical Journal. October 1948, 27 (4): 623–656. doi:10.1002/j.1538-7305.1948.tb00917.x. hdl:11858/00-001M-0000-002C-4317-B. (PDF, archived from here （頁面存檔備份，存於互聯網檔案館）)

[crypto-3] [3]
Douglas Robert Stinson; Maura Paterson. 第2.4节“熵”. Cryptography Theory and Practice [密碼學理論與實踐] 2.

[4] [4]
占士·格雷克. 第9章“熵及其妖”. The Information: A History, a Theory, a Flood [資訊簡史]. 高博 (翻譯), 樓偉珊 (審校), 高學棟 (審校), 李松峰 (審校) 1. 人民郵電出版社. 2013: 265. ISBN 978-7-115-33180-9 （中文（中國大陸））. 根據在貝爾實驗室里流傳的一個說法，是約翰·馮·諾依曼建議山農使用這個詞，因為沒有人懂這個詞的意思，所以他與人爭論時可以無往而不利。這件事雖然子虛烏有，但聽起來似乎有點道理。

[1]

[2]

[3]

[4]