在資訊理論中,條件熵描述了在已知第二個隨機變數 X {\displaystyle X} 的值的前提下,隨機變數 Y {\displaystyle Y} 的資訊熵還有多少。同其它的資訊熵一樣,條件熵也用Sh、nat、Hart等資訊單位表示。基於 X {\displaystyle X} 條件的 Y {\displaystyle Y} 的資訊熵,用 H ( Y | X ) {\displaystyle \mathrm {H} (Y|X)} 表示。 定義 如果 H ( Y | X = x ) {\displaystyle \mathrm {H} (Y|X=x)} 爲變數 Y {\displaystyle Y} 在變數 X {\displaystyle X} 取特定值 x {\displaystyle x} 條件下的熵,那麼 H ( Y | X ) {\displaystyle \mathrm {H} (Y|X)} 就是 H ( Y | X = x ) {\displaystyle \mathrm {H} (Y|X=x)} 在 X {\displaystyle X} 取遍所有可能的 x {\displaystyle x} 後取平均的結果。 給定隨機變數 X {\displaystyle X} 與 Y {\displaystyle Y} ,定義域分別爲 X {\displaystyle {\mathcal {X}}} 與 Y {\displaystyle {\mathcal {Y}}} ,在給定 X {\displaystyle X} 條件下 Y {\displaystyle Y} 的條件熵定義爲:[1] H ( Y | X ) ≡ ∑ x ∈ X p ( x ) H ( Y | X = x ) = − ∑ x ∈ X p ( x ) ∑ y ∈ Y p ( y | x ) log p ( y | x ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( y | x ) = − ∑ x ∈ X , y ∈ Y p ( x , y ) log p ( y | x ) = − ∑ x ∈ X , y ∈ Y p ( x , y ) log p ( x , y ) p ( x ) . = ∑ x ∈ X , y ∈ Y p ( x , y ) log p ( x ) p ( x , y ) . {\displaystyle {\begin{aligned}\mathrm {H} (Y|X)\ &\equiv \sum _{x\in {\mathcal {X}}}\,p(x)\,\mathrm {H} (Y|X=x)\\&=-\sum _{x\in {\mathcal {X}}}p(x)\sum _{y\in {\mathcal {Y}}}\,p(y|x)\,\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}}}\sum _{y\in {\mathcal {Y}}}\,p(x,y)\,\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x,y)}{p(x)}}.\\&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x)}{p(x,y)}}.\\\end{aligned}}} 注意: 可以理解,對於確定的 c>0,表達式 0 log 0 和 0 log (c/0) 應被認作等於零。 若且唯若 Y {\displaystyle Y} 的值完全由 X {\displaystyle X} 確定時, H ( Y | X ) = 0 {\displaystyle \mathrm {H} (Y|X)=0} 。相反,若且唯若 Y {\displaystyle Y} 和 X {\displaystyle X} 爲獨立隨機變數時 H ( Y | X ) = H ( Y ) {\displaystyle \mathrm {H} (Y|X)=\mathrm {H} (Y)} 。 鏈式法則 假設兩個隨機變數 X 和 Y 確定的組合系統的聯合熵爲 H ( X , Y ) {\displaystyle \mathrm {H} (X,Y)} ,即我們需要 H ( X , Y ) {\displaystyle \mathrm {H} (X,Y)} bit的資訊來描述它的確切狀態。 現在,若我們先學習 X {\displaystyle X} 的值,我們得到了 H ( X ) {\displaystyle \mathrm {H} (X)} bits的資訊。 一旦知道了 X {\displaystyle X} ,我們只需 H ( X , Y ) − H ( X ) {\displaystyle \mathrm {H} (X,Y)-\mathrm {H} (X)} bits來描述整個系統的狀態。 這個量正是 H ( Y | X ) {\displaystyle \mathrm {H} (Y|X)} ,它給出了條件熵的鏈式法則: H ( Y | X ) = H ( X , Y ) − H ( X ) . {\displaystyle \mathrm {H} (Y|X)\,=\,\mathrm {H} (X,Y)-\mathrm {H} (X)\,.} 鏈式法則接着上面條件熵的定義: H ( Y | X ) = ∑ x ∈ X , y ∈ Y p ( x , y ) log p ( x ) p ( x , y ) = − ∑ x ∈ X , y ∈ Y p ( x , y ) log p ( x , y ) + ∑ x ∈ X , y ∈ Y p ( x , y ) log p ( x ) = H ( X , Y ) + ∑ x ∈ X p ( x ) log p ( x ) = H ( X , Y ) − H ( X ) . {\displaystyle {\begin{aligned}\mathrm {H} (Y|X)&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x)}{p(x,y)}}\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \,p(x,y)+\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \,p(x)\\&=\mathrm {H} (X,Y)+\sum _{x\in {\mathcal {X}}}p(x)\log \,p(x)\\&=\mathrm {H} (X,Y)-\mathrm {H} (X).\end{aligned}}} 貝葉斯規則 條件熵的貝葉斯規則(英語:Bayes' rule)表述爲 H ( Y | X ) = H ( X | Y ) − H ( X ) + H ( Y ) . {\displaystyle H(Y|X)\,=\,H(X|Y)-H(X)+H(Y)\,.} 證明. H ( Y | X ) = H ( X , Y ) − H ( X ) {\displaystyle H(Y|X)=H(X,Y)-H(X)} and H ( X | Y ) = H ( Y , X ) − H ( Y ) {\displaystyle H(X|Y)=H(Y,X)-H(Y)} 。對稱性意味着 H ( X , Y ) = H ( Y , X ) {\displaystyle H(X,Y)=H(Y,X)} 。將兩式相減即爲貝葉斯規則。 推廣到量子理論 在量子資訊論中,條件熵都概括為量子條件熵。 參考文獻 [1]Cover, Thomas M.; Thomas, Joy A. Elements of information theory 1st. New York: Wiley. 1991. ISBN 0-471-06259-6. Wikiwand - on Seamless Wikipedia browsing. On steroids.