カルバック・ライブラー情報量
ウィキペディア フリーな encyclopedia
カルバック・ライブラー情報量(カルバック・ライブラーじょうほうりょう、英: Kullback–Leibler divergence)は2つの確率分布の差異を計る尺度である。
確率論と情報理論で利用され様々な呼び名がある。以下はその一例である:
- カルバック・ライブラー・ダイバージェンス(KLダイバージェンス)
- 情報ダイバージェンス(英: information divergence)
- 情報利得(英: information gain)
- 相対エントロピー(英: relative entropy)
- カルバック・ライブラー距離
ただしこの計量は距離の公理を満たさないので、数学的な意味での距離ではない。
応用上は、「真の」確率分布 P とそれ以外の任意の確率分布 Q に対するカルバック・ライブラー情報量が計算される事が多い。たとえば P はデータ、観測値、正確に計算で求められた確率分布などを表し、Q は理論値、モデル値、P の予測値などを表す。
この概念は1951年、ソロモン・カルバックとリチャード・ライブラーが2つの分布の間の directed divergence として用いたのが最初であり、ベクトル解析におけるダイバージェンスとは異なる概念である。
カルバック・ライブラー情報量は離散分布のみならず連続分布に対しても定義されており、連続分布に対するカルバック・ライブラー情報量は変数変換について不変である。したがって、情報理論の他の量(自己情報量やエントロピー)よりも基本的であるともいえる。というのも、それらは離散的でない確率については未定義だったり、変数変換に対して不変ではなかったりするからである。