エントロピー、カルバック・ライブラー情報量、最尤推定法

前回簡単に説明した大偏差原理をエントロピーの概念を使って詳しく説明するために、今回はエントロピーについて説明します。また、カルバック・ライブラー情報量、最尤推定法などについても説明します。

●エントロピー

有限個の事象のエントロピーは次のように定義されます。

f:id:ogyahogya:20141120110644p:plain

これは確率変数のエントロピーへ次のように一般化されます。

f:id:ogyahogya:20141120110756p:plain

エントロピーは平均情報量ともみなせます。

f:id:ogyahogya:20141120110920p:plain

●カルバック・ライブラー情報量（相対エントロピー）

データはある確率分布に従う確率変数の実現値であると考えられることが多いです。しかし、その確率分布の形が分からないことがあり、得られたデータから真の確率分布を推定する必要がよくあります。推定した確率分布が真の確率分布にどれくらい近いかを表す尺度として次のカルバック・ライブラー情報量（相対エントロピー）というものがあります。

f:id:ogyahogya:20141123203334p:plain

カルバック・ライブラー情報量の重要な性質として次の非負性があります。

f:id:ogyahogya:20141124173856p:plain

カルバック・ライブラー情報量とエントロピーは次の関係があります。

f:id:ogyahogya:20141124151133p:plain

よって、

f:id:ogyahogya:20141124151332p:plain

となり、確率変数が一様分布に従うときにエントロピーは最大になることが分かります。

●最尤推定

確率分布 $p(x)$ に従ってデータが生成されたとしましょう。しかし、 $p(x)$ は我々には分からないとして、 $p(x)$ を推定する必要があるとします。上で述べたことより、 $p(x)$ の推定にカルバック・ライブラー情報量が利用できそうです。カルバック・ライブラー情報量の定義から

f:id:ogyahogya:20141124161304p:plain

ということが分かります。 $D(p||q)=0$ のときに $p(x)=q(x)$ がすべての点 $x$ で成り立ちますので

f:id:ogyahogya:20141124161709p:plain

を最大にすれば推定した確率分布 $q(x)$ は真の確率分布 $p(x)$ により近くなることが期待できます。しかし、そもそも真の確率分布 $p(x)$ は未知なので平均大数尤度は直接計算できません。ここで注目すべき点はデータ $x_1,x_2,\cdots, x_n$ は真の確率分布 $p(x)$ に従って得られているということです。つまり、データは確率変数の実現値であり、その確率変数は真の確率分布 $p(x)$ に従います。このことから、データがたくさん得られたときには大数の法則が利用できて