初級Mathマニアの寝言

数学は色々なところで応用可能であり、多くの人が数学の抽象的な概念の意味や意義を鮮明に知ることができれば今まで以上に面白い物や仕組みが生まれるかもしれません。このブログは数学を専門にしない人のために抽象的な概念の意味や意義を分かりやすく説明することを目的としています。数学を使って何かしたい人のお役に立てたら幸いです。

エントロピー、カルバック・ライブラー情報量、最尤推定法

前回簡単に説明した大偏差原理エントロピーの概念を使って詳しく説明するために、今回はエントロピーについて説明します。また、カルバック・ライブラー情報量、最尤推定法などについても説明します。

エントロピー

有限個の事象エントロピーは次のように定義されます。

f:id:ogyahogya:20141120110644p:plain

これは確率変数のエントロピーへ次のように一般化されます。

f:id:ogyahogya:20141120110756p:plain

エントロピーは平均情報量ともみなせます。

f:id:ogyahogya:20141120110920p:plain

●カルバック・ライブラー情報量(相対エントロピー

データはある確率分布に従う確率変数の実現値であると考えられることが多いです。しかし、その確率分布の形が分からないことがあり、得られたデータから真の確率分布を推定する必要がよくあります。推定した確率分布が真の確率分布にどれくらい近いかを表す尺度として次のカルバック・ライブラー情報量(相対エントロピー)というものがあります。

f:id:ogyahogya:20141123203334p:plain

カルバック・ライブラー情報量の重要な性質として次の非負性があります。

f:id:ogyahogya:20141124173856p:plain

カルバック・ライブラー情報量とエントロピーは次の関係があります。

f:id:ogyahogya:20141124151133p:plain

よって、

f:id:ogyahogya:20141124151332p:plain

となり、確率変数が一様分布に従うときにエントロピーは最大になることが分かります。

最尤推定

確率分布  p(x) に従ってデータが生成されたとしましょう。しかし、 p(x) は我々には分からないとして、 p(x) を推定する必要があるとします。上で述べたことより、 p(x) の推定にカルバック・ライブラー情報量が利用できそうです。カルバック・ライブラー情報量の定義から

f:id:ogyahogya:20141124161304p:plain

ということが分かります。 D(p||q)=0 のときに  p(x)=q(x) がすべての点  x で成り立ちますので

f:id:ogyahogya:20141124161709p:plain

を最大にすれば推定した確率分布  q(x) は真の確率分布  p(x) により近くなることが期待できます。しかし、そもそも真の確率分布  p(x) は未知なので平均大数尤度は直接計算できません。ここで注目すべき点はデータ  x_1,x_2,\cdots, x_n は真の確率分布  p(x) に従って得られているということです。つまり、データは確率変数の実現値であり、その確率変数は真の確率分布  p(x) に従います。このことから、データがたくさん得られたときには大数の法則が利用できて

f:id:ogyahogya:20141124164534p:plain

となります。そこで、カルバック・ライブラー情報量  D(p||q) を小さくするためには

f:id:ogyahogya:20141124164803p:plain

を最大にすれば良いことが分かります。最尤推定はパラメータ付きの対数尤度

f:id:ogyahogya:20141124171631p:plain

を最大にするパラメータ  \theta=\hat{\theta} のことで、 q(x|\hat{\theta}) p(x)最尤推定と言います。つまり、最尤推定\hat{\theta}

f:id:ogyahogya:20141124172431p:plain

を満たす \theta のことです。

データ数が十分に多いとき最尤推定法はある意味で最適な推定法になっていることを示せます。このことはまた今度詳しい説明を書くつもりです。

●連続確率変数のエントロピーとカルバック・ライブラー情報量

 今までの議論は確率変数が離散値を取る場合を考えていましたが、確率変数が連続値を取る場合に対してもエントロピーやカルバックライブラー情報量が次のように定義されます。

f:id:ogyahogya:20141211180348p:plain

離散値の時と同様にカルバックライブラー情報量の定義式から最尤推定法の考え方が出てきます。

確率変数が連続値をとるとき変分法を使うと、ある制約条件の下でエントロピーを最大化するような確率密度関数を求めることができます。例えば、平均と分散が一定のもとでエントロピーが最大になる分布はガウス分布であることを示すことができます。変分法については今後詳しく説明するつもりです。

●参考文献

 記事を書くときに参考にした文献です。

(1) 情報理論をしっかり勉強するならこれ

Elements of Information Theory (Wiley Series in Telecommunications and Signal Processing)

Elements of Information Theory (Wiley Series in Telecommunications and Signal Processing)

 

 (2) カルバックライブラー情報量と最尤推定のつながりのところを参考にした

 

経済物理学

経済物理学

 

●予告

大偏差原理について詳しく説明します。