読者です 読者をやめる 読者になる 読者になる

初級Mathマニアの寝言

数学は色々なところで応用可能であり、多くの人が数学の抽象的な概念の意味や意義を鮮明に知ることができれば今まで以上に面白い物や仕組みが生まれるかもしれません。このブログは数学を専門にしない人のために抽象的な概念の意味や意義を分かりやすく説明することを目的としています。数学を使って何かしたい人のお役に立てたら幸いです。

線形システムと制御

制御理論

制御の目的は対象とするシステムに適切な入力を加えて所望の出力を実現することです。

f:id:ogyahogya:20150916161133p:plain

この記事では制御を実行する手順と、システムの最も重要な数学モデルである線形システムについて説明します。

●制御の手順

制御するときに考える入力や出力は一つだけとは限らず、複数ある場合が多いです。例えば、車の運転は次の図のように入力数3で出力数2だと考えられます。

f:id:ogyahogya:20151003151459p:plain

制御を行う手順は次のようになります。

f:id:ogyahogya:20151003152007p:plain

まず、モデリングは対象とするシステムの数学モデルを立てることを意味しています。数学モデルは物理法則や実験から得られたデータで作られます。次に制御器の設計は対象とするシステムを制御するための入力を設計することを意味しています。これはモデリングによって得られた数学モデルを使って行われます。数学モデルが非常に複雑だと制御器を作れないことがあり、その場合はモデリングをやり直します。制御器が設計できたら、シミュレーションをしてその制御器で対象とするシステムがきちんと制御できてるか確認します。これがダメなら制御器の設計やモデリングをやり直します。シミュレーションで上手くいったら制御器を実装します。シミュレーションの段階では、すべて数学モデルを使っているため上手くいったが、現実の対象システムと数学モデルのギャップが大きすぎて上手くいかないことがあります。その場合には対象システムと数学モデルのギャップを縮めるためにモデリングからやり直します。制御器を実装して目標通り動いたら完成です。

車の運転の例では人は脳内に車のモデルを立ててると考えることができます(数学モデルではないと思いますが)。制御器は人の脳で、何度も運転をすることによって立派な制御器が得られます。運転免許証は車を運転するための制御器が脳内にできた証だと考えられます。

モデリングの例

制御のための入力を設計するためには数学モデルがあったら便利です。モデリングは物理法則や入出力データを利用します。例えば、次のマス・バネ・ダンパー系を考えましょう。

f:id:ogyahogya:20151003155410p:plain

 上のマス・バネ・ダンパー系はニュートン運動方程式を表していて2階の微分方程式となっています。

制御工学では1階の微分方程式で表されるシステムを対象システムとすることが多く、1階の微分方程式でシステムを表現できたら制御工学の多くの成果が利用できます。上のマス・バネ・ダンパー系を1階の微分方程式へ変換することは容易です。実際に次のように変換できます。

 

f:id:ogyahogya:20151003160237p:plain

 x_1, x_2という新しい変数が出てきていますが、これを状態と呼びます。上の微分方程式系は状態方程式と言われているものです。次にこれを説明します。

●システムの状態方程式表現

システムの数学的な表現の一つに状態方程式表現と言われているものがあります。これは1960年頃にKalmanによって導入された表現で、現在では制御理論の研究分野で最もよく利用されている表現となっています。システムの状態方程式表現は次のような方程式系のことです。

f:id:ogyahogya:20150916170552p:plain

システムが上の状態方程式で表されるとき、そのシステムは線形システムであると言います。線形というのは変数 x, u, yについて線形だからです。

線形システムは非常に重要です。なぜなら多くのシステムが線形システムで近似できるからです。例えば、次のような線形システムは平衡点まわりでは線形システムで近似できます。

f:id:ogyahogya:20151003162712p:plain

 

また、微分方程式系も線形システムとして近似できます。例えば、次のようにできます。

f:id:ogyahogya:20151003162946p:plain

f:id:ogyahogya:20151003163053p:plain

 

f:id:ogyahogya:20151003163216p:plain

●線形システムの制御

 線形システムを制御することを考えます。ここでは簡単のために  y=x の場合を考えます。まず、状態方程式の解を調べてどのような制御が必要になるか考えてみましょう。状態方程式の解は次のようになります。

f:id:ogyahogya:20151003165719p:plain

ここで、次のように何も入力を加えないとすると解は

f:id:ogyahogya:20151003165916p:plain

となります。よって、

f:id:ogyahogya:20151003170039p:plain

となることが分かります。つまり、入力を加えなかったら状態が発散する恐れがあります。これを防ぐために

f:id:ogyahogya:20151003172041p:plain

という設計問題を考えるのは自然です。ただし、 0は目標状態とします。これは次のようなフィードバックを利用することで実現されることがあります。

f:id:ogyahogya:20151003172207p:plain

次のように定数行列として与えられた制御器が最も簡単なものです。

f:id:ogyahogya:20151003172334p:plain

これは入力を

f:id:ogyahogya:20151003172545p:plain

としたことに相当します。このとき

f:id:ogyahogya:20151003172347p:plain

 となります。よって

f:id:ogyahogya:20151003172506p:plain

となります。このような  Kは線形行列不等式(LMI)

f:id:ogyahogya:20151003173059p:plain

 の解  (X,Y) を用いて

f:id:ogyahogya:20151003173121p:plain

と与えることができることが知られています。

上のようなLMI制約を満たす変数の集合は凸集合となります。制御工学の分野では上のようなLMI制約のもとで、ある凸関数で表された評価関数を最小化(最大化)して制御器を設計せよという研究が盛んに行われていた時期がありました。この問題は凸最適化問題となるため、最適化理論の分野でよく研究された成果を利用することができます。しかし、線形システム以外のシステムに対しては制御器の設計問題を凸最適化問題へ帰着させることは困難です。つまり、対象システムを線形システムとしてモデリングしなかったら制御器の設計は非常に難しくなります。対象システムを線形システムとしてモデリングすることは制御器の設計を簡単に行う上でも重要です。

  f:id:ogyahogya:20151003163739p:plain

●参考文献

 (1) タイトルの通り制御工学の考え方が分かりやすく書いています。

制御工学の考え方―産業革命は「制御」からはじまった (ブルーバックス)

制御工学の考え方―産業革命は「制御」からはじまった (ブルーバックス)

 

(2) 線形システムの制御器の設計が凸最適化問題に帰着することが分かりやすく書いています。

LMIによるシステム制御 - ロバスト制御系設計のための体系的アプローチ

LMIによるシステム制御 - ロバスト制御系設計のための体系的アプローチ

 

 

クラメール・ラオの不等式

確率とか

前の記事でフィッシャー情報行列という確率分布の作る空間にリーマン多様体の構造を定める行列を紹介しました。今回はフィッシャー情報行列とクラメール・ラオの不等式の関係を説明します。

●不偏推定量

未知のパラメータを何らかの方法で推定すると真の値と推定値の間には誤差が生じます。クラメール・ラオの不等式は推定値が不偏推定量となる任意の推定法を使ってもこれより誤差の分散が小さくできないという理論的限界を示している不等式です。この記事ではその不等式を導出します。

ここでは推定したいパラメータが確率的に変動するものとして議論します。パラメータが確率的に変動するということは、数学的にはパラメータが確率変数であるということです。確率変数であるパラメータの値を何らかの観測値から推定するということは気持ちとしては次の図のようになり、パラメータが確率変数であることから観測値、推定値、推定誤差がすべて確率変数になります。

f:id:ogyahogya:20150416181718p:plain

上の図を見て予想できるように推定値  \hat{x} を作る観測値  y の関数  f がめちゃくちゃだと推定誤差  e が大きくなっていします。そこで、この記事では  \hat{x} が次の不偏推定量という性質を持つ  f に限定し議論します。

f:id:ogyahogya:20150418142654p:plain

●フィッシャー情報行列

クラメール・ラオの不等式は前の記事で定義したフィッシャー情報行列と関係しています。その記事の中ではパラメータは確定的なものとして扱っていました。ここでは、パラメータは確率的なものとして扱うので結果としてフィッシャー情報行列の定義も次のように少し変更が必要です。

f:id:ogyahogya:20150417103601p:plain

●クラメール・ラオの不等式

クラメール・ラオの不等式は次のように誤差の共分散行列とフィーシャー情報行列の関係を表した不等式です。

f:id:ogyahogya:20150417104646p:plain

 上の不等式は次の等式を利用して証明できます(正確には微分積分の順序交換を保証する条件を付ける必要あり)。

f:id:ogyahogya:20150418144032p:plain

f:id:ogyahogya:20150418145727p:plain

f:id:ogyahogya:20150418145830p:plain

クラメール・ラオの不等式は一般には不等式といいながら行列の半正定値性を意味していることに注意しましょう。不等式というと、実数や整数の集合の中の要素の順序関係を言っていると思うかもしれませんが、実は半順序集合と呼ばれる集合の中には自然に不等式(順序)の関係を導入することができます。例えば、いくつかの集合を要素とする集合は集合の包含関係で順序関係を論じることができます。また、半正定値対称行列の集合の中にも任意の二つの要素の順序関係を二つの要素の差の半正定値性によって定義できます。このように考えるとクラメール・ラオの不等式を  E_{y|x}(ee^T) \geq G^{-1}(x) と書いても意味がよく分かります。

もっと明示的にクラメール・ラオの不等式が誤差の共分散行列とフィーシャー情報行列の関係を表した不等式になっていることが次のように分かります。

f:id:ogyahogya:20150418150816p:plain

特に、 x\in {\bf R}、つまり推定したいパラメータが一つであるときにはクラメール・ラオの不等式は通常の実数の世界の順序関係の意味で次のように書けます。

f:id:ogyahogya:20150418152202p:plain

●参考文献

 クラメール・ラオの不等式の証明を参考にしました。

非線形カルマンフィルタ

非線形カルマンフィルタ

 

 ●予告

クラメール・ラオの不等式と前の記事の中で簡単に説明した最尤推定の関係について詳しく説明します。

情報幾何学1: 確率分布とリーマン多様体

確率とか

今回は確率分布が作る幾何学について説明します。

●フィッシャー情報行列とリーマン多様体

まずは、前の記事で説明したような応用上よく出てくるガウス分布幾何学的に次のように理解できることに注意しましょう(多様体についてはこちら)。

f:id:ogyahogya:20150413141237p:plain

上の例のようにパラメータの組を一つ定めると確率密度関数を定めることができます。このことを一般化して次の確率分布の族である統計モデルと確率分布を特定するパラメータの集合である多様体を同一視できます(厳密には統計モデルにいくつかの条件を付ける必要がありますが、応用上気にしなくて良いことが多いです)。 f:id:ogyahogya:20150414171034p:plain

確率分布が作る幾何学を考えるときに重要なフィッシャー情報行列はつぎのように定義されます。

f:id:ogyahogya:20150413152752p:plain

フィッシャー情報行列は定義から対称行列であることが分かります。さらに、フィッシャー情報行列  G(\xi) が任意の  \xi\in \Xi について正定値対称行列であれば、多様体  \Xi G(\xi)に対応するリーマン計量を導入することでリーマン多様体となります。このフィッシャー情報行列に対応するリーマン計量をフィッシャー計量と呼びます。よって、パラメトライズされた確率分布の族が与えられたらフィッシャー計量を導入することでパラメータたちの距離を測ったりするなどの幾何学的な議論ができるようになります。具体的には、次のように近くのパラメータの距離を定義することができます。

f:id:ogyahogya:20150414175132p:plain

●フィッシャー情報行列の具体的な計算

フィッシャー情報行列を定義通り計算すると計算量が多くなることがよくあります。計算量を減らすために次の公式を利用できます。

f:id:ogyahogya:20150414111738p:plain例えば、ガウス分布のフィッシャー情報行列を計算してみましょう。

f:id:ogyahogya:20150414153211p:plain

 上の例では、フィッシャー情報行列を使って次のことも言えます。

f:id:ogyahogya:20150414182155p:plain

●参考文献

 情報幾何学の創始者である甘利俊一先生の英語の本を参考にして記事を書きました。

Methods of Information Geometry (Tanslations of Mathematical Monographs)

Methods of Information Geometry (Tanslations of Mathematical Monographs)

 

●予告

今回紹介したフィッシャー情報行列は統計学の方でも非常に重要なクラメール・ラオの不等式と密接な関係があります。クラメール・ラオの不等式は推定値の誤差をどれだけ減らせるかの限界を示した不等式です。次回は情報幾何学から脱線してフィッシャー情報行列とクラメール・ラオの不等式の関係について詳しく説明します。

リーマン多様体

多様体とか

これから何回かに渡って情報幾何学について説明していきます。情報幾何学をきちんと理解するためにはリーマン多様体という概念を知る必要があります。リーマン多様体とは簡単に言うと多様体の各点に内積が導入された集合のことです。多様体のことを知らない人のために、まずは多様体から説明しましょう。その後に接空間2つの多様体間の写像微分余接空間と1次微分形式2次テンソルの概念を説明して最後にリーマン多様体を定義したいと思います。

ユークリッド空間と2次元球面の違い

多様体を理解するために、まずよく知られているユークリッド空間について復習しましょう。ユークリッド空間は次の図のように一つの座標系で空間のすべての点を表示することができます。

 

f:id:ogyahogya:20150127095103p:plain

また、ユークリッド空間はベクトル空間の一例なので、空間の任意の2点を足せて、足しても同じ空間に入っています

 次に、球面について考えてみましょう。

f:id:ogyahogya:20150127095515p:plain

球面上に座標を描こうとしても原点以外で再び交わったりしてしまいます。つまり、一つの座標系で空間のすべての点を表示できません。また、2次元球面は3次元ユークリッド空間の部分集合と思えば2次元球面の任意の2つの点を足すということを考えることができますが、 2次元球面の任意の2点を足した結果が2次元球面からはみ出ます。つまり、足すと同じ空間に入っていることを保証できません

多様体

多様体は上の2次元球面の特徴を抽象化した概念です。次がその定義です。

f:id:ogyahogya:20150127103858p:plain

定義が言ってることを図示するとこんな感じです。

f:id:ogyahogya:20150127153539p:plain

多様体の定義をきちんと理解するためには位相空間論の知識が必要です。興味のある方は位相空間に関する本を参照してみてください。位相空間論についてはこんど詳しく書くつもりです。ここではユークリッド空間の任意の部分集合はハウスドルフ空間になるという事実を認めてください。

すると、次のように  m 次元ユークリッド空間  {\bf R}^m m 次元多様体になっていることが分かります。

f:id:ogyahogya:20150127110708p:plain

また、  m 次元球面  {\bf S^m} m次元多様体になっていることが確認できます。立体射影が気になる人はググってみてください。

f:id:ogyahogya:20150127145930p:plain

このように  m 次元球面  {\bf S^m}ユークリッド空間と異なり、任意の点を座標表示するためには少なくとも2つの座標系が必要になりそうです。

多様体に関する注意

多様体にはベクトル空間と違って和やスカラー倍が定義されていないことに注意してください。上で述べたように、2次元球面は3次元ユークリッド空間の部分集合と考えると、ユークリッド空間には和が定義されているので2次元球面上の点に関しても和の計算ができますが、再び2次元球面の点になる保証はないのです。したがって、ユークリッド空間に含まれていることを忘れて、 S^m 上の二つの点を足そうとするのは意味をなしません。

多様体にさらに群の構造が入ると多様体の任意の二つの要素間で群の演算ができるようになります。このような多様体+群の集合をリー群と言います。リー群の例としては可逆な行列全体の集合や直交行列の全体の集合などがあります。リー群についてはこんど詳しく説明する予定です。

多様体上の関数

多様体上の各点から実数への写像を次のように考えることができます。

f:id:ogyahogya:20150128091713p:plain

これは次のように考えようという提案です。

f:id:ogyahogya:20150128091755p:plain

 

●接空間

 次のような微分作用素を考えましょう。

f:id:ogyahogya:20150128143028p:plain

 ここで、次のような疑問が生じます。

f:id:ogyahogya:20150128143252p:plain

 この疑問に答えるために次のように方向微分の概念を導入します。

f:id:ogyahogya:20150128161915p:plain

すると、次のことが証明できます。

f:id:ogyahogya:20150128162459p:plain

さらに、次のことが証明できます。

f:id:ogyahogya:20150128163035p:plain

よって、  D_p M の部分集合である接空間というものが次のように定義できて  m 次元ベクトル空間となることが分かります。

f:id:ogyahogya:20150128163823p:plain

接空間自体はベクトル空間なので接空間上で和やスカラー倍の計算ができて、計算結果は再び同じ接空間上の点になります。

接空間は名前の通り多様体に接しているイメージのはずです。このことをイメージできるようになるために、次に曲線の速度ベクトルという概念を考えましょう。

●速度ベクトル

 多様体上の点  p を通る曲線を考えましょう。

f:id:ogyahogya:20150131122432p:plain

上の曲線から定められる次のような写像を定義しましょう。

f:id:ogyahogya:20150201131835p:plain

次のことが成り立ちます。

f:id:ogyahogya:20150201131953p:plain

このことから次のように  \left(\frac{\partial}{\partial x_i}\right)_p に関する幾何学的なイメージを持つことができるようになります。

f:id:ogyahogya:20150131125752p:plain

よって、接空間は次のように多様体に接した空間のイメージになります。

f:id:ogyahogya:20150131130001p:plain

●二つの多様体間の写像微分

次のように二つの多様体とその間の写像  f が与えられたときの  f微分を定義しましょう。

f:id:ogyahogya:20150131131617p:plain

曲線  c を導入すると次のように  f c の合成写像を定義できます。

f:id:ogyahogya:20150131140620p:plain

このとき、次の関係を調べましょう。

 

f:id:ogyahogya:20150131144940p:plain

 p\in M と 点  q\in N のまわりに局所座標系を導入すると次のような関係が得られます。

f:id:ogyahogya:20150131145107p:plain

よって、曲線  c f\circ c t=0 における速度ベクトルの関係は次のJacobi行列によって特徴付けられます。

f:id:ogyahogya:20150131151227p:plain

Jacobi行列は局所座標系を定めると決定する行列です。このJacobi行列を局所座標系に依存しない写像  T_p M\rightarrow T_q N の局所座標表示としてとらえるために次のことに注意しましょう。

f:id:ogyahogya:20150131150413p:plain

 上のことより次のように局所座標に依存しない  f:M\rightarrow N微分写像を定義できます。

f:id:ogyahogya:20150131152036p:plain

●余接空間と1次微分形式

 余接空間とは接空間の双対空間のことです。双対空間は次のように定義されるベクトル空間です。

f:id:ogyahogya:20150131155016p:plain

双対空間の基底はもともとのベクトル空間の基底が定まると定まります。

f:id:ogyahogya:20150131155121p:plain

次のように余接空間と1次微分形式は定義されます。

f:id:ogyahogya:20150201132237p:plain

多様体から実数への写像が与えられると1次微分形式が定義できます。

f:id:ogyahogya:20150131160841p:plain

上の1次微分形式  df は次の性質を持ちます。

f:id:ogyahogya:20150131161947p:plain

上の結果から余接空間の双対基底が次のように求まります。

f:id:ogyahogya:20150131162934p:plain

●2次テンソル

 もう少しでリーマン多様体が定義できます。そのためにあと少しだけ準備します。

f:id:ogyahogya:20150131171146p:plain

任意の2次形式は次のように表示ができます。

f:id:ogyahogya:20150131172637p:plain

2次テンソル場というものは次のように定義されます。

f:id:ogyahogya:20150131173704p:plain

2次テンソル場には対称性という概念を与えることができます。

f:id:ogyahogya:20150131173806p:plain

●リーマン多様体

ようやくリーマン多様体を定義する準備が整いました。以下がリーマン多様体の定義です。

f:id:ogyahogya:20150131174615p:plain

局所座標系を導入するとリーマン計量は次のように具体的に表示することができます。

f:id:ogyahogya:20150201152644p:plain

 

上の表示式を眺めるともっと簡単に次のように表示できることが分かります。

f:id:ogyahogya:20150201152836p:plain

 要するに次の対応関係があることが分かりました。

f:id:ogyahogya:20150201152659p:plain

したがって、正定値対称行列が与えられたら多様体にリーマン計量を導入することができてリーマン多様体を構成できます。情報幾何学で重要なリーマン計量はFisher計量と呼ばれるものです。これについては次回詳しく説明します。

●参考文献

 今回説明したことは基本的には次の本に全部書いてます。

多様体の基礎 (基礎数学5)

多様体の基礎 (基礎数学5)

 

●予告

確率分布とリーマン多様体の関係について説明します。

 

大偏差原理

確率とか

前の記事で平均から大きく離れたところの生起確率の簡単な評価を与えました。今回はその評価をさらに精密にして、数理的な構造をもっと詳しく見たいと思います。前の記事で次の評価を与えました。

f:id:ogyahogya:20150125114343p:plain

上の  M(\theta) は確率変数  X_1積率母関数 \ln M(\theta) は確率変数  X_1キュムラント母関数 (物理では自由エネルギー) と呼ばれています。上の指数関数の中の  \sup_{\theta\geq 0} (\theta x - \ln M(\theta))  \theta\geq 0 のもとで  \theta x -\ln M(\theta) の上限を意味しています。これを改造することで  P(\sum_{i=1}^n X_i \geq nx) の上界だけでなく下界も与えることができます。それがクラメールの定理です。

●レート関数

まず、上の評価式の中にある  \sup_{\theta\geq 0} (\theta x - \ln M(\theta))  \theta\geq 0 という制約を外した

f:id:ogyahogya:20150125124620p:plain

を考えましょう。この  I(x)レート関数と呼ばれています。こちらの記事で説明している理由で、 レート関数  I(x) はキュムラント母関数をルジャンドル変換したものであり、凸関数となっています。次のようにレート関数は平均値で最小値0となります。

f:id:ogyahogya:20150125134721p:plain

●大偏差原理

次の定理はクラメールの定理と呼ばれる大偏差原理です。

f:id:ogyahogya:20150125142308p:plain

上の  \theta^* の存在の仮定は  M(\theta) \theta^*微分可能であることを保証するためにあります。この定理によって、平均から大きく離れたところの生起確率がレート関数  I(x) によって特徴付けられることが分かりました。証明に興味のある方は詳しくは参考文献を読んでいただくことにしますが、ポイントは次の通りです。

f:id:ogyahogya:20150125141742p:plain

要するに以前説明した中心極限定理を平均から大きく離れたところで適用できるように確率分布関数を改造するのです(平均から大きく離れたところの生起確率は単純に中心極限定理を適用しても見積れない。詳しくはこちら)。これは確率測度を変換していることを意味します。確率分布関数と確率測度の関係についてはこちらをご覧ください。

●レート関数とカルバックライブラー情報量

レート関数は前の記事で説明したカルバックライブラー情報量と次のように結びつきます。

f:id:ogyahogya:20150125143312p:plain

もっと一般的な状況でレート関数とカルバックライブラー情報量の関係がありますが、興味のある方は参考文献を参照してください。

●参考文献

記事を書くときに参考にした文献です。

(1)大偏差原理の証明を参考にしました。

Large Deviations For Performance Analysis: QUEUES, Communication and Computing (Stochastic Modeling Series)

Large Deviations For Performance Analysis: QUEUES, Communication and Computing (Stochastic Modeling Series)

 

(2)凸関数やルジャンドル変換について詳しい説明が書いてます。 

Convex Optimization

Convex Optimization

 

 

(3) 大偏差原理のもっと深いことが書いてます。 

Large Deviations Techniques and Applications (Stochastic Modelling and Applied Probability)

Large Deviations Techniques and Applications (Stochastic Modelling and Applied Probability)

 

●予告

今回名前だけ出して説明しなかった凸関数やルジャンドル変換は情報を幾何学的に研究する学問の中でも重要な役割を果たします。次回からはしばらく情報幾何学について説明していきたいと思います。

エントロピー、カルバック・ライブラー情報量、最尤推定法

確率とか

前回簡単に説明した大偏差原理エントロピーの概念を使って詳しく説明するために、今回はエントロピーについて説明します。また、カルバック・ライブラー情報量、最尤推定法などについても説明します。

エントロピー

有限個の事象エントロピーは次のように定義されます。

f:id:ogyahogya:20141120110644p:plain

これは確率変数のエントロピーへ次のように一般化されます。

f:id:ogyahogya:20141120110756p:plain

エントロピーは平均情報量ともみなせます。

f:id:ogyahogya:20141120110920p:plain

●カルバック・ライブラー情報量(相対エントロピー

データはある確率分布に従う確率変数の実現値であると考えられることが多いです。しかし、その確率分布の形が分からないことがあり、得られたデータから真の確率分布を推定する必要がよくあります。推定した確率分布が真の確率分布にどれくらい近いかを表す尺度として次のカルバック・ライブラー情報量(相対エントロピー)というものがあります。

f:id:ogyahogya:20141123203334p:plain

カルバック・ライブラー情報量の重要な性質として次の非負性があります。

f:id:ogyahogya:20141124173856p:plain

カルバック・ライブラー情報量とエントロピーは次の関係があります。

f:id:ogyahogya:20141124151133p:plain

よって、

f:id:ogyahogya:20141124151332p:plain

となり、確率変数が一様分布に従うときにエントロピーは最大になることが分かります。

最尤推定

確率分布  p(x) に従ってデータが生成されたとしましょう。しかし、 p(x) は我々には分からないとして、 p(x) を推定する必要があるとします。上で述べたことより、 p(x) の推定にカルバック・ライブラー情報量が利用できそうです。カルバック・ライブラー情報量の定義から

f:id:ogyahogya:20141124161304p:plain

ということが分かります。 D(p||q)=0 のときに  p(x)=q(x) がすべての点  x で成り立ちますので

f:id:ogyahogya:20141124161709p:plain

を最大にすれば推定した確率分布  q(x) は真の確率分布  p(x) により近くなることが期待できます。しかし、そもそも真の確率分布  p(x) は未知なので平均大数尤度は直接計算できません。ここで注目すべき点はデータ  x_1,x_2,\cdots, x_n は真の確率分布  p(x) に従って得られているということです。つまり、データは確率変数の実現値であり、その確率変数は真の確率分布  p(x) に従います。このことから、データがたくさん得られたときには大数の法則が利用できて

f:id:ogyahogya:20141124164534p:plain

となります。そこで、カルバック・ライブラー情報量  D(p||q) を小さくするためには

f:id:ogyahogya:20141124164803p:plain

を最大にすれば良いことが分かります。最尤推定はパラメータ付きの対数尤度

f:id:ogyahogya:20141124171631p:plain

を最大にするパラメータ  \theta=\hat{\theta} のことで、 q(x|\hat{\theta}) p(x)最尤推定と言います。つまり、最尤推定\hat{\theta}

f:id:ogyahogya:20141124172431p:plain

を満たす \theta のことです。

データ数が十分に多いとき最尤推定法はある意味で最適な推定法になっていることを示せます。このことはまた今度詳しい説明を書くつもりです。

●連続確率変数のエントロピーとカルバック・ライブラー情報量

 今までの議論は確率変数が離散値を取る場合を考えていましたが、確率変数が連続値を取る場合に対してもエントロピーやカルバックライブラー情報量が次のように定義されます。

f:id:ogyahogya:20141211180348p:plain

離散値の時と同様にカルバックライブラー情報量の定義式から最尤推定法の考え方が出てきます。

確率変数が連続値をとるとき変分法を使うと、ある制約条件の下でエントロピーを最大化するような確率密度関数を求めることができます。例えば、平均と分散が一定のもとでエントロピーが最大になる分布はガウス分布であることを示すことができます。変分法については今後詳しく説明するつもりです。

●参考文献

 記事を書くときに参考にした文献です。

(1) 情報理論をしっかり勉強するならこれ

Elements of Information Theory (Wiley Series in Telecommunications and Signal Processing)

Elements of Information Theory (Wiley Series in Telecommunications and Signal Processing)

 

 (2) カルバックライブラー情報量と最尤推定のつながりのところを参考にした

 

経済物理学

経済物理学

 

●予告

大偏差原理について詳しく説明します。

平均から大きく離れたところの生起確率

確率とか

前の記事では中心極限定理について説明しました。中心極限定理の主張は次のようにも解釈できます。 

f:id:ogyahogya:20141119174239p:plain

しかし、中心極限定理だけでは次のような疑問が生じます。

f:id:ogyahogya:20141119184537p:plain

図で気持ちを書くとこんな感じです。

f:id:ogyahogya:20141119171319p:plain

平均と同じオーダーの偏差が生じる確率を0と答えるのではなく数式で答えるのが大偏差原理です。つまり、 n と大偏差の生起確率の関係を教えてくれます。この記事では簡単な不等式を使って大偏差を調べる方法を述べて、難しい議論は次回以降にすることにします。

●チェビシェフの不等式

チェビシェフの不等式から大偏差に関する単純な解答が得られます。ここで、チェビシェフの不等式とは

f:id:ogyahogya:20141115185638p:plain

のことです。実際にチェビシェフの不等式から大偏差に関する情報が得られることが次のように分かります。

f:id:ogyahogya:20141115190253p:plain

よって、チェビシェフの不等式より平均からの  O(n) の偏差が生じる確率が  O(n^{-1}) であることが分かります。しかし、次のマルコフ不等式を利用してみるとこの評価はひどく悪いことが分かります。

●マルコフ不等式

マルコフ不等式からも大偏差に関する解答が得られます。ここで、マルコフ不等式とは

f:id:ogyahogya:20141115175552p:plain

のことです。実際にマルコフ不等式から大偏差に関する情報が得られることが次のように分かります。

f:id:ogyahogya:20141115184137p:plain

マルコフ不等式を利用するとチェビシェフの不等式の時とは異なり平均からの  O(n) の偏差が生じる確率が指数関数によって評価されています。

●クラメールの定理

マルコフ不等式からの帰結を精密にした結果がクラメールの定理と言われるものです。クラメールの定理が主張する大偏差に関する評価は情報理論エントロピーの概念と密接に関係しているので、次回の記事でエントロピーを紹介した後にクラメールの定理を紹介したいと思います。

●参考文献

 エントロピーと大偏差の関係が書いてる。

Large Deviations Techniques and Applications (Applications of Mathematics)

Large Deviations Techniques and Applications (Applications of Mathematics)

 

●予告

 情報理論エントロピーの概念を説明します。