初級Mathマニアの寝言

数学は色々なところで応用可能であり、多くの人が数学の抽象的な概念の意味や意義を鮮明に知ることができれば今まで以上に面白い物や仕組みが生まれるかもしれません。このブログは数学を専門にしない人のために抽象的な概念の意味や意義を分かりやすく説明することを目的としています。数学を使って何かしたい人のお役に立てたら幸いです。

可制御性・可観測性

前の記事で説明した線形システムの制御を考えるにあたって重要な可制御性可観測性の概念について説明します。以下の記事

では、可制御可観測なシステム全体の集合の性質について解説しており、この記事の続編のような記事となっています。

 

●線形代数の復習(ケーリー・ハミルトンの定理と不変部分空間)

システムの可制御性や可観測性の性質を調べるためには線形代数の知識が少し必要です。特にケーリー・ハミルトンの定理や不変部分空間の概念を知っていると理解が深まりますので、まずはそれらから説明します。

 ケーリー・ハミルトンの定理は固有多項式に関する定理です。固有多項式とは何かというと、 n\times n 行列  A が与えられた時に定義される  f_A(s):= \det (s I_n -A) のことです。 \lambda A の固有値になることと f_A(\lambda)=0 が成り立つことは等価です。次の定理がケーリー・ハミルトンの定理です。 f:id:ogyahogya:20151018121220p:plain

これから次のことが分かります。

f:id:ogyahogya:20151018121314p:plain

不変部分空間は次の性質を満たすベクトル空間のことです。

f:id:ogyahogya:20151018122712p:plain

不変部分空間についてより詳しくは、以下の記事を参考にしてください。

●可制御性

線形システムの可制御性は次のように定義されます。

f:id:ogyahogya:20151018123247p:plain

直感的には次の図のように、任意の点からスタートして原点に到達させることができる入力が設計できるときに可制御、そんな入力をどんなにがんばっても設計できないときに可制御でないということになります。

f:id:ogyahogya:20151018123735p:plain

可制御性の定義をもう少し数学的に書くと次のようになります。

f:id:ogyahogya:20151018124122p:plain

上の  \mathcal{X}_c はベクトル空間であり、さらに  A 不変部分空間であることが確認できます(詳細は後で書きます)。上の定義より、もしも   \dim \mathcal{X}_cが状態空間の次元より小さいなら可制御でないということになります。しかし、定義より  \mathcal{X}_c の中の任意の状態は原点へ移すことができます。つまり, 状態空間を  \mathcal{X}_c に限定すれば可制御だと考えられるわけです。実際に、次のように元の状態空間  {\bf R}^n を可制御な状態空間と不可制御な状態空間に直和分解できます。

f:id:ogyahogya:20151018124341p:plain

 \mathcal{X}_c A 不変部分空間であることは後で証明します。

●可観測性

 線形システムの可観測性は次のように定義されます。

f:id:ogyahogya:20151018132924p:plain

 これを数学的に書くと次のようになります。

f:id:ogyahogya:20151018133105p:plain

上の  \mathcal{X}_{\bar{o}} はベクトル空間であり、さらに  A 不変部分空間であることが確認できます(詳細は後で書きます)。上の定義より、もしも   \dim \mathcal{X}_{\bar o}が0より大きいと入出力データから初期状態  x_0 と区別できない状態が存在することになります。状態空間  {\bf R}^n は次のように可観測な状態空間と不可観測な状態空間に直和分解できます。

f:id:ogyahogya:20151018133429p:plain

 \mathcal{X}_{\bar{o}} A 不変部分空間であることは後で証明します。

●Kalmanの正準分解形

上の議論から状態空間  {\bf R}^n は次のように分解できます。

f:id:ogyahogya:20151018133654p:plain

 これより線形システムは次のように分解できます。

f:id:ogyahogya:20151018134151p:plain

上のように分解された形の線形システムをKalmanの正準分解形と呼びます。このように分解できることも後で証明します。

 \mathcal{X}_c A 不変部分空間であることの証明

これを示すには

f:id:ogyahogya:20151018134658p:plain

を示せば良いです。なぜなら次のように  {\rm Im}\, M_c A 不変部分空間だからです。

f:id:ogyahogya:20151018135453p:plain

では、 \mathcal{X}_c={\rm Im}\, M_c を証明しましょう。

まず、 \mathcal{X}_c\subset {\rm Im}\, M_c を示します。

f:id:ogyahogya:20151018135820p:plain

次に、 \mathcal{X}_c\supset {\rm Im}\, M_c を示します。これを示すために

f:id:ogyahogya:20151018141009p:plain

という関係を利用します。上の  W_c(t)可制御性グラミアンと呼ばれています。今、次の関係が常に成り立つことに注意しましょう。

f:id:ogyahogya:20151018151650p:plain

よって、

f:id:ogyahogya:20151018151720p:plain

が成り立ちます。また、

f:id:ogyahogya:20151018151904p:plain

 が成り立ちますので、

f:id:ogyahogya:20151018152016p:plain

ということも言えます。よって、

f:id:ogyahogya:20151018152157p:plain

が成り立つことが分かり,  \mathcal{X}_c\supset {\rm Im}\, M_c も示されました。

 \mathcal{X}_{\bar{o}} A 不変部分空間であることの証明

ケーリー・ハミルトンの定理より

f:id:ogyahogya:20151018153141p:plain

と書けることを利用すると、

f:id:ogyahogya:20151018153329p:plain

が成り立つことが分かります。可制御性の時と同様の議論で  {\rm Ker}\, M_o A 不変部分空間であることを証明できるので主張が成り立ちます。

●Kalmanの正準分解形の証明

次のようにベクトル空間を定義します。

f:id:ogyahogya:20151018155852p:plain

定義から

f:id:ogyahogya:20151018155909p:plain

となります。次のように基底と行列を定義します。

f:id:ogyahogya:20151018155923p:plain

すると、 \mathcal{X}^1 A 不変部分空間であることから

f:id:ogyahogya:20151018160010p:plain

ということが成り立ちます。 \mathcal{X}^2,\,\mathcal{X}^3,\, \mathcal{X}^4 に対しても同様の議論を繰り返し, 行列  B,  C に対しても上の基底のもとでの表示を考えると次のことが成り立つことが分かります。

f:id:ogyahogya:20151018160256p:plain

よって、上の行列  T を用いることでKalmanの正準分解形が得られることが分かります。

●参考文献

 記事を書くにあたって次の本を参考にしました。

現代制御論

現代制御論

 

 

線形システムと制御

制御の目的は対象とするシステムに適切な入力を加えて所望の出力を実現することです。

f:id:ogyahogya:20150916161133p:plain

この記事では制御を実行する手順と、システムの最も重要な数学モデルである線形システムについて説明します。

●制御の手順

制御するときに考える入力や出力は一つだけとは限らず、複数ある場合が多いです。例えば、車の運転は次の図のように入力数3で出力数2だと考えられます。

f:id:ogyahogya:20151003151459p:plain

制御を行う手順は次のようになります。

f:id:ogyahogya:20151003152007p:plain

まず、モデリングは対象とするシステムの数学モデルを立てることを意味しています。数学モデルは物理法則や実験から得られたデータで作られます。次に制御器の設計は対象とするシステムを制御するための入力を設計することを意味しています。これはモデリングによって得られた数学モデルを使って行われます。数学モデルが非常に複雑だと制御器を作れないことがあり、その場合はモデリングをやり直します。制御器が設計できたら、シミュレーションをしてその制御器で対象とするシステムがきちんと制御できてるか確認します。これがダメなら制御器の設計やモデリングをやり直します。シミュレーションで上手くいったら制御器を実装します。シミュレーションの段階では、すべて数学モデルを使っているため上手くいったが、現実の対象システムと数学モデルのギャップが大きすぎて上手くいかないことがあります。その場合には対象システムと数学モデルのギャップを縮めるためにモデリングからやり直します。制御器を実装して目標通り動いたら完成です。

車の運転の例では人は脳内に車のモデルを立ててると考えることができます(数学モデルではないと思いますが)。制御器は人の脳で、何度も運転をすることによって立派な制御器が得られます。運転免許証は車を運転するための制御器が脳内にできた証だと考えられます。

●モデリングの例

制御のための入力を設計するためには数学モデルがあったら便利です。モデリングは物理法則や入出力データを利用します。例えば、次のマス・バネ・ダンパー系を考えましょう。

f:id:ogyahogya:20151003155410p:plain

 上のマス・バネ・ダンパー系はニュートンの運動方程式を表していて2階の微分方程式となっています。

制御工学では1階の微分方程式で表されるシステムを対象システムとすることが多く、1階の微分方程式でシステムを表現できたら制御工学の多くの成果が利用できます。上のマス・バネ・ダンパー系を1階の微分方程式へ変換することは容易です。実際に次のように変換できます。

 

f:id:ogyahogya:20151003160237p:plain

 x_1, x_2という新しい変数が出てきていますが、これを状態と呼びます。上の微分方程式系は状態方程式と言われているものです。次にこれを説明します。

●システムの状態方程式表現

システムの数学的な表現の一つに状態方程式表現と言われているものがあります。これは1960年頃にKalmanによって導入された表現で、現在では制御理論の研究分野で最もよく利用されている表現となっています。システムの状態方程式表現は次のような方程式系のことです。

f:id:ogyahogya:20150916170552p:plain

システムが上の状態方程式で表されるとき、そのシステムは線形システムであると言います。線形というのは変数 x, u, yについて線形だからです。

線形システムは非常に重要です。なぜなら多くのシステムが線形システムで近似できるからです。例えば、次のような線形システムは平衡点まわりでは線形システムで近似できます。

f:id:ogyahogya:20151003162712p:plain

 

また、微分方程式系も線形システムとして近似できます。例えば、次のようにできます。

f:id:ogyahogya:20151003162946p:plain

f:id:ogyahogya:20151003163053p:plain

 

f:id:ogyahogya:20151003163216p:plain

●線形システムの制御

 線形システムを制御することを考えます。ここでは簡単のために  y=x の場合を考えます。まず、状態方程式の解を調べてどのような制御が必要になるか考えてみましょう。状態方程式の解は次のようになります。

f:id:ogyahogya:20151003165719p:plain

ここで、次のように何も入力を加えないとすると解は

f:id:ogyahogya:20151003165916p:plain

となります。よって、

f:id:ogyahogya:20151003170039p:plain

となることが分かります。つまり、入力を加えなかったら状態が発散する恐れがあります。これを防ぐために

f:id:ogyahogya:20151003172041p:plain

という設計問題を考えるのは自然です。ただし、 0は目標状態とします。これは次のようなフィードバックを利用することで実現されることがあります。

f:id:ogyahogya:20151003172207p:plain

次のように定数行列として与えられた制御器が最も簡単なものです。

f:id:ogyahogya:20151003172334p:plain

これは入力を

f:id:ogyahogya:20151003172545p:plain

としたことに相当します。このとき

f:id:ogyahogya:20151003172347p:plain

 となります。よって

f:id:ogyahogya:20151003172506p:plain

となります。このような  Kは線形行列不等式(LMI)

f:id:ogyahogya:20151003173059p:plain

 の解  (X,Y) を用いて

f:id:ogyahogya:20151003173121p:plain

と与えることができることが知られています。

上のようなLMI制約を満たす変数の集合は凸集合となります。制御工学の分野では上のようなLMI制約のもとで、ある凸関数で表された評価関数を最小化(最大化)して制御器を設計せよという研究が盛んに行われていた時期がありました(今でも結構あります)。この問題は凸最適化問題となるため、最適化理論の分野でよく研究された成果を利用することができます。しかし、線形システム以外のシステムに対しては制御器の設計問題を凸最適化問題へ帰着させることは困難です。つまり、対象システムを線形システムとしてモデリングしなかったら制御器の設計は非常に難しくなります。対象システムを線形システムとしてモデリングすることは制御器の設計を簡単に行う上でも重要です。

  f:id:ogyahogya:20151003163739p:plain

●参考文献

 (1) タイトルの通り制御工学の考え方が分かりやすく書いています。

制御工学の考え方―産業革命は「制御」からはじまった (ブルーバックス)

制御工学の考え方―産業革命は「制御」からはじまった (ブルーバックス)

 

(2) 線形システムの制御器の設計が凸最適化問題に帰着することが分かりやすく書いています。

LMIによるシステム制御 - ロバスト制御系設計のための体系的アプローチ

LMIによるシステム制御 - ロバスト制御系設計のための体系的アプローチ

 

 

情報幾何学1: 確率分布とリーマン多様体

今回は確率分布が作る幾何学について説明します。

●フィッシャー情報行列とリーマン多様体

まずは、前の記事で説明したような応用上よく出てくるガウス分布幾何学的に次のように理解できることに注意しましょう(多様体についてはこちら)。

f:id:ogyahogya:20150413141237p:plain

上の例のようにパラメータの組を一つ定めると確率密度関数を定めることができます。このことを一般化して次の確率分布の族である統計モデルと確率分布を特定するパラメータの集合である多様体を同一視できます(厳密には統計モデルにいくつかの条件を付ける必要がありますが、応用上気にしなくて良いことが多いです)。 f:id:ogyahogya:20150414171034p:plain

確率分布が作る幾何学を考えるときに重要なフィッシャー情報行列はつぎのように定義されます。

f:id:ogyahogya:20150413152752p:plain

フィッシャー情報行列は定義から対称行列であることが分かります。さらに、フィッシャー情報行列  G(\xi) が任意の  \xi\in \Xi について正定値対称行列であれば、多様体  \Xi G(\xi)に対応するリーマン計量を導入することでリーマン多様体となります。このフィッシャー情報行列に対応するリーマン計量をフィッシャー計量と呼びます。よって、パラメトライズされた確率分布の族が与えられたらフィッシャー計量を導入することでパラメータたちの距離を測ったりするなどの幾何学的な議論ができるようになります。具体的には、次のように近くのパラメータの距離を定義することができます。

f:id:ogyahogya:20150414175132p:plain

●フィッシャー情報行列の具体的な計算

フィッシャー情報行列を定義通り計算すると計算量が多くなることがよくあります。計算量を減らすために次の公式を利用できます。

f:id:ogyahogya:20150414111738p:plain例えば、ガウス分布のフィッシャー情報行列を計算してみましょう。

f:id:ogyahogya:20150414153211p:plain

 上の例では、フィッシャー情報行列を使って次のことも言えます。

f:id:ogyahogya:20150414182155p:plain

●参考文献

 情報幾何学の創始者である甘利俊一先生の英語の本を参考にして記事を書きました。

Methods of Information Geometry (Tanslations of Mathematical Monographs)

Methods of Information Geometry (Tanslations of Mathematical Monographs)

 

●予告

今回紹介したフィッシャー情報行列は統計学の方でも非常に重要なクラメール・ラオの不等式と密接な関係があります。クラメール・ラオの不等式は推定値の誤差をどれだけ減らせるかの限界を示した不等式です。次回は情報幾何学から脱線してフィッシャー情報行列とクラメール・ラオの不等式の関係について詳しく説明します。

リーマン多様体

この記事ではリーマン多様体という概念を説明します。リーマン多様体とは簡単に言うと多様体の各点に内積が導入された集合のことです。多様体のことを知らない人のために、まずは多様体から説明しましょう。その後に接空間2つの多様体間の写像の微分余接空間と1次微分形式2次テンソル場の概念を説明して最後にリーマン多様体を定義したいと思います。以下の記事はこの記事の続編になっています。

ユークリッド空間と2次元球面の違い

多様体を理解するために、まずよく知られているユークリッド空間について復習しましょう。ユークリッド空間は次の図のように一つの座標系で空間のすべての点を表示することができます。

 

f:id:ogyahogya:20150127095103p:plain

また、ユークリッド空間はベクトル空間の一例なので、空間の任意の2点を足せて、足しても同じ空間に入っています

 次に、球面について考えてみましょう。

f:id:ogyahogya:20150127095515p:plain

球面上に座標を描こうとしても原点以外で再び交わったりしてしまいます。つまり、一つの座標系で空間のすべての点を表示できません。また、2次元球面は3次元ユークリッド空間の部分集合と思えば2次元球面の任意の2つの点を足すということを考えることができますが、 2次元球面の任意の2点を足した結果が2次元球面からはみ出ます。つまり、足すと同じ空間に入っていることを保証できません

位相空間の初歩

多様体は位相空間なので、位相空間の初歩的なことをまとめておきます。

f:id:ogyahogya:20180510163840p:plain

例えば、2次元ユークリッド空間  {\bf R}^2 には次のような位相を導入できます。

f:id:ogyahogya:20180510163956p:plain

f:id:ogyahogya:20180510164008p:plain

f:id:ogyahogya:20180510164113p:plain

同じ  {\bf R}^2 に、次のような異なる位相も導入できます。

f:id:ogyahogya:20180510164227p:plain

f:id:ogyahogya:20180510164401p:plain

位相空間  ({\bf R}^2, \mathcal{O}) は次のような特徴があります。

f:id:ogyahogya:20180510164509p:plain

一方で、位相空間  ({\bf R}^2, \tilde{\mathcal{O}}) は次のような特徴があります。

f:id:ogyahogya:20180510164555p:plain

つまり、 ({\bf R}^2,\mathcal{O}) は任意の2点を開集合で分離できますが、 ({\bf R}^2,\tilde{\mathcal{O}}) は任意の2点を開集合で分離できません。次のハウスドルフ空間は位相空間  ({\bf R}^2,\mathcal{O}) のこの特徴を抜き出したものです。

f:id:ogyahogya:20180510165129p:plain

つまり、 ({\bf R}^2,\mathcal{O}) はハウスドルフ空間ですが、 ({\bf R}^2,\tilde{\mathcal{O}}) はハウスドルフ空間でないということになります。

次に定義する多様体はハウスドルフ空間で、リーマン多様体もハウスドルフ空間ということになりますが、このハウスドルフ空間の2点を開集合で分離できるという性質からリーマン多様体上で最適化アルゴリズムを考えたときに、収束先がただ一つに定まることが保証できたりします。

応用上もっともよく出てくる位相空間は距離空間の距離から位相が定められた位相空間です。距離空間については、

を参照してください。 

多様体

多様体は上の2次元球面の特徴を抽象化した概念です。次がその定義です。

f:id:ogyahogya:20150127103858p:plain

定義が言ってることを図示するとこんな感じです。

f:id:ogyahogya:20150127153539p:plain

次のように  m 次元ユークリッド空間  {\bf R}^m m 次元多様体になっていることが分かります。

f:id:ogyahogya:20150127110708p:plain

また、  m 次元球面  {\bf S^m} m次元多様体になっていることが確認できます。立体射影が気になる人はググってみてください。

f:id:ogyahogya:20150127145930p:plain

このように  m 次元球面  {\bf S^m} はユークリッド空間と異なり、任意の点を座標表示するためには少なくとも2つの座標系が必要になりそうです。

多様体に関する注意

多様体にはベクトル空間と違って和やスカラー倍が定義されていないことに注意してください。上で述べたように、2次元球面は3次元ユークリッド空間の部分集合と考えると、ユークリッド空間には和が定義されているので2次元球面上の点に関しても和の計算ができますが、再び2次元球面の点になる保証はないのです。したがって、ユークリッド空間に含まれていることを忘れて、 S^m 上の二つの点を足そうとするのは意味をなしません。

多様体にさらに群の構造が入ると多様体の任意の二つの要素間で群の演算ができるようになります。このような多様体+群の集合をリー群と言います。リー群の例としては可逆な行列全体の集合や直交行列の全体の集合などがあります。リー群についてはこんど詳しく説明する予定です。

多様体上の関数

多様体上の各点から実数への写像を次のように考えることができます。

f:id:ogyahogya:20150128091713p:plain

これは次のように考えようという提案です。

f:id:ogyahogya:20150128091755p:plain

 

接空間

 次のような微分作用素を考えましょう。

f:id:ogyahogya:20150128143028p:plain

 ここで、次のような疑問が生じます。

f:id:ogyahogya:20150128143252p:plain

 この疑問に答えるために次のように方向微分の概念を導入します。

f:id:ogyahogya:20150128161915p:plain

すると、次のことが証明できます。

f:id:ogyahogya:20150128162459p:plain

さらに、次のことが証明できます。

f:id:ogyahogya:20150128163035p:plain

よって、  D_p M の部分集合である接空間というものが次のように定義できて  m 次元ベクトル空間となることが分かります。

f:id:ogyahogya:20150128163823p:plain

接空間自体はベクトル空間なので接空間上で和やスカラー倍の計算ができて、計算結果は再び同じ接空間上の点になります。

接空間は名前の通り多様体に接しているイメージのはずです。このことをイメージできるようになるために、次に曲線の速度ベクトルという概念を考えましょう。

速度ベクトル

 多様体上の点  p を通る曲線を考えましょう。

f:id:ogyahogya:20150131122432p:plain

上の曲線から定められる次のような写像を定義しましょう。

f:id:ogyahogya:20150201131835p:plain

次のことが成り立ちます。

f:id:ogyahogya:20150201131953p:plain

このことから次のように  \left(\frac{\partial}{\partial x_i}\right)_p に関する幾何学的なイメージを持つことができるようになります。

f:id:ogyahogya:20150131125752p:plain

よって、接空間は次のように多様体に接した空間のイメージになります。

f:id:ogyahogya:20150131130001p:plain

二つの多様体間の写像の微分

次のように二つの多様体とその間の写像  f が与えられたときの  f の微分を定義しましょう。

f:id:ogyahogya:20150131131617p:plain

曲線  c を導入すると次のように  f c の合成写像を定義できます。

f:id:ogyahogya:20150131140620p:plain

このとき、次の関係を調べましょう。

 

f:id:ogyahogya:20150131144940p:plain

 p\in M と 点  q\in N のまわりに局所座標系を導入すると次のような関係が得られます。

f:id:ogyahogya:20200423200039p:plain

よって、曲線  c f\circ c t=0 における速度ベクトルの関係は次のJacobi行列によって特徴付けられます。

f:id:ogyahogya:20150131151227p:plain

Jacobi行列は局所座標系を定めると決定する行列です。このJacobi行列を局所座標系に依存しない写像  T_p M\rightarrow T_q N の局所座標表示としてとらえるために次のことに注意しましょう。

f:id:ogyahogya:20150131150413p:plain

 上のことより次のように局所座標に依存しない  f:M\rightarrow N の微分写像を定義できます。

f:id:ogyahogya:20150131152036p:plain

余接空間と1次微分形式

 余接空間とは接空間の双対空間のことです。双対空間は次のように定義されるベクトル空間です。

f:id:ogyahogya:20150131155016p:plain

双対空間の基底はもともとのベクトル空間の基底が定まると定まります。

f:id:ogyahogya:20150131155121p:plain

次のように余接空間と1次微分形式は定義されます。

f:id:ogyahogya:20150201132237p:plain

多様体から実数への写像が与えられると1次微分形式が定義できます。

f:id:ogyahogya:20150131160841p:plain

上の1次微分形式  df は次の性質を持ちます。

f:id:ogyahogya:20150131161947p:plain

上の結果から余接空間の双対基底が次のように求まります。

f:id:ogyahogya:20150131162934p:plain

2次テンソル場

 もう少しでリーマン多様体が定義できます。そのためにあと少しだけ準備します。

f:id:ogyahogya:20150131171146p:plain

任意の2次形式は次のように表示ができます。

f:id:ogyahogya:20150131172637p:plain

2次テンソル場というものは次のように定義されます。

f:id:ogyahogya:20150131173704p:plain

2次テンソル場には対称性という概念を与えることができます。

f:id:ogyahogya:20150131173806p:plain

リーマン多様体

ようやくリーマン多様体を定義する準備が整いました。以下がリーマン多様体の定義です。

f:id:ogyahogya:20150131174615p:plain

局所座標系を導入するとリーマン計量は次のように具体的に表示することができます。

f:id:ogyahogya:20150201152644p:plain

 

上の表示式を眺めるともっと簡単に次のように表示できることが分かります。

f:id:ogyahogya:20150201152836p:plain

 要するに次の対応関係があることが分かりました。

f:id:ogyahogya:20150201152659p:plain

したがって、正定値対称行列が与えられたら多様体にリーマン計量を導入することができてリーマン多様体を構成できます。情報幾何学で重要なリーマン計量はFisher計量と呼ばれるものです。これについては次回詳しく説明します。

参考文献

 今回説明したことは基本的には次の本に全部書いてます。

多様体の基礎 (基礎数学5)

多様体の基礎 (基礎数学5)

 

 

 

大偏差原理

で平均から大きく離れたところの生起確率の簡単な評価を与えました。今回はその評価をさらに精密にして、数理的な構造をもっと詳しく見たいと思います。前の記事で次の評価を与えました。

f:id:ogyahogya:20150125114343p:plain

上の  M(\theta) は確率変数  X_1積率母関数 \ln M(\theta) は確率変数  X_1キュムラント母関数 (物理では自由エネルギー) と呼ばれています。上の指数関数の中の  \sup_{\theta\geq 0} (\theta x - \ln M(\theta))  \theta\geq 0 のもとで  \theta x -\ln M(\theta) の上限を意味しています。これを改造することで  P(\sum_{i=1}^n X_i \geq nx) の上界だけでなく下界も与えることができます。それがクラメールの定理です。

●レート関数

まず、上の評価式の中にある  \sup_{\theta\geq 0} (\theta x - \ln M(\theta))  \theta\geq 0 という制約を外した

f:id:ogyahogya:20150125124620p:plain

を考えましょう。この  I(x) はキュムラント母関数をルジャンドル変換したものであり、レート関数と呼ばれています。レート関数は

で説明している理由で凸関数となっていることが分かります。また、レート関数は平均値で最小値0となることが以下のように分かります。

f:id:ogyahogya:20150125134721p:plain

●大偏差原理

次の定理はクラメールの定理と呼ばれる大偏差原理です。

f:id:ogyahogya:20150125142308p:plain

上の  \theta^* の存在の仮定は  M(\theta) \theta^* で微分可能であることを保証するためにあります。この定理によって、平均から大きく離れたところの生起確率がレート関数  I(x) によって特徴付けられることが分かりました。証明に興味のある方は詳しくは参考文献を読んでいただくことにしますが、ポイントは次の通りです。

f:id:ogyahogya:20150125141742p:plain

要するに以前説明した中心極限定理

を平均から大きく離れたところで適用できるように確率分布関数を改造するのです(平均から大きく離れたところの生起確率は単純に中心極限定理を適用しても見積れない。詳しくはこちら)。これは確率測度を変換していることを意味します。確率分布関数と確率測度の関係についてはこちらをご覧ください。

●レート関数とカルバックライブラー情報量

レート関数は前の記事で説明したカルバックライブラー情報量と次のように結びつきます。

f:id:ogyahogya:20150125143312p:plain

もっと一般的な状況でレート関数とカルバックライブラー情報量の関係がありますが、興味のある方は参考文献を参照してください。

●参考文献

記事を書くときに参考にした文献です。

(1)大偏差原理の証明を参考にしました。

Large Deviations For Performance Analysis: QUEUES, Communication and Computing (Stochastic Modeling Series)

Large Deviations For Performance Analysis: QUEUES, Communication and Computing (Stochastic Modeling Series)

 

(2)凸関数やルジャンドル変換について詳しい説明が書いてます。 

Convex Optimization

Convex Optimization

 

 

(3) 大偏差原理のもっと深いことが書いてます。 

Large Deviations Techniques and Applications (Stochastic Modelling and Applied Probability)

Large Deviations Techniques and Applications (Stochastic Modelling and Applied Probability)

 

●予告

今回名前だけ出して説明しなかった凸関数やルジャンドル変換は情報を幾何学的に研究する学問の中でも重要な役割を果たします。次回からはしばらく情報幾何学について説明していきたいと思います。

エントロピー、カルバック・ライブラー情報量、最尤推定法

前回簡単に説明した大偏差原理エントロピーの概念を使って詳しく説明するために、今回はエントロピーについて説明します。また、カルバック・ライブラー情報量、最尤推定法などについても説明します。

エントロピー

有限個の事象エントロピーは次のように定義されます。

f:id:ogyahogya:20141120110644p:plain

これは確率変数のエントロピーへ次のように一般化されます。

f:id:ogyahogya:20141120110756p:plain

エントロピーは平均情報量ともみなせます。

f:id:ogyahogya:20141120110920p:plain

●カルバック・ライブラー情報量(相対エントロピー

データはある確率分布に従う確率変数の実現値であると考えられることが多いです。しかし、その確率分布の形が分からないことがあり、得られたデータから真の確率分布を推定する必要がよくあります。推定した確率分布が真の確率分布にどれくらい近いかを表す尺度として次のカルバック・ライブラー情報量(相対エントロピー)というものがあります。

f:id:ogyahogya:20141123203334p:plain

カルバック・ライブラー情報量の重要な性質として次の非負性があります。

f:id:ogyahogya:20141124173856p:plain

カルバック・ライブラー情報量とエントロピーは次の関係があります。

f:id:ogyahogya:20141124151133p:plain

よって、

f:id:ogyahogya:20141124151332p:plain

となり、確率変数が一様分布に従うときにエントロピーは最大になることが分かります。

最尤推定

確率分布  p(x) に従ってデータが生成されたとしましょう。しかし、 p(x) は我々には分からないとして、 p(x) を推定する必要があるとします。上で述べたことより、 p(x) の推定にカルバック・ライブラー情報量が利用できそうです。カルバック・ライブラー情報量の定義から

f:id:ogyahogya:20141124161304p:plain

ということが分かります。 D(p||q)=0 のときに  p(x)=q(x) がすべての点  x で成り立ちますので

f:id:ogyahogya:20141124161709p:plain

を最大にすれば推定した確率分布  q(x) は真の確率分布  p(x) により近くなることが期待できます。しかし、そもそも真の確率分布  p(x) は未知なので平均大数尤度は直接計算できません。ここで注目すべき点はデータ  x_1,x_2,\cdots, x_n は真の確率分布  p(x) に従って得られているということです。つまり、データは確率変数の実現値であり、その確率変数は真の確率分布  p(x) に従います。このことから、データがたくさん得られたときには大数の法則が利用できて

f:id:ogyahogya:20141124164534p:plain

となります。そこで、カルバック・ライブラー情報量  D(p||q) を小さくするためには

f:id:ogyahogya:20141124164803p:plain

を最大にすれば良いことが分かります。最尤推定はパラメータ付きの対数尤度

f:id:ogyahogya:20141124171631p:plain

を最大にするパラメータ  \theta=\hat{\theta} のことで、 q(x|\hat{\theta}) p(x)最尤推定と言います。つまり、最尤推定\hat{\theta}

f:id:ogyahogya:20141124172431p:plain

を満たす \theta のことです。

データ数が十分に多いとき最尤推定法はある意味で最適な推定法になっていることを示せます。このことはまた今度詳しい説明を書くつもりです。

●連続確率変数のエントロピーとカルバック・ライブラー情報量

 今までの議論は確率変数が離散値を取る場合を考えていましたが、確率変数が連続値を取る場合に対してもエントロピーやカルバックライブラー情報量が次のように定義されます。

f:id:ogyahogya:20141211180348p:plain

離散値の時と同様にカルバックライブラー情報量の定義式から最尤推定法の考え方が出てきます。

確率変数が連続値をとるとき変分法を使うと、ある制約条件の下でエントロピーを最大化するような確率密度関数を求めることができます。例えば、平均と分散が一定のもとでエントロピーが最大になる分布はガウス分布であることを示すことができます。変分法については今後詳しく説明するつもりです。

●参考文献

 記事を書くときに参考にした文献です。

(1) 情報理論をしっかり勉強するならこれ

Elements of Information Theory (Wiley Series in Telecommunications and Signal Processing)

Elements of Information Theory (Wiley Series in Telecommunications and Signal Processing)

 

 (2) カルバックライブラー情報量と最尤推定のつながりのところを参考にした

 

経済物理学

経済物理学

 

●予告

大偏差原理について詳しく説明します。

平均から大きく離れたところの生起確率

前の記事では中心極限定理について説明しました。中心極限定理の主張は次のようにも解釈できます。 

f:id:ogyahogya:20141119174239p:plain

しかし、中心極限定理だけでは次のような疑問が生じます。

f:id:ogyahogya:20141119184537p:plain

図で気持ちを書くとこんな感じです。

f:id:ogyahogya:20141119171319p:plain

平均と同じオーダーの偏差が生じる確率を0と答えるのではなく数式で答えるのが大偏差原理です。つまり、 n と大偏差の生起確率の関係を教えてくれます。この記事では簡単な不等式を使って大偏差を調べる方法を述べて、難しい議論は次回以降にすることにします。

●チェビシェフの不等式

チェビシェフの不等式から大偏差に関する単純な解答が得られます。ここで、チェビシェフの不等式とは

f:id:ogyahogya:20141115185638p:plain

のことです。実際にチェビシェフの不等式から大偏差に関する情報が得られることが次のように分かります。

f:id:ogyahogya:20141115190253p:plain

よって、チェビシェフの不等式より平均からの  O(n) の偏差が生じる確率が  O(n^{-1}) であることが分かります。しかし、次のマルコフ不等式を利用してみるとこの評価はひどく悪いことが分かります。

●マルコフ不等式

マルコフ不等式からも大偏差に関する解答が得られます。ここで、マルコフ不等式とは

f:id:ogyahogya:20141115175552p:plain

のことです。実際にマルコフ不等式から大偏差に関する情報が得られることが次のように分かります。

f:id:ogyahogya:20141115184137p:plain

マルコフ不等式を利用するとチェビシェフの不等式の時とは異なり平均からの  O(n) の偏差が生じる確率が指数関数によって評価されています。

●クラメールの定理

マルコフ不等式からの帰結を精密にした結果がクラメールの定理と言われるものです。クラメールの定理が主張する大偏差に関する評価は情報理論エントロピーの概念と密接に関係しているので、次回の記事でエントロピーを紹介した後にクラメールの定理を紹介したいと思います。

●参考文献

 エントロピーと大偏差の関係が書いてる。

Large Deviations Techniques and Applications (Applications of Mathematics)

Large Deviations Techniques and Applications (Applications of Mathematics)

 

●予告

 情報理論エントロピーの概念を説明します。