初級Mathマニアの寝言

数学は色々なところで応用可能であり、多くの人が数学の抽象的な概念の意味や意義を鮮明に知ることができれば今まで以上に面白い物や仕組みが生まれるかもしれません。このブログは数学を専門にしない人のために抽象的な概念の意味や意義を分かりやすく説明することを目的としています。数学を使って何かしたい人のお役に立てたら幸いです。

凸解析

この記事では最適化理論の基盤となる凸解析の理論を解説します。

●最適化問題とは

目的関数と呼ばれる関数  f:{\bf R}^n\rightarrow {\bf R} を制約条件  x\in S \subset {\bf R}^n のもとで最小化する問題を最適化問題と呼びます。特に、 f が凸関数で、 S が凸集合である時、凸最適化問題呼びます。凸最適化問題は効率的に解く方法がたくさん研究されています。

●凸集合と凸関数と凹関数

 次の性質を満たす集合を凸集合と呼びます。

f:id:ogyahogya:20160517164152p:plain

つまり、ある集合の任意の2点を結んだ線分がその集合に含まれるなら、その集合は凸集合です。凸集合と非凸集合のイメージ図は次のような感じになります。

f:id:ogyahogya:20160517164353p:plain

次の性質を満たす関数を凸関数と呼びます。

f:id:ogyahogya:20160517164505p:plain

凸関数と非凸関数のイメージ図は次のような感じになります。

f:id:ogyahogya:20160517173323p:plain

凸集合と凸関数はエピグラフという概念を通じて関係付けることができます。

f:id:ogyahogya:20160517173418p:plain

例えば、次のようにエピグラフを図示することができます。

f:id:ogyahogya:20160517173512p:plain

 凸集合と凸関数は次の関係があります。

f:id:ogyahogya:20160517173611p:plain

凸関数は最小化のしやすい関数ですが、最大化のしやすい関数としては次の凹関数があります。

f:id:ogyahogya:20160518161105p:plain

●狭義凸関数

凸関数は最小化しやすい関数ですが、最小値を与える点は一つとは限りません。最小値を与える点が存在すれば一つである凸関数を狭義凸関数と言います。

f:id:ogyahogya:20160519093017p:plain

f:id:ogyahogya:20160519093049p:plain

f:id:ogyahogya:20160519093101p:plain

狭義凸関数だからといって、最小値が必ず存在するとは限りません。最小値の存在しない狭義凸関数の例としては  x e^x があります。

 ●凸集合と凸関数の性質(極一部)

任意の数の凸集合の共通部分は凸集合になります。

f:id:ogyahogya:20160518163118p:plain

ある集合上の点によってパラメトライズされた凸関数は、そのパラメータについての上限を取っても凸関数となります。つまり、以下が成り立ちます。

f:id:ogyahogya:20160518163936p:plainこれにより、凸関数の共役関数が凸関数になることが保障されます(共役関数は今度紹介します)。また、これが

で紹介したレート関数が凸関数になる理由です。これが成り立つことは次の関係式より分かります。

f:id:ogyahogya:20160518171916p:plain

実際に、 f(x,y) x について凸関数なので、 {\rm epi}\, f(\cdot,y) は凸集合となり、凸集合の共通部分は凸集合であることから  {\rm epi}\, g も凸集合となる事が分かり、その結果  g は凸関数となることが分かります。上の関係式は以下のように証明できます。

f:id:ogyahogya:20160518172255p:plain

凹関数に関しても次のように同様の関係が成り立ちます。

f:id:ogyahogya:20160518172353p:plainこれにより、ラグランジアンから双対関数を定義したときに、双対関数が凹関数になることが保障されます(ラグランジアンと双対関数は今度紹介します)。

●微分可能な凸関数

微分可能な凸関数は次のように特徴付けられます。

f:id:ogyahogya:20160519094417p:plain

これは

f:id:ogyahogya:20160519094446p:plain

を意味していて、

f:id:ogyahogya:20160519094509p:plain

というような関係にあるということです。

また、微分可能な凸関数の最小値を与える点は勾配がゼロになる点です。

f:id:ogyahogya:20160519094910p:plain

●勾配情報の重要性

微分可能な関数  f(x) は勾配  \nabla f(x) を求めることができます。勾配の情報は関数の最小化を考えるにあたって便利です。このことを実感するために、次のようなユークリッド空間上の制約なしの最小化問題を考えましょう。

f:id:ogyahogya:20160519110919p:plain

ただし、目的関数 f は微分可能な凸関数であるとします。この問題を解くためには、現在の点を x_k としたときに f が減少する方向に進んでいけば良いです。つまり、

f:id:ogyahogya:20160519111247p:plain

 \eta_k f の減少する方向であれば良いわけです。目的関数  f が減少する方向を調べるには点  x_k から微小に動いたときの  f の関数値がどのように変化するかを調べれば良いわけで、そのようなことを調べるためには

f:id:ogyahogya:20160519112446p:plain

 t=0 で微分すれば良いです (  g_{\eta_k} t=0 での微分は f の点  x_k での  \eta_k 方向の微分を意味しているので)。 そこで、関数  g_{\eta_k} t=0 での微分を計算してみると

f:id:ogyahogya:20160519112808p:plain

となります。よって、現在の点  x_k から  \nabla f(x_k) の逆方向に進むと目的関数  f は減少するということが分かります。このことをもとに、進行方向を表す  \eta_k

f:id:ogyahogya:20160519122030p:plain

とした最適化アルゴリズムを最急降下法と呼びます。目的関数  f が微分可能な凸関数であれば  \nabla f(x_k)=0 が点  x_k で最小値を取っている証となるので最急降下法のようなアルゴリズムを  \nabla f(x_k)\approx 0 となるまで単純に反復すれば良いということになります。このように勾配情報は凸関数の最小化を実行するにあたって重要な情報となります。

●劣微分と劣勾配

上で勾配情報は凸関数の最小化を実行するにあたって重要だと述べましたが、凸関数は必ずしも微分可能であるとは限りません。例えば、 |x| は凸関数ですが、 x=0 で微分可能ではありません。しかし、勾配のようなものを微分可能でない凸関数に対しても定義することができます。まず、微分可能な凸関数  f の点  x での勾配  \nabla f(x) はエピグラフ  {\rm epi}\, f の点 x における支持超平面を特徴付けたことを思い出しましょう。この支持超平面は  \alpha= f(x)+\nabla f(x)^T (y-x) を満たす点  (y,\alpha) から形成されていました。微分可能でない凸関数  fに対しても、エピグラフ  {\rm epi}\, f の点 x における支持超平面を考えることができ、その支持超平面を特徴付ける「勾配のようなもの」の集まりを劣微分と言います。

f:id:ogyahogya:20160519125824p:plain

そして、劣微分の要素である「勾配のようなもの」を劣勾配と言います。

f:id:ogyahogya:20160519130224p:plain

劣勾配は通常の勾配の一般化になっていることが次の性質が成り立つことから分かります。

f:id:ogyahogya:20160519130326p:plain

つまり、凸関数が微分可能だったら劣勾配は勾配と一致するというわけです。また、ある点における劣微分がゼロを含んでいたら(劣勾配にゼロのものがあったら)、その点で関数は最小値をとります。

f:id:ogyahogya:20160519130354p:plain

劣微分の計算方法を具体例で示しておきます。

f:id:ogyahogya:20160519130944p:plain

上の |x| という微分可能でない凸関数は、スパースな解が期待できるような最適化問題(最適解の成分はたくさんゼロになると期待できるような問題)によく利用されています。

●参考文献

(1) もっと数学的に細かいことが書いています。

非線形最適化の基礎

非線形最適化の基礎

 

 (2) スパースな解が期待できるような最適化問題について解説しています。

スパース性に基づく機械学習 (機械学習プロフェッショナルシリーズ)

スパース性に基づく機械学習 (機械学習プロフェッショナルシリーズ)

 

 

共役作用素

この記事では今後の記事を書くために必要となる共役作用素について簡単にまとめます。共役作用素とは次のように定義される線形作用素です。

f:id:ogyahogya:20151031155753p:plain

正確には上の  T の定義域は  H_1稠密である必要があります。そのときに, 上の  T^* が一意に定まります。

有界線形作用素  T の作用素ノルムと  T^* の作用素ノルムは一致することが示せます。ここで、線形作用素の作用素ノルムとは

f:id:ogyahogya:20151031173840p:plain

のことです。これは、

ogyahogya.hatenablog.comで書いたリースの表現定理を利用することで証明できます。

f:id:ogyahogya:20151031174542p:plain

f:id:ogyahogya:20151031174811p:plain

f:id:ogyahogya:20151031174820p:plain

f:id:ogyahogya:20151031174906p:plain

●参考文献

 もっと詳しく色々書いてます。

ヒルベルト空間と量子力学 改訂増補版 (共立講座 21世紀の数学 16)

ヒルベルト空間と量子力学 改訂増補版 (共立講座 21世紀の数学 16)

 

 

伝達関数

この記事では線形システムの制御で重要な役割を果たす伝達関数について説明します。

ラプラス変換

伝達関数を理解するためには関数のラプラス変換を知っている必要があります。ラプラス変換は次のように定義されます。

f:id:ogyahogya:20151024152142p:plain

上のラプラス変換前の記事で説明したフーリエ変換に似ていますが、次のような違いがあります。

f:id:ogyahogya:20151027174428p:plain

 

ogyahogya.hatenablog.com

 

伝達関数

線形システムの伝達関数は次のように入力関数のラプラス変換と出力関数のラプラス変換の比で定義されます。

f:id:ogyahogya:20151024153012p:plain

伝達関数は次のように座標変換のもとで不変です。

f:id:ogyahogya:20151024153121p:plain

伝達関数と可制御性・可観測性

伝達関数の概念と前の記事で説明した可制御性と可観測性の概念は次のように結びつきます。

f:id:ogyahogya:20151024154914p:plain

 

ogyahogya.hatenablog.com

 

伝達関数とインパルス応答行列

線形システムの入力としてインパルスというディラックデルタ関数を加えたときの出力と伝達関数は次のように結びつきます。

f:id:ogyahogya:20151024155714p:plain

ディラックデルタ関数については前の記事で詳しく説明しましたので興味のある人は見てください。

 

ogyahogya.hatenablog.com

 

●周波数応答

 上の議論よりインパルス応答行列のラプラス変換伝達関数なわけですが、次のようにインパルス応答行列のフーリエ変換周波数応答行列と言います。

f:id:ogyahogya:20151024161418p:plain

周波数応答行列と伝達関数の間には次のような関係があります。

f:id:ogyahogya:20151024161521p:plain

1入力1出力の周波数応答行列は周波数応答関数と呼ばれます。周波数応答関数が分かると過渡応答が分かるため制御工学では周波数応答関数を理解するが大事です。周波数応答関数を図的に理解する方法として、ナイキスト線図ボード線図と呼ばれるものがあります。ナイキスト線図ボード線図については制御工学の本を見てください。

伝達関数 H^2 ノルム

線形システムの  A 行列が安定、つまり、 A のすべての固有値の実部が負のときに

f:id:ogyahogya:20151024163532p:plain

が定義できて、これを伝達関数  G  H^2 ノルムと言います。前の記事で説明したプランシュレルの定理(パーセバルの等式ともいう)より

f:id:ogyahogya:20151024163650p:plain

となります。さらに

f:id:ogyahogya:20151024163818p:plain

なので

f:id:ogyahogya:20151024163840p:plain

となることが分かります。つまり、制御する側からすると ||G||_2 は小さいほど嬉しいわけです。

伝達関数 H^2 ノルムを定義通り計算しようとすると無限区間積分を計算しなければならず、面倒です。しかし、 H^2 ノルムは定義通りに計算する必要はなく、以下のように容易に計算できます。まず、インパルス応答行列  g(t) ||G||_2 の中へ代入すると次のようになります。

f:id:ogyahogya:20151024165233p:plain

さらに、

f:id:ogyahogya:20151024165403p:plain

 が成り立つことに注意すると、

f:id:ogyahogya:20151024165425p:plain

が成り立つことが分かります。上の  W_c W_o に関する線形行列方程式はリヤプノフ方程式と呼ばれており、解は上のように積分の形で具体的に表示できるのですが、実際には積分を計算せずに他の解法アルゴリズムを用いて数値的に求めます。例えば、有名な計算ソフトフェアであるMatlabにはリヤプノフ方程式を解くlyapというコマンドが用意されていますが、その解法は積分を計算していません。

最後に、 W_c可制御性グラミアン W_o可観測性グラミアンと呼ばれ可制御ならば  W_c は正定値対称行列となり、可観測ならば  W_o は正定値対称行列となることに注意しておきます。

●参考文献

伝達関数 H^2 ノルムの辺りのところを参考にしました。

LMIによるシステム制御 - ロバスト制御系設計のための体系的アプローチ

LMIによるシステム制御 - ロバスト制御系設計のための体系的アプローチ

 

 

可制御性・可観測性

前の記事で説明した線形システムの制御を考えるにあたって重要な可制御性可観測性の概念について説明します。以下の記事

では、可制御可観測なシステム全体の集合の性質について解説しており、この記事の続編のような記事となっています。

 

●線形代数の復習(ケーリー・ハミルトンの定理と不変部分空間)

システムの可制御性や可観測性の性質を調べるためには線形代数の知識が少し必要です。特にケーリー・ハミルトンの定理や不変部分空間の概念を知っていると理解が深まりますので、まずはそれらから説明します。

 ケーリー・ハミルトンの定理は固有多項式に関する定理です。固有多項式とは何かというと、 n\times n 行列  A が与えられた時に定義される  f_A(s):= \det (s I_n -A) のことです。 \lambda A の固有値になることと f_A(\lambda)=0 が成り立つことは等価です。次の定理がケーリー・ハミルトンの定理です。 f:id:ogyahogya:20151018121220p:plain

これから次のことが分かります。

f:id:ogyahogya:20151018121314p:plain

不変部分空間は次の性質を満たすベクトル空間のことです。

f:id:ogyahogya:20151018122712p:plain

不変部分空間についてより詳しくは、以下の記事を参考にしてください。

●可制御性

線形システムの可制御性は次のように定義されます。

f:id:ogyahogya:20151018123247p:plain

直感的には次の図のように、任意の点からスタートして原点に到達させることができる入力が設計できるときに可制御、そんな入力をどんなにがんばっても設計できないときに可制御でないということになります。

f:id:ogyahogya:20151018123735p:plain

可制御性の定義をもう少し数学的に書くと次のようになります。

f:id:ogyahogya:20151018124122p:plain

上の  \mathcal{X}_c はベクトル空間であり、さらに  A 不変部分空間であることが確認できます(詳細は後で書きます)。上の定義より、もしも   \dim \mathcal{X}_cが状態空間の次元より小さいなら可制御でないということになります。しかし、定義より  \mathcal{X}_c の中の任意の状態は原点へ移すことができます。つまり, 状態空間を  \mathcal{X}_c に限定すれば可制御だと考えられるわけです。実際に、次のように元の状態空間  {\bf R}^n を可制御な状態空間と不可制御な状態空間に直和分解できます。

f:id:ogyahogya:20151018124341p:plain

 \mathcal{X}_c A 不変部分空間であることは後で証明します。

●可観測性

 線形システムの可観測性は次のように定義されます。

f:id:ogyahogya:20151018132924p:plain

 これを数学的に書くと次のようになります。

f:id:ogyahogya:20151018133105p:plain

上の  \mathcal{X}_{\bar{o}} はベクトル空間であり、さらに  A 不変部分空間であることが確認できます(詳細は後で書きます)。上の定義より、もしも   \dim \mathcal{X}_{\bar o}が0より大きいと入出力データから初期状態  x_0 と区別できない状態が存在することになります。状態空間  {\bf R}^n は次のように可観測な状態空間と不可観測な状態空間に直和分解できます。

f:id:ogyahogya:20151018133429p:plain

 \mathcal{X}_{\bar{o}} A 不変部分空間であることは後で証明します。

●Kalmanの正準分解形

上の議論から状態空間  {\bf R}^n は次のように分解できます。

f:id:ogyahogya:20151018133654p:plain

 これより線形システムは次のように分解できます。

f:id:ogyahogya:20151018134151p:plain

上のように分解された形の線形システムをKalmanの正準分解形と呼びます。このように分解できることも後で証明します。

 \mathcal{X}_c A 不変部分空間であることの証明

これを示すには

f:id:ogyahogya:20151018134658p:plain

を示せば良いです。なぜなら次のように  {\rm Im}\, M_c A 不変部分空間だからです。

f:id:ogyahogya:20151018135453p:plain

では、 \mathcal{X}_c={\rm Im}\, M_c を証明しましょう。

まず、 \mathcal{X}_c\subset {\rm Im}\, M_c を示します。

f:id:ogyahogya:20151018135820p:plain

次に、 \mathcal{X}_c\supset {\rm Im}\, M_c を示します。これを示すために

f:id:ogyahogya:20151018141009p:plain

という関係を利用します。上の  W_c(t)可制御性グラミアンと呼ばれています。今、次の関係が常に成り立つことに注意しましょう。

f:id:ogyahogya:20151018151650p:plain

よって、

f:id:ogyahogya:20151018151720p:plain

が成り立ちます。また、

f:id:ogyahogya:20151018151904p:plain

 が成り立ちますので、

f:id:ogyahogya:20151018152016p:plain

ということも言えます。よって、

f:id:ogyahogya:20151018152157p:plain

が成り立つことが分かり,  \mathcal{X}_c\supset {\rm Im}\, M_c も示されました。

 \mathcal{X}_{\bar{o}} A 不変部分空間であることの証明

ケーリー・ハミルトンの定理より

f:id:ogyahogya:20151018153141p:plain

と書けることを利用すると、

f:id:ogyahogya:20151018153329p:plain

が成り立つことが分かります。可制御性の時と同様の議論で  {\rm Ker}\, M_o A 不変部分空間であることを証明できるので主張が成り立ちます。

●Kalmanの正準分解形の証明

次のようにベクトル空間を定義します。

f:id:ogyahogya:20151018155852p:plain

定義から

f:id:ogyahogya:20151018155909p:plain

となります。次のように基底と行列を定義します。

f:id:ogyahogya:20151018155923p:plain

すると、 \mathcal{X}^1 A 不変部分空間であることから

f:id:ogyahogya:20151018160010p:plain

ということが成り立ちます。 \mathcal{X}^2,\,\mathcal{X}^3,\, \mathcal{X}^4 に対しても同様の議論を繰り返し, 行列  B,  C に対しても上の基底のもとでの表示を考えると次のことが成り立つことが分かります。

f:id:ogyahogya:20151018160256p:plain

よって、上の行列  T を用いることでKalmanの正準分解形が得られることが分かります。

●参考文献

 記事を書くにあたって次の本を参考にしました。

現代制御論

現代制御論

 

 

線形システムと制御

制御の目的は対象とするシステムに適切な入力を加えて所望の出力を実現することです。

f:id:ogyahogya:20150916161133p:plain

この記事では制御を実行する手順と、システムの最も重要な数学モデルである線形システムについて説明します。

●制御の手順

制御するときに考える入力や出力は一つだけとは限らず、複数ある場合が多いです。例えば、車の運転は次の図のように入力数3で出力数2だと考えられます。

f:id:ogyahogya:20151003151459p:plain

制御を行う手順は次のようになります。

f:id:ogyahogya:20151003152007p:plain

まず、モデリングは対象とするシステムの数学モデルを立てることを意味しています。数学モデルは物理法則や実験から得られたデータで作られます。次に制御器の設計は対象とするシステムを制御するための入力を設計することを意味しています。これはモデリングによって得られた数学モデルを使って行われます。数学モデルが非常に複雑だと制御器を作れないことがあり、その場合はモデリングをやり直します。制御器が設計できたら、シミュレーションをしてその制御器で対象とするシステムがきちんと制御できてるか確認します。これがダメなら制御器の設計やモデリングをやり直します。シミュレーションで上手くいったら制御器を実装します。シミュレーションの段階では、すべて数学モデルを使っているため上手くいったが、現実の対象システムと数学モデルのギャップが大きすぎて上手くいかないことがあります。その場合には対象システムと数学モデルのギャップを縮めるためにモデリングからやり直します。制御器を実装して目標通り動いたら完成です。

車の運転の例では人は脳内に車のモデルを立ててると考えることができます(数学モデルではないと思いますが)。制御器は人の脳で、何度も運転をすることによって立派な制御器が得られます。運転免許証は車を運転するための制御器が脳内にできた証だと考えられます。

●モデリングの例

制御のための入力を設計するためには数学モデルがあったら便利です。モデリングは物理法則や入出力データを利用します。例えば、次のマス・バネ・ダンパー系を考えましょう。

f:id:ogyahogya:20151003155410p:plain

 上のマス・バネ・ダンパー系はニュートンの運動方程式を表していて2階の微分方程式となっています。

制御工学では1階の微分方程式で表されるシステムを対象システムとすることが多く、1階の微分方程式でシステムを表現できたら制御工学の多くの成果が利用できます。上のマス・バネ・ダンパー系を1階の微分方程式へ変換することは容易です。実際に次のように変換できます。

 

f:id:ogyahogya:20151003160237p:plain

 x_1, x_2という新しい変数が出てきていますが、これを状態と呼びます。上の微分方程式系は状態方程式と言われているものです。次にこれを説明します。

●システムの状態方程式表現

システムの数学的な表現の一つに状態方程式表現と言われているものがあります。これは1960年頃にKalmanによって導入された表現で、現在では制御理論の研究分野で最もよく利用されている表現となっています。システムの状態方程式表現は次のような方程式系のことです。

f:id:ogyahogya:20150916170552p:plain

システムが上の状態方程式で表されるとき、そのシステムは線形システムであると言います。線形というのは変数 x, u, yについて線形だからです。

線形システムは非常に重要です。なぜなら多くのシステムが線形システムで近似できるからです。例えば、次のような線形システムは平衡点まわりでは線形システムで近似できます。

f:id:ogyahogya:20151003162712p:plain

 

また、微分方程式系も線形システムとして近似できます。例えば、次のようにできます。

f:id:ogyahogya:20151003162946p:plain

f:id:ogyahogya:20151003163053p:plain

 

f:id:ogyahogya:20151003163216p:plain

●線形システムの制御

 線形システムを制御することを考えます。ここでは簡単のために  y=x の場合を考えます。まず、状態方程式の解を調べてどのような制御が必要になるか考えてみましょう。状態方程式の解は次のようになります。

f:id:ogyahogya:20151003165719p:plain

ここで、次のように何も入力を加えないとすると解は

f:id:ogyahogya:20151003165916p:plain

となります。よって、

f:id:ogyahogya:20151003170039p:plain

となることが分かります。つまり、入力を加えなかったら状態が発散する恐れがあります。これを防ぐために

f:id:ogyahogya:20151003172041p:plain

という設計問題を考えるのは自然です。ただし、 0は目標状態とします。これは次のようなフィードバックを利用することで実現されることがあります。

f:id:ogyahogya:20151003172207p:plain

次のように定数行列として与えられた制御器が最も簡単なものです。

f:id:ogyahogya:20151003172334p:plain

これは入力を

f:id:ogyahogya:20151003172545p:plain

としたことに相当します。このとき

f:id:ogyahogya:20151003172347p:plain

 となります。よって

f:id:ogyahogya:20151003172506p:plain

となります。このような  Kは線形行列不等式(LMI)

f:id:ogyahogya:20151003173059p:plain

 の解  (X,Y) を用いて

f:id:ogyahogya:20151003173121p:plain

と与えることができることが知られています。

上のようなLMI制約を満たす変数の集合は凸集合となります。制御工学の分野では上のようなLMI制約のもとで、ある凸関数で表された評価関数を最小化(最大化)して制御器を設計せよという研究が盛んに行われていた時期がありました(今でも結構あります)。この問題は凸最適化問題となるため、最適化理論の分野でよく研究された成果を利用することができます。しかし、線形システム以外のシステムに対しては制御器の設計問題を凸最適化問題へ帰着させることは困難です。つまり、対象システムを線形システムとしてモデリングしなかったら制御器の設計は非常に難しくなります。対象システムを線形システムとしてモデリングすることは制御器の設計を簡単に行う上でも重要です。

  f:id:ogyahogya:20151003163739p:plain

●参考文献

 (1) タイトルの通り制御工学の考え方が分かりやすく書いています。

制御工学の考え方―産業革命は「制御」からはじまった (ブルーバックス)

制御工学の考え方―産業革命は「制御」からはじまった (ブルーバックス)

 

(2) 線形システムの制御器の設計が凸最適化問題に帰着することが分かりやすく書いています。

LMIによるシステム制御 - ロバスト制御系設計のための体系的アプローチ

LMIによるシステム制御 - ロバスト制御系設計のための体系的アプローチ

 

 

情報幾何学1: 確率分布とリーマン多様体

今回は確率分布が作る幾何学について説明します。

●フィッシャー情報行列とリーマン多様体

まずは、前の記事で説明したような応用上よく出てくるガウス分布幾何学的に次のように理解できることに注意しましょう(多様体についてはこちら)。

f:id:ogyahogya:20150413141237p:plain

上の例のようにパラメータの組を一つ定めると確率密度関数を定めることができます。このことを一般化して次の確率分布の族である統計モデルと確率分布を特定するパラメータの集合である多様体を同一視できます(厳密には統計モデルにいくつかの条件を付ける必要がありますが、応用上気にしなくて良いことが多いです)。 f:id:ogyahogya:20150414171034p:plain

確率分布が作る幾何学を考えるときに重要なフィッシャー情報行列はつぎのように定義されます。

f:id:ogyahogya:20150413152752p:plain

フィッシャー情報行列は定義から対称行列であることが分かります。さらに、フィッシャー情報行列  G(\xi) が任意の  \xi\in \Xi について正定値対称行列であれば、多様体  \Xi G(\xi)に対応するリーマン計量を導入することでリーマン多様体となります。このフィッシャー情報行列に対応するリーマン計量をフィッシャー計量と呼びます。よって、パラメトライズされた確率分布の族が与えられたらフィッシャー計量を導入することでパラメータたちの距離を測ったりするなどの幾何学的な議論ができるようになります。具体的には、次のように近くのパラメータの距離を定義することができます。

f:id:ogyahogya:20150414175132p:plain

●フィッシャー情報行列の具体的な計算

フィッシャー情報行列を定義通り計算すると計算量が多くなることがよくあります。計算量を減らすために次の公式を利用できます。

f:id:ogyahogya:20150414111738p:plain例えば、ガウス分布のフィッシャー情報行列を計算してみましょう。

f:id:ogyahogya:20150414153211p:plain

 上の例では、フィッシャー情報行列を使って次のことも言えます。

f:id:ogyahogya:20150414182155p:plain

●参考文献

 情報幾何学の創始者である甘利俊一先生の英語の本を参考にして記事を書きました。

Methods of Information Geometry (Tanslations of Mathematical Monographs)

Methods of Information Geometry (Tanslations of Mathematical Monographs)

 

●予告

今回紹介したフィッシャー情報行列は統計学の方でも非常に重要なクラメール・ラオの不等式と密接な関係があります。クラメール・ラオの不等式は推定値の誤差をどれだけ減らせるかの限界を示した不等式です。次回は情報幾何学から脱線してフィッシャー情報行列とクラメール・ラオの不等式の関係について詳しく説明します。

リーマン多様体

この記事ではリーマン多様体という概念を説明します。リーマン多様体とは簡単に言うと多様体の各点に内積が導入された集合のことです。多様体のことを知らない人のために、まずは多様体から説明しましょう。その後に接空間2つの多様体間の写像の微分余接空間と1次微分形式2次テンソル場の概念を説明して最後にリーマン多様体を定義したいと思います。以下の記事はこの記事の続編になっています。

ユークリッド空間と2次元球面の違い

多様体を理解するために、まずよく知られているユークリッド空間について復習しましょう。ユークリッド空間は次の図のように一つの座標系で空間のすべての点を表示することができます。

 

f:id:ogyahogya:20150127095103p:plain

また、ユークリッド空間はベクトル空間の一例なので、空間の任意の2点を足せて、足しても同じ空間に入っています

 次に、球面について考えてみましょう。

f:id:ogyahogya:20150127095515p:plain

球面上に座標を描こうとしても原点以外で再び交わったりしてしまいます。つまり、一つの座標系で空間のすべての点を表示できません。また、2次元球面は3次元ユークリッド空間の部分集合と思えば2次元球面の任意の2つの点を足すということを考えることができますが、 2次元球面の任意の2点を足した結果が2次元球面からはみ出ます。つまり、足すと同じ空間に入っていることを保証できません

位相空間の初歩

多様体は位相空間なので、位相空間の初歩的なことをまとめておきます。

f:id:ogyahogya:20180510163840p:plain

例えば、2次元ユークリッド空間  {\bf R}^2 には次のような位相を導入できます。

f:id:ogyahogya:20180510163956p:plain

f:id:ogyahogya:20180510164008p:plain

f:id:ogyahogya:20180510164113p:plain

同じ  {\bf R}^2 に、次のような異なる位相も導入できます。

f:id:ogyahogya:20180510164227p:plain

f:id:ogyahogya:20180510164401p:plain

位相空間  ({\bf R}^2, \mathcal{O}) は次のような特徴があります。

f:id:ogyahogya:20180510164509p:plain

一方で、位相空間  ({\bf R}^2, \tilde{\mathcal{O}}) は次のような特徴があります。

f:id:ogyahogya:20180510164555p:plain

つまり、 ({\bf R}^2,\mathcal{O}) は任意の2点を開集合で分離できますが、 ({\bf R}^2,\tilde{\mathcal{O}}) は任意の2点を開集合で分離できません。次のハウスドルフ空間は位相空間  ({\bf R}^2,\mathcal{O}) のこの特徴を抜き出したものです。

f:id:ogyahogya:20180510165129p:plain

つまり、 ({\bf R}^2,\mathcal{O}) はハウスドルフ空間ですが、 ({\bf R}^2,\tilde{\mathcal{O}}) はハウスドルフ空間でないということになります。

次に定義する多様体はハウスドルフ空間で、リーマン多様体もハウスドルフ空間ということになりますが、このハウスドルフ空間の2点を開集合で分離できるという性質からリーマン多様体上で最適化アルゴリズムを考えたときに、収束先がただ一つに定まることが保証できたりします。

応用上もっともよく出てくる位相空間は距離空間の距離から位相が定められた位相空間です。距離空間については、

を参照してください。 

多様体

多様体は上の2次元球面の特徴を抽象化した概念です。次がその定義です。

f:id:ogyahogya:20150127103858p:plain

定義が言ってることを図示するとこんな感じです。

f:id:ogyahogya:20150127153539p:plain

次のように  m 次元ユークリッド空間  {\bf R}^m m 次元多様体になっていることが分かります。

f:id:ogyahogya:20150127110708p:plain

また、  m 次元球面  {\bf S^m} m次元多様体になっていることが確認できます。立体射影が気になる人はググってみてください。

f:id:ogyahogya:20150127145930p:plain

このように  m 次元球面  {\bf S^m} はユークリッド空間と異なり、任意の点を座標表示するためには少なくとも2つの座標系が必要になりそうです。

多様体に関する注意

多様体にはベクトル空間と違って和やスカラー倍が定義されていないことに注意してください。上で述べたように、2次元球面は3次元ユークリッド空間の部分集合と考えると、ユークリッド空間には和が定義されているので2次元球面上の点に関しても和の計算ができますが、再び2次元球面の点になる保証はないのです。したがって、ユークリッド空間に含まれていることを忘れて、 S^m 上の二つの点を足そうとするのは意味をなしません。

多様体にさらに群の構造が入ると多様体の任意の二つの要素間で群の演算ができるようになります。このような多様体+群の集合をリー群と言います。リー群の例としては可逆な行列全体の集合や直交行列の全体の集合などがあります。リー群についてはこんど詳しく説明する予定です。

多様体上の関数

多様体上の各点から実数への写像を次のように考えることができます。

f:id:ogyahogya:20150128091713p:plain

これは次のように考えようという提案です。

f:id:ogyahogya:20150128091755p:plain

 

接空間

 次のような微分作用素を考えましょう。

f:id:ogyahogya:20150128143028p:plain

 ここで、次のような疑問が生じます。

f:id:ogyahogya:20150128143252p:plain

 この疑問に答えるために次のように方向微分の概念を導入します。

f:id:ogyahogya:20150128161915p:plain

すると、次のことが証明できます。

f:id:ogyahogya:20150128162459p:plain

さらに、次のことが証明できます。

f:id:ogyahogya:20150128163035p:plain

よって、  D_p M の部分集合である接空間というものが次のように定義できて  m 次元ベクトル空間となることが分かります。

f:id:ogyahogya:20150128163823p:plain

接空間自体はベクトル空間なので接空間上で和やスカラー倍の計算ができて、計算結果は再び同じ接空間上の点になります。

接空間は名前の通り多様体に接しているイメージのはずです。このことをイメージできるようになるために、次に曲線の速度ベクトルという概念を考えましょう。

速度ベクトル

 多様体上の点  p を通る曲線を考えましょう。

f:id:ogyahogya:20150131122432p:plain

上の曲線から定められる次のような写像を定義しましょう。

f:id:ogyahogya:20150201131835p:plain

次のことが成り立ちます。

f:id:ogyahogya:20150201131953p:plain

このことから次のように  \left(\frac{\partial}{\partial x_i}\right)_p に関する幾何学的なイメージを持つことができるようになります。

f:id:ogyahogya:20150131125752p:plain

よって、接空間は次のように多様体に接した空間のイメージになります。

f:id:ogyahogya:20150131130001p:plain

二つの多様体間の写像の微分

次のように二つの多様体とその間の写像  f が与えられたときの  f の微分を定義しましょう。

f:id:ogyahogya:20150131131617p:plain

曲線  c を導入すると次のように  f c の合成写像を定義できます。

f:id:ogyahogya:20150131140620p:plain

このとき、次の関係を調べましょう。

 

f:id:ogyahogya:20150131144940p:plain

 p\in M と 点  q\in N のまわりに局所座標系を導入すると次のような関係が得られます。

f:id:ogyahogya:20200423200039p:plain

よって、曲線  c f\circ c t=0 における速度ベクトルの関係は次のJacobi行列によって特徴付けられます。

f:id:ogyahogya:20150131151227p:plain

Jacobi行列は局所座標系を定めると決定する行列です。このJacobi行列を局所座標系に依存しない写像  T_p M\rightarrow T_q N の局所座標表示としてとらえるために次のことに注意しましょう。

f:id:ogyahogya:20150131150413p:plain

 上のことより次のように局所座標に依存しない  f:M\rightarrow N の微分写像を定義できます。

f:id:ogyahogya:20150131152036p:plain

余接空間と1次微分形式

 余接空間とは接空間の双対空間のことです。双対空間は次のように定義されるベクトル空間です。

f:id:ogyahogya:20150131155016p:plain

双対空間の基底はもともとのベクトル空間の基底が定まると定まります。

f:id:ogyahogya:20150131155121p:plain

次のように余接空間と1次微分形式は定義されます。

f:id:ogyahogya:20150201132237p:plain

多様体から実数への写像が与えられると1次微分形式が定義できます。

f:id:ogyahogya:20150131160841p:plain

上の1次微分形式  df は次の性質を持ちます。

f:id:ogyahogya:20150131161947p:plain

上の結果から余接空間の双対基底が次のように求まります。

f:id:ogyahogya:20150131162934p:plain

2次テンソル場

 もう少しでリーマン多様体が定義できます。そのためにあと少しだけ準備します。

f:id:ogyahogya:20150131171146p:plain

任意の2次形式は次のように表示ができます。

f:id:ogyahogya:20150131172637p:plain

2次テンソル場というものは次のように定義されます。

f:id:ogyahogya:20150131173704p:plain

2次テンソル場には対称性という概念を与えることができます。

f:id:ogyahogya:20150131173806p:plain

リーマン多様体

ようやくリーマン多様体を定義する準備が整いました。以下がリーマン多様体の定義です。

f:id:ogyahogya:20150131174615p:plain

局所座標系を導入するとリーマン計量は次のように具体的に表示することができます。

f:id:ogyahogya:20150201152644p:plain

 

上の表示式を眺めるともっと簡単に次のように表示できることが分かります。

f:id:ogyahogya:20150201152836p:plain

 要するに次の対応関係があることが分かりました。

f:id:ogyahogya:20150201152659p:plain

したがって、正定値対称行列が与えられたら多様体にリーマン計量を導入することができてリーマン多様体を構成できます。情報幾何学で重要なリーマン計量はFisher計量と呼ばれるものです。これについては次回詳しく説明します。

参考文献

 今回説明したことは基本的には次の本に全部書いてます。

多様体の基礎 (基礎数学5)

多様体の基礎 (基礎数学5)