初級Mathマニアの寝言

数学は色々なところで応用可能であり、多くの人が数学の抽象的な概念の意味や意義を鮮明に知ることができれば今まで以上に面白い物や仕組みが生まれるかもしれません。このブログは数学を専門にしない人のために抽象的な概念の意味や意義を分かりやすく説明することを目的としています。数学を使って何かしたい人のお役に立てたら幸いです。

リーマン多様体

この記事ではリーマン多様体という概念を説明します。リーマン多様体とは簡単に言うと多様体の各点に内積が導入された集合のことです。多様体のことを知らない人のために、まずは多様体から説明しましょう。その後に接空間2つの多様体間の写像の微分余接空間と1次微分形式2次テンソル場の概念を説明して最後にリーマン多様体を定義したいと思います。以下の記事はこの記事の続編になっています。

ユークリッド空間と2次元球面の違い

多様体を理解するために、まずよく知られているユークリッド空間について復習しましょう。ユークリッド空間は次の図のように一つの座標系で空間のすべての点を表示することができます。

 

f:id:ogyahogya:20150127095103p:plain

また、ユークリッド空間はベクトル空間の一例なので、空間の任意の2点を足せて、足しても同じ空間に入っています

 次に、球面について考えてみましょう。

f:id:ogyahogya:20150127095515p:plain

球面上に座標を描こうとしても原点以外で再び交わったりしてしまいます。つまり、一つの座標系で空間のすべての点を表示できません。また、2次元球面は3次元ユークリッド空間の部分集合と思えば2次元球面の任意の2つの点を足すということを考えることができますが、 2次元球面の任意の2点を足した結果が2次元球面からはみ出ます。つまり、足すと同じ空間に入っていることを保証できません

位相空間の初歩

多様体は位相空間なので、位相空間の初歩的なことをまとめておきます。

f:id:ogyahogya:20180510163840p:plain

例えば、2次元ユークリッド空間  {\bf R}^2 には次のような位相を導入できます。

f:id:ogyahogya:20180510163956p:plain

f:id:ogyahogya:20180510164008p:plain

f:id:ogyahogya:20180510164113p:plain

同じ  {\bf R}^2 に、次のような異なる位相も導入できます。

f:id:ogyahogya:20180510164227p:plain

f:id:ogyahogya:20180510164401p:plain

位相空間  ({\bf R}^2, \mathcal{O}) は次のような特徴があります。

f:id:ogyahogya:20180510164509p:plain

一方で、位相空間  ({\bf R}^2, \tilde{\mathcal{O}}) は次のような特徴があります。

f:id:ogyahogya:20180510164555p:plain

つまり、 ({\bf R}^2,\mathcal{O}) は任意の2点を開集合で分離できますが、 ({\bf R}^2,\tilde{\mathcal{O}}) は任意の2点を開集合で分離できません。次のハウスドルフ空間は位相空間  ({\bf R}^2,\mathcal{O}) のこの特徴を抜き出したものです。

f:id:ogyahogya:20180510165129p:plain

つまり、 ({\bf R}^2,\mathcal{O}) はハウスドルフ空間ですが、 ({\bf R}^2,\tilde{\mathcal{O}}) はハウスドルフ空間でないということになります。

次に定義する多様体はハウスドルフ空間で、リーマン多様体もハウスドルフ空間ということになりますが、このハウスドルフ空間の2点を開集合で分離できるという性質からリーマン多様体上で最適化アルゴリズムを考えたときに、収束先がただ一つに定まることが保証できたりします。

応用上もっともよく出てくる位相空間は距離空間の距離から位相が定められた位相空間です。距離空間については、

を参照してください。 

多様体

多様体は上の2次元球面の特徴を抽象化した概念です。次がその定義です。

f:id:ogyahogya:20150127103858p:plain

定義が言ってることを図示するとこんな感じです。

f:id:ogyahogya:20150127153539p:plain

次のように  m 次元ユークリッド空間  {\bf R}^m m 次元多様体になっていることが分かります。

f:id:ogyahogya:20150127110708p:plain

また、  m 次元球面  {\bf S^m} m次元多様体になっていることが確認できます。立体射影が気になる人はググってみてください。

f:id:ogyahogya:20150127145930p:plain

このように  m 次元球面  {\bf S^m} はユークリッド空間と異なり、任意の点を座標表示するためには少なくとも2つの座標系が必要になりそうです。

多様体に関する注意

多様体にはベクトル空間と違って和やスカラー倍が定義されていないことに注意してください。上で述べたように、2次元球面は3次元ユークリッド空間の部分集合と考えると、ユークリッド空間には和が定義されているので2次元球面上の点に関しても和の計算ができますが、再び2次元球面の点になる保証はないのです。したがって、ユークリッド空間に含まれていることを忘れて、 S^m 上の二つの点を足そうとするのは意味をなしません。

多様体にさらに群の構造が入ると多様体の任意の二つの要素間で群の演算ができるようになります。このような多様体+群の集合をリー群と言います。リー群の例としては可逆な行列全体の集合や直交行列の全体の集合などがあります。リー群についてはこんど詳しく説明する予定です。

多様体上の関数

多様体上の各点から実数への写像を次のように考えることができます。

f:id:ogyahogya:20150128091713p:plain

これは次のように考えようという提案です。

f:id:ogyahogya:20150128091755p:plain

 

接空間

 次のような微分作用素を考えましょう。

f:id:ogyahogya:20150128143028p:plain

 ここで、次のような疑問が生じます。

f:id:ogyahogya:20150128143252p:plain

 この疑問に答えるために次のように方向微分の概念を導入します。

f:id:ogyahogya:20150128161915p:plain

すると、次のことが証明できます。

f:id:ogyahogya:20150128162459p:plain

さらに、次のことが証明できます。

f:id:ogyahogya:20150128163035p:plain

よって、  D_p M の部分集合である接空間というものが次のように定義できて  m 次元ベクトル空間となることが分かります。

f:id:ogyahogya:20150128163823p:plain

接空間自体はベクトル空間なので接空間上で和やスカラー倍の計算ができて、計算結果は再び同じ接空間上の点になります。

接空間は名前の通り多様体に接しているイメージのはずです。このことをイメージできるようになるために、次に曲線の速度ベクトルという概念を考えましょう。

速度ベクトル

 多様体上の点  p を通る曲線を考えましょう。

f:id:ogyahogya:20150131122432p:plain

上の曲線から定められる次のような写像を定義しましょう。

f:id:ogyahogya:20150201131835p:plain

次のことが成り立ちます。

f:id:ogyahogya:20150201131953p:plain

このことから次のように  \left(\frac{\partial}{\partial x_i}\right)_p に関する幾何学的なイメージを持つことができるようになります。

f:id:ogyahogya:20150131125752p:plain

よって、接空間は次のように多様体に接した空間のイメージになります。

f:id:ogyahogya:20150131130001p:plain

二つの多様体間の写像の微分

次のように二つの多様体とその間の写像  f が与えられたときの  f の微分を定義しましょう。

f:id:ogyahogya:20150131131617p:plain

曲線  c を導入すると次のように  f c の合成写像を定義できます。

f:id:ogyahogya:20150131140620p:plain

このとき、次の関係を調べましょう。

 

f:id:ogyahogya:20150131144940p:plain

 p\in M と 点  q\in N のまわりに局所座標系を導入すると次のような関係が得られます。

f:id:ogyahogya:20200423200039p:plain

よって、曲線  c f\circ c t=0 における速度ベクトルの関係は次のJacobi行列によって特徴付けられます。

f:id:ogyahogya:20150131151227p:plain

Jacobi行列は局所座標系を定めると決定する行列です。このJacobi行列を局所座標系に依存しない写像  T_p M\rightarrow T_q N の局所座標表示としてとらえるために次のことに注意しましょう。

f:id:ogyahogya:20150131150413p:plain

 上のことより次のように局所座標に依存しない  f:M\rightarrow N の微分写像を定義できます。

f:id:ogyahogya:20150131152036p:plain

余接空間と1次微分形式

 余接空間とは接空間の双対空間のことです。双対空間は次のように定義されるベクトル空間です。

f:id:ogyahogya:20150131155016p:plain

双対空間の基底はもともとのベクトル空間の基底が定まると定まります。

f:id:ogyahogya:20150131155121p:plain

次のように余接空間と1次微分形式は定義されます。

f:id:ogyahogya:20150201132237p:plain

多様体から実数への写像が与えられると1次微分形式が定義できます。

f:id:ogyahogya:20150131160841p:plain

上の1次微分形式  df は次の性質を持ちます。

f:id:ogyahogya:20150131161947p:plain

上の結果から余接空間の双対基底が次のように求まります。

f:id:ogyahogya:20150131162934p:plain

2次テンソル場

 もう少しでリーマン多様体が定義できます。そのためにあと少しだけ準備します。

f:id:ogyahogya:20150131171146p:plain

任意の2次形式は次のように表示ができます。

f:id:ogyahogya:20150131172637p:plain

2次テンソル場というものは次のように定義されます。

f:id:ogyahogya:20150131173704p:plain

2次テンソル場には対称性という概念を与えることができます。

f:id:ogyahogya:20150131173806p:plain

リーマン多様体

ようやくリーマン多様体を定義する準備が整いました。以下がリーマン多様体の定義です。

f:id:ogyahogya:20150131174615p:plain

局所座標系を導入するとリーマン計量は次のように具体的に表示することができます。

f:id:ogyahogya:20150201152644p:plain

 

上の表示式を眺めるともっと簡単に次のように表示できることが分かります。

f:id:ogyahogya:20150201152836p:plain

 要するに次の対応関係があることが分かりました。

f:id:ogyahogya:20150201152659p:plain

したがって、正定値対称行列が与えられたら多様体にリーマン計量を導入することができてリーマン多様体を構成できます。情報幾何学で重要なリーマン計量はFisher計量と呼ばれるものです。これについては次回詳しく説明します。

参考文献

 今回説明したことは基本的には次の本に全部書いてます。

多様体の基礎 (基礎数学5)

多様体の基礎 (基礎数学5)

 

 

 

大偏差原理

で平均から大きく離れたところの生起確率の簡単な評価を与えました。今回はその評価をさらに精密にして、数理的な構造をもっと詳しく見たいと思います。前の記事で次の評価を与えました。

f:id:ogyahogya:20150125114343p:plain

上の  M(\theta) は確率変数  X_1積率母関数 \ln M(\theta) は確率変数  X_1キュムラント母関数 (物理では自由エネルギー) と呼ばれています。上の指数関数の中の  \sup_{\theta\geq 0} (\theta x - \ln M(\theta))  \theta\geq 0 のもとで  \theta x -\ln M(\theta) の上限を意味しています。これを改造することで  P(\sum_{i=1}^n X_i \geq nx) の上界だけでなく下界も与えることができます。それがクラメールの定理です。

●レート関数

まず、上の評価式の中にある  \sup_{\theta\geq 0} (\theta x - \ln M(\theta))  \theta\geq 0 という制約を外した

f:id:ogyahogya:20150125124620p:plain

を考えましょう。この  I(x) はキュムラント母関数をルジャンドル変換したものであり、レート関数と呼ばれています。レート関数は

で説明している理由で凸関数となっていることが分かります。また、レート関数は平均値で最小値0となることが以下のように分かります。

f:id:ogyahogya:20150125134721p:plain

●大偏差原理

次の定理はクラメールの定理と呼ばれる大偏差原理です。

f:id:ogyahogya:20150125142308p:plain

上の  \theta^* の存在の仮定は  M(\theta) \theta^* で微分可能であることを保証するためにあります。この定理によって、平均から大きく離れたところの生起確率がレート関数  I(x) によって特徴付けられることが分かりました。証明に興味のある方は詳しくは参考文献を読んでいただくことにしますが、ポイントは次の通りです。

f:id:ogyahogya:20150125141742p:plain

要するに以前説明した中心極限定理

を平均から大きく離れたところで適用できるように確率分布関数を改造するのです(平均から大きく離れたところの生起確率は単純に中心極限定理を適用しても見積れない。詳しくはこちら)。これは確率測度を変換していることを意味します。確率分布関数と確率測度の関係についてはこちらをご覧ください。

●レート関数とカルバックライブラー情報量

レート関数は前の記事で説明したカルバックライブラー情報量と次のように結びつきます。

f:id:ogyahogya:20150125143312p:plain

もっと一般的な状況でレート関数とカルバックライブラー情報量の関係がありますが、興味のある方は参考文献を参照してください。

●参考文献

記事を書くときに参考にした文献です。

(1)大偏差原理の証明を参考にしました。

Large Deviations For Performance Analysis: QUEUES, Communication and Computing (Stochastic Modeling Series)

Large Deviations For Performance Analysis: QUEUES, Communication and Computing (Stochastic Modeling Series)

 

(2)凸関数やルジャンドル変換について詳しい説明が書いてます。 

Convex Optimization

Convex Optimization

 

 

(3) 大偏差原理のもっと深いことが書いてます。 

Large Deviations Techniques and Applications (Stochastic Modelling and Applied Probability)

Large Deviations Techniques and Applications (Stochastic Modelling and Applied Probability)

 

●予告

今回名前だけ出して説明しなかった凸関数やルジャンドル変換は情報を幾何学的に研究する学問の中でも重要な役割を果たします。次回からはしばらく情報幾何学について説明していきたいと思います。

エントロピー、カルバック・ライブラー情報量、最尤推定法

前回簡単に説明した大偏差原理エントロピーの概念を使って詳しく説明するために、今回はエントロピーについて説明します。また、カルバック・ライブラー情報量、最尤推定法などについても説明します。

エントロピー

有限個の事象エントロピーは次のように定義されます。

f:id:ogyahogya:20141120110644p:plain

これは確率変数のエントロピーへ次のように一般化されます。

f:id:ogyahogya:20141120110756p:plain

エントロピーは平均情報量ともみなせます。

f:id:ogyahogya:20141120110920p:plain

●カルバック・ライブラー情報量(相対エントロピー

データはある確率分布に従う確率変数の実現値であると考えられることが多いです。しかし、その確率分布の形が分からないことがあり、得られたデータから真の確率分布を推定する必要がよくあります。推定した確率分布が真の確率分布にどれくらい近いかを表す尺度として次のカルバック・ライブラー情報量(相対エントロピー)というものがあります。

f:id:ogyahogya:20141123203334p:plain

カルバック・ライブラー情報量の重要な性質として次の非負性があります。

f:id:ogyahogya:20141124173856p:plain

カルバック・ライブラー情報量とエントロピーは次の関係があります。

f:id:ogyahogya:20141124151133p:plain

よって、

f:id:ogyahogya:20141124151332p:plain

となり、確率変数が一様分布に従うときにエントロピーは最大になることが分かります。

最尤推定

確率分布  p(x) に従ってデータが生成されたとしましょう。しかし、 p(x) は我々には分からないとして、 p(x) を推定する必要があるとします。上で述べたことより、 p(x) の推定にカルバック・ライブラー情報量が利用できそうです。カルバック・ライブラー情報量の定義から

f:id:ogyahogya:20141124161304p:plain

ということが分かります。 D(p||q)=0 のときに  p(x)=q(x) がすべての点  x で成り立ちますので

f:id:ogyahogya:20141124161709p:plain

を最大にすれば推定した確率分布  q(x) は真の確率分布  p(x) により近くなることが期待できます。しかし、そもそも真の確率分布  p(x) は未知なので平均大数尤度は直接計算できません。ここで注目すべき点はデータ  x_1,x_2,\cdots, x_n は真の確率分布  p(x) に従って得られているということです。つまり、データは確率変数の実現値であり、その確率変数は真の確率分布  p(x) に従います。このことから、データがたくさん得られたときには大数の法則が利用できて

f:id:ogyahogya:20141124164534p:plain

となります。そこで、カルバック・ライブラー情報量  D(p||q) を小さくするためには

f:id:ogyahogya:20141124164803p:plain

を最大にすれば良いことが分かります。最尤推定はパラメータ付きの対数尤度

f:id:ogyahogya:20141124171631p:plain

を最大にするパラメータ  \theta=\hat{\theta} のことで、 q(x|\hat{\theta}) p(x)最尤推定と言います。つまり、最尤推定\hat{\theta}

f:id:ogyahogya:20141124172431p:plain

を満たす \theta のことです。

データ数が十分に多いとき最尤推定法はある意味で最適な推定法になっていることを示せます。このことはまた今度詳しい説明を書くつもりです。

●連続確率変数のエントロピーとカルバック・ライブラー情報量

 今までの議論は確率変数が離散値を取る場合を考えていましたが、確率変数が連続値を取る場合に対してもエントロピーやカルバックライブラー情報量が次のように定義されます。

f:id:ogyahogya:20141211180348p:plain

離散値の時と同様にカルバックライブラー情報量の定義式から最尤推定法の考え方が出てきます。

確率変数が連続値をとるとき変分法を使うと、ある制約条件の下でエントロピーを最大化するような確率密度関数を求めることができます。例えば、平均と分散が一定のもとでエントロピーが最大になる分布はガウス分布であることを示すことができます。変分法については今後詳しく説明するつもりです。

●参考文献

 記事を書くときに参考にした文献です。

(1) 情報理論をしっかり勉強するならこれ

Elements of Information Theory (Wiley Series in Telecommunications and Signal Processing)

Elements of Information Theory (Wiley Series in Telecommunications and Signal Processing)

 

 (2) カルバックライブラー情報量と最尤推定のつながりのところを参考にした

 

経済物理学

経済物理学

 

●予告

大偏差原理について詳しく説明します。

平均から大きく離れたところの生起確率

前の記事では中心極限定理について説明しました。中心極限定理の主張は次のようにも解釈できます。 

f:id:ogyahogya:20141119174239p:plain

しかし、中心極限定理だけでは次のような疑問が生じます。

f:id:ogyahogya:20141119184537p:plain

図で気持ちを書くとこんな感じです。

f:id:ogyahogya:20141119171319p:plain

平均と同じオーダーの偏差が生じる確率を0と答えるのではなく数式で答えるのが大偏差原理です。つまり、 n と大偏差の生起確率の関係を教えてくれます。この記事では簡単な不等式を使って大偏差を調べる方法を述べて、難しい議論は次回以降にすることにします。

●チェビシェフの不等式

チェビシェフの不等式から大偏差に関する単純な解答が得られます。ここで、チェビシェフの不等式とは

f:id:ogyahogya:20141115185638p:plain

のことです。実際にチェビシェフの不等式から大偏差に関する情報が得られることが次のように分かります。

f:id:ogyahogya:20141115190253p:plain

よって、チェビシェフの不等式より平均からの  O(n) の偏差が生じる確率が  O(n^{-1}) であることが分かります。しかし、次のマルコフ不等式を利用してみるとこの評価はひどく悪いことが分かります。

●マルコフ不等式

マルコフ不等式からも大偏差に関する解答が得られます。ここで、マルコフ不等式とは

f:id:ogyahogya:20141115175552p:plain

のことです。実際にマルコフ不等式から大偏差に関する情報が得られることが次のように分かります。

f:id:ogyahogya:20141115184137p:plain

マルコフ不等式を利用するとチェビシェフの不等式の時とは異なり平均からの  O(n) の偏差が生じる確率が指数関数によって評価されています。

●クラメールの定理

マルコフ不等式からの帰結を精密にした結果がクラメールの定理と言われるものです。クラメールの定理が主張する大偏差に関する評価は情報理論エントロピーの概念と密接に関係しているので、次回の記事でエントロピーを紹介した後にクラメールの定理を紹介したいと思います。

●参考文献

 エントロピーと大偏差の関係が書いてる。

Large Deviations Techniques and Applications (Applications of Mathematics)

Large Deviations Techniques and Applications (Applications of Mathematics)

 

●予告

 情報理論エントロピーの概念を説明します。

 

 

中心極限定理

この記事では、

ogyahogya.hatenablog.com

で少し書いた中心極限定理について詳しく説明します。中心極限定理は直感的にはたくさんの確率変数の和の確率分布関数はガウス分布(正規分布)になるということを述べています。一つ一つの確率変数にあまりきつい条件を課すことなく言えるので、色々な分野で応用が可能です。しかし、あまりきつい条件を課さないということで、その定理を示すためにはいくつかの抽象的な概念を経由する必要があります。

ogyahogya.hatenablog.com

で書いた確率測度の弱収束と確率分布関数の分布収束という概念も中心極限定理を証明するために必要な概念となっています。

●中心極限定理とは何か

 中心極限定理はある条件が成り立てば独立な多くの確率変数の和の確率分布関数が標準ガウス分布へ分布収束することを主張しています。ここで、重要なのは確率変数が同一である必要はないということです。多くの本では確率変数たちが独立で同一(i.i.d.)であるなら正規化された和の確率変数たちに対して中心極限定理が適用できることを述べていますが、同一性の仮定は必要ありません。同一性の仮定が必要ないことは実用上とてもうれしいことです。例えば、ある地域に住む人々の消費電力を確率変数で表したとしましょう。日々の経験から人々の電力の使い方は同一の確率分布に従うとは思えません。このとき、その地域の消費電力はその地域に住む人々の消費電力の和となるので、地域の消費電力もまた確率変数となると考えることができます。よって、地域の消費電力も確率分布を持つわけです。では、その確率分布はどんな形になるでしょうか?人々の消費電力は確率変数と考えたときに独立と考えられます。なぜなら、自分の家でどのように電気を使うかは隣の家の電気の使い方に依存しないはずだからです。よって、中心極限定理を使うために同一性の仮定が必要ないことから多くの場合、地域の消費電力の確率分布はガウス分布になることが予想されます。もし、中心極限定理に同一性の仮定が必要なら地域の消費電力の確率分布の形はどんなものになるか予想することが難しくなるはずです。

このように中心極限定理は集団の振る舞いを知る上でかなり便利です。その定理は正確には次のようになっています。

f:id:ogyahogya:20141020152221p:plain

中心極限定理は上のように確率変数たちが独立ということと、リンデベルグ条件が成立すれば同一性の仮定がなくても適用できます。同一性の仮定は次のようにリンデベルグ条件がなりたつための十分条件になっています。

 f:id:ogyahogya:20141022133337p:plain

また、次の条件はリヤプノフ条件と呼ばれ、これもリンデベルグ条件が成り立つための十分条件になっています。

f:id:ogyahogya:20141020153623p:plain

例えば次のような感じで中心極限定理を適用できます。

f:id:ogyahogya:20141020155709p:plain

上の例でn=15, n=20, n=50, n=100の場合に  X_1+X_2+\cdots + X_nのヒストグラムを作ると次のような感じになります。ただし、各  p_i [0,1] 上の一様分布で生成しています。つまり、この場合はすべての確率変数が同一分布です

f:id:ogyahogya:20141020173833p:plain

図を見ると  n が大きくなるにつれて正規分布に近づいていることが分かります。

また、すべての確率変数が同一分布ではないときにも次のように  n が大きくなると正規分布に近づくことが分かります。

f:id:ogyahogya:20141020181952p:plain

 

●確率測度のフーリエ変換: 特性関数

前の記事の中で独立な確率変数たち  X_1,\cdots,X_n の和の確率密度関数は  X_1,\cdots,X_n の確率密度関数  p^{X_1},\cdots, p^{X_n} の合成積

f:id:ogyahogya:20140924143714p:plain

で与えられるということを述べました。

ogyahogya.hatenablog.com

で書いたようにフーリエ変換を施すと

f:id:ogyahogya:20140924144102p:plain

のように合成積は通常の積に変わり、計算がしやすくなります。このことを利用して中心極限定理を示すことができるのです。ここでは、前の記事で書いたフーリエ変換の定義を一般化して次のように確率測度のフーリエ変換を定義します(本質的ではないが符号が異なることに注意)。これが確率測度の特性関数というものです。

f:id:ogyahogya:20141022135944p:plain

例えば、平均  \mu、 分散  \sigma^2 のガウス分布の特性関数は次のように求めることができます。

f:id:ogyahogya:20141023091145p:plain

よって、確率変数たち  X_1,\cdots,X_n が独立なガウス分布に従うなら、 X_1+\cdots +X_n もガウス分布に従うことが次のように分かります。

f:id:ogyahogya:20141023143004p:plain

 よって、確率変数たちの和を考えたときにもともとの確率変数たちがすべてガウス分布に従うなら和もガウス分布に従うということが特性関数を計算することで分かります。中心極限定理は和を構成する確率変数たちがガウス分布に従わなくても、たくさんの確率変数の和はガウス分布に近くなるということを言っているのです(ちょっとした仮定のもとで)。

●中心極限定理の証明の流れ

中心極限定理は確率分布関数の列の標準正規分布への分布収束を述べていますが、その分布収束を示すために、対応する特性関数の列の収束を用います。特性関数の列の収束と確率分布関数の列の分布収束の関係は確率測度の列の弱収束との関係を使って示すことができます。

実際に、次のように確率測度の列が弱収束するなら対応する特性関数の列が収束することを示すことができます。

 

f:id:ogyahogya:20141022140117p:plain

逆に特性関数が収束するなら確率測度が弱収束するということも成り立ちます。これはGlivenkoの定理と言われています。

f:id:ogyahogya:20141023160504p:plain

上の定理と前の記事の確率測度の弱収束と確率分布関数の分布収束の等価性より、次の関係が成り立つことが分かります。

f:id:ogyahogya:20141017183140p:plain

この関係は次のように中心極限定理の証明の中で利用できます。

f:id:ogyahogya:20141022143345p:plain

 

●参考文献

記事を書くにあたって参考にした文献です。

(1) タイトルのとおり中心極限定理について詳しく書いている。

 

中心極限定理 (シリーズ新しい応用の数学 (14))

中心極限定理 (シリーズ新しい応用の数学 (14))

 

 (2) 証明が分かりやすい。

 

Theory of Probability and Random Processes (Universitext)

Theory of Probability and Random Processes (Universitext)

 

 

●予告

中心極限定理をもっと掘り下げます。

確率測度と弱収束

前の記事で確率測度や、確率測度から定義される確率分布関数というものを紹介しました。今回はこの記事で少しだけ書いた中心極限定理をきちんと説明するために確率測度の例や確率測度の弱収束について紹介したいと思います。

●確率分布関数から確率測度を定義する

まず、前の記事で確率測度から定義した確率分布関数は以下の定義を満たしていていることが分かります。

f:id:ogyahogya:20141014144143p:plain

前の記事では確率測度から確率分布関数を定義しましたが、逆に上の定義を満たす確率分布関数から確率測度を定義することができます。

f:id:ogyahogya:20141014144341p:plain

例えば、前の記事で紹介したヘビサイド関数は確率分布関数の性質を満たしていて、これから次のような性質を満たす確率測度を定義できます。

f:id:ogyahogya:20141014144538p:plain

 この性質を満たす確率測度はディラック測度と呼ばれています。

f:id:ogyahogya:20141014144714p:plain

 また、確率分布関数の凸結合も確率分布関数になります。

f:id:ogyahogya:20141014145030p:plain

離散確率分布は次のようにいくつかのヘビサイド関数(確率分布関数)を凸結合したものとみなすことができます。

f:id:ogyahogya:20141014145240p:plain

ビサイド関数からディラック測度が定義されたのでいくつかのヘビサイド関数の凸結合から定義される確率測度は重み付けられたディラック測度というような感じになっています。前の記事で導入したディラックデルタ関数ディラック測度から定義された確率密度関数とみなすことができます。

f:id:ogyahogya:20141014152227p:plain

確率変数が連続値を取る場合も確率分布関数から確率測度を定義できます。例えば、ガウス分布からは次のような感じです。

f:id:ogyahogya:20141014152528p:plain

●確率測度の列の弱収束

実数の列が与えられたどんな実数に収束するかを調べることができるように、確率測度の列が与えらたらどんな確率測度に収束するかを調べることができます。ただし、確率論の中でよく使われる確率測度の列の収束の意味は次の弱収束と言われれるものです。

f:id:ogyahogya:20141014153016p:plain

ガウス分布確率密度関数は分散を0に限りなく近付けるとディラックデルタ関数ぽいと前の記事で紹介しましたが、これと同様にガウス測度はディラック測度に収束することが示せます。ただし、収束は次のように弱収束の意味です。

f:id:ogyahogya:20141014153356p:plain

 

●確率分布関数の分布収束

確率分布関数の列の分布収束は次のように定義されます。

f:id:ogyahogya:20141014154734p:plain

確率測度の弱収束と確率分布関数の分布収束の間には次の関係があります。

f:id:ogyahogya:20141014154753p:plain

この定理は確率測度の列の弱収束という難しそうなものが、確率分布関数の列の分布収束という簡単そうなものに等価だということを意味しています。

●参考文献

 記事を書くにあたって参考にした文献です。

(1) 分かりやすい。

はじめての確率論 測度から確率へ

はじめての確率論 測度から確率へ

 

 (2) 証明が丁寧に書いている。

 

Theory of Probability and Random Processes (Universitext)

Theory of Probability and Random Processes (Universitext)

 

●予告

中心極限定理について説明します。

超関数

超関数とは関数の概念を一般化したもので、もともとは物理の方で導入されたディラックのデルタ関数という計算に便利なものを数学的に正当化しようとして考え出されました。ディラックのデルタ関数は直感的にはガウス分布の確率密度関数の分散を0に限りなく近付けたときの極限関数が持つ性質を理想化したものです。

●ガウス分布とディラックのデルタ関数

まず、色々な分散のガウス分布の確率密度関数は次のようになっています。

f:id:ogyahogya:20141001100326p:plain

ディラックのデルタ関数は次のようにガウス分布の確率密度関数の分散を0へ限りなく近付けたときの特徴を理想化したものと考えられます。

f:id:ogyahogya:20141001100511p:plain

●ディラックのデルタ関数の変なところ

ディラックのデルタ関数  \delta は次のように突っ込みどころ満載です。

f:id:ogyahogya:20141001100636p:plain

このように  \delta 関数には変な部分があります。しかし、応用上は便利なので  \delta 関数を捨て去るのは勿体ないと変な部分を解消しようと努力した人がたくさんいました。その中でシュワルツという数学者は通常の関数の概念を一般化した超関数というものを創造することに成功しました。

●関数概念の一般化

シュワルツは次のように緩増加超関数というものを導入しました。ここで、 \mathcal{S}({\bf R})

ogyahogya.hatenablog.comの中で定義したシュワルツ空間のことです。

f:id:ogyahogya:20141001193227p:plain

 緩増加超関数全体の集合は定義から  \mathcal{S}({\bf R}) の双対空間になっています。

f:id:ogyahogya:20141002143928p:plain

f:id:ogyahogya:20141002143920p:plain

緩増加超関数は通常の関数の一般化と考えることができます。そのことを見るために次のリースの表現定理というものを思い出しましょう。

f:id:ogyahogya:20141002144152p:plain

このリースの表現定理を用いると、前の記事で議論した関数空間  L^2({\bf R}) \mathcal{S}'({\bf R}) に含まれるということが次のように分かります。

f:id:ogyahogya:20141002144410p:plain

また,  L^2({\bf R}) に含まれないディラックのデルタ関数も  \mathcal{S}'({\bf R}) に含まれます。ただし、ここでのディラックのデルタ関数は上で与えたような数学的に意味のないものではありません。

f:id:ogyahogya:20141002160140p:plain

●超関数の積分による表示

通常の関数が与えられたら、その関数から積分を利用して緩増加超関数を次のように定義することができます。

f:id:ogyahogya:20141002163911p:plain

これと同じように、今度は緩増加超関数を積分の形で書いてみましょう。例えばディラックのデルタ関数であれば次のようになります。

 

f:id:ogyahogya:20141002164113p:plain

一般の緩増加超関数に対しては積分の形で書いていても積分の意味は持たないことに注意しましょう。しかし、気持ちを表現するのに便利なのでよく使われます。

次の例も緩増加超関数です。これはディラックのデルタ関数のちょっとした一般化になっています。

f:id:ogyahogya:20141003091141p:plain

●超関数の微分

通常の関数として考えたときに微分できない関数も緩増加超関数として考えると微分できるようになります。まず緩増加超関数の微分を定義します。

f:id:ogyahogya:20141002175920p:plain

緩増加超関数として微分ができるようになる関数の例としては次のものがあります。

f:id:ogyahogya:20141002180119p:plain

また、ディラックのデルタ関数の微分は次のように認識できるようになります。

f:id:ogyahogya:20141002180558p:plain

●ディラックのデルタ関数は合成積の単位元

実数の世界の中で任意の実数に1をかけても値を変えることはありません。この場合の1のように要素を変化させないものを単位元といいます。ディラックのデルタ関数は関数の合成積の演算を考えたときの単位元になっています。このことを示しましょう。合成積については

ogyahogya.hatenablog.comを参考にしてください。まず、通常の関数と急減少関数の合成積を緩増加超関数だと思って急減少関数に作用させると次のようになることに注意しましょう。

 

f:id:ogyahogya:20141003100901p:plain

このことを参考に緩増加超関数と急減少関数の合成積を次のように定義します。

f:id:ogyahogya:20141003101023p:plain

すると、ディラックのデルタ関数が合成積の中で単位元になっていることが次のように分かります。

f:id:ogyahogya:20141003101150p:plain

また、二つの緩増加超関数の合成積は次のように定義します。

f:id:ogyahogya:20141003102600p:plain

すると、次のような計算が可能になります。

f:id:ogyahogya:20141003102653p:plain

●超関数のフーリエ変換

前の記事で関数のフーリエ変換について説明しました。フーリエ変換は緩増加超関数に対しても次のように定義できます。

f:id:ogyahogya:20141002182832p:plain

 ディラックのデルタ関数のフーリエ変換は1になります。

f:id:ogyahogya:20141002182941p:plain

このことは次のような解釈が可能です。

f:id:ogyahogya:20141003094140p:plain

 

また、1のフーリエ変換はここではデルタ関数に  2\pi を掛けたものになりますが、フーリエ変換の定義の仕方によっては単にデルタ関数になることもあります。

f:id:ogyahogya:20141002183059p:plain

 

●合成積のフーリエ変換

前の記事で時間領域の合成積をフーリエ変換すると周波数領域での普通の積になるという話をしました。このことは緩増加超関数に対しても成り立ちます。

f:id:ogyahogya:20141003102850p:plain

●参考文献

記事を書くときに参考にした文献です。

(1) スタンフォード大学の B. Osgood先生の講義資料の p152~p194まで。とても分かりやすい。

(2) 超関数のところを参考にした。分かりやすい。

 

これならわかる工学部で学ぶ数学

これならわかる工学部で学ぶ数学

 

 (3) この記事で紹介した超関数を考えた人の本の和訳。この記事よりも高度なことが書いてある。

 

超函数の理論 原書第3版

超函数の理論 原書第3版

  • 作者: L.シュワルツ,Laurent Schwartz,岩村聯,石垣春夫,鈴木文夫
  • 出版社/メーカー: 岩波書店
  • 発売日: 1971/09/30
  • メディア: 単行本
  • クリック: 5回
  • この商品を含むブログを見る
 

●予告

確率論では確率測度としてディラック測度というものを考えることがよくあります。これがここで紹介したディラックのデルタ関数とどんな関係があるかということや、いくつかの確率測度の紹介をしたいと思います。その次に、中心極限定理の話へ進みたいと思います。