初級Mathマニアの寝言

数学は色々なところで応用可能であり、多くの人が数学の抽象的な概念の意味や意義を鮮明に知ることができれば今まで以上に面白い物や仕組みが生まれるかもしれません。このブログは数学を専門にしない人のために抽象的な概念の意味や意義を分かりやすく説明することを目的としています。数学を使って何かしたい人のお役に立てたら幸いです。

中心極限定理

この記事では、

ogyahogya.hatenablog.com

で少し書いた中心極限定理について詳しく説明します。中心極限定理は直感的にはたくさんの確率変数の和の確率分布関数はガウス分布(正規分布)になるということを述べています。一つ一つの確率変数にあまりきつい条件を課すことなく言えるので、色々な分野で応用が可能です。しかし、あまりきつい条件を課さないということで、その定理を示すためにはいくつかの抽象的な概念を経由する必要があります。

ogyahogya.hatenablog.com

で書いた確率測度の弱収束と確率分布関数の分布収束という概念も中心極限定理を証明するために必要な概念となっています。

●中心極限定理とは何か

 中心極限定理はある条件が成り立てば独立な多くの確率変数の和の確率分布関数が標準ガウス分布へ分布収束することを主張しています。ここで、重要なのは確率変数が同一である必要はないということです。多くの本では確率変数たちが独立で同一(i.i.d.)であるなら正規化された和の確率変数たちに対して中心極限定理が適用できることを述べていますが、同一性の仮定は必要ありません。同一性の仮定が必要ないことは実用上とてもうれしいことです。例えば、ある地域に住む人々の消費電力を確率変数で表したとしましょう。日々の経験から人々の電力の使い方は同一の確率分布に従うとは思えません。このとき、その地域の消費電力はその地域に住む人々の消費電力の和となるので、地域の消費電力もまた確率変数となると考えることができます。よって、地域の消費電力も確率分布を持つわけです。では、その確率分布はどんな形になるでしょうか?人々の消費電力は確率変数と考えたときに独立と考えられます。なぜなら、自分の家でどのように電気を使うかは隣の家の電気の使い方に依存しないはずだからです。よって、中心極限定理を使うために同一性の仮定が必要ないことから多くの場合、地域の消費電力の確率分布はガウス分布になることが予想されます。もし、中心極限定理に同一性の仮定が必要なら地域の消費電力の確率分布の形はどんなものになるか予想することが難しくなるはずです。

このように中心極限定理は集団の振る舞いを知る上でかなり便利です。その定理は正確には次のようになっています。

f:id:ogyahogya:20141020152221p:plain

中心極限定理は上のように確率変数たちが独立ということと、リンデベルグ条件が成立すれば同一性の仮定がなくても適用できます。同一性の仮定は次のようにリンデベルグ条件がなりたつための十分条件になっています。

 f:id:ogyahogya:20141022133337p:plain

また、次の条件はリヤプノフ条件と呼ばれ、これもリンデベルグ条件が成り立つための十分条件になっています。

f:id:ogyahogya:20141020153623p:plain

例えば次のような感じで中心極限定理を適用できます。

f:id:ogyahogya:20141020155709p:plain

上の例でn=15, n=20, n=50, n=100の場合に  X_1+X_2+\cdots + X_nのヒストグラムを作ると次のような感じになります。ただし、各  p_i [0,1] 上の一様分布で生成しています。つまり、この場合はすべての確率変数が同一分布です

f:id:ogyahogya:20141020173833p:plain

図を見ると  n が大きくなるにつれて正規分布に近づいていることが分かります。

また、すべての確率変数が同一分布ではないときにも次のように  n が大きくなると正規分布に近づくことが分かります。

f:id:ogyahogya:20141020181952p:plain

 

●確率測度のフーリエ変換: 特性関数

前の記事の中で独立な確率変数たち  X_1,\cdots,X_n の和の確率密度関数は  X_1,\cdots,X_n の確率密度関数  p^{X_1},\cdots, p^{X_n} の合成積

f:id:ogyahogya:20140924143714p:plain

で与えられるということを述べました。

ogyahogya.hatenablog.com

で書いたようにフーリエ変換を施すと

f:id:ogyahogya:20140924144102p:plain

のように合成積は通常の積に変わり、計算がしやすくなります。このことを利用して中心極限定理を示すことができるのです。ここでは、前の記事で書いたフーリエ変換の定義を一般化して次のように確率測度のフーリエ変換を定義します(本質的ではないが符号が異なることに注意)。これが確率測度の特性関数というものです。

f:id:ogyahogya:20141022135944p:plain

例えば、平均  \mu、 分散  \sigma^2 のガウス分布の特性関数は次のように求めることができます。

f:id:ogyahogya:20141023091145p:plain

よって、確率変数たち  X_1,\cdots,X_n が独立なガウス分布に従うなら、 X_1+\cdots +X_n もガウス分布に従うことが次のように分かります。

f:id:ogyahogya:20141023143004p:plain

 よって、確率変数たちの和を考えたときにもともとの確率変数たちがすべてガウス分布に従うなら和もガウス分布に従うということが特性関数を計算することで分かります。中心極限定理は和を構成する確率変数たちがガウス分布に従わなくても、たくさんの確率変数の和はガウス分布に近くなるということを言っているのです(ちょっとした仮定のもとで)。

●中心極限定理の証明の流れ

中心極限定理は確率分布関数の列の標準正規分布への分布収束を述べていますが、その分布収束を示すために、対応する特性関数の列の収束を用います。特性関数の列の収束と確率分布関数の列の分布収束の関係は確率測度の列の弱収束との関係を使って示すことができます。

実際に、次のように確率測度の列が弱収束するなら対応する特性関数の列が収束することを示すことができます。

 

f:id:ogyahogya:20141022140117p:plain

逆に特性関数が収束するなら確率測度が弱収束するということも成り立ちます。これはGlivenkoの定理と言われています。

f:id:ogyahogya:20141023160504p:plain

上の定理と前の記事の確率測度の弱収束と確率分布関数の分布収束の等価性より、次の関係が成り立つことが分かります。

f:id:ogyahogya:20141017183140p:plain

この関係は次のように中心極限定理の証明の中で利用できます。

f:id:ogyahogya:20141022143345p:plain

 

●参考文献

記事を書くにあたって参考にした文献です。

(1) タイトルのとおり中心極限定理について詳しく書いている。

 

中心極限定理 (シリーズ新しい応用の数学 (14))

中心極限定理 (シリーズ新しい応用の数学 (14))

 

 (2) 証明が分かりやすい。

 

Theory of Probability and Random Processes (Universitext)

Theory of Probability and Random Processes (Universitext)

 

 

●予告

中心極限定理をもっと掘り下げます。

確率測度と弱収束

前の記事で確率測度や、確率測度から定義される確率分布関数というものを紹介しました。今回はこの記事で少しだけ書いた中心極限定理をきちんと説明するために確率測度の例や確率測度の弱収束について紹介したいと思います。

●確率分布関数から確率測度を定義する

まず、前の記事で確率測度から定義した確率分布関数は以下の定義を満たしていていることが分かります。

f:id:ogyahogya:20141014144143p:plain

前の記事では確率測度から確率分布関数を定義しましたが、逆に上の定義を満たす確率分布関数から確率測度を定義することができます。

f:id:ogyahogya:20141014144341p:plain

例えば、前の記事で紹介したヘビサイド関数は確率分布関数の性質を満たしていて、これから次のような性質を満たす確率測度を定義できます。

f:id:ogyahogya:20141014144538p:plain

 この性質を満たす確率測度はディラック測度と呼ばれています。

f:id:ogyahogya:20141014144714p:plain

 また、確率分布関数の凸結合も確率分布関数になります。

f:id:ogyahogya:20141014145030p:plain

離散確率分布は次のようにいくつかのヘビサイド関数(確率分布関数)を凸結合したものとみなすことができます。

f:id:ogyahogya:20141014145240p:plain

ビサイド関数からディラック測度が定義されたのでいくつかのヘビサイド関数の凸結合から定義される確率測度は重み付けられたディラック測度というような感じになっています。前の記事で導入したディラックデルタ関数ディラック測度から定義された確率密度関数とみなすことができます。

f:id:ogyahogya:20141014152227p:plain

確率変数が連続値を取る場合も確率分布関数から確率測度を定義できます。例えば、ガウス分布からは次のような感じです。

f:id:ogyahogya:20141014152528p:plain

●確率測度の列の弱収束

実数の列が与えられたどんな実数に収束するかを調べることができるように、確率測度の列が与えらたらどんな確率測度に収束するかを調べることができます。ただし、確率論の中でよく使われる確率測度の列の収束の意味は次の弱収束と言われれるものです。

f:id:ogyahogya:20141014153016p:plain

ガウス分布確率密度関数は分散を0に限りなく近付けるとディラックデルタ関数ぽいと前の記事で紹介しましたが、これと同様にガウス測度はディラック測度に収束することが示せます。ただし、収束は次のように弱収束の意味です。

f:id:ogyahogya:20141014153356p:plain

 

●確率分布関数の分布収束

確率分布関数の列の分布収束は次のように定義されます。

f:id:ogyahogya:20141014154734p:plain

確率測度の弱収束と確率分布関数の分布収束の間には次の関係があります。

f:id:ogyahogya:20141014154753p:plain

この定理は確率測度の列の弱収束という難しそうなものが、確率分布関数の列の分布収束という簡単そうなものに等価だということを意味しています。

●参考文献

 記事を書くにあたって参考にした文献です。

(1) 分かりやすい。

はじめての確率論 測度から確率へ

はじめての確率論 測度から確率へ

 

 (2) 証明が丁寧に書いている。

 

Theory of Probability and Random Processes (Universitext)

Theory of Probability and Random Processes (Universitext)

 

●予告

中心極限定理について説明します。

超関数

超関数とは関数の概念を一般化したもので、もともとは物理の方で導入されたディラックのデルタ関数という計算に便利なものを数学的に正当化しようとして考え出されました。ディラックのデルタ関数は直感的にはガウス分布の確率密度関数の分散を0に限りなく近付けたときの極限関数が持つ性質を理想化したものです。

●ガウス分布とディラックのデルタ関数

まず、色々な分散のガウス分布の確率密度関数は次のようになっています。

f:id:ogyahogya:20141001100326p:plain

ディラックのデルタ関数は次のようにガウス分布の確率密度関数の分散を0へ限りなく近付けたときの特徴を理想化したものと考えられます。

f:id:ogyahogya:20141001100511p:plain

●ディラックのデルタ関数の変なところ

ディラックのデルタ関数  \delta は次のように突っ込みどころ満載です。

f:id:ogyahogya:20141001100636p:plain

このように  \delta 関数には変な部分があります。しかし、応用上は便利なので  \delta 関数を捨て去るのは勿体ないと変な部分を解消しようと努力した人がたくさんいました。その中でシュワルツという数学者は通常の関数の概念を一般化した超関数というものを創造することに成功しました。

●関数概念の一般化

シュワルツは次のように緩増加超関数というものを導入しました。ここで、 \mathcal{S}({\bf R})

ogyahogya.hatenablog.comの中で定義したシュワルツ空間のことです。

f:id:ogyahogya:20141001193227p:plain

 緩増加超関数全体の集合は定義から  \mathcal{S}({\bf R}) の双対空間になっています。

f:id:ogyahogya:20141002143928p:plain

f:id:ogyahogya:20141002143920p:plain

緩増加超関数は通常の関数の一般化と考えることができます。そのことを見るために次のリースの表現定理というものを思い出しましょう。

f:id:ogyahogya:20141002144152p:plain

このリースの表現定理を用いると、前の記事で議論した関数空間  L^2({\bf R}) \mathcal{S}'({\bf R}) に含まれるということが次のように分かります。

f:id:ogyahogya:20141002144410p:plain

また,  L^2({\bf R}) に含まれないディラックのデルタ関数も  \mathcal{S}'({\bf R}) に含まれます。ただし、ここでのディラックのデルタ関数は上で与えたような数学的に意味のないものではありません。

f:id:ogyahogya:20141002160140p:plain

●超関数の積分による表示

通常の関数が与えられたら、その関数から積分を利用して緩増加超関数を次のように定義することができます。

f:id:ogyahogya:20141002163911p:plain

これと同じように、今度は緩増加超関数を積分の形で書いてみましょう。例えばディラックのデルタ関数であれば次のようになります。

 

f:id:ogyahogya:20141002164113p:plain

一般の緩増加超関数に対しては積分の形で書いていても積分の意味は持たないことに注意しましょう。しかし、気持ちを表現するのに便利なのでよく使われます。

次の例も緩増加超関数です。これはディラックのデルタ関数のちょっとした一般化になっています。

f:id:ogyahogya:20141003091141p:plain

●超関数の微分

通常の関数として考えたときに微分できない関数も緩増加超関数として考えると微分できるようになります。まず緩増加超関数の微分を定義します。

f:id:ogyahogya:20141002175920p:plain

緩増加超関数として微分ができるようになる関数の例としては次のものがあります。

f:id:ogyahogya:20141002180119p:plain

また、ディラックのデルタ関数の微分は次のように認識できるようになります。

f:id:ogyahogya:20141002180558p:plain

●ディラックのデルタ関数は合成積の単位元

実数の世界の中で任意の実数に1をかけても値を変えることはありません。この場合の1のように要素を変化させないものを単位元といいます。ディラックのデルタ関数は関数の合成積の演算を考えたときの単位元になっています。このことを示しましょう。合成積については

ogyahogya.hatenablog.comを参考にしてください。まず、通常の関数と急減少関数の合成積を緩増加超関数だと思って急減少関数に作用させると次のようになることに注意しましょう。

 

f:id:ogyahogya:20141003100901p:plain

このことを参考に緩増加超関数と急減少関数の合成積を次のように定義します。

f:id:ogyahogya:20141003101023p:plain

すると、ディラックのデルタ関数が合成積の中で単位元になっていることが次のように分かります。

f:id:ogyahogya:20141003101150p:plain

また、二つの緩増加超関数の合成積は次のように定義します。

f:id:ogyahogya:20141003102600p:plain

すると、次のような計算が可能になります。

f:id:ogyahogya:20141003102653p:plain

●超関数のフーリエ変換

前の記事で関数のフーリエ変換について説明しました。フーリエ変換は緩増加超関数に対しても次のように定義できます。

f:id:ogyahogya:20141002182832p:plain

 ディラックのデルタ関数のフーリエ変換は1になります。

f:id:ogyahogya:20141002182941p:plain

このことは次のような解釈が可能です。

f:id:ogyahogya:20141003094140p:plain

 

また、1のフーリエ変換はここではデルタ関数に  2\pi を掛けたものになりますが、フーリエ変換の定義の仕方によっては単にデルタ関数になることもあります。

f:id:ogyahogya:20141002183059p:plain

 

●合成積のフーリエ変換

前の記事で時間領域の合成積をフーリエ変換すると周波数領域での普通の積になるという話をしました。このことは緩増加超関数に対しても成り立ちます。

f:id:ogyahogya:20141003102850p:plain

●参考文献

記事を書くときに参考にした文献です。

(1) スタンフォード大学の B. Osgood先生の講義資料の p152~p194まで。とても分かりやすい。

(2) 超関数のところを参考にした。分かりやすい。

 

これならわかる工学部で学ぶ数学

これならわかる工学部で学ぶ数学

 

 (3) この記事で紹介した超関数を考えた人の本の和訳。この記事よりも高度なことが書いてある。

 

超函数の理論 原書第3版

超函数の理論 原書第3版

  • 作者: L.シュワルツ,Laurent Schwartz,岩村聯,石垣春夫,鈴木文夫
  • 出版社/メーカー: 岩波書店
  • 発売日: 1971/09/30
  • メディア: 単行本
  • クリック: 5回
  • この商品を含むブログを見る
 

●予告

確率論では確率測度としてディラック測度というものを考えることがよくあります。これがここで紹介したディラックのデルタ関数とどんな関係があるかということや、いくつかの確率測度の紹介をしたいと思います。その次に、中心極限定理の話へ進みたいと思います。

フーリエ変換

フーリエ変換は色々な分野で応用されている便利な道具です。例えば、信号の解析をするためにフーリエ変換の原理を取り込んだFFTアナライザというものが計測関係の企業で使われています。FFTアナライザの中で行われていることはググるとたくさん出てきますので興味のある人はググってみてください。

フーリエ変換はよく時間領域の信号(関数)  f(t) を周波数領域に移し、逆フーリエ変換は周波数領域の関数  F(\omega) を時間領域の信号に戻すものだと言われ、次のような式で定義されます。

f:id:ogyahogya:20140924095936p:plain

 

イメージ的にはこんな感じです。

f:id:ogyahogya:20140926091533p:plain

上の図のようにフーリエ変換と逆フーリエ変換を使うことで時間の世界と周波数の世界を行ったり来たりできます。これは、時間の世界では解析が難しそうだったら周波数の世界に行ってみて、そこで簡単なものに変わってたら色々と信号を改良できて、改良したものを時間の世界に持ってこれるということを意味しています。

このようにフーリエ変換は便利そうなのですが、時間の信号の中にはフーリエ変換できないものがあります。この記事は、数学とは集合の性質を写像を通して調べる学問であるということを意識することで、どんな信号がフーリエ変換できるのかということや、数学的にフーリエ変換を観察してみると何が見えるのかということを説明します。

フーリエ変換しても住みかが変わらない関数空間とは?

まず、どのような関数であればフーリエ変換できるのかを考えましょう。ここで、関数  f がフーリエ変換できるというのは  \int_{-\infty}^{\infty} f(t) e^{-i\omega t} dt が発散しないことを意味します。まず

f:id:ogyahogya:20140926110849p:plain

という関数空間の中のすべての要素はフーリエ変換できることに注意しましょう。なぜなら、任意の  f\in L^1({\bf R}) に対して

f:id:ogyahogya:20140924171839p:plain

が成り立つからです。しかし、フーリエ変換は L^1({\bf R}) の要素を  L^1({\bf R}) へ写すとは限りません。

f:id:ogyahogya:20140926110841p:plain

実際に、次のような例があります。

f:id:ogyahogya:20140926111238p:plain

フーリエ変換しても元の関数空間と同じところに入るような関数の集まりはどのようなものでしょうか?

f:id:ogyahogya:20140924174345p:plain

つまり、どんな関数たちがフーリエ変換ができて、かつ、フーリエ変換後も住みかが変わらないのかということを考えましょう。

フーリエ変換は  (-\infty,\infty) 上で積分するということから直感的には無限遠での関数  f(t)が大きな値を持っているとフーリエ変換できなそうです。この直感を一般化して、すべての導関数が、無限遠において |t| のどんな負の整数ベキ乗よりも速く減衰するような関数の空間  \mathcal{S}({\bf R}) を数学者は考えました。

f:id:ogyahogya:20140926113413p:plain

実は  \mathcal{S}({\bf R}) の中に入っている関数をフーリエ変換しても再び  \mathcal{S}({\bf R}) の中に入り、また、逆フーリエ変換しても  \mathcal{S}({\bf R}) の中に入るということが言えます。

f:id:ogyahogya:20140926114136p:plain

これは関数空間  \mathcal{S}({\bf R}) が実用上大きな集合だったら (よく使う信号をたくさん含んでいたら)嬉しそうです。ところが、下の図のように \mathcal{S}({\bf R}) はそれほど大きな集合ではありません。

f:id:ogyahogya:20140926125050p:plain

ただし、 L^2({\bf R}) というのは

f:id:ogyahogya:20140926125143p:plain

と定義されて、色々な場面でよく利用される関数空間です。この  L^2({\bf R}) の中の関数をフーリエ変換して  L^2({\bf R}) の中に入ることを保障できないと応用上面倒なことがあります。

 L^2({\bf R})の空間がよく使われる理由

 L^2({\bf R}) の中には  L^1({\bf R}) と同様にノルムが定義されています。 L^2({\bf R}) L^1({\bf R}) との大きな違いは  L^2({\bf R}) の中には 内積 がつぎのように定義できるということです。

f:id:ogyahogya:20140926174548p:plain

実は、 L^2({\bf R}) のノルムはこの内積を用いて

f:id:ogyahogya:20140926132011p:plain

と定義されます。関数(ベクトル)の長さはノルムを使って測れますが、向きは内積を使って測ることができます。よって、 L^2({\bf R}) の要素は長さと向きを測ることができます。また、 L^2({\bf R})完備と言われる任意のコーシー列が収束するという性質を持っています。完備な内積空間をヒルベルト空間と言いますので、 L^2({\bf R}) はヒルベルト空間となります。ちなみに、完備なノルム空間をバナッハ空間と言い、 L^1({\bf R}) はバナッハ空間となります。ヒルベルト空間ならバナッハ空間なので  L^2({\bf R}) はバナッハ空間でもあります。

ヒルベルト空間の方がバナッハ空間よりも内積という構造が入っている分、深く研究でき色々な性質が調べられています。この成果を  L^2({\bf R}) を考えるときには利用できるのです。

フーリエ変換の  L^2({\bf R}) への拡張

前述の話をまとめると、  L^1({\bf R}) の要素は必ずフーリエ変換できるが、フーリエ変換した後は  L^1({\bf R}) に入るとは限らず、一方で、 \mathcal{S}({\bf R}) の要素をフーリエ変換すると再び  \mathcal{S}({\bf R}) の中に入るが  \mathcal{S}({\bf R}) は実用上は小さな集合だということでした。

そこで、数学者はどうしたかというと、  \mathcal{S}({\bf R}) で定義されているフーリエ変換を  L^2({\bf R}) へ拡張することを考えました。

まず、シュワルツ空間  \mathcal{S}({\bf R}) L^2({\bf R}) に含まれていたことに注意しましょう。つまり、 \mathcal{S}({\bf R}) の中の要素たちは  L^2({\bf R}) の内積を使うことができます。このことに注意すると、時間の世界での内積の値と周波数の世界での内積の値の間には次の関係が成り立つことが分かります。

f:id:ogyahogya:20140926153833p:plain

また、  \mathcal{S}({\bf R}) L^2({\bf R}) の中で稠密です。

f:id:ogyahogya:20140926155845p:plain

プランシュレルの定理と稠密性より  \mathcal{S}(\bf{R}) 上で定義されたフーリエ変換は  L^2({\bf R}) 上に拡張できます。

f:id:ogyahogya:20140926161346p:plain

 L^2({\bf R}) 上に拡張したフーリエ変換は次の性質を満たします。

f:id:ogyahogya:20140926162120p:plain

同様に、逆フーリエ変換も  L^2({\bf R}) 上に拡張されます。こうして、フーリエ変換に対する次のようなイメージを持つことができるようになりました。

f:id:ogyahogya:20140926162642p:plain

周波数の世界を陽に表す

フーリエ変換が  \mathcal{F}:L^2({\bf R}) \rightarrow L^2({\bf R}) として定義できましたが、時間の世界と周波数の世界を両方とも  L^2({\bf R}) で表現しているので少し分かりにくいです。そこで、周波数の世界を陽に表すために次の空間を定義します。

f:id:ogyahogya:20140926164057p:plain

このとき、時間の世界と周波数の世界の行き来の様子を次のように表現できます。

f:id:ogyahogya:20140926164216p:plain

また、プランシュレルの定理は次のように美しく書けるようになります。

f:id:ogyahogya:20140927104430p:plain

合成積のフーリエ変換

前の記事で確率変数の和を考えると確率密度関数の合成積が出てきて、合成積は確率密度関数の滑らかさを上げるので確率変数の和の確率分布関数はガウス分布ぽくなるという話を書きました。実は、フーリエ変換は時間の世界での和を周波数の世界での和に変えるだけでなく、時間の世界での関数の合成積を周波数の世界での普通の積に変えて計算をかなり簡単にする効果があります

f:id:ogyahogya:20140926171356p:plain

つまり、フーリエ変換  \mathcal{F}:L^2({\bf R}) \rightarrow L^2(i{\bf R}) は代数的な構造を保存し可逆なので同型写像となります。

よって、前の記事で確率変数  X_1,\,X_2,\,\cdots,\, X_n が独立で確率密度関数  p^{X_1}(x_1),p^{X_2}(x_2),\cdots,p^{X_n}(x_n) を持つとすると、 X:=X_1+X_2+\cdots +X_n の確率密度関数は

f:id:ogyahogya:20140927102619p:plain

となると書きましたが、フーリエ変換を施して

f:id:ogyahogya:20140927102712p:plain

を解析すればよくなります。中心極限定理を証明するときにこのことを使います。

参考文献

 記事を書くときに参考にした文献です。

(1) 全般に渡って参考にした。難しい内容だが丁寧に書いていて分かりやすい。

ヒルベルト空間と量子力学 改訂増補版 (共立講座 21世紀の数学 16)

ヒルベルト空間と量子力学 改訂増補版 (共立講座 21世紀の数学 16)

 

 (2)  フーリエ変換のイメージをつかむにはとても良い本だと思う。

これなら分かる応用数学教室―最小二乗法からウェーブレットまで

これなら分かる応用数学教室―最小二乗法からウェーブレットまで

 

予告

かなり数学的にフーリエ変換をやったので、次は応用の場面でよく登場するデルタ関数なんかを含む超関数の話とそのフーリエ変換の話をしたいと思います。その次に、前の記事の続きの中心極限定理について書きたいと思います。

 

確率変数の和 -合成積との関係-

前の記事では確率変数という概念を導入しました。今回は確率変数の和の確率分布関数はどうなるかを考えてみましょう。つまり、下の図のように二つの確率変数  X_1,\,X_2 が与えられたとき  X:=X_1+X_2 という新しい確率変数の確率分布はどうなるか?ということを説明したいと思います。

f:id:ogyahogya:20140922103417p:plain

その前に、二つの確率変数の独立性というものを定義します。

●確率変数の独立性

二つの確率変数があると、その確率変数たちの関係性を論じることができます。中にはまったく関係のない確率変数たちもあるわけで、そのような確率変数たちは互いに独立であるといいます。厳密には、二つの確率変数が独立であるとは、同時確率分布が各々の確率変数の確率分布の積となるときにいいます。

f:id:ogyahogya:20140922103513p:plain

また、確率変数  X_1,\,X_2確率密度関数を持ち、独立であるときは次のことが言えます。

f:id:ogyahogya:20140922110520p:plain

●確率変数の和の確率分布関数

応用上、確率変数には確率密度関数が存在することが多いので、確率密度関数が存在すると仮定します(確率密度関数がないとしても、一般化された枠組みで同じことが言えます)。このとき、次のことが言えます。

f:id:ogyahogya:20140927101640p:plain

確率変数の和の確率密度関数を考えると二つの確率変数の確率密度関数合成積と言われるものがでてきました。ここで、関数  f g の合成積というのは  (f*g)(x):=\int_{-\infty}^{\infty} f(x-y)g(y) dy で定義されます。つまり、 X確率密度関数はこの記号を使って、

f:id:ogyahogya:20140927101710p:plain

と書けます。同様に、確率変数  X_1,\,X_2,\,\cdots,\, X_n が独立で確率密度関数  p^{X_1}(x_1),p^{X_2}(x_2),\cdots,p^{X_n}(x_n) を持つとすると、 X:=X_1+X_2+\cdots +X_n確率密度関数

f:id:ogyahogya:20140927101730p:plain

となります。つまり、確率変数の和の確率密度関数は各確率変数が独立ならば確率密度関数たちの合成積によって特徴付けられるのです。よって、合成積の特徴を知ることで、確率変数の和の特徴を知ることが可能です。

●関数の合成積とは

前の記事で述べたように数学とは集合の性質を写像を通して調べる学問です。このことを意識して合成積のことをもっと深く考えてみましょう。そのために、まず対象とする関数が住む空間を設定します。

f:id:ogyahogya:20140922135054p:plain

関数  f\in L^1[-\infty,\infty] と  g\in L^{\infty}[-\infty,\infty] の合成積とは次のように写像のことだと考えられます。

f:id:ogyahogya:20140922134706p:plain

確率密度関数 (-\infty,\infty)積分すると1になりますので  L^1[-\infty,\infty]に入っていると考えられます。よって、二つの独立な確率変数  X_1, X_2が与えられたとき、片方の確率密度関数 L^{\infty}[-\infty,\infty] に入っていれば合成積の定義は可能です。また、 合成積  \mathcal{C}有界であることは、 ||\mathcal{C}g||_{\infty} \leq ||f||_1 ||g||_{\infty} からきています。このことから、 L^1[-\infty,\infty] の要素と  L^{\infty}[-\infty,\infty] の要素の合成積をしても発散することはないということが保障されます。

●合成積の意味

合成積は数学的には上のように写像として定義されるのですが、具体的には次のような特徴を備えています。

f:id:ogyahogya:20140922140900p:plain

実際に、資料の p117とp118にあるように次のように合成積を繰り返すことで滑らかさが上がる様子が確認できます。図の中の  \Pi f確率密度関数です。

f:id:ogyahogya:20140922141454p:plain

f:id:ogyahogya:20140922141507p:plain図を見ると、独立な確率変数たち  X_1,\cdots,X_n確率密度関数の合成積で  X:=X_1+X_2+\cdots +X_n の確率分布関数はガウス分布 (正規分布) となることが予想できます。これはある仮定のもとで正しく、中心極限定理と呼ばれています。このことは確率密度関数フーリエ変換を考えることで分かりやすくなるので、まずフーリエ変換の説明を次回したいと思います。

●参考文献

記事を書くにあたって参考にした本や資料を紹介します。

(1) 独立性のところを参考にした。

 

確率論 (新しい解析学の流れ)

確率論 (新しい解析学の流れ)

 

 (2) 写像としての合成積のところを参考にした。

 

A Course in Robust Control Theory: A Convex Approach (Texts in Applied Mathematics)

A Course in Robust Control Theory: A Convex Approach (Texts in Applied Mathematics)

 

 (3) 合成積が関数を滑らかにするというところを参考にした。とても分かりやすい。

スタンフォード大学 B. Osgood先生の講義資料

●予告

フーリエ変換について数学とは集合の性質を写像を通して調べる学問であるということを意識して説明したいと思います。

 

確率変数とは何か

確率の議論で超重要な概念である確率変数というものを説明します.

●確率変数は確率と関連付いた写像である

確率変数は写像です。では、どの集合からどの集合への写像かというと標本空間から実数の空間への写像です。イメージとしてはこんな感じです。

f:id:ogyahogya:20140919104522p:plainしかし、上の図だけでは確率変数はただの写像ということになってしまい、わざわざ「確率」変数という名前を付ける必要はありません。実際には、次のような制約のついた写像を確率変数というのです。

f:id:ogyahogya:20140919110412p:plain

 \sigma加法族については

を参照してください。

●確率変数の確率分布

 \sigma加法族の要素を確率測度で写したものが確率でした。このことを利用すると、次のように確率変数の確率分布というものが定義できます。

f:id:ogyahogya:20140919113412p:plainこの確率分布という概念を通して、確率分布関数や確率密度関数というものが定義されます。

●確率分布関数と確率密度関数

色々な応用の場面で確率変数の「確率分布関数」や「確率密度関数」が使われます。確率分布関数は確率分布を使って次のように定義されます。違いは、確率分布は確率測度なので集合に対して実数が対応するのに対し、確率分布関数は実数に対して実数が対応することです。確率密度関数は応用の場面ではいきなり出てくることがよくあるのですが、数学的には確率分布関数が微分可能であるときしか存在しないことに注意すべきでしょう。また、確率分布関数の値は確率そのものですが、確率密度関数の値は確率ではないことに注意しましょう。確率密度関数はある領域で積分して初めて確率となります。

f:id:ogyahogya:20140919113559p:plain

 ●参考文献

記事を書くときに参考にした本です。

確率論 (新しい解析学の流れ)

確率論 (新しい解析学の流れ)

 

●予告

確率変数の和の話をする予定です。確率変数がたくさん集まると凄くきれいな結果が成り立つということを説明します。

確率とは何か

コインを投げたとき表が出る「確率」は  \frac{1}{2} で、サイコロを投げたとき1が出る「確率」は  { \frac{1}{6} } だとかよく言いますが、「確率」とは何でしょうか?そもそもなぜ「確率」というものを考える必要があるのでしょうか?

●「確率」を考える理由

「確率」の定義を考える前に、なぜそのようなものを導入する必要があるのか少し考えてみましょう。例として、コイン投げを考えます。コインを剛体と仮定しましょう。コインを投げるとは、ある力をコインへ加えたと考えられます。このとき、コインが従う運動方程式

f:id:ogyahogya:20140917180101p:plain

というふうに書けます。つまり初期条件  q(0), \dot{q}(0) を与えて上の運動方程式を解くことでコインの軌道  q(t) が得られます。したがって、コインを投げてから何秒後には表を向いているのか裏を向いているのかを求めることができ、「確率」という概念は必要ありませ ん!

 

というのは冗談で、我々は経験的に初期条件  q(0), \dot{q}(0) F u が異なれば表が出るか裏が出るかが変わってくるということを知っています。これはコインの軌道  q(t) を求めるためには厳密に  q(0), \dot{q}(0) F u を測定する必要があるということを意味しています。しかも、コインを投げる毎に。これは非常に手間のかかる作業で、ものすごい暇人しかできないでしょう、というか、 F u を厳密に測定する方法があるのでしょうか?そこで、解析するのが難しい途中の軌道を考えることは諦めて、最終的な結果を得るために「確率」という概念を導入するのです。つまり、「確率」という概念を導入するということは問題をものすごく単純化することを意味しています。色々な雑音がランダムに振る舞う(「確率」的である)としてしまうのも難しいことを考えるのは止めて単純化していると考えることができます。

●初等的な定義(分かりやすいが不十分)

直感的に分かりやすい「確率」は次のものでしょうか。

f:id:ogyahogya:20140918102153p:plain

サイコロを振るという例では、「1が出る」、「2が出る」、「3が出る」、「4が出る」、「5が出る」、「6が出る」という 6個の根元事象があります。いま、それらの根元事象が1/6で出ると仮定しましょう。このとき「偶数が出る」という事象の確率は「偶数が出る」= { 「2が出る」, 「4が出る」, 「6が出る」} なので

                        「偶数が出る」確率=1/6×3=1/2

となる、というわけです。しかし、この「確率」の定義には次のような問題点があります。

f:id:ogyahogya:20140918105245p:plain

例えば、

f:id:ogyahogya:20140918104152p:plain

という例の場合半径は0から1の実数をとると考えるとその根元事象は無限にあるように思えます。また、半径が1/2以下になる事象の中の根元事象も無限にあるように思えます。このような問題に上の確率の定義では答えられないのです。では、上の例の問題に答えるにはどうすれば良いでしょうか?次のように「確率」を定義すると解決できるように思えます。

f:id:ogyahogya:20140918135833p:plain

この定義のもとで、線分の長さは面積の一種だと考えると、上の例は1/2が答ということになります。しかし、この定義も問題があります。なぜなら、サイコロを振る例の場合、標本空間の面積や事象の面積が数学的には0となってしまうからです。つまり、この定義を使ってサイコロを振って「偶数が出る」という事象の確率を求めることができません。初等的な確率と集合の面積を使った確率の両方の特徴を兼ね備えたものが現代的な「確率」の定義となります。

●現代的な定義(抽象的)

前の記事で述べたように数学とは集合の性質を写像を通して調べる学問です。現代的な確率の定義はそのようになっています。また、二つの初等的な確率の定義はこの現代的な定義に含まれます。暇な人は確認してみてください。現代的な確率を定義するために次の「集合の集合」を定義します。

f:id:ogyahogya:20140918143004p:plain

標本空間が与えられたとき、 \sigma加法族はたくさんあります。どんな事象の確率を計算したいかによって \sigma加法族を適切に設定するのです。例えば、サイコロを振ると 1, 2, 3, 4, 5, 6 という目が出ますが、その中で我々が知りたいのは偶数が出たか奇数が出たかだけであるとしましょう。[1], [2], [3], [4], [5], [6] という記号でそれぞれ「1, 2, 3, 4, 5, 6 の目が出た」という事象を表すとすると、次の図のように標本空間が分割されて、 \sigma加法族が定義されたとことになります。

f:id:ogyahogya:20140918144630p:plain

 また、1の目が出たか否かを知りたいときは次のように  \sigma加法族を設定するのです。

f:id:ogyahogya:20140918144641p:plain

  \sigma加法族という概念を使うと確率測度という概念を定義できます。

f:id:ogyahogya:20140918150051p:plain

これで、ようやく確率を定義できます。確率の定義はここまで来ると簡単で、単に確率測度の値のことを言っています。

f:id:ogyahogya:20140918151052p:plain

確率を定義するために前の記事で述べたように、集合と写像を意識していることが確認できますね。つまり、確率とは  \sigma加法族の要素を確率測度を通して[0,1]区間の上に写した結果の値のことであると現代の確率論では考えるのです。確率を定義するために抽象的な概念を経由しているので分かりにくく感じるかもしれませんが、このようにすることで非常に多くの例に対して確率の議論ができるようになったのです。

●参考文献

 記事を書くときに参考にした本を紹介します。

(1) 分かりやすい。読み物としても面白い。

確率・統計入門

確率・統計入門

 

 (2) 記事で具体的には触れなかった確率測度の例が多く乗っている。

はじめての確率論 測度から確率へ

はじめての確率論 測度から確率へ

 

  (3) きっちり書いている。3章では電気回路をランダムフォークと関連付けている。

確率論 (新しい解析学の流れ)

確率論 (新しい解析学の流れ)

 

 (4) 最高に分かりやすい。英語が読めるなら今のところ一番のおすすめ。確率が操れるようになるのでは。

Probability, Random Variables and Stochastic Processes

Probability, Random Variables and Stochastic Processes

  • 作者: Athanasios Papoulis,S.Unnikrishna Pillai
  • 出版社/メーカー: McGraw-Hill Publishing Co.
  • 発売日: 2002/01/01
  • メディア: ペーパーバック
  • この商品を含むブログを見る
 

●予告

次回は確率変数という概念を集合と写像を意識して解説したいと思います。この概念を習得すると、もっと実用的な確率過程の概念に進むことができます。