初級Mathマニアの寝言

数学は色々なところで応用可能であり、多くの人が数学の抽象的な概念の意味や意義を鮮明に知ることができれば今まで以上に面白い物や仕組みが生まれるかもしれません。このブログは数学を専門にしない人のために抽象的な概念の意味や意義を分かりやすく説明することを目的としています。数学を使って何かしたい人のお役に立てたら幸いです。

エントロピー、カルバック・ライブラー情報量、最尤推定法

前回簡単に説明した大偏差原理エントロピーの概念を使って詳しく説明するために、今回はエントロピーについて説明します。また、カルバック・ライブラー情報量、最尤推定法などについても説明します。

エントロピー

有限個の事象エントロピーは次のように定義されます。

f:id:ogyahogya:20141120110644p:plain

これは確率変数のエントロピーへ次のように一般化されます。

f:id:ogyahogya:20141120110756p:plain

エントロピーは平均情報量ともみなせます。

f:id:ogyahogya:20141120110920p:plain

●カルバック・ライブラー情報量(相対エントロピー

データはある確率分布に従う確率変数の実現値であると考えられることが多いです。しかし、その確率分布の形が分からないことがあり、得られたデータから真の確率分布を推定する必要がよくあります。推定した確率分布が真の確率分布にどれくらい近いかを表す尺度として次のカルバック・ライブラー情報量(相対エントロピー)というものがあります。

f:id:ogyahogya:20141123203334p:plain

カルバック・ライブラー情報量の重要な性質として次の非負性があります。

f:id:ogyahogya:20141124173856p:plain

カルバック・ライブラー情報量とエントロピーは次の関係があります。

f:id:ogyahogya:20141124151133p:plain

よって、

f:id:ogyahogya:20141124151332p:plain

となり、確率変数が一様分布に従うときにエントロピーは最大になることが分かります。

最尤推定

確率分布  p(x) に従ってデータが生成されたとしましょう。しかし、 p(x) は我々には分からないとして、 p(x) を推定する必要があるとします。上で述べたことより、 p(x) の推定にカルバック・ライブラー情報量が利用できそうです。カルバック・ライブラー情報量の定義から

f:id:ogyahogya:20141124161304p:plain

ということが分かります。 D(p||q)=0 のときに  p(x)=q(x) がすべての点  x で成り立ちますので

f:id:ogyahogya:20141124161709p:plain

を最大にすれば推定した確率分布  q(x) は真の確率分布  p(x) により近くなることが期待できます。しかし、そもそも真の確率分布  p(x) は未知なので平均大数尤度は直接計算できません。ここで注目すべき点はデータ  x_1,x_2,\cdots, x_n は真の確率分布  p(x) に従って得られているということです。つまり、データは確率変数の実現値であり、その確率変数は真の確率分布  p(x) に従います。このことから、データがたくさん得られたときには大数の法則が利用できて

f:id:ogyahogya:20141124164534p:plain

となります。そこで、カルバック・ライブラー情報量  D(p||q) を小さくするためには

f:id:ogyahogya:20141124164803p:plain

を最大にすれば良いことが分かります。最尤推定はパラメータ付きの対数尤度

f:id:ogyahogya:20141124171631p:plain

を最大にするパラメータ  \theta=\hat{\theta} のことで、 q(x|\hat{\theta}) p(x)最尤推定と言います。つまり、最尤推定\hat{\theta}

f:id:ogyahogya:20141124172431p:plain

を満たす \theta のことです。

データ数が十分に多いとき最尤推定法はある意味で最適な推定法になっていることを示せます。このことはまた今度詳しい説明を書くつもりです。

●連続確率変数のエントロピーとカルバック・ライブラー情報量

 今までの議論は確率変数が離散値を取る場合を考えていましたが、確率変数が連続値を取る場合に対してもエントロピーやカルバックライブラー情報量が次のように定義されます。

f:id:ogyahogya:20141211180348p:plain

離散値の時と同様にカルバックライブラー情報量の定義式から最尤推定法の考え方が出てきます。

確率変数が連続値をとるとき変分法を使うと、ある制約条件の下でエントロピーを最大化するような確率密度関数を求めることができます。例えば、平均と分散が一定のもとでエントロピーが最大になる分布はガウス分布であることを示すことができます。変分法については今後詳しく説明するつもりです。

●参考文献

 記事を書くときに参考にした文献です。

(1) 情報理論をしっかり勉強するならこれ

Elements of Information Theory (Wiley Series in Telecommunications and Signal Processing)

Elements of Information Theory (Wiley Series in Telecommunications and Signal Processing)

 

 (2) カルバックライブラー情報量と最尤推定のつながりのところを参考にした

 

経済物理学

経済物理学

 

●予告

大偏差原理について詳しく説明します。

平均から大きく離れたところの生起確率

前の記事では中心極限定理について説明しました。中心極限定理の主張は次のようにも解釈できます。 

f:id:ogyahogya:20141119174239p:plain

しかし、中心極限定理だけでは次のような疑問が生じます。

f:id:ogyahogya:20141119184537p:plain

図で気持ちを書くとこんな感じです。

f:id:ogyahogya:20141119171319p:plain

平均と同じオーダーの偏差が生じる確率を0と答えるのではなく数式で答えるのが大偏差原理です。つまり、 n と大偏差の生起確率の関係を教えてくれます。この記事では簡単な不等式を使って大偏差を調べる方法を述べて、難しい議論は次回以降にすることにします。

●チェビシェフの不等式

チェビシェフの不等式から大偏差に関する単純な解答が得られます。ここで、チェビシェフの不等式とは

f:id:ogyahogya:20141115185638p:plain

のことです。実際にチェビシェフの不等式から大偏差に関する情報が得られることが次のように分かります。

f:id:ogyahogya:20141115190253p:plain

よって、チェビシェフの不等式より平均からの  O(n) の偏差が生じる確率が  O(n^{-1}) であることが分かります。しかし、次のマルコフ不等式を利用してみるとこの評価はひどく悪いことが分かります。

●マルコフ不等式

マルコフ不等式からも大偏差に関する解答が得られます。ここで、マルコフ不等式とは

f:id:ogyahogya:20141115175552p:plain

のことです。実際にマルコフ不等式から大偏差に関する情報が得られることが次のように分かります。

f:id:ogyahogya:20141115184137p:plain

マルコフ不等式を利用するとチェビシェフの不等式の時とは異なり平均からの  O(n) の偏差が生じる確率が指数関数によって評価されています。

●クラメールの定理

マルコフ不等式からの帰結を精密にした結果がクラメールの定理と言われるものです。クラメールの定理が主張する大偏差に関する評価は情報理論エントロピーの概念と密接に関係しているので、次回の記事でエントロピーを紹介した後にクラメールの定理を紹介したいと思います。

●参考文献

 エントロピーと大偏差の関係が書いてる。

Large Deviations Techniques and Applications (Applications of Mathematics)

Large Deviations Techniques and Applications (Applications of Mathematics)

 

●予告

 情報理論エントロピーの概念を説明します。

 

 

中心極限定理

この記事では、

ogyahogya.hatenablog.com

で少し書いた中心極限定理について詳しく説明します。中心極限定理は直感的にはたくさんの確率変数の和の確率分布関数はガウス分布(正規分布)になるということを述べています。一つ一つの確率変数にあまりきつい条件を課すことなく言えるので、色々な分野で応用が可能です。しかし、あまりきつい条件を課さないということで、その定理を示すためにはいくつかの抽象的な概念を経由する必要があります。

ogyahogya.hatenablog.com

で書いた確率測度の弱収束と確率分布関数の分布収束という概念も中心極限定理を証明するために必要な概念となっています。

●中心極限定理とは何か

 中心極限定理はある条件が成り立てば独立な多くの確率変数の和の確率分布関数が標準ガウス分布へ分布収束することを主張しています。ここで、重要なのは確率変数が同一である必要はないということです。多くの本では確率変数たちが独立で同一(i.i.d.)であるなら正規化された和の確率変数たちに対して中心極限定理が適用できることを述べていますが、同一性の仮定は必要ありません。同一性の仮定が必要ないことは実用上とてもうれしいことです。例えば、ある地域に住む人々の消費電力を確率変数で表したとしましょう。日々の経験から人々の電力の使い方は同一の確率分布に従うとは思えません。このとき、その地域の消費電力はその地域に住む人々の消費電力の和となるので、地域の消費電力もまた確率変数となると考えることができます。よって、地域の消費電力も確率分布を持つわけです。では、その確率分布はどんな形になるでしょうか?人々の消費電力は確率変数と考えたときに独立と考えられます。なぜなら、自分の家でどのように電気を使うかは隣の家の電気の使い方に依存しないはずだからです。よって、中心極限定理を使うために同一性の仮定が必要ないことから多くの場合、地域の消費電力の確率分布はガウス分布になることが予想されます。もし、中心極限定理に同一性の仮定が必要なら地域の消費電力の確率分布の形はどんなものになるか予想することが難しくなるはずです。

このように中心極限定理は集団の振る舞いを知る上でかなり便利です。その定理は正確には次のようになっています。

f:id:ogyahogya:20141020152221p:plain

中心極限定理は上のように確率変数たちが独立ということと、リンデベルグ条件が成立すれば同一性の仮定がなくても適用できます。同一性の仮定は次のようにリンデベルグ条件がなりたつための十分条件になっています。

 f:id:ogyahogya:20141022133337p:plain

また、次の条件はリヤプノフ条件と呼ばれ、これもリンデベルグ条件が成り立つための十分条件になっています。

f:id:ogyahogya:20141020153623p:plain

例えば次のような感じで中心極限定理を適用できます。

f:id:ogyahogya:20141020155709p:plain

上の例でn=15, n=20, n=50, n=100の場合に  X_1+X_2+\cdots + X_nのヒストグラムを作ると次のような感じになります。ただし、各  p_i [0,1] 上の一様分布で生成しています。つまり、この場合はすべての確率変数が同一分布です

f:id:ogyahogya:20141020173833p:plain

図を見ると  n が大きくなるにつれて正規分布に近づいていることが分かります。

また、すべての確率変数が同一分布ではないときにも次のように  n が大きくなると正規分布に近づくことが分かります。

f:id:ogyahogya:20141020181952p:plain

 

●確率測度のフーリエ変換: 特性関数

前の記事の中で独立な確率変数たち  X_1,\cdots,X_n の和の確率密度関数は  X_1,\cdots,X_n の確率密度関数  p^{X_1},\cdots, p^{X_n} の合成積

f:id:ogyahogya:20140924143714p:plain

で与えられるということを述べました。

ogyahogya.hatenablog.com

で書いたようにフーリエ変換を施すと

f:id:ogyahogya:20140924144102p:plain

のように合成積は通常の積に変わり、計算がしやすくなります。このことを利用して中心極限定理を示すことができるのです。ここでは、前の記事で書いたフーリエ変換の定義を一般化して次のように確率測度のフーリエ変換を定義します(本質的ではないが符号が異なることに注意)。これが確率測度の特性関数というものです。

f:id:ogyahogya:20141022135944p:plain

例えば、平均  \mu、 分散  \sigma^2 のガウス分布の特性関数は次のように求めることができます。

f:id:ogyahogya:20141023091145p:plain

よって、確率変数たち  X_1,\cdots,X_n が独立なガウス分布に従うなら、 X_1+\cdots +X_n もガウス分布に従うことが次のように分かります。

f:id:ogyahogya:20141023143004p:plain

 よって、確率変数たちの和を考えたときにもともとの確率変数たちがすべてガウス分布に従うなら和もガウス分布に従うということが特性関数を計算することで分かります。中心極限定理は和を構成する確率変数たちがガウス分布に従わなくても、たくさんの確率変数の和はガウス分布に近くなるということを言っているのです(ちょっとした仮定のもとで)。

●中心極限定理の証明の流れ

中心極限定理は確率分布関数の列の標準正規分布への分布収束を述べていますが、その分布収束を示すために、対応する特性関数の列の収束を用います。特性関数の列の収束と確率分布関数の列の分布収束の関係は確率測度の列の弱収束との関係を使って示すことができます。

実際に、次のように確率測度の列が弱収束するなら対応する特性関数の列が収束することを示すことができます。

 

f:id:ogyahogya:20141022140117p:plain

逆に特性関数が収束するなら確率測度が弱収束するということも成り立ちます。これはGlivenkoの定理と言われています。

f:id:ogyahogya:20141023160504p:plain

上の定理と前の記事の確率測度の弱収束と確率分布関数の分布収束の等価性より、次の関係が成り立つことが分かります。

f:id:ogyahogya:20141017183140p:plain

この関係は次のように中心極限定理の証明の中で利用できます。

f:id:ogyahogya:20141022143345p:plain

 

●参考文献

記事を書くにあたって参考にした文献です。

(1) タイトルのとおり中心極限定理について詳しく書いている。

 

中心極限定理 (シリーズ新しい応用の数学 (14))

中心極限定理 (シリーズ新しい応用の数学 (14))

 

 (2) 証明が分かりやすい。

 

Theory of Probability and Random Processes (Universitext)

Theory of Probability and Random Processes (Universitext)

 

 

●予告

中心極限定理をもっと掘り下げます。

確率測度と弱収束

前の記事で確率測度や、確率測度から定義される確率分布関数というものを紹介しました。今回はこの記事で少しだけ書いた中心極限定理をきちんと説明するために確率測度の例や確率測度の弱収束について紹介したいと思います。

●確率分布関数から確率測度を定義する

まず、前の記事で確率測度から定義した確率分布関数は以下の定義を満たしていていることが分かります。

f:id:ogyahogya:20141014144143p:plain

前の記事では確率測度から確率分布関数を定義しましたが、逆に上の定義を満たす確率分布関数から確率測度を定義することができます。

f:id:ogyahogya:20141014144341p:plain

例えば、前の記事で紹介したヘビサイド関数は確率分布関数の性質を満たしていて、これから次のような性質を満たす確率測度を定義できます。

f:id:ogyahogya:20141014144538p:plain

 この性質を満たす確率測度はディラック測度と呼ばれています。

f:id:ogyahogya:20141014144714p:plain

 また、確率分布関数の凸結合も確率分布関数になります。

f:id:ogyahogya:20141014145030p:plain

離散確率分布は次のようにいくつかのヘビサイド関数(確率分布関数)を凸結合したものとみなすことができます。

f:id:ogyahogya:20141014145240p:plain

ビサイド関数からディラック測度が定義されたのでいくつかのヘビサイド関数の凸結合から定義される確率測度は重み付けられたディラック測度というような感じになっています。前の記事で導入したディラックデルタ関数ディラック測度から定義された確率密度関数とみなすことができます。

f:id:ogyahogya:20141014152227p:plain

確率変数が連続値を取る場合も確率分布関数から確率測度を定義できます。例えば、ガウス分布からは次のような感じです。

f:id:ogyahogya:20141014152528p:plain

●確率測度の列の弱収束

実数の列が与えられたどんな実数に収束するかを調べることができるように、確率測度の列が与えらたらどんな確率測度に収束するかを調べることができます。ただし、確率論の中でよく使われる確率測度の列の収束の意味は次の弱収束と言われれるものです。

f:id:ogyahogya:20141014153016p:plain

ガウス分布確率密度関数は分散を0に限りなく近付けるとディラックデルタ関数ぽいと前の記事で紹介しましたが、これと同様にガウス測度はディラック測度に収束することが示せます。ただし、収束は次のように弱収束の意味です。

f:id:ogyahogya:20141014153356p:plain

 

●確率分布関数の分布収束

確率分布関数の列の分布収束は次のように定義されます。

f:id:ogyahogya:20141014154734p:plain

確率測度の弱収束と確率分布関数の分布収束の間には次の関係があります。

f:id:ogyahogya:20141014154753p:plain

この定理は確率測度の列の弱収束という難しそうなものが、確率分布関数の列の分布収束という簡単そうなものに等価だということを意味しています。

●参考文献

 記事を書くにあたって参考にした文献です。

(1) 分かりやすい。

はじめての確率論 測度から確率へ

はじめての確率論 測度から確率へ

 

 (2) 証明が丁寧に書いている。

 

Theory of Probability and Random Processes (Universitext)

Theory of Probability and Random Processes (Universitext)

 

●予告

中心極限定理について説明します。

超関数

超関数とは関数の概念を一般化したもので、もともとは物理の方で導入されたディラックのデルタ関数という計算に便利なものを数学的に正当化しようとして考え出されました。ディラックのデルタ関数は直感的にはガウス分布の確率密度関数の分散を0に限りなく近付けたときの極限関数が持つ性質を理想化したものです。

●ガウス分布とディラックのデルタ関数

まず、色々な分散のガウス分布の確率密度関数は次のようになっています。

f:id:ogyahogya:20141001100326p:plain

ディラックのデルタ関数は次のようにガウス分布の確率密度関数の分散を0へ限りなく近付けたときの特徴を理想化したものと考えられます。

f:id:ogyahogya:20141001100511p:plain

●ディラックのデルタ関数の変なところ

ディラックのデルタ関数  \delta は次のように突っ込みどころ満載です。

f:id:ogyahogya:20141001100636p:plain

このように  \delta 関数には変な部分があります。しかし、応用上は便利なので  \delta 関数を捨て去るのは勿体ないと変な部分を解消しようと努力した人がたくさんいました。その中でシュワルツという数学者は通常の関数の概念を一般化した超関数というものを創造することに成功しました。

●関数概念の一般化

シュワルツは次のように緩増加超関数というものを導入しました。ここで、 \mathcal{S}({\bf R})

ogyahogya.hatenablog.comの中で定義したシュワルツ空間のことです。

f:id:ogyahogya:20141001193227p:plain

 緩増加超関数全体の集合は定義から  \mathcal{S}({\bf R}) の双対空間になっています。

f:id:ogyahogya:20141002143928p:plain

f:id:ogyahogya:20141002143920p:plain

緩増加超関数は通常の関数の一般化と考えることができます。そのことを見るために次のリースの表現定理というものを思い出しましょう。

f:id:ogyahogya:20141002144152p:plain

このリースの表現定理を用いると、前の記事で議論した関数空間  L^2({\bf R}) \mathcal{S}'({\bf R}) に含まれるということが次のように分かります。

f:id:ogyahogya:20141002144410p:plain

また,  L^2({\bf R}) に含まれないディラックのデルタ関数も  \mathcal{S}'({\bf R}) に含まれます。ただし、ここでのディラックのデルタ関数は上で与えたような数学的に意味のないものではありません。

f:id:ogyahogya:20141002160140p:plain

●超関数の積分による表示

通常の関数が与えられたら、その関数から積分を利用して緩増加超関数を次のように定義することができます。

f:id:ogyahogya:20141002163911p:plain

これと同じように、今度は緩増加超関数を積分の形で書いてみましょう。例えばディラックのデルタ関数であれば次のようになります。

 

f:id:ogyahogya:20141002164113p:plain

一般の緩増加超関数に対しては積分の形で書いていても積分の意味は持たないことに注意しましょう。しかし、気持ちを表現するのに便利なのでよく使われます。

次の例も緩増加超関数です。これはディラックのデルタ関数のちょっとした一般化になっています。

f:id:ogyahogya:20141003091141p:plain

●超関数の微分

通常の関数として考えたときに微分できない関数も緩増加超関数として考えると微分できるようになります。まず緩増加超関数の微分を定義します。

f:id:ogyahogya:20141002175920p:plain

緩増加超関数として微分ができるようになる関数の例としては次のものがあります。

f:id:ogyahogya:20141002180119p:plain

また、ディラックのデルタ関数の微分は次のように認識できるようになります。

f:id:ogyahogya:20141002180558p:plain

●ディラックのデルタ関数は合成積の単位元

実数の世界の中で任意の実数に1をかけても値を変えることはありません。この場合の1のように要素を変化させないものを単位元といいます。ディラックのデルタ関数は関数の合成積の演算を考えたときの単位元になっています。このことを示しましょう。合成積については

ogyahogya.hatenablog.comを参考にしてください。まず、通常の関数と急減少関数の合成積を緩増加超関数だと思って急減少関数に作用させると次のようになることに注意しましょう。

 

f:id:ogyahogya:20141003100901p:plain

このことを参考に緩増加超関数と急減少関数の合成積を次のように定義します。

f:id:ogyahogya:20141003101023p:plain

すると、ディラックのデルタ関数が合成積の中で単位元になっていることが次のように分かります。

f:id:ogyahogya:20141003101150p:plain

また、二つの緩増加超関数の合成積は次のように定義します。

f:id:ogyahogya:20141003102600p:plain

すると、次のような計算が可能になります。

f:id:ogyahogya:20141003102653p:plain

●超関数のフーリエ変換

前の記事で関数のフーリエ変換について説明しました。フーリエ変換は緩増加超関数に対しても次のように定義できます。

f:id:ogyahogya:20141002182832p:plain

 ディラックのデルタ関数のフーリエ変換は1になります。

f:id:ogyahogya:20141002182941p:plain

このことは次のような解釈が可能です。

f:id:ogyahogya:20141003094140p:plain

 

また、1のフーリエ変換はここではデルタ関数に  2\pi を掛けたものになりますが、フーリエ変換の定義の仕方によっては単にデルタ関数になることもあります。

f:id:ogyahogya:20141002183059p:plain

 

●合成積のフーリエ変換

前の記事で時間領域の合成積をフーリエ変換すると周波数領域での普通の積になるという話をしました。このことは緩増加超関数に対しても成り立ちます。

f:id:ogyahogya:20141003102850p:plain

●参考文献

記事を書くときに参考にした文献です。

(1) スタンフォード大学の B. Osgood先生の講義資料の p152~p194まで。とても分かりやすい。

(2) 超関数のところを参考にした。分かりやすい。

 

これならわかる工学部で学ぶ数学

これならわかる工学部で学ぶ数学

 

 (3) この記事で紹介した超関数を考えた人の本の和訳。この記事よりも高度なことが書いてある。

 

超函数の理論 原書第3版

超函数の理論 原書第3版

  • 作者: L.シュワルツ,Laurent Schwartz,岩村聯,石垣春夫,鈴木文夫
  • 出版社/メーカー: 岩波書店
  • 発売日: 1971/09/30
  • メディア: 単行本
  • クリック: 5回
  • この商品を含むブログを見る
 

●予告

確率論では確率測度としてディラック測度というものを考えることがよくあります。これがここで紹介したディラックのデルタ関数とどんな関係があるかということや、いくつかの確率測度の紹介をしたいと思います。その次に、中心極限定理の話へ進みたいと思います。

フーリエ変換

フーリエ変換は色々な分野で応用されている便利な道具です。例えば、信号の解析をするためにフーリエ変換の原理を取り込んだFFTアナライザというものが計測関係の企業で使われています。FFTアナライザの中で行われていることはググるとたくさん出てきますので興味のある人はググってみてください。

フーリエ変換はよく時間領域の信号(関数)  f(t) を周波数領域に移し、逆フーリエ変換は周波数領域の関数  F(\omega) を時間領域の信号に戻すものだと言われ、次のような式で定義されます。

f:id:ogyahogya:20140924095936p:plain

 

イメージ的にはこんな感じです。

f:id:ogyahogya:20140926091533p:plain

上の図のようにフーリエ変換と逆フーリエ変換を使うことで時間の世界と周波数の世界を行ったり来たりできます。これは、時間の世界では解析が難しそうだったら周波数の世界に行ってみて、そこで簡単なものに変わってたら色々と信号を改良できて、改良したものを時間の世界に持ってこれるということを意味しています。

このようにフーリエ変換は便利そうなのですが、時間の信号の中にはフーリエ変換できないものがあります。この記事は、数学とは集合の性質を写像を通して調べる学問であるということを意識することで、どんな信号がフーリエ変換できるのかということや、数学的にフーリエ変換を観察してみると何が見えるのかということを説明します。

フーリエ変換しても住みかが変わらない関数空間とは?

まず、どのような関数であればフーリエ変換できるのかを考えましょう。ここで、関数  f がフーリエ変換できるというのは  \int_{-\infty}^{\infty} f(t) e^{-i\omega t} dt が発散しないことを意味します。まず

f:id:ogyahogya:20140926110849p:plain

という関数空間の中のすべての要素はフーリエ変換できることに注意しましょう。なぜなら、任意の  f\in L^1({\bf R}) に対して

f:id:ogyahogya:20140924171839p:plain

が成り立つからです。しかし、フーリエ変換は L^1({\bf R}) の要素を  L^1({\bf R}) へ写すとは限りません。

f:id:ogyahogya:20140926110841p:plain

実際に、次のような例があります。

f:id:ogyahogya:20140926111238p:plain

フーリエ変換しても元の関数空間と同じところに入るような関数の集まりはどのようなものでしょうか?

f:id:ogyahogya:20140924174345p:plain

つまり、どんな関数たちがフーリエ変換ができて、かつ、フーリエ変換後も住みかが変わらないのかということを考えましょう。

フーリエ変換は  (-\infty,\infty) 上で積分するということから直感的には無限遠での関数  f(t)が大きな値を持っているとフーリエ変換できなそうです。この直感を一般化して、すべての導関数が、無限遠において |t| のどんな負の整数ベキ乗よりも速く減衰するような関数の空間  \mathcal{S}({\bf R}) を数学者は考えました。

f:id:ogyahogya:20140926113413p:plain

実は  \mathcal{S}({\bf R}) の中に入っている関数をフーリエ変換しても再び  \mathcal{S}({\bf R}) の中に入り、また、逆フーリエ変換しても  \mathcal{S}({\bf R}) の中に入るということが言えます。

f:id:ogyahogya:20140926114136p:plain

これは関数空間  \mathcal{S}({\bf R}) が実用上大きな集合だったら (よく使う信号をたくさん含んでいたら)嬉しそうです。ところが、下の図のように \mathcal{S}({\bf R}) はそれほど大きな集合ではありません。

f:id:ogyahogya:20140926125050p:plain

ただし、 L^2({\bf R}) というのは

f:id:ogyahogya:20140926125143p:plain

と定義されて、色々な場面でよく利用される関数空間です。この  L^2({\bf R}) の中の関数をフーリエ変換して  L^2({\bf R}) の中に入ることを保障できないと応用上面倒なことがあります。

 L^2({\bf R})の空間がよく使われる理由

 L^2({\bf R}) の中には  L^1({\bf R}) と同様にノルムが定義されています。 L^2({\bf R}) L^1({\bf R}) との大きな違いは  L^2({\bf R}) の中には 内積 がつぎのように定義できるということです。

f:id:ogyahogya:20140926174548p:plain

実は、 L^2({\bf R}) のノルムはこの内積を用いて

f:id:ogyahogya:20140926132011p:plain

と定義されます。関数(ベクトル)の長さはノルムを使って測れますが、向きは内積を使って測ることができます。よって、 L^2({\bf R}) の要素は長さと向きを測ることができます。また、 L^2({\bf R})完備と言われる任意のコーシー列が収束するという性質を持っています。完備な内積空間をヒルベルト空間と言いますので、 L^2({\bf R}) はヒルベルト空間となります。ちなみに、完備なノルム空間をバナッハ空間と言い、 L^1({\bf R}) はバナッハ空間となります。ヒルベルト空間ならバナッハ空間なので  L^2({\bf R}) はバナッハ空間でもあります。

ヒルベルト空間の方がバナッハ空間よりも内積という構造が入っている分、深く研究でき色々な性質が調べられています。この成果を  L^2({\bf R}) を考えるときには利用できるのです。

フーリエ変換の  L^2({\bf R}) への拡張

前述の話をまとめると、  L^1({\bf R}) の要素は必ずフーリエ変換できるが、フーリエ変換した後は  L^1({\bf R}) に入るとは限らず、一方で、 \mathcal{S}({\bf R}) の要素をフーリエ変換すると再び  \mathcal{S}({\bf R}) の中に入るが  \mathcal{S}({\bf R}) は実用上は小さな集合だということでした。

そこで、数学者はどうしたかというと、  \mathcal{S}({\bf R}) で定義されているフーリエ変換を  L^2({\bf R}) へ拡張することを考えました。

まず、シュワルツ空間  \mathcal{S}({\bf R}) L^2({\bf R}) に含まれていたことに注意しましょう。つまり、 \mathcal{S}({\bf R}) の中の要素たちは  L^2({\bf R}) の内積を使うことができます。このことに注意すると、時間の世界での内積の値と周波数の世界での内積の値の間には次の関係が成り立つことが分かります。

f:id:ogyahogya:20140926153833p:plain

また、  \mathcal{S}({\bf R}) L^2({\bf R}) の中で稠密です。

f:id:ogyahogya:20140926155845p:plain

プランシュレルの定理と稠密性より  \mathcal{S}(\bf{R}) 上で定義されたフーリエ変換は  L^2({\bf R}) 上に拡張できます。

f:id:ogyahogya:20140926161346p:plain

 L^2({\bf R}) 上に拡張したフーリエ変換は次の性質を満たします。

f:id:ogyahogya:20140926162120p:plain

同様に、逆フーリエ変換も  L^2({\bf R}) 上に拡張されます。こうして、フーリエ変換に対する次のようなイメージを持つことができるようになりました。

f:id:ogyahogya:20140926162642p:plain

周波数の世界を陽に表す

フーリエ変換が  \mathcal{F}:L^2({\bf R}) \rightarrow L^2({\bf R}) として定義できましたが、時間の世界と周波数の世界を両方とも  L^2({\bf R}) で表現しているので少し分かりにくいです。そこで、周波数の世界を陽に表すために次の空間を定義します。

f:id:ogyahogya:20140926164057p:plain

このとき、時間の世界と周波数の世界の行き来の様子を次のように表現できます。

f:id:ogyahogya:20140926164216p:plain

また、プランシュレルの定理は次のように美しく書けるようになります。

f:id:ogyahogya:20140927104430p:plain

合成積のフーリエ変換

前の記事で確率変数の和を考えると確率密度関数の合成積が出てきて、合成積は確率密度関数の滑らかさを上げるので確率変数の和の確率分布関数はガウス分布ぽくなるという話を書きました。実は、フーリエ変換は時間の世界での和を周波数の世界での和に変えるだけでなく、時間の世界での関数の合成積を周波数の世界での普通の積に変えて計算をかなり簡単にする効果があります

f:id:ogyahogya:20140926171356p:plain

つまり、フーリエ変換  \mathcal{F}:L^2({\bf R}) \rightarrow L^2(i{\bf R}) は代数的な構造を保存し可逆なので同型写像となります。

よって、前の記事で確率変数  X_1,\,X_2,\,\cdots,\, X_n が独立で確率密度関数  p^{X_1}(x_1),p^{X_2}(x_2),\cdots,p^{X_n}(x_n) を持つとすると、 X:=X_1+X_2+\cdots +X_n の確率密度関数は

f:id:ogyahogya:20140927102619p:plain

となると書きましたが、フーリエ変換を施して

f:id:ogyahogya:20140927102712p:plain

を解析すればよくなります。中心極限定理を証明するときにこのことを使います。

参考文献

 記事を書くときに参考にした文献です。

(1) 全般に渡って参考にした。難しい内容だが丁寧に書いていて分かりやすい。

ヒルベルト空間と量子力学 改訂増補版 (共立講座 21世紀の数学 16)

ヒルベルト空間と量子力学 改訂増補版 (共立講座 21世紀の数学 16)

 

 (2)  フーリエ変換のイメージをつかむにはとても良い本だと思う。

これなら分かる応用数学教室―最小二乗法からウェーブレットまで

これなら分かる応用数学教室―最小二乗法からウェーブレットまで

 

予告

かなり数学的にフーリエ変換をやったので、次は応用の場面でよく登場するデルタ関数なんかを含む超関数の話とそのフーリエ変換の話をしたいと思います。その次に、前の記事の続きの中心極限定理について書きたいと思います。

 

確率変数の和 -合成積との関係-

前の記事では確率変数という概念を導入しました。今回は確率変数の和の確率分布関数はどうなるかを考えてみましょう。つまり、下の図のように二つの確率変数  X_1,\,X_2 が与えられたとき  X:=X_1+X_2 という新しい確率変数の確率分布はどうなるか?ということを説明したいと思います。

f:id:ogyahogya:20140922103417p:plain

その前に、二つの確率変数の独立性というものを定義します。

●確率変数の独立性

二つの確率変数があると、その確率変数たちの関係性を論じることができます。中にはまったく関係のない確率変数たちもあるわけで、そのような確率変数たちは互いに独立であるといいます。厳密には、二つの確率変数が独立であるとは、同時確率分布が各々の確率変数の確率分布の積となるときにいいます。

f:id:ogyahogya:20140922103513p:plain

また、確率変数  X_1,\,X_2確率密度関数を持ち、独立であるときは次のことが言えます。

f:id:ogyahogya:20140922110520p:plain

●確率変数の和の確率分布関数

応用上、確率変数には確率密度関数が存在することが多いので、確率密度関数が存在すると仮定します(確率密度関数がないとしても、一般化された枠組みで同じことが言えます)。このとき、次のことが言えます。

f:id:ogyahogya:20140927101640p:plain

確率変数の和の確率密度関数を考えると二つの確率変数の確率密度関数合成積と言われるものがでてきました。ここで、関数  f g の合成積というのは  (f*g)(x):=\int_{-\infty}^{\infty} f(x-y)g(y) dy で定義されます。つまり、 X確率密度関数はこの記号を使って、

f:id:ogyahogya:20140927101710p:plain

と書けます。同様に、確率変数  X_1,\,X_2,\,\cdots,\, X_n が独立で確率密度関数  p^{X_1}(x_1),p^{X_2}(x_2),\cdots,p^{X_n}(x_n) を持つとすると、 X:=X_1+X_2+\cdots +X_n確率密度関数

f:id:ogyahogya:20140927101730p:plain

となります。つまり、確率変数の和の確率密度関数は各確率変数が独立ならば確率密度関数たちの合成積によって特徴付けられるのです。よって、合成積の特徴を知ることで、確率変数の和の特徴を知ることが可能です。

●関数の合成積とは

前の記事で述べたように数学とは集合の性質を写像を通して調べる学問です。このことを意識して合成積のことをもっと深く考えてみましょう。そのために、まず対象とする関数が住む空間を設定します。

f:id:ogyahogya:20140922135054p:plain

関数  f\in L^1[-\infty,\infty] と  g\in L^{\infty}[-\infty,\infty] の合成積とは次のように写像のことだと考えられます。

f:id:ogyahogya:20140922134706p:plain

確率密度関数 (-\infty,\infty)積分すると1になりますので  L^1[-\infty,\infty]に入っていると考えられます。よって、二つの独立な確率変数  X_1, X_2が与えられたとき、片方の確率密度関数 L^{\infty}[-\infty,\infty] に入っていれば合成積の定義は可能です。また、 合成積  \mathcal{C}有界であることは、 ||\mathcal{C}g||_{\infty} \leq ||f||_1 ||g||_{\infty} からきています。このことから、 L^1[-\infty,\infty] の要素と  L^{\infty}[-\infty,\infty] の要素の合成積をしても発散することはないということが保障されます。

●合成積の意味

合成積は数学的には上のように写像として定義されるのですが、具体的には次のような特徴を備えています。

f:id:ogyahogya:20140922140900p:plain

実際に、資料の p117とp118にあるように次のように合成積を繰り返すことで滑らかさが上がる様子が確認できます。図の中の  \Pi f確率密度関数です。

f:id:ogyahogya:20140922141454p:plain

f:id:ogyahogya:20140922141507p:plain図を見ると、独立な確率変数たち  X_1,\cdots,X_n確率密度関数の合成積で  X:=X_1+X_2+\cdots +X_n の確率分布関数はガウス分布 (正規分布) となることが予想できます。これはある仮定のもとで正しく、中心極限定理と呼ばれています。このことは確率密度関数フーリエ変換を考えることで分かりやすくなるので、まずフーリエ変換の説明を次回したいと思います。

●参考文献

記事を書くにあたって参考にした本や資料を紹介します。

(1) 独立性のところを参考にした。

 

確率論 (新しい解析学の流れ)

確率論 (新しい解析学の流れ)

 

 (2) 写像としての合成積のところを参考にした。

 

A Course in Robust Control Theory: A Convex Approach (Texts in Applied Mathematics)

A Course in Robust Control Theory: A Convex Approach (Texts in Applied Mathematics)

 

 (3) 合成積が関数を滑らかにするというところを参考にした。とても分かりやすい。

スタンフォード大学 B. Osgood先生の講義資料

●予告

フーリエ変換について数学とは集合の性質を写像を通して調べる学問であるということを意識して説明したいと思います。