2015-10-03

線形システムと制御

制御理論

制御の目的は対象とするシステムに適切な入力を加えて所望の出力を実現することです。

f:id:ogyahogya:20150916161133p:plain

この記事では制御を実行する手順と、システムの最も重要な数学モデルである線形システムについて説明します。

●制御の手順

制御するときに考える入力や出力は一つだけとは限らず、複数ある場合が多いです。例えば、車の運転は次の図のように入力数3で出力数2だと考えられます。

f:id:ogyahogya:20151003151459p:plain

制御を行う手順は次のようになります。

f:id:ogyahogya:20151003152007p:plain

まず、モデリングは対象とするシステムの数学モデルを立てることを意味しています。数学モデルは物理法則や実験から得られたデータで作られます。次に制御器の設計は対象とするシステムを制御するための入力を設計することを意味しています。これはモデリングによって得られた数学モデルを使って行われます。数学モデルが非常に複雑だと制御器を作れないことがあり、その場合はモデリングをやり直します。制御器が設計できたら、シミュレーションをしてその制御器で対象とするシステムがきちんと制御できてるか確認します。これがダメなら制御器の設計やモデリングをやり直します。シミュレーションで上手くいったら制御器を実装します。シミュレーションの段階では、すべて数学モデルを使っているため上手くいったが、現実の対象システムと数学モデルのギャップが大きすぎて上手くいかないことがあります。その場合には対象システムと数学モデルのギャップを縮めるためにモデリングからやり直します。制御器を実装して目標通り動いたら完成です。

車の運転の例では人は脳内に車のモデルを立ててると考えることができます（数学モデルではないと思いますが）。制御器は人の脳で、何度も運転をすることによって立派な制御器が得られます。運転免許証は車を運転するための制御器が脳内にできた証だと考えられます。

●モデリングの例

制御のための入力を設計するためには数学モデルがあったら便利です。モデリングは物理法則や入出力データを利用します。例えば、次のマス・バネ・ダンパー系を考えましょう。

f:id:ogyahogya:20151003155410p:plain

上のマス・バネ・ダンパー系はニュートンの運動方程式を表していて２階の微分方程式となっています。

制御工学では1階の微分方程式で表されるシステムを対象システムとすることが多く、１階の微分方程式でシステムを表現できたら制御工学の多くの成果が利用できます。上のマス・バネ・ダンパー系を1階の微分方程式へ変換することは容易です。実際に次のように変換できます。

f:id:ogyahogya:20151003160237p:plain

$x_1, x_2$ という新しい変数が出てきていますが、これを状態と呼びます。上の微分方程式系は状態方程式と言われているものです。次にこれを説明します。

●システムの状態方程式表現

システムの数学的な表現の一つに状態方程式表現と言われているものがあります。これは1960年頃にKalmanによって導入された表現で、現在では制御理論の研究分野で最もよく利用されている表現となっています。システムの状態方程式表現は次のような方程式系のことです。

f:id:ogyahogya:20150916170552p:plain

システムが上の状態方程式で表されるとき、そのシステムは線形システムであると言います。線形というのは変数 $x, u, y$ について線形だからです。

線形システムは非常に重要です。なぜなら多くのシステムが線形システムで近似できるからです。例えば、次のような非線形システムは平衡点まわりでは線形システムで近似できます。

f:id:ogyahogya:20151003162712p:plain

また、偏微分方程式系も線形システムとして近似できます。例えば、次のようにできます。

f:id:ogyahogya:20151003162946p:plain

f:id:ogyahogya:20151003163053p:plain

f:id:ogyahogya:20151003163216p:plain

●線形システムの制御

線形システムを制御することを考えます。ここでは簡単のために $y=x$ の場合を考えます。まず、状態方程式の解を調べてどのような制御が必要になるか考えてみましょう。状態方程式の解は次のようになります。

f:id:ogyahogya:20151003165719p:plain

ここで、次のように何も入力を加えないとすると解は

f:id:ogyahogya:20151003165916p:plain

となります。よって、

f:id:ogyahogya:20151003170039p:plain

となることが分かります。つまり、入力を加えなかったら状態が発散する恐れがあります。これを防ぐために

f:id:ogyahogya:20151003172041p:plain

という設計問題を考えるのは自然です。ただし、 $0$ は目標状態とします。これは次のようなフィードバックを利用することで実現されることがあります。

f:id:ogyahogya:20151003172207p:plain

次のように定数行列として与えられた制御器が最も簡単なものです。

f:id:ogyahogya:20151003172334p:plain

これは入力を

f:id:ogyahogya:20151003172545p:plain

としたことに相当します。このとき

f:id:ogyahogya:20151003172347p:plain

となります。よって

f:id:ogyahogya:20151003172506p:plain

となります。このような $K$ は線形行列不等式(LMI)

f:id:ogyahogya:20151003173059p:plain

の解 $(X,Y)$ を用いて

f:id:ogyahogya:20151003173121p:plain

と与えることができることが知られています。

上のようなLMI制約を満たす変数の集合は凸集合となります。制御工学の分野では上のようなLMI制約のもとで、ある凸関数で表された評価関数を最小化（最大化）して制御器を設計せよという研究が盛んに行われていた時期がありました（今でも結構あります）。この問題は凸最適化問題となるため、最適化理論の分野でよく研究された成果を利用することができます。しかし、線形システム以外のシステムに対しては制御器の設計問題を凸最適化問題へ帰着させることは困難です。つまり、対象システムを線形システムとしてモデリングしなかったら制御器の設計は非常に難しくなります。対象システムを線形システムとしてモデリングすることは制御器の設計を簡単に行う上でも重要です。

f:id:ogyahogya:20151003163739p:plain

●参考文献

(1) タイトルの通り制御工学の考え方が分かりやすく書いています。

制御工学の考え方―産業革命は「制御」からはじまった (ブルーバックス)

作者: 木村英紀
出版社/メーカー: 講談社
発売日: 2002/12/16
メディア: 新書
購入: 3人クリック: 12回
この商品を含むブログ (11件) を見る

(2) 線形システムの制御器の設計が凸最適化問題に帰着することが分かりやすく書いています。

LMIによるシステム制御 - ロバスト制御系設計のための体系的アプローチ

作者: 蛯原義雄
出版社/メーカー: 森北出版
発売日: 2012/03/08
メディア: 単行本（ソフトカバー）
クリック: 1回
この商品を含むブログを見る

2015-04-14

情報幾何学1: 確率分布とリーマン多様体

確率とか

今回は確率分布が作る幾何学について説明します。

●フィッシャー情報行列とリーマン多様体

まずは、前の記事で説明したような応用上よく出てくるガウス分布が幾何学的に次のように理解できることに注意しましょう（多様体についてはこちら）。

f:id:ogyahogya:20150413141237p:plain

上の例のようにパラメータの組を一つ定めると確率密度関数を定めることができます。このことを一般化して次の確率分布の族である統計モデルと確率分布を特定するパラメータの集合である多様体を同一視できます（厳密には統計モデルにいくつかの条件を付ける必要がありますが、応用上気にしなくて良いことが多いです)。 f:id:ogyahogya:20150414171034p:plain

確率分布が作る幾何学を考えるときに重要なフィッシャー情報行列はつぎのように定義されます。

f:id:ogyahogya:20150413152752p:plain

フィッシャー情報行列は定義から対称行列であることが分かります。さらに、フィッシャー情報行列 $G(\xi)$ が任意の $\xi\in \Xi$ について正定値対称行列であれば、多様体 $\Xi$ は $G(\xi)$ に対応するリーマン計量を導入することでリーマン多様体となります。このフィッシャー情報行列に対応するリーマン計量をフィッシャー計量と呼びます。よって、パラメトライズされた確率分布の族が与えられたらフィッシャー計量を導入することでパラメータたちの距離を測ったりするなどの幾何学的な議論ができるようになります。具体的には、次のように近くのパラメータの距離を定義することができます。

f:id:ogyahogya:20150414175132p:plain

●フィッシャー情報行列の具体的な計算

フィッシャー情報行列を定義通り計算すると計算量が多くなることがよくあります。計算量を減らすために次の公式を利用できます。

f:id:ogyahogya:20150414111738p:plain 例えば、ガウス分布のフィッシャー情報行列を計算してみましょう。

f:id:ogyahogya:20150414153211p:plain

上の例では、フィッシャー情報行列を使って次のことも言えます。

f:id:ogyahogya:20150414182155p:plain

●参考文献

情報幾何学の創始者である甘利俊一先生の英語の本を参考にして記事を書きました。

Methods of Information Geometry (Tanslations of Mathematical Monographs)

作者: Shun-Ichi Amari,Hiroshi Nagaoka,Daishi Harada
出版社/メーカー: Amer Mathematical Society
発売日: 2007/04/13
メディア: ペーパーバック
クリック: 2回
この商品を含むブログ (1件) を見る

●予告

今回紹介したフィッシャー情報行列は統計学の方でも非常に重要なクラメール・ラオの不等式と密接な関係があります。クラメール・ラオの不等式は推定値の誤差をどれだけ減らせるかの限界を示した不等式です。次回は情報幾何学から脱線してフィッシャー情報行列とクラメール・ラオの不等式の関係について詳しく説明します。

2015-01-31

リーマン多様体

多様体とか

この記事ではリーマン多様体という概念を説明します。リーマン多様体とは簡単に言うと多様体の各点に内積が導入された集合のことです。多様体のことを知らない人のために、まずは多様体から説明しましょう。その後に接空間、２つの多様体間の写像の微分、余接空間と１次微分形式、２次テンソル場の概念を説明して最後にリーマン多様体を定義したいと思います。以下の記事はこの記事の続編になっています。

ユークリッド空間と2次元球面の違い
位相空間の初歩
多様体
多様体に関する注意
多様体上の関数
接空間
速度ベクトル
二つの多様体間の写像の微分
余接空間と１次微分形式
2次テンソル場
リーマン多様体
参考文献

ユークリッド空間と2次元球面の違い

多様体を理解するために、まずよく知られているユークリッド空間について復習しましょう。ユークリッド空間は次の図のように一つの座標系で空間のすべての点を表示することができます。

f:id:ogyahogya:20150127095103p:plain

また、ユークリッド空間はベクトル空間の一例なので、空間の任意の2点を足せて、足しても同じ空間に入っています。

次に、球面について考えてみましょう。

f:id:ogyahogya:20150127095515p:plain

球面上に座標を描こうとしても原点以外で再び交わったりしてしまいます。つまり、一つの座標系で空間のすべての点を表示できません。また、2次元球面は3次元ユークリッド空間の部分集合と思えば2次元球面の任意の２つの点を足すということを考えることができますが、 2次元球面の任意の2点を足した結果が2次元球面からはみ出ます。つまり、足すと同じ空間に入っていることを保証できません。

位相空間の初歩

多様体は位相空間なので、位相空間の初歩的なことをまとめておきます。

f:id:ogyahogya:20180510163840p:plain

例えば、2次元ユークリッド空間 ${\bf R}^2$ には次のような位相を導入できます。

f:id:ogyahogya:20180510163956p:plain

f:id:ogyahogya:20180510164008p:plain

f:id:ogyahogya:20180510164113p:plain

同じ ${\bf R}^2$ に、次のような異なる位相も導入できます。

f:id:ogyahogya:20180510164227p:plain

f:id:ogyahogya:20180510164401p:plain

位相空間 $({\bf R}^2, \mathcal{O})$ は次のような特徴があります。

f:id:ogyahogya:20180510164509p:plain

一方で、位相空間 $({\bf R}^2, \tilde{\mathcal{O}})$ は次のような特徴があります。

f:id:ogyahogya:20180510164555p:plain

つまり、 $({\bf R}^2,\mathcal{O})$ は任意の2点を開集合で分離できますが、 $({\bf R}^2,\tilde{\mathcal{O}})$ は任意の2点を開集合で分離できません。次のハウスドルフ空間は位相空間 $({\bf R}^2,\mathcal{O})$ のこの特徴を抜き出したものです。

f:id:ogyahogya:20180510165129p:plain

つまり、 $({\bf R}^2,\mathcal{O})$ はハウスドルフ空間ですが、 $({\bf R}^2,\tilde{\mathcal{O}})$ はハウスドルフ空間でないということになります。

次に定義する多様体はハウスドルフ空間で、リーマン多様体もハウスドルフ空間ということになりますが、このハウスドルフ空間の2点を開集合で分離できるという性質からリーマン多様体上で最適化アルゴリズムを考えたときに、収束先がただ一つに定まることが保証できたりします。

応用上もっともよく出てくる位相空間は距離空間の距離から位相が定められた位相空間です。距離空間については、

を参照してください。

多様体

多様体は上の２次元球面の特徴を抽象化した概念です。次がその定義です。

f:id:ogyahogya:20150127103858p:plain

定義が言ってることを図示するとこんな感じです。

f:id:ogyahogya:20150127153539p:plain

次のように $m$ 次元ユークリッド空間 ${\bf R}^m$ は $m$ 次元多様体になっていることが分かります。

f:id:ogyahogya:20150127110708p:plain

また、 $m$ 次元球面 ${\bf S^m}$ が $m$ 次元多様体になっていることが確認できます。立体射影が気になる人はググってみてください。

f:id:ogyahogya:20150127145930p:plain

このように $m$ 次元球面 ${\bf S^m}$ はユークリッド空間と異なり、任意の点を座標表示するためには少なくとも２つの座標系が必要になりそうです。

多様体に関する注意

多様体にはベクトル空間と違って和やスカラー倍が定義されていないことに注意してください。上で述べたように、2次元球面は3次元ユークリッド空間の部分集合と考えると、ユークリッド空間には和が定義されているので2次元球面上の点に関しても和の計算ができますが、再び2次元球面の点になる保証はないのです。したがって、ユークリッド空間に含まれていることを忘れて、 $S^m$ 上の二つの点を足そうとするのは意味をなしません。

多様体にさらに群の構造が入ると多様体の任意の二つの要素間で群の演算ができるようになります。このような多様体＋群の集合をリー群と言います。リー群の例としては可逆な行列全体の集合や直交行列の全体の集合などがあります。リー群についてはこんど詳しく説明する予定です。

多様体上の関数

多様体上の各点から実数への写像を次のように考えることができます。

f:id:ogyahogya:20150128091713p:plain

これは次のように考えようという提案です。

f:id:ogyahogya:20150128091755p:plain

接空間

次のような微分作用素を考えましょう。

f:id:ogyahogya:20150128143028p:plain

ここで、次のような疑問が生じます。

f:id:ogyahogya:20150128143252p:plain

この疑問に答えるために次のように方向微分の概念を導入します。

f:id:ogyahogya:20150128161915p:plain

すると、次のことが証明できます。

f:id:ogyahogya:20150128162459p:plain

さらに、次のことが証明できます。

f:id:ogyahogya:20150128163035p:plain

よって、 $D_p M$ の部分集合である接空間というものが次のように定義できて $m$ 次元ベクトル空間となることが分かります。

f:id:ogyahogya:20150128163823p:plain

接空間自体はベクトル空間なので接空間上で和やスカラー倍の計算ができて、計算結果は再び同じ接空間上の点になります。

接空間は名前の通り多様体に接しているイメージのはずです。このことをイメージできるようになるために、次に曲線の速度ベクトルという概念を考えましょう。

速度ベクトル

多様体上の点 $p$ を通る曲線を考えましょう。

f:id:ogyahogya:20150131122432p:plain

上の曲線から定められる次のような写像を定義しましょう。

f:id:ogyahogya:20150201131835p:plain

次のことが成り立ちます。

f:id:ogyahogya:20150201131953p:plain

このことから次のように $\left(\frac{\partial}{\partial x_i}\right)_p$ に関する幾何学的なイメージを持つことができるようになります。

f:id:ogyahogya:20150131125752p:plain

よって、接空間は次のように多様体に接した空間のイメージになります。

f:id:ogyahogya:20150131130001p:plain

二つの多様体間の写像の微分

次のように二つの多様体とその間の写像 $f$ が与えられたときの $f$ の微分を定義しましょう。

f:id:ogyahogya:20150131131617p:plain

曲線 $c$ を導入すると次のように $f$ と $c$ の合成写像を定義できます。

f:id:ogyahogya:20150131140620p:plain

このとき、次の関係を調べましょう。

f:id:ogyahogya:20150131144940p:plain

点 $p\in M$ と点 $q\in N$ のまわりに局所座標系を導入すると次のような関係が得られます。

f:id:ogyahogya:20200423200039p:plain

よって、曲線 $c$ と $f\circ c$ の $t=0$ における速度ベクトルの関係は次のJacobi行列によって特徴付けられます。

f:id:ogyahogya:20150131151227p:plain

Jacobi行列は局所座標系を定めると決定する行列です。このJacobi行列を局所座標系に依存しない写像 $T_p M\rightarrow T_q N$ の局所座標表示としてとらえるために次のことに注意しましょう。

f:id:ogyahogya:20150131150413p:plain

上のことより次のように局所座標に依存しない $f:M\rightarrow N$ の微分写像を定義できます。

f:id:ogyahogya:20150131152036p:plain

余接空間と１次微分形式

余接空間とは接空間の双対空間のことです。双対空間は次のように定義されるベクトル空間です。

f:id:ogyahogya:20150131155016p:plain

双対空間の基底はもともとのベクトル空間の基底が定まると定まります。

f:id:ogyahogya:20150131155121p:plain

次のように余接空間と１次微分形式は定義されます。

f:id:ogyahogya:20150201132237p:plain

多様体から実数への写像が与えられると1次微分形式が定義できます。

f:id:ogyahogya:20150131160841p:plain

上の１次微分形式 $df$ は次の性質を持ちます。

f:id:ogyahogya:20150131161947p:plain

上の結果から余接空間の双対基底が次のように求まります。

f:id:ogyahogya:20150131162934p:plain

2次テンソル場

もう少しでリーマン多様体が定義できます。そのためにあと少しだけ準備します。

f:id:ogyahogya:20150131171146p:plain

任意の2次形式は次のように表示ができます。

f:id:ogyahogya:20150131172637p:plain

2次テンソル場というものは次のように定義されます。

f:id:ogyahogya:20150131173704p:plain

2次テンソル場には対称性という概念を与えることができます。

f:id:ogyahogya:20150131173806p:plain

リーマン多様体

ようやくリーマン多様体を定義する準備が整いました。以下がリーマン多様体の定義です。

f:id:ogyahogya:20150131174615p:plain

局所座標系を導入するとリーマン計量は次のように具体的に表示することができます。

f:id:ogyahogya:20150201152644p:plain

上の表示式を眺めるともっと簡単に次のように表示できることが分かります。

f:id:ogyahogya:20150201152836p:plain

要するに次の対応関係があることが分かりました。

f:id:ogyahogya:20150201152659p:plain

したがって、正定値対称行列が与えられたら多様体にリーマン計量を導入することができてリーマン多様体を構成できます。情報幾何学で重要なリーマン計量はFisher計量と呼ばれるものです。これについては次回詳しく説明します。

参考文献

今回説明したことは基本的には次の本に全部書いてます。

多様体の基礎 (基礎数学5)

作者: 松本幸夫
出版社/メーカー: 東京大学出版会
発売日: 1988/09/22
メディア: 単行本
購入: 7人クリック: 36回
この商品を含むブログ (33件) を見る

2015-01-25

大偏差原理

確率とか

で平均から大きく離れたところの生起確率の簡単な評価を与えました。今回はその評価をさらに精密にして、数理的な構造をもっと詳しく見たいと思います。前の記事で次の評価を与えました。

f:id:ogyahogya:20150125114343p:plain

上の $M(\theta)$ は確率変数 $X_1$ の積率母関数、 $\ln M(\theta)$ は確率変数 $X_1$ のキュムラント母関数 (物理では自由エネルギー) と呼ばれています。上の指数関数の中の $\sup_{\theta\geq 0} (\theta x - \ln M(\theta))$ は $\theta\geq 0$ のもとで $\theta x -\ln M(\theta)$ の上限を意味しています。これを改造することで $P(\sum_{i=1}^n X_i \geq nx)$ の上界だけでなく下界も与えることができます。それがクラメールの定理です。

●レート関数

まず、上の評価式の中にある $\sup_{\theta\geq 0} (\theta x - \ln M(\theta))$ の $\theta\geq 0$ という制約を外した

f:id:ogyahogya:20150125124620p:plain

を考えましょう。この $I(x)$ はキュムラント母関数をルジャンドル変換したものであり、レート関数と呼ばれています。レート関数は

で説明している理由で凸関数となっていることが分かります。また、レート関数は平均値で最小値0となることが以下のように分かります。

f:id:ogyahogya:20150125134721p:plain

●大偏差原理

次の定理はクラメールの定理と呼ばれる大偏差原理です。

f:id:ogyahogya:20150125142308p:plain

上の $\theta^*$ の存在の仮定は $M(\theta)$ が $\theta^*$ で微分可能であることを保証するためにあります。この定理によって、平均から大きく離れたところの生起確率がレート関数 $I(x)$ によって特徴付けられることが分かりました。証明に興味のある方は詳しくは参考文献を読んでいただくことにしますが、ポイントは次の通りです。

f:id:ogyahogya:20150125141742p:plain

要するに以前説明した中心極限定理

を平均から大きく離れたところで適用できるように確率分布関数を改造するのです（平均から大きく離れたところの生起確率は単純に中心極限定理を適用しても見積れない。詳しくはこちら）。これは確率測度を変換していることを意味します。確率分布関数と確率測度の関係についてはこちらをご覧ください。

●レート関数とカルバックライブラー情報量

レート関数は前の記事で説明したカルバックライブラー情報量と次のように結びつきます。

f:id:ogyahogya:20150125143312p:plain

もっと一般的な状況でレート関数とカルバックライブラー情報量の関係がありますが、興味のある方は参考文献を参照してください。

●参考文献

記事を書くときに参考にした文献です。

(1)大偏差原理の証明を参考にしました。

Large Deviations For Performance Analysis: QUEUES, Communication and Computing (Stochastic Modeling Series)

作者: Adam Shwartz,Alan Weiss
出版社/メーカー: Chapman and Hall/CRC
発売日: 1995/09/01
メディア: ハードカバー
この商品を含むブログを見る

(2)凸関数やルジャンドル変換について詳しい説明が書いてます。

Convex Optimization

作者: Stephen Boyd,Lieven Vandenberghe
出版社/メーカー: Cambridge University Press
発売日: 2004/03/08
メディア: ハードカバー
購入: 1人クリック: 11回
この商品を含むブログ (1件) を見る

(3) 大偏差原理のもっと深いことが書いてます。

Large Deviations Techniques and Applications (Stochastic Modelling and Applied Probability)

作者: Amir Dembo
出版社/メーカー: Springer
発売日: 2013/04/11
メディア: Kindle版
この商品を含むブログを見る

●予告

今回名前だけ出して説明しなかった凸関数やルジャンドル変換は情報を幾何学的に研究する学問の中でも重要な役割を果たします。次回からはしばらく情報幾何学について説明していきたいと思います。

2014-12-11

エントロピー、カルバック・ライブラー情報量、最尤推定法

確率とか

前回簡単に説明した大偏差原理をエントロピーの概念を使って詳しく説明するために、今回はエントロピーについて説明します。また、カルバック・ライブラー情報量、最尤推定法などについても説明します。

●エントロピー

有限個の事象のエントロピーは次のように定義されます。

f:id:ogyahogya:20141120110644p:plain

これは確率変数のエントロピーへ次のように一般化されます。

f:id:ogyahogya:20141120110756p:plain

エントロピーは平均情報量ともみなせます。

f:id:ogyahogya:20141120110920p:plain

●カルバック・ライブラー情報量（相対エントロピー）

データはある確率分布に従う確率変数の実現値であると考えられることが多いです。しかし、その確率分布の形が分からないことがあり、得られたデータから真の確率分布を推定する必要がよくあります。推定した確率分布が真の確率分布にどれくらい近いかを表す尺度として次のカルバック・ライブラー情報量（相対エントロピー）というものがあります。

f:id:ogyahogya:20141123203334p:plain

カルバック・ライブラー情報量の重要な性質として次の非負性があります。

f:id:ogyahogya:20141124173856p:plain

カルバック・ライブラー情報量とエントロピーは次の関係があります。

f:id:ogyahogya:20141124151133p:plain

よって、

f:id:ogyahogya:20141124151332p:plain

となり、確率変数が一様分布に従うときにエントロピーは最大になることが分かります。

●最尤推定

確率分布 $p(x)$ に従ってデータが生成されたとしましょう。しかし、 $p(x)$ は我々には分からないとして、 $p(x)$ を推定する必要があるとします。上で述べたことより、 $p(x)$ の推定にカルバック・ライブラー情報量が利用できそうです。カルバック・ライブラー情報量の定義から

f:id:ogyahogya:20141124161304p:plain

ということが分かります。 $D(p||q)=0$ のときに $p(x)=q(x)$ がすべての点 $x$ で成り立ちますので

f:id:ogyahogya:20141124161709p:plain

を最大にすれば推定した確率分布 $q(x)$ は真の確率分布 $p(x)$ により近くなることが期待できます。しかし、そもそも真の確率分布 $p(x)$ は未知なので平均大数尤度は直接計算できません。ここで注目すべき点はデータ $x_1,x_2,\cdots, x_n$ は真の確率分布 $p(x)$ に従って得られているということです。つまり、データは確率変数の実現値であり、その確率変数は真の確率分布 $p(x)$ に従います。このことから、データがたくさん得られたときには大数の法則が利用できて

f:id:ogyahogya:20141124164534p:plain

となります。そこで、カルバック・ライブラー情報量 $D(p||q)$ を小さくするためには

f:id:ogyahogya:20141124164803p:plain

を最大にすれば良いことが分かります。最尤推定量はパラメータ付きの対数尤度

f:id:ogyahogya:20141124171631p:plain

を最大にするパラメータ $\theta=\hat{\theta}$ のことで、 $q(x|\hat{\theta})$ を $p(x)$ の最尤推定と言います。つまり、最尤推定量 $\hat{\theta}$ は

f:id:ogyahogya:20141124172431p:plain

を満たす $\theta$ のことです。

データ数が十分に多いとき最尤推定法はある意味で最適な推定法になっていることを示せます。このことはまた今度詳しい説明を書くつもりです。

●連続確率変数のエントロピーとカルバック・ライブラー情報量

今までの議論は確率変数が離散値を取る場合を考えていましたが、確率変数が連続値を取る場合に対してもエントロピーやカルバックライブラー情報量が次のように定義されます。

f:id:ogyahogya:20141211180348p:plain

離散値の時と同様にカルバックライブラー情報量の定義式から最尤推定法の考え方が出てきます。

確率変数が連続値をとるとき変分法を使うと、ある制約条件の下でエントロピーを最大化するような確率密度関数を求めることができます。例えば、平均と分散が一定のもとでエントロピーが最大になる分布はガウス分布であることを示すことができます。変分法については今後詳しく説明するつもりです。

●参考文献

記事を書くときに参考にした文献です。

(1) 情報理論をしっかり勉強するならこれ

Elements of Information Theory (Wiley Series in Telecommunications and Signal Processing)

作者: Thomas M. Cover,Joy A. Thomas
出版社/メーカー: Wiley-Interscience
発売日: 2006/06/30
メディア: ハードカバー
クリック: 7回
この商品を含むブログ (1件) を見る

(2) カルバックライブラー情報量と最尤推定のつながりのところを参考にした

経済物理学

作者: 青山秀明,家富洋,池田裕一,相馬亘,藤原義久
出版社/メーカー: 共立出版
発売日: 2008/10/23
メディア: 単行本
購入: 3人クリック: 22回
この商品を含むブログ (7件) を見る

●予告

大偏差原理について詳しく説明します。

2014-11-19

平均から大きく離れたところの生起確率

確率とか

前の記事では中心極限定理について説明しました。中心極限定理の主張は次のようにも解釈できます。

f:id:ogyahogya:20141119174239p:plain

しかし、中心極限定理だけでは次のような疑問が生じます。

f:id:ogyahogya:20141119184537p:plain

図で気持ちを書くとこんな感じです。

f:id:ogyahogya:20141119171319p:plain

平均と同じオーダーの偏差が生じる確率を0と答えるのではなく数式で答えるのが大偏差原理です。つまり、 $n$ と大偏差の生起確率の関係を教えてくれます。この記事では簡単な不等式を使って大偏差を調べる方法を述べて、難しい議論は次回以降にすることにします。

●チェビシェフの不等式

チェビシェフの不等式から大偏差に関する単純な解答が得られます。ここで、チェビシェフの不等式とは

f:id:ogyahogya:20141115185638p:plain

のことです。実際にチェビシェフの不等式から大偏差に関する情報が得られることが次のように分かります。

f:id:ogyahogya:20141115190253p:plain

よって、チェビシェフの不等式より平均からの $O(n)$ の偏差が生じる確率が $O(n^{-1})$ であることが分かります。しかし、次のマルコフ不等式を利用してみるとこの評価はひどく悪いことが分かります。

●マルコフ不等式

マルコフ不等式からも大偏差に関する解答が得られます。ここで、マルコフ不等式とは

f:id:ogyahogya:20141115175552p:plain

のことです。実際にマルコフ不等式から大偏差に関する情報が得られることが次のように分かります。

f:id:ogyahogya:20141115184137p:plain

マルコフ不等式を利用するとチェビシェフの不等式の時とは異なり平均からの $O(n)$ の偏差が生じる確率が指数関数によって評価されています。

●クラメールの定理

マルコフ不等式からの帰結を精密にした結果がクラメールの定理と言われるものです。クラメールの定理が主張する大偏差に関する評価は情報理論のエントロピーの概念と密接に関係しているので、次回の記事でエントロピーを紹介した後にクラメールの定理を紹介したいと思います。

●参考文献

エントロピーと大偏差の関係が書いてる。

Large Deviations Techniques and Applications (Applications of Mathematics)

作者: Amir Dembo,Ofer Zeitouni
出版社/メーカー: Springer-Verlag
発売日: 1998/04
メディア: ハードカバー
この商品を含むブログを見る

●予告

情報理論のエントロピーの概念を説明します。

2014-10-23

中心極限定理

確率とか

この記事では、

ogyahogya.hatenablog.com

で少し書いた中心極限定理について詳しく説明します。中心極限定理は直感的にはたくさんの確率変数の和の確率分布関数はガウス分布(正規分布)になるということを述べています。一つ一つの確率変数にあまりきつい条件を課すことなく言えるので、色々な分野で応用が可能です。しかし、あまりきつい条件を課さないということで、その定理を示すためにはいくつかの抽象的な概念を経由する必要があります。

ogyahogya.hatenablog.com

で書いた確率測度の弱収束と確率分布関数の分布収束という概念も中心極限定理を証明するために必要な概念となっています。

●中心極限定理とは何か

中心極限定理はある条件が成り立てば独立な多くの確率変数の和の確率分布関数が標準ガウス分布へ分布収束することを主張しています。ここで、重要なのは確率変数が同一である必要はないということです。多くの本では確率変数たちが独立で同一(i.i.d.)であるなら正規化された和の確率変数たちに対して中心極限定理が適用できることを述べていますが、同一性の仮定は必要ありません。同一性の仮定が必要ないことは実用上とてもうれしいことです。例えば、ある地域に住む人々の消費電力を確率変数で表したとしましょう。日々の経験から人々の電力の使い方は同一の確率分布に従うとは思えません。このとき、その地域の消費電力はその地域に住む人々の消費電力の和となるので、地域の消費電力もまた確率変数となると考えることができます。よって、地域の消費電力も確率分布を持つわけです。では、その確率分布はどんな形になるでしょうか？人々の消費電力は確率変数と考えたときに独立と考えられます。なぜなら、自分の家でどのように電気を使うかは隣の家の電気の使い方に依存しないはずだからです。よって、中心極限定理を使うために同一性の仮定が必要ないことから多くの場合、地域の消費電力の確率分布はガウス分布になることが予想されます。もし、中心極限定理に同一性の仮定が必要なら地域の消費電力の確率分布の形はどんなものになるか予想することが難しくなるはずです。

このように中心極限定理は集団の振る舞いを知る上でかなり便利です。その定理は正確には次のようになっています。

f:id:ogyahogya:20141020152221p:plain

中心極限定理は上のように確率変数たちが独立ということと、リンデベルグ条件が成立すれば同一性の仮定がなくても適用できます。同一性の仮定は次のようにリンデベルグ条件がなりたつための十分条件になっています。

f:id:ogyahogya:20141022133337p:plain

また、次の条件はリヤプノフ条件と呼ばれ、これもリンデベルグ条件が成り立つための十分条件になっています。

f:id:ogyahogya:20141020153623p:plain

例えば次のような感じで中心極限定理を適用できます。

f:id:ogyahogya:20141020155709p:plain

上の例でn=15, n=20, n=50, n=100の場合に $X_1+X_2+\cdots + X_n$ のヒストグラムを作ると次のような感じになります。ただし、各 $p_i$ は $[0,1$ ] 上の一様分布で生成しています。つまり、この場合はすべての確率変数が同一分布です。

f:id:ogyahogya:20141020173833p:plain

図を見ると $n$ が大きくなるにつれて正規分布に近づいていることが分かります。

また、すべての確率変数が同一分布ではないときにも次のように $n$ が大きくなると正規分布に近づくことが分かります。

f:id:ogyahogya:20141020181952p:plain

●確率測度のフーリエ変換: 特性関数

前の記事の中で独立な確率変数たち $X_1,\cdots,X_n$ の和の確率密度関数は $X_1,\cdots,X_n$ の確率密度関数 $p^{X_1},\cdots, p^{X_n}$ の合成積

f:id:ogyahogya:20140924143714p:plain

で与えられるということを述べました。

ogyahogya.hatenablog.com

で書いたようにフーリエ変換を施すと

f:id:ogyahogya:20140924144102p:plain

のように合成積は通常の積に変わり、計算がしやすくなります。このことを利用して中心極限定理を示すことができるのです。ここでは、前の記事で書いたフーリエ変換の定義を一般化して次のように確率測度のフーリエ変換を定義します（本質的ではないが符号が異なることに注意)。これが確率測度の特性関数というものです。

f:id:ogyahogya:20141022135944p:plain

例えば、平均 $\mu$ 、分散 $\sigma^2$ のガウス分布の特性関数は次のように求めることができます。

f:id:ogyahogya:20141023091145p:plain

よって、確率変数たち $X_1,\cdots,X_n$ が独立なガウス分布に従うなら、 $X_1+\cdots +X_n$ もガウス分布に従うことが次のように分かります。

f:id:ogyahogya:20141023143004p:plain

よって、確率変数たちの和を考えたときにもともとの確率変数たちがすべてガウス分布に従うなら和もガウス分布に従うということが特性関数を計算することで分かります。中心極限定理は和を構成する確率変数たちがガウス分布に従わなくても、たくさんの確率変数の和はガウス分布に近くなるということを言っているのです（ちょっとした仮定のもとで）。