初級Mathマニアの寝言

数学は色々なところで応用可能であり、多くの人が数学の抽象的な概念の意味や意義を鮮明に知ることができれば今まで以上に面白い物や仕組みが生まれるかもしれません。このブログは数学を専門にしない人のために抽象的な概念の意味や意義を分かりやすく説明することを目的としています。数学を使って何かしたい人のお役に立てたら幸いです。

最小平均二乗誤差推定値は条件付き期待値

この記事では、下図のように  y を観測してパラメータ  x を推定しようとしたとき、推定したいパラメータ  x と推定値  \hat{x} の二乗誤差  ||x-\hat{x}||^2 の期待値が最小となる推定値(最小平均二乗誤差推定値 \hat{x}条件付き期待値  E(x|y) で与えられ、この推定値は不偏推定値になることを説明します。f:id:ogyahogya:20171108130548p:plain

ここでは、 x\in {\bf R}^n,  y\in {\bf R}^p,  \hat{x}\in {\bf R}^n として、 ||\cdot|| をユークリッドノルムとします。

推定したいパラメータ  xと観測値  y は確率変数だと考える。そうすると、推定値  \hat{x} も確率変数だと考えるのが自然になる。

この記事の中では、推定したいパラメータ  xと観測値  y は確率変数だと考えます。そのとき、推定値  \hat{x} も確率変数だと考えるのが自然になります。これらの理由を以下で説明します。

推定したいパラメータ  x は全知全能の神様にとっては確定値かもしれませんが、「 x \hat{x} か?」と思っている人にとっては確定値ではなく、確率的にしか決められないものかもしれません。推定したいパラメータ  x は確率的に定まるものだと考えることは、数学的には、 x は確率変数だと考えることに相当します。確率変数は下の記事で紹介しています。

ogyahogya.hatenablog.com

推定したいパラメータ  x が確率変数だと考えると、観測値  y も確率変数だと考えることが自然なことが多いです。実際に、観測値は  y=x+v というように、確率変数である  x に確率変数である雑音  v が加算されたものかもしれず、もしそうなら観測値  y  は確率変数となるためです。他にも  y x の関数として表現される多くの場合に、 y は確率変数ということになります。

推定値  \hat{x} は観測値  y の関数だと考えて、関数  f を用いて  \hat{x} = f(y) という関係があると考えるのが自然です。なぜなら、推定値  \hat{x} は観測値  y を参考にして決定するはずだからです。したがって、観測値  y が確率変数なら  \hat{x} も確率変数だと考えることができます(関数  f が可測関数という連続関数を含む応用上とても広いクラスの関数なら、 y が確率変数のときに  f(y) も確率変数となる)。

なぜ  E(||x-\hat{x}||^2) を最小化するのか

この記事の冒頭で、二乗誤差  ||x-\hat{x}||^2 の「期待値」を最小にする  \hat{x} は条件付き期待値  E(x|y) だということを紹介すると書きましたが、なぜ二乗誤差  ||x-\hat{x}||^2 そのものではなく、その「期待値」を最小にする  \hat{x} を考えるのでしょうか?その理由は、二乗誤差  ||x-\hat{x}||^2 \hat{x}=x のときに最小値0となりますが、ここでは  x を確率変数だと考えるため  \hat{x}=x とすることができない上に、 x が不明なので、どうやって  ||x-\hat{x}||^2 を小さくできるかも分からないためです。そのため、代わりに二乗誤差の期待値  E(||x-\hat{x}||^2) の最小化を考えるのです。

 E(||x-\hat{x}||^2) を最小化するとは、もっと正確にはどういうことなのか

二乗誤差の期待値  E(||x-\hat{x}||^2) は関係式  \hat{x}=f(y) の関数  f が与えられたら、次のように計算できます。

\begin{align*} E(||x-\hat{x}||^2) &= E(||x-f(y)||^2) \\ &= \int_{ {\bf R}^p } \int_{ {\bf R}^n} ||x-f(y)||^2 p(x,y) dx dy \end{align*}

この式を見れば分かるように、二乗誤差の期待値  E(||x-\hat{x}||^2) は同時確率分布  p(x,y) が与えられたら関数  f の関数なので、 E(||x-\hat{x}||^2)

\begin{align*} R(f) := E(||x-\hat{x}||^2) \end{align*}

と書けます。このように、二乗誤差の期待値  E(||x-\hat{x}||^2)を最小化するということは、同時確率分布  p(x,y) が任意に与えられたときに関数  R(f) を最小化する関数  f を求めることを意味しています。

※関数  R は関数  f の関数だということから、汎関数(関数の関数)だということになります。

汎関数  R(f) を最小にする関数  f(y) は条件付き期待値  E(x|y) になる

二乗誤差の期待値  E(||x-\hat{x}||^2) 、つまり汎関数  R(f) の最小化を考えてみましょう。まず、 R(f)

\begin{align*} R(f)  &= \int_{ {\bf R}^p } \int_{ {\bf R}^n} ||x-f(y)||^2 p(x,y) dx dy \\ &=\int_{ {\bf R}^p } R_c(f)  p(y) dy \end{align*}

となることに注意します。ここで、

\begin{align*} R_c(f):= \int_{ {\bf R}^n} ||x-f(y)||^2 p(x|y) dx =E(||x-f(y)||^2 | y) \end{align*}

です。

実は、 R(f) を最小にする  f R_c(f) を最小にする  f は一致します。したがって、 R(f) を最小化する  f の代わりに、 R_c(f) を最小化する  f を求めれば良いということになります。

実際に、 R_c(f) を計算してみると以下のようになります。\begin{align*} R_c(f) &= E(||x-f(y)||^2 | y) \\ &= E(|| (x-E(x|y)) + (E(x|y)-f(y))||^2 | y) \\ &= E(||x-E(x|y)||^2 | y) + ||E(x|y)-f(y)||^2 \\ &\geq E(||x-E(x|y)||^2 | y) \end{align*}

最後の不等式で等号が成り立つのは  f(y) = E(x|y) のときなので、 R_c(f) を最小にする関数  f(y) は条件付き期待値  E(x|y):= \int_{{\bf R}^n} x p(x|y) dx だということが分かります。よって、最小平均二乗誤差推定値は  \hat{x} = E(x|y) となります。

※上の証明の中で突然  E(x|y) が出てきました。これは、最小平均二乗誤差推定値は  \hat{x} = E(x|y) となることを知っていないと思いつかないかもしれません。このことを知らないとして、関数  R_c を最小にする関数  f を求めるためには微分  \frac{\partial R_c}{\partial f}=0 を満たす f を求めれば良さそうです。実際に、このへんの話はカルマンフィルタ関係の本によく載っているのですが、多くの本のなかで微分  \frac{\partial R_c}{\partial f}=0 を満たす f を求めています。が、実はこの微分といっているものは通常の微分だと考えることができません。なぜなら  f は数値ではなく関数だからです。ということで、微分  \frac{\partial R_c}{\partial f} を計算するといっても通常の意味の微分は計算できません。では、どうするかというと汎関数  R_c変分(汎関数微分)を計算し、その変分がゼロになる関数  f が答えだということになります。つまり、力学でオイラー・ラグランジュ方程式を導出する際にラグランジアンの作用積分の変分を計算したように、汎関数  R_c の変分を計算すれば良いということになります。では実際に汎関数  R_c の変分を計算してみましょう。汎関数   R_c の点  f における  h 方向への微分は

\begin{align*} \delta R_c(f)[h] := \lim_{\epsilon\rightarrow 0} \frac{R_c (f+\epsilon h) -R_c(f)}{\epsilon} \end{align*} となります(上記の  \delta R_c(f) がゼロとなる関数  f を見つけることを変分問題  \delta R_c(f)=0 と書く)。 汎関数  R_c(f) の定義から、

\begin{align*} R_c(f+\epsilon h) -R_c(f) = \int_{{\bf R}^n} \left( 2\epsilon (x-f(y))^T h(y) + \epsilon^2 ||h(y)||^2 \right) p(x|y) dx \end{align*}

となります。よって、

\begin{align*} \delta R_c(f)[h] &= 2 \int_{ {\bf R}^n} (x-f(y))^T h(y) p(x|y) dx \\ &= 2(E(x|y)-f(y))^T h(y) \end{align*}

ということになります。したがって、 f(y)=E(x|y) のとき  \delta R_c(f)=0 となることが分かりました。

最小平均二乗誤差推定値  \hat{x} = E(x|y) は不偏推定値

 一般に、推定したいパラメータ  x と推定値  \hat{x} の誤差の期待値  E(x-\hat{x}) がゼロになるとき推定値  \hat{x} は推定したいパラメータ  x の不偏推定値だと言います。つまり、推定したいパラメータの期待値と推定値の期待値が一致しているときに、その推定値は不偏だと言うのです。

最小平均二乗誤差推定値  \hat{x}=E(x|y) は次のように不偏推定値だということが分かります。

\begin{align*} E(\hat{x}) &= E( E(x|y)) \\ &= \int_{{\bf R}^p} \left( \int_{{\bf R}^n} x p(x|y) dx \right) p(y) dy \\ &= \int_{{\bf R}^p} \int_{{\bf R}^n} x p(x,y) dx dy \\ &= \int_{ {\bf R}^n} x \int_{ {\bf R}^p} p(x,y) dy dx\\ &= \int_{{\bf R}^n} x p(x) dx = E(x) \end{align*}

参考文献

記事を書くにあたって参考にした文献です。

 (1) 理論的なことがしっかり書いてる。

応用カルマンフィルタ

応用カルマンフィルタ

 

この記事の中では、二乗誤差  ||x-\hat{x}||^2 の期待値の最小化を考えましたが、この本の中では、他にも絶対誤差の期待値や一様誤差の期待値の最小化も考えられており、条件付き確率分布  p(x|y)ガウス分布に従うなら、絶対誤差と一様誤差の期待値の最小値を与える関数は二乗誤差の期待値の最小値を与える条件付き期待値  E(x|y) に一致することが説明されています。ということで、条件付き期待値  E(x|y) は他の評価指標を使っても最も良い推定値になることがあるということが分かります。

ガウス分布は、以下の記事で説明したように中心極限定理と密接に関連した確率分布で応用上よくでてきます。

ogyahogya.hatenablog.com(2) 上の参考文献と同じ著者の本。汎関数の変分を計算すべきところを普通の微分のように計算しているのは誤りであることに注意。この本のように英語の本でも普通の微分のように計算しているものが多々あります。。。

非線形カルマンフィルタ

非線形カルマンフィルタ