最小平均二乗誤差推定値は条件付き期待値

この記事では、下図のように $y$ を観測してパラメータ $x$ を推定しようとしたとき、推定したいパラメータ $x$ と推定値 $\hat{x}$ の二乗誤差 $||x-\hat{x}||^2$ の期待値が最小となる推定値（最小平均二乗誤差推定値） $\hat{x}$ は条件付き期待値 $E(x|y)$ で与えられ、この推定値は不偏推定値になることを説明します。 f:id:ogyahogya:20171108130548p:plain

ここでは、 $x\in {\bf R}^n$ , $y\in {\bf R}^p$ , $\hat{x}\in {\bf R}^n$ として、 $||\cdot||$ をユークリッドノルムとします。

推定したいパラメータ $x$ と観測値 $y$ は確率変数だと考える。そうすると、推定値 $\hat{x}$ も確率変数だと考えるのが自然になる。

この記事の中では、推定したいパラメータ $x$ と観測値 $y$ は確率変数だと考えます。そのとき、推定値 $\hat{x}$ も確率変数だと考えるのが自然になります。これらの理由を以下で説明します。

推定したいパラメータ $x$ は全知全能の神様にとっては確定値かもしれませんが、「 $x$ は $\hat{x}$ か？」と思っている人にとっては確定値ではなく、確率的にしか決められないものかもしれません。推定したいパラメータ $x$ は確率的に定まるものだと考えることは、数学的には、 $x$ は確率変数だと考えることに相当します。確率変数は下の記事で紹介しています。

ogyahogya.hatenablog.com

推定したいパラメータ $x$ が確率変数だと考えると、観測値 $y$ も確率変数だと考えることが自然なことが多いです。実際に、観測値は $y=x+v$ というように、確率変数である $x$ に確率変数である雑音 $v$ が加算されたものかもしれず、もしそうなら観測値 $y$ は確率変数となるためです。他にも $y$ が $x$ の関数として表現される多くの場合に、 $y$ は確率変数ということになります。

推定値 $\hat{x}$ は観測値 $y$ の関数だと考えて、関数 $f$ を用いて $\hat{x} = f(y)$ という関係があると考えるのが自然です。なぜなら、推定値 $\hat{x}$ は観測値 $y$ を参考にして決定するはずだからです。したがって、観測値 $y$ が確率変数なら $\hat{x}$ も確率変数だと考えることができます(関数 $f$ が可測関数という連続関数を含む応用上とても広いクラスの関数なら、 $y$ が確率変数のときに $f(y)$ も確率変数となる)。

なぜ $E(||x-\hat{x}||^2)$ を最小化するのか

この記事の冒頭で、二乗誤差 $||x-\hat{x}||^2$ の「期待値」を最小にする $\hat{x}$ は条件付き期待値 $E(x|y)$ だということを紹介すると書きましたが、なぜ二乗誤差 $||x-\hat{x}||^2$ そのものではなく、その「期待値」を最小にする $\hat{x}$ を考えるのでしょうか？その理由は、二乗誤差 $||x-\hat{x}||^2$ は $\hat{x}=x$ のときに最小値0となりますが、ここでは $x$ を確率変数だと考えるため $\hat{x}=x$ とすることができない上に、 $x$ が不明なので、どうやって $||x-\hat{x}||^2$ を小さくできるかも分からないためです。そのため、代わりに二乗誤差の期待値 $E(||x-\hat{x}||^2)$ の最小化を考えるのです。

$E(||x-\hat{x}||^2)$ を最小化するとは、もっと正確にはどういうことなのか

二乗誤差の期待値 $E(||x-\hat{x}||^2)$ は関係式 $\hat{x}=f(y)$ の関数 $f$ が与えられたら、次のように計算できます。

\begin{align*} E(||x-\hat{x}||^2) &= E(||x-f(y)||^2) \\ &= \int_{ {\bf R}^p } \int_{ {\bf R}^n} ||x-f(y)||^2 p(x,y) dx dy \end{align*}

この式を見れば分かるように、二乗誤差の期待値 $E(||x-\hat{x}||^2)$ は同時確率分布 $p(x,y)$ が与えられたら関数 $f$ の関数なので、 $E(||x-\hat{x}||^2)$ を

\begin{align*} R(f) := E(||x-\hat{x}||^2) \end{align*}

と書けます。このように、二乗誤差の期待値 $E(||x-\hat{x}||^2)$ を最小化するということは、同時確率分布 $p(x,y)$ が任意に与えられたときに関数 $R(f)$ を最小化する関数 $f$ を求めることを意味しています。

※関数 $R$ は関数 $f$ の関数だということから、汎関数(関数の関数)だということになります。

汎関数 $R(f)$ を最小にする関数 $f(y)$ は条件付き期待値 $E(x|y)$ になる

二乗誤差の期待値 $E(||x-\hat{x}||^2)$ 、つまり汎関数 $R(f)$ の最小化を考えてみましょう。まず、 $R(f)$ は

\begin{align*} R(f) &= \int_{ {\bf R}^p } \int_{ {\bf R}^n} ||x-f(y)||^2 p(x,y) dx dy \\ &=\int_{ {\bf R}^p } R_c(f) p(y) dy \end{align*}

となることに注意します。ここで、

\begin{align*} R_c(f):= \int_{ {\bf R}^n} ||x-f(y)||^2 p(x|y) dx =E(||x-f(y)||^2 | y) \end{align*}

です。

実は、 $R(f)$ を最小にする $f$ と $R_c(f)$ を最小にする $f$ は一致します。したがって、 $R(f)$ を最小化する $f$ の代わりに、 $R_c(f)$ を最小化する $f$ を求めれば良いということになります。

実際に、 $R_c(f)$ を計算してみると以下のようになります。\begin{align*} R_c(f) &= E(||x-f(y)||^2 | y) \\ &= E(|| (x-E(x|y)) + (E(x|y)-f(y))||^2 | y) \\ &= E(||x-E(x|y)||^2 | y) + ||E(x|y)-f(y)||^2 \\ &\geq E(||x-E(x|y)||^2 | y) \end{align*}

最後の不等式で等号が成り立つのは $f(y) = E(x|y)$ のときなので、 $R_c(f)$ を最小にする関数 $f(y)$ は条件付き期待値 $E(x|y):= \int_{{\bf R}^n} x p(x|y) dx$ だということが分かります。よって、最小平均二乗誤差推定値は $\hat{x} = E(x|y)$ となります。

※上の証明の中で突然 $E(x|y)$ が出てきました。これは、最小平均二乗誤差推定値は $\hat{x} = E(x|y)$ となることを知っていないと思いつかないかもしれません。このことを知らないとして、関数 $R_c$ を最小にする関数 $f$ を求めるためには微分 $\frac{\partial R_c}{\partial f}=0$ を満たす $f$ を求めれば良さそうです。実際に、このへんの話はカルマンフィルタ関係の本によく載っているのですが、多くの本のなかで微分 $\frac{\partial R_c}{\partial f}=0$ を満たす $f$ を求めています。が、実はこの微分といっているものは通常の微分だと考えることができません。なぜなら $f$ は数値ではなく関数だからです。ということで、微分 $\frac{\partial R_c}{\partial f}$ を計算するといっても通常の意味の微分は計算できません。では、どうするかというと汎関数 $R_c$ の変分(汎関数微分)を計算し、その変分がゼロになる関数 $f$ が答えだということになります。つまり、力学でオイラー・ラグランジュ方程式を導出する際にラグランジアンの作用積分の変分を計算したように、汎関数 $R_c$ の変分を計算すれば良いということになります。では実際に汎関数 $R_c$ の変分を計算してみましょう。汎関数 $R_c$ の点 $f$ における $h$ 方向への微分は

\begin{align*} \delta R_c(f)[h] := \lim_{\epsilon\rightarrow 0} \frac{R_c (f+\epsilon h) -R_c(f)}{\epsilon} \end{align*} となります（上記の $\delta R_c(f)$ がゼロとなる関数 $f$ を見つけることを変分問題 $\delta R_c(f)=0$ と書く）。汎関数 $R_c(f)$ の定義から、

\begin{align*} R_c(f+\epsilon h) -R_c(f) = \int_{{\bf R}^n} \left( 2\epsilon (x-f(y))^T h(y) + \epsilon^2 ||h(y)||^2 \right) p(x|y) dx \end{align*}

となります。よって、

\begin{align*} \delta R_c(f)[h] &= 2 \int_{ {\bf R}^n} (x-f(y))^T h(y) p(x|y) dx \\ &= 2(E(x|y)-f(y))^T h(y) \end{align*}

ということになります。したがって、 $f(y)=E(x|y)$ のとき $\delta R_c(f)=0$ となることが分かりました。

最小平均二乗誤差推定値 $\hat{x} = E(x|y)$ は不偏推定値

一般に、推定したいパラメータ $x$ と推定値 $\hat{x}$ の誤差の期待値 $E(x-\hat{x})$ がゼロになるとき推定値 $\hat{x}$ は推定したいパラメータ $x$ の不偏推定値だと言います。つまり、推定したいパラメータの期待値と推定値の期待値が一致しているときに、その推定値は不偏だと言うのです。

最小平均二乗誤差推定値 $\hat{x}=E(x|y)$ は次のように不偏推定値だということが分かります。

\begin{align*} E(\hat{x}) &= E( E(x|y)) \\ &= \int_{{\bf R}^p} \left( \int_{{\bf R}^n} x p(x|y) dx \right) p(y) dy \\ &= \int_{{\bf R}^p} \int_{{\bf R}^n} x p(x,y) dx dy \\ &= \int_{ {\bf R}^n} x \int_{ {\bf R}^p} p(x,y) dy dx\\ &= \int_{{\bf R}^n} x p(x) dx = E(x) \end{align*}

参考文献

記事を書くにあたって参考にした文献です。

(1) 理論的なことがしっかり書いてる。

応用カルマンフィルタ

作者: 片山徹
出版社/メーカー: 朝倉書店
発売日: 2000/02/01
メディア: 単行本
クリック: 6回
この商品を含むブログを見る

この記事の中では、二乗誤差 $||x-\hat{x}||^2$ の期待値の最小化を考えましたが、この本の中では、他にも絶対誤差の期待値や一様誤差の期待値の最小化も考えられており、条件付き確率分布 $p(x|y)$ がガウス分布に従うなら、絶対誤差と一様誤差の期待値の最小値を与える関数は二乗誤差の期待値の最小値を与える条件付き期待値 $E(x|y)$ に一致することが説明されています。ということで、条件付き期待値 $E(x|y)$ は他の評価指標を使っても最も良い推定値になることがあるということが分かります。