ガウス・マルコフ定理の証明

統計学

最小二乗推定量$\boldsymbol{\hat{\beta}=(X^{T}X)^{-1}X^{T}Y}$は、「不偏(期待値を求めると真の値になる。)」で「線形」な推定量の中で、最も分散が最小になる。(=最良線形不偏推定量:Best Linear Unbiased Estimator: BLUE)これを証明する定理が「ガウスマルコフ定理」と呼ばれる。統計検定準1級の勉強のためこれを証明したい。

線形推定量

線形推定量は次の形で表せる。
\begin{align}
\boldsymbol{\tilde{\beta}=CY}=
\begin{pmatrix}
c_{11} & c_{21} & \ \cdots &c_{N1}\\
c_{12} & c_{22} & \ \cdots &c_{N2}\\
\vdots & \vdots &\ddots &\vdots\\
c_{1K} & c_{2K} & \ \cdots &c_{NK}\\
\end{pmatrix}
\begin{pmatrix}
y_{1}\\
y_{2}\\
\vdots\\
y_{N}
\end{pmatrix}=
\begin{pmatrix}
c_{11}c_{1}+c_{21}c_{2}+\cdots+c_{N1}y_{N}\\
c_{12}y_{1}+c_{22}y_{2}+\cdots+c_{N2}y_{N}\\
\vdots\\
c_{1K}y_{1}+c_{2K}y_{2}+\cdots+c_{NK}y_{N}\\
\end{pmatrix}
\end{align}
最小二乗推定量$\boldsymbol{\hat{\beta}=(X^{T}X)^{-1}X^{T}Y}$は、$\boldsymbol{(X^{T}X)^{-1}X}$を$\boldsymbol{C}$と置けば、$\boldsymbol{\hat{\beta}=CY}$となり、線形推定量であることがわかる。

線形推定量が不偏推定量である条件は?

前の章では線形推定量がどのような形になるかを示した。
ここではその線形推定量が不偏性を持つ条件を考える。
つまり、期待値が真の値となる条件を探す。
一般に線形推定量は$\boldsymbol{\tilde{\beta}=CY}$で表せる。ここで$\boldsymbol{Y=X\beta+U}$と定義している。これは最小二乗推定量の導出で定義した。その記事は以下に示す。

最小二乗推定量の導出
最小二乗推定量はよく$\boldsymbol{\beta = (X^{T}X)^{-1}X^{T}Y}$と表される。今回はこの導出を行う。また、次回にこの推定量の期待値と分散を求める。 真の回帰式 次のような重回帰を考える。\begin{a

したがって,
\begin{align}
\boldsymbol{\tilde{\beta}=CY=C(X\beta +U)=CX\beta+ CU} \tag{1}
\end{align}
期待値をとると、確率変数は誤差項の$U$のみなので、
\begin{align}
E[\boldsymbol{\tilde{\beta}}]=E[\boldsymbol{CX\beta+CU}]=\boldsymbol{CX\beta}+E[\boldsymbol{CU}]
\end{align}
誤差項の期待値は0を仮定しているので、
\begin{align}
E[\boldsymbol{\tilde{\beta}}]=\boldsymbol{CX\beta}
\end{align}
この$\boldsymbol{\tilde{\beta}}$が不偏推定量になるためには、期待値をとったときに、真の値である、$\boldsymbol{\tilde{\beta}}$になる必要がある。つまり、
不偏推定量であるための条件は、
\begin{align}
\boldsymbol{CX=I}
\end{align}
これを仮定すると式(1)は、次のように表せる。そしてこれが線形不偏推定量となる。
\begin{align}
\boldsymbol{\tilde{\beta}=\beta+ CU}
\end{align}

線形不変推定量の分散共分散行列

上の章で求めた線形不偏推定量$\boldsymbol{\tilde{\beta}=\beta+ CU}$の分散共分散行列を求める。
\begin{align}
V[\boldsymbol{\tilde{\beta}}]=E[(\boldsymbol{\tilde{\beta}-E(\tilde{\beta})})(\boldsymbol{\tilde{\beta}-E(\tilde{\beta})})^{T}]
\end{align}
今$\boldsymbol{\tilde{\beta}}$は線形不偏推定量であるため$E[\boldsymbol{\tilde{\beta}}]=\boldsymbol{{\beta}}$です。したがって
\begin{align}
V[\boldsymbol{\tilde{\beta}}]&=E[(\boldsymbol{\beta+CU-\beta})(\boldsymbol{\beta+CU-\beta})^{T}]\\
V[\boldsymbol{\tilde{\beta}}]&=E[(\boldsymbol{CU})(\boldsymbol{CU})^{T}]\\
V[\boldsymbol{\tilde{\beta}}]&=E[\boldsymbol{CU}\boldsymbol{U^{T}C^{T}}]\\
\end{align}ここで確率変数は$\boldsymbol{U}$のみであるため、
\begin{align}
V[\boldsymbol{\tilde{\beta}}]&=\boldsymbol{C}E[\boldsymbol{U}\boldsymbol{U^{T}}]\boldsymbol{C^{T}}\\
\end{align}
$E[\boldsymbol{U}\boldsymbol{U^{T}}]$は誤差項の分散共分散行列であるため、

\begin{align}
V[\boldsymbol{\tilde{\beta}}]&=\boldsymbol{C}\sigma^{2}I\boldsymbol{C^{T}}\\
V[\boldsymbol{\tilde{\beta}}]&=\sigma^{2}\boldsymbol{C}\boldsymbol{C^{T}}\tag{2}\\
\end{align}

$\boldsymbol{C}$とは?

前の章で求めた
\begin{align}
V[\boldsymbol{\tilde{\beta}}]&=\sigma^{2}\boldsymbol{C}\boldsymbol{C^{T}}\\
\end{align}
の$\boldsymbol{C}$について考える。
$\boldsymbol{\tilde{\beta}=CY}$と$\boldsymbol{\hat{\beta}=(X^{T}X)^{-1}X^{T}Y}$
を比較したときに、後者の最小二乗推定量の$\boldsymbol{(X^{T}X)^{-1}X^{T}}$を$\boldsymbol{C}$に入れたら分散が最小(=BLUE)になることを証明したい。
(2)式を次のように書き換える。
\begin{align}
\boldsymbol{CC^{T}=[C-(X^{T}X)^{-1}X^{T}+(X^{T}X)^{-1}X^{T}][C-(X^{T}X)^{-1}X^{T}+(X^{T}X)^{-1}X^{T}]^{T}}
\end{align}
これは引いて足すという、よくあるやつである。
$\boldsymbol{C-(X^{T}X)^{-1}X^{T}}$を一つとして考えて、展開すると次のようになる。

\begin{align}
\boldsymbol{CC^{T}=[C-(X^{T}X)^{-1}X^{T}][C-(X^{T}X)^{-1}X^{T}]^{T}+A_{1}+A_{2}+A_{3}}
\end{align}
ここで$\boldsymbol{A_{1},A_{2},A_{3}}$は次のように示せる。
\begin{align}
\boldsymbol{A_{1}=[C-(X^{T}X)^{-1}X^{T}]X(X^{T}X)^{-1}}\\
\boldsymbol{A_{2}=(X^{T}X)^{-1}X^{T}[C-(X^{T}X)^{-1}X^{T}]^{T}}\\
\boldsymbol{A_{3}=(X^{T}X)^{-1}X^{T}X(X^{T}X)^{-1}}\\
\end{align}
ここで、不偏推定量であるための条件である$\boldsymbol{CX=I}$と、$\boldsymbol{(X^{T}X)^{-1}(X^{T}X)=I}$, $\boldsymbol{((X^{T}X)^{-1})^{T}=(X^{T}X)^{-1}}$である点に注意すると以下のように求めることができる。なお、
$\boldsymbol{((X^{T}X)^{-1})^{T}=(X^{T}X)^{-1}}$は以下の記事で証明した。

最小二乗推定量の期待値と分散
前回の記事で最小二乗推定量が$\boldsymbol{\tilde{\beta}=(X^{T}X)^{-1}X^{T}Y}$になる導出を書きました。 今回はこの期待値と分散を導出します。 最小二乗推定量の期待値の求め方 $\boldsymb

\begin{align}
\boldsymbol{A_{1}=[C-(X^{T}X)^{-1}X^{T}]X(X^{T}X)^{-1}}\\
\boldsymbol{=CX(X^{T}X)^{-1}-(X^{T}X)^{-1}X^{T}X(X^{T}X)^{-1}}\\
\boldsymbol{(X^{T}X)^{-1}-(X^{T}X)^{-1}}\\
\boldsymbol{=0}
\end{align}

\begin{align}
\boldsymbol{A_{2}=(X^{T}X)^{-1}X^{T}C^{T}-(X^{T}X)^{-1}X^{T}X(X^{T}X)^{-1}}\\
\boldsymbol{(X^{T}X)^{-1}-(X^{T}X)^{-1}}
\boldsymbol{=0}
\end{align}

\begin{align}
\boldsymbol{A_{3}=(X^{T}X)^{-1}X^{T}X(X^{T}X)^{-1}}\\
\boldsymbol{=(X^{T}X)^{-1}}
\end{align}

したがって
\begin{align}
\boldsymbol{CC^{T}=[C-(X^{T}X)^{-1}X^{T}][C-(X^{T}X)^{-1}X^{T}]^{T}+(X^{T}X)^{-1}}
\end{align}

と表せる。
ここで、$\boldsymbol{C}$は、任意の線形不偏推定量の$\boldsymbol{Y}$の係数であった.
この$\boldsymbol{C}$が最小二乗推定量の時、つまり、$\boldsymbol{C=(X^{T}X)^{-1}X^{T}}$の時、$\boldsymbol{CC^{T}=(X^{T}X)^{-1}}$となり最小となる。
この時の値は、前の記事で書いた、線形不偏推定量の分散と一致する。

仮に$\boldsymbol{C}$にそのほかの何が入っても、転置したものとかけているため、正になる。
したがって、最小二乗推定量は線形で不偏な推定量の中で、最も分散が最小な推定量である。

しかし聞くところによると2020年に、線形でなくても最小分散であることが示されたとか。。。
以下がその論文

https://users.ssc.wisc.edu/~bhansen/papers/gauss.pdf

コメント

タイトルとURLをコピーしました