最小二乗推定量の期待値と分散

統計学

前回の記事で最小二乗推定量が$\boldsymbol{\tilde{\beta}=(X^{T}X)^{-1}X^{T}Y}$になる導出を書きました。

最小二乗推定量の導出
最小二乗推定量はよく$\boldsymbol{\beta = (X^{T}X)^{-1}X^{T}Y}$と表される。今回はこの導出を行う。また、次回にこの推定量の期待値と分散を求める。 真の回帰式 次のような重回帰を考える。\begin{a...

今回はこの期待値と分散を導出します。

最小二乗推定量の期待値の求め方

$\boldsymbol{\tilde{\beta}=(X^{T}X)^{-1}X^{T}Y}$の期待値は以下のように求まります。
$\boldsymbol{Y=X \beta +U}$より、

\begin{align}
&\boldsymbol{\tilde{\beta}=(X^{T}X)^{-1}X^{T}Y}\\
&\boldsymbol{\tilde{\beta}=(X^{T}X)^{-1}X^{T}(X \beta +U)}\\
&\boldsymbol{\tilde{\beta}=(X^{T}X)^{-1}X^{T}X \beta +(X^{T}X)^{-1}X^{T}U} \\
\end{align}

ここで、$\boldsymbol{(X^{T}X)^{-1}X^{T}X=I}$なので、
\begin{align}
\boldsymbol{\tilde{\beta}=\beta+(X^{T}X)^{-1}X^{T}U}\tag{1}
\end{align}

ここで期待値をとると、

\begin{align}
E[\boldsymbol{\tilde{\beta}}]=E[\beta+(X^{T}X)^{-1}X^{T}U]
\end{align}

期待値の性質より、和は分けられます。
\begin{align}
E[\boldsymbol{\tilde{\beta}}]=E[\beta]+E[(X^{T}X)^{-1}X^{T}U]
\end{align}
$\beta$は定数で、確率変数はここでは$U$のみですので、

\begin{align}
E[\boldsymbol{\tilde{\beta}}]=\beta+(X^{T}X)^{-1}X^{T}E[U]
\end{align}
$U$はホワイトノイズであるため期待値は0です。したがって、

\begin{align}
E[\boldsymbol{\tilde{\beta}}]=\beta \tag{2}
\end{align}
期待値が真の値になる推定量は不偏推定量と呼ばれる。

最小二乗推定量の分散の求め方

分散は、「各データ」から「平均値」をひいて、2乗することで求められます。それをベクトルで表記すると、以下のようになります。 

\begin{align}
E[(\boldsymbol{\tilde{\beta}-E[\tilde{\beta}]})((\boldsymbol{\tilde{\beta}-E[\tilde{\beta}]}))^{T} ]
\end{align}

そして、式(1)より、
\begin{align}
\boldsymbol{\tilde{\beta}=\beta+(X^{T}X)^{-1}X^{T}U}
\end{align}
であるのでこれを代入します。また、式(2)より、
$E[\boldsymbol{\tilde{\beta}}]=\boldsymbol{\beta}$と期待値の節で求めたためこれも用います。
すると

\begin{align}
V[\boldsymbol{\tilde{\beta}}]=&E[\boldsymbol{(\beta+(X^{T}X)^{-1}X^{T}U-\beta)(\beta+(X^{T}X)^{-1}X^{T}U-\beta)^{T}}]\\
V[\boldsymbol{\tilde{\beta}}]=&E[\boldsymbol{((X^{T}X)^{-1}X^{T}U)((X^{T}X)^{-1}X^{T}U)^{T}}]\\
\end{align}
ここで$\boldsymbol{((X^{T}X)^{-1}X^{T}U)^{T}}$は$\boldsymbol{U^{T}X((X^{T}X)^{-1})^{T}}$と表せる。これは$\boldsymbol{(ABC)^{T}=C^{T}B^{T}A^{T}}$より明らかである。したがって

\begin{align}
V[\boldsymbol{\tilde{\beta}}]=&E[\boldsymbol{((X^{T}X)^{-1}X^{T}U)(U^{T}X((X^{T}X)^{-1})^{T}})]\\
\end{align}

補足1より次のように示せる.

\begin{align}
V[\boldsymbol{\tilde{\beta}}]=&E[\boldsymbol{((X^{T}X)^{-1}X^{T}U)(U^{T}X(X^{T}X)^{-1}})]\\
\end{align}

ここで確立変数は$\boldsymbol{U,U^{T}}$だけなので

\begin{align}
V[\boldsymbol{\tilde{\beta}}]=\boldsymbol{(X^{T}X)^{-1}X^{T}}E[\boldsymbol{UU^{T}}]\boldsymbol{X(X^{T}X)^{-1}}\tag{3}
\end{align}

誤差項の分散と期待値の関係は次のように仮定しています。
\begin{align}
V[\boldsymbol{U}]=E[\boldsymbol{UU^T}]=\sigma^{2}\boldsymbol{I}
=
\begin{pmatrix}
\sigma^2 & 0 & \cdots&0\\
0 & \sigma^2 &\cdots &0\\
\vdots &\vdots& \ddots&\vdots\\
0&0&\cdots &\sigma^{2}
\end{pmatrix}
\end{align}
これはホワイトノイズ(誤差項)の定義が$u\sim N(0,\sigma^2)$としているのと同じ。
ちなみに、誤差項に求められる性質はこの正規性だけでなく、等分散や独立性などがある。
それについては下の記事で書いた。

回帰診断法~誤差項に求められる3つの仮定とは~
線形回帰モデルに外れ値がある場合に最小二乗法がうまく機能しないのはイメージできる。しかしそれと同様に、誤差項にも求められる性質がある。それは誤差項の独立性、等分散性、正規性である。そのため、誤差項がこれらの仮定を満たしているのか、また満たな...

さて、式(3)は以上の仮定より
\begin{align}
V[\boldsymbol{\tilde{\beta}}]=\boldsymbol{(X^{T}X)^{-1}X^{T}}\sigma^2 \boldsymbol{I}\boldsymbol{X(X^{T}X)^{-1}}
\end{align}

スカラーは順序を入れ替えられ、そして単位行列$\boldsymbol{I}$は省略が可能であるため、
\begin{align}
V[\boldsymbol{\tilde{\beta}}]=\sigma^2\boldsymbol{(X^{T}X)^{-1}X^{T}}\boldsymbol{X(X^{T}X)^{-1}}
\end{align}
と書けます。
また、$\boldsymbol{(X^{T}X)^{-1}X^{T}X}$は単位行列になるため、
\begin{align}
V[\boldsymbol{\tilde{\beta}}]=\sigma^2\boldsymbol{(X^{T}X)^{-1}}
\end{align}

補足1

\begin{align}
\boldsymbol{((X^{T}X)^{-1})^{T}=(X^{T}X)^{-1}}
\end{align}を証明する。

仮に$\boldsymbol{A}$を対象行列としたとき、
\begin{align}
\boldsymbol{(A^{-1})^{T}=A^{-1}}
\end{align}
が証明できればいい。
なぜなら$\boldsymbol{X^{T}X}$は正方行列であるため。

$\boldsymbol{A}$が対象行列の時、
\begin{align}
\boldsymbol{A^{T}=A}\\
\end{align}
より、
\begin{align}
\boldsymbol{(A^{T})^{-1}=A^{-1}}
\end{align}

補足2より、左辺は$(A^{-1})^{T}$と書けるため、
\begin{align}
\boldsymbol{(A^{-1})^{T}=A^{-1}}
\end{align}

と証明できる。

補足2

仮に$\boldsymbol{A}$が対称行列の時、
\begin{align}
\boldsymbol{(A^{T})^{-1}=(A^{-1})^{T}}
\end{align}が成り立つ。これを証明する。
左辺について、左から$\boldsymbol{A^{T}}$をかけると、逆行列の性質より、単位行列になる。

\begin{align}
\boldsymbol{A^{T}(A^{T})^{-1}=I}
\end{align}
全体を転置させます。$(ABC)^{T}=C^{T}B^{T}A^{T}$になるため、
\begin{align}
\boldsymbol{((A^{T})^{-1})^{T}A=I^{T}}
\end{align}$I$は単位行列なので、転置しても変わらない。そして右側から$A^{-1}$をかけます。
\begin{align}
&\boldsymbol{((A^{T})^{-1})^{T}AA^{-1}=IA^{-1}}\\
&\boldsymbol{((A^{T})^{-1})^{T}=A^{-1}}
\end{align}

両辺を転置すると、

\begin{align}
&\boldsymbol{(A^{T})^{-1}=(A^{-1})^{T}}
\end{align}と証明できる。

コメント

タイトルとURLをコピーしました