前回の記事で最小二乗推定量が$\boldsymbol{\tilde{\beta}=(X^{T}X)^{-1}X^{T}Y}$になる導出を書きました。
今回はこの期待値と分散を導出します。
最小二乗推定量の期待値の求め方
$\boldsymbol{\tilde{\beta}=(X^{T}X)^{-1}X^{T}Y}$の期待値は以下のように求まります。
$\boldsymbol{Y=X \beta +U}$より、
\begin{align}
&\boldsymbol{\tilde{\beta}=(X^{T}X)^{-1}X^{T}Y}\\
&\boldsymbol{\tilde{\beta}=(X^{T}X)^{-1}X^{T}(X \beta +U)}\\
&\boldsymbol{\tilde{\beta}=(X^{T}X)^{-1}X^{T}X \beta +(X^{T}X)^{-1}X^{T}U} \\
\end{align}
ここで、$\boldsymbol{(X^{T}X)^{-1}X^{T}X=I}$なので、
\begin{align}
\boldsymbol{\tilde{\beta}=\beta+(X^{T}X)^{-1}X^{T}U}\tag{1}
\end{align}
ここで期待値をとると、
\begin{align}
E[\boldsymbol{\tilde{\beta}}]=E[\beta+(X^{T}X)^{-1}X^{T}U]
\end{align}
期待値の性質より、和は分けられます。
\begin{align}
E[\boldsymbol{\tilde{\beta}}]=E[\beta]+E[(X^{T}X)^{-1}X^{T}U]
\end{align}
$\beta$は定数で、確率変数はここでは$U$のみですので、
\begin{align}
E[\boldsymbol{\tilde{\beta}}]=\beta+(X^{T}X)^{-1}X^{T}E[U]
\end{align}
$U$はホワイトノイズであるため期待値は0です。したがって、
\begin{align}
E[\boldsymbol{\tilde{\beta}}]=\beta \tag{2}
\end{align}
期待値が真の値になる推定量は不偏推定量と呼ばれる。
最小二乗推定量の分散の求め方
分散は、「各データ」から「平均値」をひいて、2乗することで求められます。それをベクトルで表記すると、以下のようになります。
\begin{align}
E[(\boldsymbol{\tilde{\beta}-E[\tilde{\beta}]})((\boldsymbol{\tilde{\beta}-E[\tilde{\beta}]}))^{T} ]
\end{align}
そして、式(1)より、
\begin{align}
\boldsymbol{\tilde{\beta}=\beta+(X^{T}X)^{-1}X^{T}U}
\end{align}
であるのでこれを代入します。また、式(2)より、
$E[\boldsymbol{\tilde{\beta}}]=\boldsymbol{\beta}$と期待値の節で求めたためこれも用います。
すると
\begin{align}
V[\boldsymbol{\tilde{\beta}}]=&E[\boldsymbol{(\beta+(X^{T}X)^{-1}X^{T}U-\beta)(\beta+(X^{T}X)^{-1}X^{T}U-\beta)^{T}}]\\
V[\boldsymbol{\tilde{\beta}}]=&E[\boldsymbol{((X^{T}X)^{-1}X^{T}U)((X^{T}X)^{-1}X^{T}U)^{T}}]\\
\end{align}
ここで$\boldsymbol{((X^{T}X)^{-1}X^{T}U)^{T}}$は$\boldsymbol{U^{T}X((X^{T}X)^{-1})^{T}}$と表せる。これは$\boldsymbol{(ABC)^{T}=C^{T}B^{T}A^{T}}$より明らかである。したがって
\begin{align}
V[\boldsymbol{\tilde{\beta}}]=&E[\boldsymbol{((X^{T}X)^{-1}X^{T}U)(U^{T}X((X^{T}X)^{-1})^{T}})]\\
\end{align}
補足1より次のように示せる.
\begin{align}
V[\boldsymbol{\tilde{\beta}}]=&E[\boldsymbol{((X^{T}X)^{-1}X^{T}U)(U^{T}X(X^{T}X)^{-1}})]\\
\end{align}
ここで確立変数は$\boldsymbol{U,U^{T}}$だけなので
\begin{align}
V[\boldsymbol{\tilde{\beta}}]=\boldsymbol{(X^{T}X)^{-1}X^{T}}E[\boldsymbol{UU^{T}}]\boldsymbol{X(X^{T}X)^{-1}}\tag{3}
\end{align}
誤差項の分散と期待値の関係は次のように仮定しています。
\begin{align}
V[\boldsymbol{U}]=E[\boldsymbol{UU^T}]=\sigma^{2}\boldsymbol{I}
=
\begin{pmatrix}
\sigma^2 & 0 & \cdots&0\\
0 & \sigma^2 &\cdots &0\\
\vdots &\vdots& \ddots&\vdots\\
0&0&\cdots &\sigma^{2}
\end{pmatrix}
\end{align}
これはホワイトノイズ(誤差項)の定義が$u\sim N(0,\sigma^2)$としているのと同じ。
ちなみに、誤差項に求められる性質はこの正規性だけでなく、等分散や独立性などがある。
それについては下の記事で書いた。
さて、式(3)は以上の仮定より
\begin{align}
V[\boldsymbol{\tilde{\beta}}]=\boldsymbol{(X^{T}X)^{-1}X^{T}}\sigma^2 \boldsymbol{I}\boldsymbol{X(X^{T}X)^{-1}}
\end{align}
スカラーは順序を入れ替えられ、そして単位行列$\boldsymbol{I}$は省略が可能であるため、
\begin{align}
V[\boldsymbol{\tilde{\beta}}]=\sigma^2\boldsymbol{(X^{T}X)^{-1}X^{T}}\boldsymbol{X(X^{T}X)^{-1}}
\end{align}
と書けます。
また、$\boldsymbol{(X^{T}X)^{-1}X^{T}X}$は単位行列になるため、
\begin{align}
V[\boldsymbol{\tilde{\beta}}]=\sigma^2\boldsymbol{(X^{T}X)^{-1}}
\end{align}
\begin{align}
\boldsymbol{((X^{T}X)^{-1})^{T}=(X^{T}X)^{-1}}
\end{align}を証明する。
仮に$\boldsymbol{A}$を対象行列としたとき、
\begin{align}
\boldsymbol{(A^{-1})^{T}=A^{-1}}
\end{align}
が証明できればいい。
なぜなら$\boldsymbol{X^{T}X}$は正方行列であるため。
$\boldsymbol{A}$が対象行列の時、
\begin{align}
\boldsymbol{A^{T}=A}\\
\end{align}
より、
\begin{align}
\boldsymbol{(A^{T})^{-1}=A^{-1}}
\end{align}
補足2より、左辺は$(A^{-1})^{T}$と書けるため、
\begin{align}
\boldsymbol{(A^{-1})^{T}=A^{-1}}
\end{align}
と証明できる。
仮に$\boldsymbol{A}$が対称行列の時、
\begin{align}
\boldsymbol{(A^{T})^{-1}=(A^{-1})^{T}}
\end{align}が成り立つ。これを証明する。
左辺について、左から$\boldsymbol{A^{T}}$をかけると、逆行列の性質より、単位行列になる。
\begin{align}
\boldsymbol{A^{T}(A^{T})^{-1}=I}
\end{align}
全体を転置させます。$(ABC)^{T}=C^{T}B^{T}A^{T}$になるため、
\begin{align}
\boldsymbol{((A^{T})^{-1})^{T}A=I^{T}}
\end{align}$I$は単位行列なので、転置しても変わらない。そして右側から$A^{-1}$をかけます。
\begin{align}
&\boldsymbol{((A^{T})^{-1})^{T}AA^{-1}=IA^{-1}}\\
&\boldsymbol{((A^{T})^{-1})^{T}=A^{-1}}
\end{align}
両辺を転置すると、
\begin{align}
&\boldsymbol{(A^{T})^{-1}=(A^{-1})^{T}}
\end{align}と証明できる。
コメント