最小二乗推定量の導出

統計学

最小二乗推定量はよく$\boldsymbol{\beta = (X^{T}X)^{-1}X^{T}Y}$と表される。
今回はこの導出を行う。また、次回にこの推定量の期待値と分散を求める。


真の回帰式

次のような重回帰を考える。
\begin{align}
y_{1}=\beta_{1}x_{11}+\beta_{2}x_{21}+&\beta_{3}x_{31}+…+\beta_{K}x_{K1}+u_{1}\\
y_{2}=\beta_{1}x_{12}+\beta_{2}x_{22}+&\beta_{3}x_{32}+…+\beta_{K}x_{K2}+u_{2}\\
y_{3}=\beta_{1}x_{13}+\beta_{2}x_{23}+&\beta_{3}x_{33}+…+\beta_{K}x_{K3}+u_{3}\\
&\vdots\\
y_{N}=\beta_{1}x_{1N}+\beta_{2}x_{2N}+&\beta_{3}x_{3N}+…+\beta_{K}x_{KN}+u_{N}\\
\end{align}
ここで$\beta$は回帰係数(未知なもの)で$u$は誤差項である.
説明変数の$x$と目的変数の$y$は手に入るデータであり、$\beta$を推定する問題を考える.
これをベクトルで表すと,
\begin{align}
\boldsymbol{Y}=\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol{U}\tag{1}
\end{align}
と表せる.
ここで, それぞれつぎのように表せる.

\begin{align}
\boldsymbol{Y} =
\begin{pmatrix}
y_{1}\\
y_{2}\\
y_{3}\\
\vdots\\
y_{N}
\end{pmatrix},
\boldsymbol{B}=
\begin{pmatrix}
\beta_{1}\\
\beta_{2}\\
\beta_{3}\\
\vdots\\
\beta_{K}
\end{pmatrix},
\boldsymbol{X}=
\begin{pmatrix}
x_{11} \quad x_{21}\quad x_{31}\quad \cdots x_{K1}\\
x_{12} \quad x_{22}\quad x_{32}\quad \cdots x_{K2}\\
x_{13} \quad x_{23}\quad x_{33}\quad \cdots x_{K3}\\
\vdots\\
x_{1N} \quad x_{2N}\quad x_{3N}\quad \cdots x_{KN}\\
\end{pmatrix},
\boldsymbol{U}=
\begin{pmatrix}
u_{1}\\
u_{2}\\
u_{3}\\
\vdots\\
u_{N}
\end{pmatrix},
\end{align}

推定する回帰式


この$\boldsymbol{\beta}$は真の値で我々は観測することができない。ここで
つぎのような変数ベクトルを定義する
\begin{align}
\boldsymbol{\tilde{\beta}}=
\begin{pmatrix}
\tilde{\beta_{1}}\\
\tilde{\beta_{2}}\\
\tilde{\beta_{3}}\\
\vdots\\
\tilde{\beta_{K}}
\end{pmatrix},
\end{align}

すると式(1)は$\tilde{\boldsymbol{\beta}}$を使って次のようにあらわせる.
\begin{align}
\boldsymbol{Y}=\boldsymbol{X}\tilde{\boldsymbol{\beta}}+\boldsymbol{e} \tag{2}
\end{align}
ここで$\boldsymbol{e}$は残差ベクトルである.($\tilde{\boldsymbol{\beta}}\boldsymbol{X}$と$\boldsymbol{Y}$の垂直方向の差である.)

$\tilde{\boldsymbol{\beta}}$を推定する

残差の二乗(残差平方和$\boldsymbol{e}^{T}\boldsymbol{e}$)が最小となる$\tilde{\boldsymbol{\beta}}$を求める.
\begin{align}
\boldsymbol{e}^{T}\boldsymbol{e}=(e_1 \quad e_2 \quad e_3 \quad \cdots e_N)^{T}(e_1 \quad e_2 \quad e_3 \quad \cdots e_N)=e_{1}^{2}+e_{2}^{2}+e_{3}^{2}\cdots e_{N}^{2}
\end{align}
この値が最小となる$\boldsymbol{\tilde{\beta}}$を求める.

残差ベクトル$\boldsymbol{e}$は式(2)より, $\boldsymbol{e}=\boldsymbol{Y}-\boldsymbol{X}\boldsymbol{\tilde{\beta}}$と書ける。
したがって$\boldsymbol{e}^{T} \boldsymbol{e}$は次のように表せる
\begin{align}
(\boldsymbol{Y}-\boldsymbol{X}\boldsymbol{\tilde{\beta}})^{T}(\boldsymbol{Y}-\boldsymbol{X}\boldsymbol{\tilde{\beta}})
\end{align}

$(\boldsymbol{Y}-\boldsymbol{X}\boldsymbol{\tilde{\beta}})^{T}$は次のように式変形できる.
\begin{align}
(\boldsymbol{Y}-\boldsymbol{X}\boldsymbol{\tilde{\beta}})^{T}=(\boldsymbol{Y}^{T}-\boldsymbol{\tilde{\beta}}^{T}\boldsymbol{X}^{T})
\end{align}
これは$(\boldsymbol{A}\boldsymbol{B})^{T}=\boldsymbol{B}^{T}\boldsymbol{A}^{T}$が成り立つためである.

したがって残差平方和$\boldsymbol{e}^{T}\boldsymbol{e}$を展開すると,
\begin{align}
\boldsymbol{Y}^{T}\boldsymbol{Y}-\boldsymbol{Y}^{T}\boldsymbol{X}\tilde{\boldsymbol{\beta}}-\tilde{\boldsymbol{\beta}}^{T}\boldsymbol{X}^{T}\boldsymbol{Y}+\tilde{\boldsymbol{\beta}}^{T}\boldsymbol{X}^{T}\boldsymbol{X}\tilde{\boldsymbol{\beta}}
\end{align}

残差平方和を偏微分する

残差平方和$\boldsymbol{e}^{T}\boldsymbol{e}$を$\tilde{\beta_{1}}$,$\tilde{\beta_{2}}$,,,$\tilde{\beta_{K}}$で偏微分して0となる$\tilde{\beta}$を求めてく。式で表すと
\begin{align}
\Large
\begin{pmatrix}
\frac{\partial \boldsymbol{e}^{T}\boldsymbol{e}}{\partial \tilde{\beta_{1}}}\\
\frac{\partial \boldsymbol{e}^{T}\boldsymbol{e}}{\partial \tilde{\beta_{2}}}\\
\frac{\partial \boldsymbol{e}^{T}\boldsymbol{e}}{\partial \tilde{\beta_{3}}}\\
\vdots\\
\frac{\partial \boldsymbol{e}^{T}\boldsymbol{e}}{\partial \tilde{\beta_{K}}}\\
\end{pmatrix}=
\begin{pmatrix}
0\\
0\\
0\\
\vdots\\
0
\end{pmatrix}
\end{align}
これをベクトル表示にすると、
\begin{align}
\frac{\partial \boldsymbol{e}^{T}\boldsymbol{e}}{\partial \boldsymbol{\tilde{\beta}}}=\boldsymbol{0}
\end{align}
K本あった連立方程式が、このようにシンプルにかけることがベクトル表示の便利な点。

\begin{align}
\boldsymbol{e}^{T}\boldsymbol{e}=\boldsymbol{Y}^{T}\boldsymbol{Y}-\boldsymbol{Y}^{T}\boldsymbol{X}\tilde{\boldsymbol{\beta}}-\tilde{\boldsymbol{\beta}}^{T}\boldsymbol{X}^{T}\boldsymbol{Y}+\tilde{\boldsymbol{\beta}}^{T}\boldsymbol{X}^{T}\boldsymbol{X}\tilde{\boldsymbol{\beta}}
\end{align}より、
\begin{align}
\frac{\partial \boldsymbol{e}^{T}\boldsymbol{e}}{\partial \boldsymbol{\beta}}=
\boldsymbol{0}-\boldsymbol{X}^{T}\boldsymbol{Y}-\boldsymbol{X}\boldsymbol{Y}+2(\boldsymbol{X}^{T}\boldsymbol{X})\boldsymbol{\tilde{\beta}}
\end{align}
ここで使ったベクトル偏微分の公式は以下の二つ

公式

\begin{align}
\frac{\partial \boldsymbol{A^{T}X}}{\partial \boldsymbol{X}}=\frac{\partial \boldsymbol{X^{T}A}}{\partial \boldsymbol{ X}}=\boldsymbol{A}
\end{align}

\begin{align}
\frac{\partial \boldsymbol{X^{T}AX}}{\partial \boldsymbol{X}}=\boldsymbol{(A+A^{T})X}
\end{align}
二つ目の公式を証明してみます。
例えば
\begin{align}
\boldsymbol{A}&=
\begin{pmatrix}
a_{11}&a_{12}\\
a_{21}&a_{22}
\end{pmatrix}\\
\boldsymbol{X}&=
\begin{pmatrix}
x_{1}\\
x_{2}
\end{pmatrix}
\end{align}
とすると,
\begin{align}
\boldsymbol{X^{T}AX}=
\begin{pmatrix}
x_{1} \quad x_{2}
\end{pmatrix}
\begin{pmatrix}
a_{11} &a_{12}\\
a_{21}&a_{22}\\
\end{pmatrix}
\begin{pmatrix}
x_{1}\\
x_{2}
\end{pmatrix}
\end{align}
と表せます. これを展開していくと,

\begin{align}&=
\begin{pmatrix}
x_{1} \quad x_{2}
\end{pmatrix}
\begin{pmatrix}
a_{11}x_{1}+a_{12}x_{2}\\
a_{21}x_{1}+a_{22}x{2}
\end{pmatrix}\\
&=x_{1}(a_{11}x_{1}+a_{12}x_{2})+x_{2}(a_{21}x_{1}+a_{22}x{2})
\end{align}
したがって,
\begin{align}
\begin{pmatrix}
\frac{\partial \boldsymbol{X^{T}AX}}{\partial x_{1}}\\
\frac{\partial \boldsymbol{X^{T}AX}}{\partial x_{2}}\\
\end{pmatrix}=
\begin{pmatrix}
2a_{11}x_{1}+(a_{12}+a_{21}x_{2})\\
(a_{21}+a_{12})x_{1}+2a_{22}x_{2}
\end{pmatrix} \tag{3}
\end{align}

一方で,
\begin{align}
\boldsymbol{A+A^{T}}=
\begin{pmatrix}
a_{11} &a_{12}\\
a_{21}&a_{22}
\end{pmatrix}
+
\begin{pmatrix}
a_{11} & a_{21}\\
a_{12}& a_{22}
\end{pmatrix}=
\begin{pmatrix}
2a_{11} & a_{12}+a_{21}\\
a_{21}+a_{12} &2a_{22}
\end{pmatrix}
\end{align}
なので(3)式は以下のように表現できます。

\begin{align}
\begin{pmatrix}
\frac{\partial \boldsymbol{X^{T}AX}}{\partial x_{1}}\\
\frac{\partial \boldsymbol{X^{T}AX}}{\partial x_{2}}\\
\end{pmatrix}=
\begin{pmatrix}
2a_{11}x_{1}+(a_{12}+a_{21}x_{2})\\
(a_{21}+a_{12})x_{1}+2a_{22}x_{2}
\end{pmatrix} =
(\boldsymbol{A+A^{T})X}
\end{align}

最小二乗推定量の導出

前章より偏微分=0と置くと次のようになる。

\begin{align}
\frac{\partial \boldsymbol{e^{T}e}}{\partial \boldsymbol{\tilde{\beta}}}=\boldsymbol{-2X^{T}Y+2(X^{T}X)\tilde{\beta}=0}\\
\boldsymbol{2(X^{T}X)\tilde{\beta}=2X^{T}Y}\\
\boldsymbol{(X^{T}X)\tilde{\beta}=X^{T}Y}\\
\boldsymbol{\tilde{\beta}=(X^{T}X)^{-1}X^{T}Y}
\end{align}

参考

この方の統計シリーズはとても分かりやすく参考になるのでお勧めです‼

コメント

タイトルとURLをコピーしました