最小二乗推定量はよく$\boldsymbol{\beta = (X^{T}X)^{-1}X^{T}Y}$と表される。
今回はこの導出を行う。また、次回にこの推定量の期待値と分散を求める。
真の回帰式
次のような重回帰を考える。
\begin{align}
y_{1}=\beta_{1}x_{11}+\beta_{2}x_{21}+&\beta_{3}x_{31}+…+\beta_{K}x_{K1}+u_{1}\\
y_{2}=\beta_{1}x_{12}+\beta_{2}x_{22}+&\beta_{3}x_{32}+…+\beta_{K}x_{K2}+u_{2}\\
y_{3}=\beta_{1}x_{13}+\beta_{2}x_{23}+&\beta_{3}x_{33}+…+\beta_{K}x_{K3}+u_{3}\\
&\vdots\\
y_{N}=\beta_{1}x_{1N}+\beta_{2}x_{2N}+&\beta_{3}x_{3N}+…+\beta_{K}x_{KN}+u_{N}\\
\end{align}
ここで$\beta$は回帰係数(未知なもの)で$u$は誤差項である.
説明変数の$x$と目的変数の$y$は手に入るデータであり、$\beta$を推定する問題を考える.
これをベクトルで表すと,
\begin{align}
\boldsymbol{Y}=\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol{U}\tag{1}
\end{align}
と表せる.
ここで, それぞれつぎのように表せる.
\begin{align}
\boldsymbol{Y} =
\begin{pmatrix}
y_{1}\\
y_{2}\\
y_{3}\\
\vdots\\
y_{N}
\end{pmatrix},
\boldsymbol{B}=
\begin{pmatrix}
\beta_{1}\\
\beta_{2}\\
\beta_{3}\\
\vdots\\
\beta_{K}
\end{pmatrix},
\boldsymbol{X}=
\begin{pmatrix}
x_{11} \quad x_{21}\quad x_{31}\quad \cdots x_{K1}\\
x_{12} \quad x_{22}\quad x_{32}\quad \cdots x_{K2}\\
x_{13} \quad x_{23}\quad x_{33}\quad \cdots x_{K3}\\
\vdots\\
x_{1N} \quad x_{2N}\quad x_{3N}\quad \cdots x_{KN}\\
\end{pmatrix},
\boldsymbol{U}=
\begin{pmatrix}
u_{1}\\
u_{2}\\
u_{3}\\
\vdots\\
u_{N}
\end{pmatrix},
\end{align}
条件
ここで誤差項である$u$の条件として以下を仮定する。
条件1:期待値E[$u$]=0
条件2:分散V[$u$]=$\sigma^2$
この条件を満たさない場合、ガウスマルコフの定理が成立せず、最小二乗推定量は、最良線形不偏推定量にならない。そこで、誤差行列が上記の条件を満たさない場合は「一般化最小二乗法」を用いると最良線形不偏推定量を得ることができる。[1]
言い換えると、誤差項が上記の条件を満たさない場合は、最小二乗法を用いるよりも一般化最小二乗法を用いた方が推定量の分散が小さくなる。(統計検定準1級 2021年過去問問5参照)
なおバイアスは双方、不偏であるためない。
推定する回帰式
この$\boldsymbol{\beta}$は真の値で我々は観測することができない。ここで
つぎのような変数ベクトルを定義する
\begin{align}
\boldsymbol{\tilde{\beta}}=
\begin{pmatrix}
\tilde{\beta_{1}}\\
\tilde{\beta_{2}}\\
\tilde{\beta_{3}}\\
\vdots\\
\tilde{\beta_{K}}
\end{pmatrix},
\end{align}
すると式(1)は$\tilde{\boldsymbol{\beta}}$を使って次のようにあらわせる.
\begin{align}
\boldsymbol{Y}=\boldsymbol{X}\tilde{\boldsymbol{\beta}}+\boldsymbol{e} \tag{2}
\end{align}
ここで$\boldsymbol{e}$は残差ベクトルである.($\tilde{\boldsymbol{\beta}}\boldsymbol{X}$と$\boldsymbol{Y}$の垂直方向の差である.)
$\tilde{\boldsymbol{\beta}}$を推定する
残差の二乗(残差平方和$\boldsymbol{e}^{T}\boldsymbol{e}$)が最小となる$\tilde{\boldsymbol{\beta}}$を求める.
\begin{align}
\boldsymbol{e}^{T}\boldsymbol{e}=(e_1 \quad e_2 \quad e_3 \quad \cdots e_N)^{T}(e_1 \quad e_2 \quad e_3 \quad \cdots e_N)=e_{1}^{2}+e_{2}^{2}+e_{3}^{2}\cdots e_{N}^{2}
\end{align}
この値が最小となる$\boldsymbol{\tilde{\beta}}$を求める.
残差ベクトル$\boldsymbol{e}$は式(2)より, $\boldsymbol{e}=\boldsymbol{Y}-\boldsymbol{X}\boldsymbol{\tilde{\beta}}$と書ける。
したがって$\boldsymbol{e}^{T} \boldsymbol{e}$は次のように表せる
\begin{align}
(\boldsymbol{Y}-\boldsymbol{X}\boldsymbol{\tilde{\beta}})^{T}(\boldsymbol{Y}-\boldsymbol{X}\boldsymbol{\tilde{\beta}})
\end{align}
$(\boldsymbol{Y}-\boldsymbol{X}\boldsymbol{\tilde{\beta}})^{T}$は次のように式変形できる.
\begin{align}
(\boldsymbol{Y}-\boldsymbol{X}\boldsymbol{\tilde{\beta}})^{T}=(\boldsymbol{Y}^{T}-\boldsymbol{\tilde{\beta}}^{T}\boldsymbol{X}^{T})
\end{align}
これは$(\boldsymbol{A}\boldsymbol{B})^{T}=\boldsymbol{B}^{T}\boldsymbol{A}^{T}$が成り立つためである.
したがって残差平方和$\boldsymbol{e}^{T}\boldsymbol{e}$を展開すると,
\begin{align}
\boldsymbol{Y}^{T}\boldsymbol{Y}-\boldsymbol{Y}^{T}\boldsymbol{X}\tilde{\boldsymbol{\beta}}-\tilde{\boldsymbol{\beta}}^{T}\boldsymbol{X}^{T}\boldsymbol{Y}+\tilde{\boldsymbol{\beta}}^{T}\boldsymbol{X}^{T}\boldsymbol{X}\tilde{\boldsymbol{\beta}}
\end{align}
残差平方和を偏微分する
残差平方和$\boldsymbol{e}^{T}\boldsymbol{e}$を$\tilde{\beta_{1}}$,$\tilde{\beta_{2}}$,,,$\tilde{\beta_{K}}$で偏微分して0となる$\tilde{\beta}$を求めてく。式で表すと
\begin{align}
\Large
\begin{pmatrix}
\frac{\partial \boldsymbol{e}^{T}\boldsymbol{e}}{\partial \tilde{\beta_{1}}}\\
\frac{\partial \boldsymbol{e}^{T}\boldsymbol{e}}{\partial \tilde{\beta_{2}}}\\
\frac{\partial \boldsymbol{e}^{T}\boldsymbol{e}}{\partial \tilde{\beta_{3}}}\\
\vdots\\
\frac{\partial \boldsymbol{e}^{T}\boldsymbol{e}}{\partial \tilde{\beta_{K}}}\\
\end{pmatrix}=
\begin{pmatrix}
0\\
0\\
0\\
\vdots\\
0
\end{pmatrix}
\end{align}
これをベクトル表示にすると、
\begin{align}
\frac{\partial \boldsymbol{e}^{T}\boldsymbol{e}}{\partial \boldsymbol{\tilde{\beta}}}=\boldsymbol{0}
\end{align}
K本あった連立方程式が、このようにシンプルにかけることがベクトル表示の便利な点。
\begin{align}
\boldsymbol{e}^{T}\boldsymbol{e}=\boldsymbol{Y}^{T}\boldsymbol{Y}-\boldsymbol{Y}^{T}\boldsymbol{X}\tilde{\boldsymbol{\beta}}-\tilde{\boldsymbol{\beta}}^{T}\boldsymbol{X}^{T}\boldsymbol{Y}+\tilde{\boldsymbol{\beta}}^{T}\boldsymbol{X}^{T}\boldsymbol{X}\tilde{\boldsymbol{\beta}}
\end{align}より、
\begin{align}
\frac{\partial \boldsymbol{e}^{T}\boldsymbol{e}}{\partial \boldsymbol{\beta}}=
\boldsymbol{0}-\boldsymbol{X}^{T}\boldsymbol{Y}-\boldsymbol{X}\boldsymbol{Y}+2(\boldsymbol{X}^{T}\boldsymbol{X})\boldsymbol{\tilde{\beta}}
\end{align}
ここで使ったベクトル偏微分の公式は以下の二つ
\begin{align}
\frac{\partial \boldsymbol{A^{T}X}}{\partial \boldsymbol{X}}=\frac{\partial \boldsymbol{X^{T}A}}{\partial \boldsymbol{ X}}=\boldsymbol{A}
\end{align}
\begin{align}
\frac{\partial \boldsymbol{X^{T}AX}}{\partial \boldsymbol{X}}=\boldsymbol{(A+A^{T})X}
\end{align}
二つ目の公式を証明してみます。
例えば
\begin{align}
\boldsymbol{A}&=
\begin{pmatrix}
a_{11}&a_{12}\\
a_{21}&a_{22}
\end{pmatrix}\\
\boldsymbol{X}&=
\begin{pmatrix}
x_{1}\\
x_{2}
\end{pmatrix}
\end{align}
とすると,
\begin{align}
\boldsymbol{X^{T}AX}=
\begin{pmatrix}
x_{1} \quad x_{2}
\end{pmatrix}
\begin{pmatrix}
a_{11} &a_{12}\\
a_{21}&a_{22}\\
\end{pmatrix}
\begin{pmatrix}
x_{1}\\
x_{2}
\end{pmatrix}
\end{align}
と表せます. これを展開していくと,
\begin{align}&=
\begin{pmatrix}
x_{1} \quad x_{2}
\end{pmatrix}
\begin{pmatrix}
a_{11}x_{1}+a_{12}x_{2}\\
a_{21}x_{1}+a_{22}x{2}
\end{pmatrix}\\
&=x_{1}(a_{11}x_{1}+a_{12}x_{2})+x_{2}(a_{21}x_{1}+a_{22}x{2})
\end{align}
したがって,
\begin{align}
\begin{pmatrix}
\frac{\partial \boldsymbol{X^{T}AX}}{\partial x_{1}}\\
\frac{\partial \boldsymbol{X^{T}AX}}{\partial x_{2}}\\
\end{pmatrix}=
\begin{pmatrix}
2a_{11}x_{1}+(a_{12}+a_{21}x_{2})\\
(a_{21}+a_{12})x_{1}+2a_{22}x_{2}
\end{pmatrix} \tag{3}
\end{align}
一方で,
\begin{align}
\boldsymbol{A+A^{T}}=
\begin{pmatrix}
a_{11} &a_{12}\\
a_{21}&a_{22}
\end{pmatrix}
+
\begin{pmatrix}
a_{11} & a_{21}\\
a_{12}& a_{22}
\end{pmatrix}=
\begin{pmatrix}
2a_{11} & a_{12}+a_{21}\\
a_{21}+a_{12} &2a_{22}
\end{pmatrix}
\end{align}
なので(3)式は以下のように表現できます。
\begin{align}
\begin{pmatrix}
\frac{\partial \boldsymbol{X^{T}AX}}{\partial x_{1}}\\
\frac{\partial \boldsymbol{X^{T}AX}}{\partial x_{2}}\\
\end{pmatrix}=
\begin{pmatrix}
2a_{11}x_{1}+(a_{12}+a_{21}x_{2})\\
(a_{21}+a_{12})x_{1}+2a_{22}x_{2}
\end{pmatrix} =
(\boldsymbol{A+A^{T})X}
\end{align}
最小二乗推定量の導出
前章より偏微分=0と置くと次のようになる。
\begin{align}
\frac{\partial \boldsymbol{e^{T}e}}{\partial \boldsymbol{\tilde{\beta}}}=\boldsymbol{-2X^{T}Y+2(X^{T}X)\tilde{\beta}=0}\\
\boldsymbol{2(X^{T}X)\tilde{\beta}=2X^{T}Y}\\
\boldsymbol{(X^{T}X)\tilde{\beta}=X^{T}Y}\\
\boldsymbol{\tilde{\beta}=(X^{T}X)^{-1}X^{T}Y}
\end{align}
ちなみに残差平方和である$e^Te$を自由度-1で割ると分散の不偏推定量が求められる。
これにより、推定の正確性が議論できる。また信頼区間の計算にも使える。
参考
この方の統計シリーズはとても分かりやすく参考になるのでお勧めです‼
[1] 最小二乗法・交互最小二乗法, 森裕一ら, 共立出版, 2017,P26
コメント