回帰診断法~誤差項に求められる3つの仮定とは~

統計学

線形回帰モデルに外れ値がある場合に最小二乗法がうまく機能しないのはイメージできる。しかしそれと同様に、誤差項にも求められる性質がある。それは

誤差項の独立性、等分散性、正規性である。
そのため、誤差項がこれらの仮定を満たしているのか、また満たない場合はどのような手法を用いるべきかを判断する必要がある。
統計学ではこれを「回帰診断法(regression diagnostics)」といい、統計検定準1級の内容である。
今回は誤差項の独立性、等分散性、正規性の確認方法と、外れ値の確認方法を紹介する。

残差プロット

$i$番目の実測値$y_{i}(i=1,2,…n)$に対して回帰モデルから得られた予測値を$\hat{y}_{i}$、
残差を$e_{i}=y_{i}-\hat{y}_{i}$とする。
予測値を横軸にとり、縦軸に残差をとった図が残渣プロットである。
ここで3つの仮定(誤差項の独立性、等分散性、正規性)を満たした残差プロットを図1に示す。
見てわかる通り、残差は0を中心として規則なく分散している。

図1 仮定を満たした残差プロット

外れ値の確認

図2は残差をプロットしたときに、外れ値(右上の赤い点)が確認できる。
この点が残ったままだと、外れ値の影響を受けて回帰係数の推定精度が下がる。
(これは誤差項に求められる性質ではなく、回帰分析全体として、外れ値があるとよくない。)

図2 残差プロット(外れ値を含む)

等分散性の確認

次に仮定を満たさない例は等分散を満たさない場合。
図3は残差をプロットしたときに、等分散性を示していないことがわかる。

図3 残差プロット(等分散性を満たさない)

独立性の確認

次に仮定を満たさない例は独立性を満たさない場合。
図4は残差プロットがsinカーブを描いている。

図4 独立性を満たさない例

正規性の確認

誤差項に求められる性質のほかに正規性がある。
それは正規Q-Qプロットで判断できる。

一言

残差を標準化したQQプロットで、
誤差項の正規性が妥当であるか否かを判断できる。
 誤差は理論的に求められないが、QQプロットから、
\begin{align}
y=\beta_0+\beta_{1}x+\epsilon
\end{align}
$\epsilon \sim N(0,\sigma^2)$の仮定が正しいのか検証できる。

図5は残差のQQプロットですが、右は外れ値の影響で正規性が疑わる。
一方で左はきれいな正規性が確認できる。

図5 正規性のあるQQプロットとないQQプロット

外れ値の確認Part2 てこ値に対する標準化残差プロット

てこ値(Leverage)は各観測値が回帰係数の推定値に与える影響を示す。
このてこ値が大きいと外れ値の候補として考えられる。

点線はCookの距離を表し、すべての観測値を使った場合と、ある観測値を除外したときで、会期係数に与える影響度を比較した値になる。一つの基準が0.5と1.0で、大きな影響力を持ったデータを割り出すために使われる。

このデータだと、Cookの距離が0.5を超えたデータはありませんが、9番目と48番目のデータのてこ値が大きいため外れ値の候補になる。

図6 てこ値に対する標準化残差プロット

ひとこと

図6は、Rがデフォルトで持っているデータセットを使っている。
以下のコードで出力できる。

res <- lm(Ozone ~ Solar.R + Wind + Temp, data=airquality)
plot(res)

コメント

タイトルとURLをコピーしました