最尤推定量/フィッシャー情報量/クラメールラオの不等式の整理

統計学

最尤推定量やフィッシャー情報量,スコア関数, そしてクラメールラオの不等式, 有効推定量などの概念がややこしいため, ここで整理したい.

ここでは, ポアソン分布を例に考える

ポアソン分布の最尤推定量

ポアソン分布の確率質量関数は次に示す通りである。これは既知とする

\begin{gather}
P(X_i = x_i) = \frac{e^{- \lambda }x_{i}}{x_{i}!} \tag{1}
\end{gather}
ここから尤度を算出すると

\begin{align}
L &= \prod^{n}_{i = 1}P(X_i = x_i) \\
&=\prod^{n}_{i = 1}\frac{e^{- \lambda }x_{i}}{x_{i}!}
\end{align}
ここから対数尤度を算出すると,
\begin{align}
l = \log L &= \log \prod^{n}_{i = 1}\frac{e^{- \lambda }x_{i}}{x_{i}!}\\
&=\sum^{n}_{i = 1}\log \frac{e^{- \lambda }x_{i}}{x_{i}!}\\
&=\sum^{n}_{i = 1}(\log e^{-\lambda}+\log \frac{\lambda^{x_{i}}}{x_{i}!})\\
&=\sum^{n}_{i = 1}(-\lambda+x_i \log \lambda -\log x_i!)\\
&=-n \lambda +\log \lambda \sum x_i -\sum \log x_i ! \tag{2}
\end{align}

式(2)を$\lambda$で偏微分すると

\begin{align}
S=\frac{\partial l}{\partial \lambda}=-n+\frac{n}{\lambda}\frac{1}{n}\sum x_{i} \tag{3}
\end{align}
この$S$が0となる$\lambda$が最尤推定量であるため, それを$\hat{\lambda}$とすると

\begin{align}
S(\hat{\lambda})=0\\
\hat{\lambda}=\frac{\sum x_i}{n} \tag{4}
\end{align}
と求まる. これがポアソン分布の最尤推定量である.

フィッシャー情報量

フィッシャー情報量は次の式から求めることができる.

フィッシャー情報量

\begin{gather}
J_n(\theta) = E_\theta [\{\frac{\partial}{\partial \theta}\log f(X_1,…X_n: \theta)\}^2] \tag{5}
\end{gather}

もしくは
\begin{gather}
J_n(\theta) = -E_\theta [\frac{\partial^2}{\partial \theta^2}\log f(X_1,…X_n: \theta)] \tag{6}
\end{gather}

ここで登場する式(5)の$\frac{\partial}{\partial \theta} \log f(X_1,…X_n:\theta)$がスコア関数と呼ばれる。つまり

\begin{gather}
スコア関数=\frac{\partial}{\partial \theta} l(\theta)=\frac{\partial}{\partial \theta} \log L
\end{gather}
の関係である. 言葉でいうと, スコア関数は, 対数尤度関数$l(\theta)$を$\theta$で偏微分したものである.

ちなみにスコア関数の期待値は0になるという性質がある。

スコア関数の期待値は0

スコア関数を$S(\theta)$とすると、
\begin{align}
S(\theta)=\frac{\partial}{\partial \theta}\log f(x|\theta)
\end{align}
である. ここで$\theta$は確率分布のパラメータであり, N$(\mu,\sigma^2)$であれば$\mu$や$\sigma$, Po($\lambda$)であれば、$\lambda$である.
\begin{align}
E[S(\theta)] &= E[\frac{\partial}{\partial \theta}\log f(x|\theta)]\\
&=\int \frac{\partial}{\partial \theta}\log f(x|\theta)f(x|\theta)dx
\end{align}
$\frac{\partial}{\partial \theta}\log f(x|\theta)$は, 対数の微分であるので, $\frac{1}{f(x|\theta)}\frac{\partial}{\partial \theta}f(x|\theta)$と書くことができる. したがって,

\begin{align}
E[S(\theta)] &=\int \frac{1}{f(x|\theta)}\frac{\partial}{\partial \theta}f(x|\theta) f(x|\theta)dx\\
&=\int \frac{\frac{\partial}{\partial \theta}f(x|\theta)}{f(x|\theta)}f(x|\theta)dx\\
&=\int \frac{\partial }{\partial \theta}f(x|\theta)dx\tag{7}
\end{align}

一方で確率密度の積分は1であるため
\begin{gather}
\int f(x|\theta)dx = 1
\end{gather}
といえる。これを両辺$\theta$で偏微分すると,
\begin{align}
\int \frac{\partial }{\partial \theta}f(x|\theta)dx=0
\end{align}
したがって, 式(7)は
\begin{gather}
E[S(\theta)]=\int \frac{\partial }{\partial \theta}f(x|\theta)dx=0
\end{gather}となる.


話をフィッシャー情報量に戻す.
ポアソン分布のフィッシャー情報量を式(5), 式(6)を使った求める.
まず式(5)を用いた方法では,

\begin{align}
J_n(\theta)&= E_\theta [\{\frac{\partial}{\partial \theta}\log f(X_1,…X_n: \theta)\}^2] \\
&=E_\theta[(\frac{\partial}{\partial \theta} \log L)^2]\\
&=E_{\theta}[(\frac{\partial}{\partial \theta} l(\theta))^2]\\
&=E_{\theta}[(\frac{\partial}{\partial \theta} l(\theta))^2]=V[(\frac{\partial}{\partial \theta} l(\theta)]+E[(\frac{\partial}{\partial \theta} l(\theta)]^2
\end{align}
スコア関数の期待値は0であるため
\begin{gather}
E[(\frac{\partial}{\partial \theta} l(\theta)]=0
\end{gather}である.
したがって,式(3)も利用すると,
\begin{align}
J_n(\theta)&=V[(\frac{\partial}{\partial \theta} l(\theta)]\\
&=V[-n+\frac{1}{\lambda}\sum x_i]\\
&=\frac{1}{\lambda^2}V[\sum x_i]\\
&=\frac{1}{\lambda^2}n\lambda\\
&=\frac{n}{\lambda}
\end{align}

次に式(6)を用いた方法でフィッシャー情報量を求める.
\begin{align}
J_n(\theta) &= -E_\theta [\frac{\partial^2}{\partial \theta^2}\log f(X_1,…X_n: \theta)]\\
&=-E_\theta[\frac{\partial^2}{\partial \lambda^2}l(\lambda)]\\
&=-E_\theta[\frac{\partial}{\partial \lambda}\frac{\partial}{\partial \lambda}l(\lambda)]
\end{align}
式(3)より,
\begin{align}
&=-E_\theta[\frac{\partial}{\partial \lambda}\frac{\partial}{\partial \lambda}l(\lambda)]\\
&=-E_\theta[\frac{\partial}{\partial \lambda}(-n+\frac{n}{\lambda}\frac{1}{n}\sum x_{i})]\\
&=-E_\theta[\sum x_i \frac{-1}{\lambda^2}]\\
&=\frac{n}{\lambda}
\end{align}

$E[\sum x_i]$は$\sum$を外して考えると整理しやすい.

クラメールラオの不等式

クラメールラオの不等式は, 推定量の分散の下限を表す不等式である.

\begin{gather}
V[\hat{\theta}]\geqq \frac{1}{J_n(\theta)}
\end{gather}
これは, 不偏推定量$\hat{\theta}$をどのように選んでも, その分散をフィッシャー情報量の逆数より小さくすることはできないことを意味している[1].
この不等式の等号を満たす推定量を「有効推定量」と呼ぶ.
したがって有効推定量であれば、一様最小分散不偏推定量である.

一様最小分散不偏推定量とは

母数を標本から推定したい場合を考える.
$\theta$が母数で$\hat{\theta}$が推定量とする.
その推定量がしっかりと母数を推定できているのか, これは重要なファクターとなる.
これを評価するために平均二乗誤差(MSE)の期待値を考える.
\begin{align}
\rm{MSE(\hat{\theta},\theta)}=E[(\hat{\theta}-\theta)^2]=E[(\hat{\theta}-\theta)]^2+V[(\hat{\theta}-\theta)]
\end{align}
この変形は$V[X]=E[X^2]-(E[X])^2$からきている.

また,$\theta$は母数であり定数であるため,
\begin{align}
E[(\hat{\theta}-\theta)^2]&=E[(\hat{\theta}-\theta)]^2+V[(\hat{\theta}-\theta)]\\
&=(E[\hat{\theta}]-\theta)^2+V[\hat{\theta}]
\end{align}
と表せる.これを「平均二乗誤差のバイアス・バリアンス分解」と呼ぶ.

不偏推定量であれば,$E[\hat{\theta}]=\theta$である.
すると
\begin{align}
E[(\hat{\theta}-\theta)^2]&=V[\hat{\theta}]
\end{align}

したがって, 不偏推定量のMSEは$V[\hat{\theta}]$の分散のみを考えればいい. この分散が最も最小な推定量を「一様最小分散不偏推定量」と呼ぶ.

参考文献

[1]日本統計学会公式認定 統計検定準1級対応 統計学実践ワークブック 日本統計学会編,2022 学術図書出版社

コメント

タイトルとURLをコピーしました