母比率の差の検定

統計学

統計検定準1級の2018年の問4で少しつまずいたためここにまとめる.
本来2級の内容であり, 忘れていた.

問題内容

次の表はインスタグラムの20代男女の利用者数を整理したクロス統計表である.

インスタグラムの利用率に男女差があるかどうかを調べるために, 統計検定量Zを用いて,
利用率に男女差がないという帰無仮説に対する有意水準$\alpha$の両側検定
\begin{gather}|Z|>z_{\frac{\alpha}{2}}\to 利用率に男女差がある
\end{gather}
を行うことにした. ただし,$z_{\frac{\alpha}{2}}$は標準正規分布の上側$\alpha$/2点である.
統計検定量Zとして次の1~5のうちから最も適切なものを一つ選べ
\begin{gather}
1.\frac{\frac{38}{111}-\frac{60}{106}}{\sqrt{(\frac{1}{111}+\frac{1}{106})\times(\frac{98}{217})\times(\frac{119}{217})}}\\
2.\frac{\frac{38}{111}-\frac{60}{106}}{\sqrt{(\frac{1}{111+106})\times(\frac{1}{2})\times(1-\frac{1}{2})}}\\
3.\frac{(38-50.1)^2}{50.1}+\frac{(73-60.9)^2}{60.9}+\frac{(60-47.9)^2}{47.9}+\frac{(46-58.9)^2}{58.1}\\
4.\frac{\log{(\frac{38\times46}{73\times60})}-1}{\sqrt{\frac{1}{38}+\frac{1}{73}+\frac{1}{60}+\frac{1}{46}}}\\
5. \frac{217(38\times46-73\times60)^2}{98\times119\times111\times106}
\end{gather}

基本的な考え方

母比率の差の検定を行うために、基本となる母比率の区間推定の流れを図1に示す

図1 母比率の推定の流れ

図1に示すように,標本比率$\hat{p}_{i}=\frac{x_i}{n_i}$は近似的に正規分布N($p_i$, $\frac{p_i(1-p_i)}{n_i}$)に従うため, それらの差も正規分布に従う.

\begin{gather}
\hat{p}_1-\hat{p}_2\sim N(p_i-p_2,\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2})\tag{1}
\end{gather}

そのため次に示す$z$が近似的に標準正規分布に従うことを利用する

\begin{gather}
z = \frac{(\hat{p}_1-\hat{p}_2)-(p_1-p_2)}{\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}} \tag{2}
\end{gather}

この式(2)の分母は式(1)の分散に含まれている未知の$p_1$,$p_2$を$\hat{p}_1$,$\hat{p}_2$で置き換えたものである. この手順は大きな$n_1$, $n_2$に対しては大数の法則によって正当化される[1]. つまり一致性がある.

帰無仮説$H_0:p_1=p_2$の下では式(2)の分子は$\hat{p}_1-\hat{p}_2$である。
また, 式(2)は次のように表すこともできる.
\begin{gather}
z = \frac{\hat{p}_1-\hat{p}_2}{\sqrt{\hat{p}^{*}(1-\hat{p}^{*})(\frac{1}{n_1}+\frac{1}{n_2})}} \tag{3}
\end{gather}
ここで
\begin{gather}
\hat{p}^{*}=\frac{\hat{p}_1n_1+\hat{p}_2n_2}{n_1+n_2}=\frac{x_1+x_2}{n_1+n_2}
\end{gather}である。
この$\hat{p}^{*}$は, プールした標本比率といわれる.

この大まかな流れには図1にも示す通り3つの近似が使われていることを強調しておく.

問題の解答

式(3)より,
\begin{gather}
z = \frac{\frac{38}{111}-\frac{60}{106}}{\sqrt{\hat{p}^{*}(1-\hat{p}^{*})(\frac{1}{111}+\frac{1}{106})}}
\end{gather}

ここで,
\begin{gather}
\hat{p}^{*}=\frac{x_1+x_2}{n_1+n_2}=\frac{38+60}{111+106}=\frac{98}{217}
\end{gather}

したがって, 問題の解答としては1が正解になる.

参考文献

[1]日本統計学会公式認定 統計検定2級対応 統計学基礎, 2021


コメント

タイトルとURLをコピーしました