母比率の信頼区間

Bernoulli試行の成功確率をpとする。この試行をn回繰り返す場合の二項分布に従う確率変数X(成功回数)の平均と分散は以下で表される。

(1)    \begin{align*} E(X) &= np \\ V(X) &= np(1 - p) \end{align*}

試行回数nが大きいとき、中心極限定理より以下の確率変数は標準正規分布に従う。

(2)    \begin{equation*} Z = \frac{X - np}{\sqrt{np(1 - p)}} \end{equation*}

分母・分子をnで割り、サンプルから観測された確率としてX/n = \hat{p}と置く。

(3)    \begin{equation*} Z = \frac{\dfrac{X}{n} - p}{\sqrt{\dfrac{p(1 - p)}{n}}} = \frac{\hat{p} - p}{\sqrt{\dfrac{p(1 - p)}{n}}} \end{equation*}

Zが標準正規分布に従うことから、信頼確率αの信頼区間は以下のように表せる。

(4)    \begin{equation*} -Z_\alpha = Z\left( \frac{1 - \alpha}{2} \right) \le \frac{\hat{p} - p}{\sqrt{\dfrac{p(1 - p)}{n}}} \le Z\left( \frac{1 + \alpha}{2} \right) = Z_\alpha \end{equation*}

これよりpの信頼区間は以下のように表せる。

(5)    \begin{equation*} \hat{p} - Z_\alpha \sqrt{\dfrac{p(1 - p)}{n}} \le p \le \hat{p} + Z_\alpha \sqrt{\dfrac{p(1 - p)}{n}} \end{equation*}

ここで信頼区間の境界値の計算に母比率pが含まれているが、nが大きいときは\hat{p} = pとして、以下を得る。

(6)    \begin{equation*} \hat{p} - Z_\alpha \sqrt{\dfrac{\hat{p}(1 - \hat{p})}{n}} \le p \le \hat{p} + Z_\alpha \sqrt{\dfrac{\hat{p}(1 - \hat{p})}{n}} \end{equation*}

ここで、母比率0~1.0のBernoulli試行を繰り返し数を変えて試行したときの観測確率について、その平均と標準偏差がどうなるか計算してみた。

まずpの平均については= 10でもそれなりの精度となっていて、あまり試行回数による変化は大きくない。

次にpの標準偏差(不偏分散の平方根)を見てみる。母比率が1/2に近いほどばらつきは大きく、試行回数nが大きいほどばらつきは小さくなっている。実務的にはn = 50~100あたりでそれなりのばらつきで観測確率をを母比率の代わりに用いてよいだろうか。

以下はB(n, 0.5)についてnを変化させたときの観測確率のグラフで、やはりn = 50あたりまでにばらつきが急に減っていることがわかる。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です