二項分布

概要

ある試行において起こり得る事象が2通りしかない場合、このような試行をベルヌーイ試行(Bernoulli trial)という。たとえばコインを投げた時に表が出るか裏が出るか、くじ引きを引いたときに当たりが出るかはずれが出るか、など。

ベルヌーイ試行の2つの事象を確率変数X = 1, 0で表し、X = 1となる確率がpであるとする。

(1)    \begin{alignat*}{1} P(X=1) &= p \\ P(X=0) &= 1-p \end{alignat*}

このようなベルヌーイ試行をn回繰り返したとき、X=1が生じる回数の確率分布が二項分布(Binomial distribution)で、B(n, p)のように表示される。二項分布の例には以下のようなものがある。

  • コインの表/裏が出る確率が等しく1/2のとき、このコインを10回投げた時に表がでる回数の分布
  • 打率3割の打者が4回打席に立って2安打以上打つ確率

確率分布

n回のベルヌーイ試行のうち、X=1k回起こるケースは、{}_n \mathrm{C}_k通りなので、二項分布の確率は以下のように表せる。

(2)    \begin{equation*} P(X=k ; p) = {}_n \mathrm{C}_k p^k (1-p)^{n-k} \end{equation*}

全事象

k=0~nの確率の和が全事象の確率であり、二項定理から、

(3)    \begin{equation*} \sum_{k=0}^n {}_n \mathrm{C}_k p^k (1-p)^{n-k} = (p + 1 - p)^n = 1 \end{equation*}

平均と分散

二項分布B(n, p)の平均と分散は、以下のようになる。

(4)    \begin{alignat*}{1} E(X) &= np \\ V(X) &= np(1-p) \end{alignat*}

この導出において興味深いテクニックが使われる

二項分布の形

n=20, p=0.3の二項分布のグラフをPythonで描くと以下のようになる。

正規分布近似

二項分布B(n, p)は、np, np(1-p)が十分大きいとき(具体的には5より大きいとき)、平均np、分散np(1-p)の正規分布で近似できる(ド・モアブル-ラプラスの定理)。

(5)    \begin{equation*} X \sim B(n, p) \rightarrow \frac{X - np}{\sqrt{np(1-p)}} \sim N=(0, 1) \end{equation*}

これは、二項分布の1回の試行において成功する場合をXi = 1、失敗する場合をXi = 0として、成功回数\sum X_iの平均と分散がnp, np(1 − p)であることからわかる。

以下は、n, pの3つずつの組み合わせに対する、二項分布と正規分布の一致具合を比べたもの。表示範囲は、正規分布とみなしたときの-3\sigma \sim 3\sigmaに対応する範囲で設定している。

母集団確率の最尤推定

二項分布の母集団確率の最尤推定量p=k/nである。

実用例

適用例

二項確率が与えられたときの、発生回数や個体数の予測。

  • 当たりの確率がpの掛けの、掛け回数nと当たりの回数k
  • 故障率pの部品について、n個の部品のうちの故障数k
  • 罹患率pの病気について、n人のうちの罹患者数k
  • 支持率pの政党に対して、n人のうちの支持者数k

分析例

上記と逆に、nサンプルから事象がk回発生したときの確率を推定。

 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です