確率統計 – 不偏分散の導出

 

標本分散s^2は次式で求められる。このs^2と、母分散\sigma^2の関係を導いてゆく。

(1)    \begin{equation*} s^2 = \frac{1}{n} \sum_{i=1}^{n} ( x_i - \overline{x} )^2 \end{equation*}

以後、\sumのパラメータを省略する。まず\muを母平均として、\sum (x_i - \overline{x})^2を以下のように変形する。

(2)    \begin{eqnarray*} \sum (x_i - \overline{x})^2 &=& \sum \left( (x_i - \mu) - (\overline{x} - \mu) \right)^2 \\ &=& \sum (x_i - \mu)^2 - 2 \sum (x_i - \mu)(\overline{x} - \mu) + \sum (\overline{x} - \mu)^2 \\ &=& \sum(x_i - \mu)^2 - 2 (\overline{x} - \mu) \sum (x_i - \mu) + n (\overline{x} - \mu)^2 \\ &=& \sum(x_i - \mu)^2 - n (\overline{x} - \mu)^2 \end{eqnarray*}

これより、標本分散s^2の期待値は以下のようになる。

(3)    \begin{eqnarray*} E(s^2) &=& E \left( \frac{1}{n} \left( \sum(x_i - \mu)^2 - n (\overline{x} - \mu)^2 \right) \right) \\ &=& E \left( \frac{1}{n} \sum(x_i - \mu)^2 \right) - E \left( (\overline{x} - \mu)^2 \right) \end{eqnarray*}

1項目については、

(4)    \begin{equation*} E \left( \frac{1}{n} \sum(x_i - \mu)^2 \right) = \frac{1}{n} \sum E(x_i - \mu)^2 = \frac{1}{n} \sum \sigma^2 = \sigma^2 \end{equation*}

また第2項目は標本平均の分散より、

(5)    \begin{equation*} E \left( (\overline{x} - \mu)^2 \right) = \frac{\sigma^2}{n} \end{equation*}

 

これらより、標本分散の期待値は以下のようになる。

(6)    \begin{equation*} E(s^2) = \sigma^2 - \frac{\sigma^2}{n} = \frac{n-1}{n} \sigma^2 \end{equation*}

式(6)より、母分散を得るために以下のように変形。

(7)    \begin{equation*} E \left( \frac{n}{n-1} s^2 \right) = \sigma^2 \end{equation*}

これは、左辺の()の中が母分散\sigma^2の不偏推定量であることを示している。このことから、母分散に対する不偏分散u^2は次式で表される。

(8)    \begin{equation*} u^2 = \frac{n}{n-1} s^2 = \frac{1}{n-1} \sum_{i=1}^{n} ( x_i - \overline{x} ) \end{equation*}

不偏分散の分母がn-1となっているのは、母分散ならx_i - \muとなるところが、標本の計算ではx_i - \overline{x}であり、\overline{x}が他の標本から計算されることから、変数の数(自由度)が1少ないことを表している。自由度が少なければ、目指す値を計算するデータが一つ少なくなり、ばらつきはその分大きくなる。

 

 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です