確率統計 – 分散と共分散

分散の定義

標本分散・母分散は、標本値や確率変数の平均からの偏差の自乗平均で定義される。

(1)    \begin{equation*} s^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \overline{x})^2 \end{equation*}

(2)    \begin{equation*} \sigma^2 = \sum_{i=1}^{n} (x_i - \mu) {\rm Pr}(X = x_i) \end{equation*}

(3)    \begin{equation*} \sigma^2 = \int_{-\infty}^{\infty} (x - \mu) f(x) dx \end{equation*}

分散の定義の一般形は以下の通りで、母集団の確率分布によらない。

(4)    \begin{equation*} V(X) = E((X - E(X))^2) = E(X^2) - (E(X))^2 \end{equation*}

証明

(5)    \begin{eqnarray*} E((X - E(X))^2) &=& E(X^2 - 2X E(X) + (E(X))^2) \\ &=& E(X^2) - 2(E(X))^2 + (E(X))^2 \\ &=& E(X^2) - (E(X))^2 \end{eqnarray*}

分散の性質

分散には以下の性質がある。

(6)    \begin{equation*} V(X + t) = V(X) \end{equation*}

(7)    \begin{equation*} V(aX) = a^2 V(X) \end{equation*}

(8)    \begin{equation*} V(X + Y) = V(X) + V(Y) + 2{\rm Cov}(X, Y) \end{equation*}

定数加算

標本値、確率変数に定数を加えても、分散の値は変わらない。これは、分散が各標本値・確率変数の平均からの偏差の平均であり、定数のバイアスはキャンセルアウトされることから明らかでもある。

     \begin{equation*} V(X + t) = V(X) \end{equation*}

証明

(9)    \begin{eqnarray*} V(X + t) &=& E((X + t)^2) - (E(x + t))^2 \\ &=& E(X^2 + 2Xt + t^2) - (E(X)) + t)^2 \\ &=& E(X^2) + 2t E(X) + t^2 - (E(X))^2 - 2t E(X) - t^2 \\ &=& E(X^2) - (E(X))^2 \\ &=& V(X) \end{eqnarray*}

定数倍

標本値、確率変数を定数倍した場合、分散の値は定数の自乗倍になる。これは、分散の定義の形からも明らか。

     \begin{equation*} V(aX) = a^2 V(X) \end{equation*}

証明

(10)    \begin{eqnarray*} V(aX) &=& E((aX)^2) - (E(ax))^2 \\ &=& a^2 (E(X^2) - (E(X))^2) \\ &=& a^2 V(X) \end{eqnarray*}

和の分散

2変数の場合

二つの標本値の組や確率変数を加えた場合の分散は、それぞれの分散の和に双方の共分散を加えた値になる。平均のような線形性がなく、2変数の和の2乗を展開した形と類似している。

     \begin{equation*} V(X + Y) = V(X) + V(Y) + 2{\rm Cov}(X, Y) \end{equation*}

証明

(11)    \begin{eqnarray*} V(X + Y) &=& E((X + Y)^2) - (E(X + Y))^2 \\ &=& E(X^2 + Y^2 + 2XY) - (E(X) + E(Y))^2 \\ &=& E_{XX} + E_{YY} + 2E_{XY} - {E_X}^2 - {E_Y}^2 - 2E_X E_Y \\ &=& E_{XX} - {E_X}^2 + E_{YY} - {E_Y}^2 +2(E_{XY} - E_X E_Y) \\ &=& V(X) + V(Y) + 2{\rm Cov}(X, Y) \end{eqnarray*}

上式でE(X) = E_X, E(X^2) = E_{XX}などと置き換えている。

3変数の場合

3つ確率変数の和の場合は以下の通りで、3つの変数の和の2乗を展開した形と類似している。

(12)    \begin{align*} V(X+Y+Z) = &V_{XX} + V_{YY} + V_{ZZ} \\ &+ 2\rm{Cov}(X, Y) + 2\rm{Cov}(Y, Z) + 2\rm{Cov}(Z, X) \end{align*}

証明

(13)    \begin{align*} &V(X+Y+Z) \\ &= E((X+Y+Z)^2) - E(X+Y+Z)^2 \\ &= E(X^2 + Y^2 + Z^2 + 2XY + 2YZ + 2ZX)\\ &\quad - ( E(X) + E(Y) + E(Z) )^2 \\ &= E_{XX} + E_{YY} + E_{ZZ} + 2E_{XY} + 2E_{YZ} + 2E_{ZX} \\ &\quad - {E_X}^2 + {E_Y}^2 + {E_Y}^2 - 2E_X E_Y - 2E_Y E_Z - 2E_Z E_X \\ &= V_{XX} + V_{YY} + V_{ZZ} + 2\rm{Cov}(X, Y) + 2\rm{Cov}(Y, Z) + 2\rm{Cov}(Z, X) \end{align*}

和の分散~独立な場合

確率変数XYが独立なとき、次項で示すように共分散がゼロとなり、以下が成り立つ。

(14)    \begin{equation*} V(X + Y) = V(X) + V(Y) \end{equation*}

共分散の定義

2つの標本値、確率変数の共分散は以下で定義される。

(15)    \begin{equation*} {\rm Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \overline{x})(y_i - \overline{y}) \end{equation*}

これは以下のようにも表現できる。

(16)    \begin{equation*} {\rm Cov}(X, Y) = E((X-E(X))(Y - E(Y)) = E(XY) - E(X) E(Y) \end{equation*}

証明

(17)    \begin{eqnarray*} E((X-E(X))(Y - E(Y)) &=& E(XY -X E_Y - Y E_X + E_X E_Y) \\ &=& E_{XY} - E_X E_Y - E_X E_Y + E_X E_Y \\ &=& E_{XY} - E_X E_Y \end{eqnarray*}

共分散は、2つの標本値、確率変数に正の相関が強い場合に生となり、負の相関が強い場合に負となる。また、相関が弱い場合にゼロに近くなる。

共分散の性質

定数加算

共分散の変数に定数を加えても、加える前の共分散と同じ値になる。定数をいずれの変数に加えても同じ。

(18)    \begin{eqnarray*} {\rm Cov}(X + t, Y) &=& E((X + t)Y) - E(X + t) E(Y) \\ &=& E(XY + tY) - E(X)E(Y) - tE(Y) \\ &=& E(XY) + tE(Y) - E(X) E(Y) - tE(Y) \\ &=& {\rm Cov}(X, Y) \end{eqnarray*}

定数倍

共分散の変数を定数倍すると、もとの共分散の定数倍になる。両方の変数を定数倍すると、もとの共分散に双方の定数の積を乗じた値になる。

(19)    \begin{eqnarray*} {\rm Cov}(aX, Y) &=& E(aXY) - E(aX) E(Y) \\ &=& a(E(XY) - E(X) E(Y)) \\ &=& a{\rm Cov}(X, Y) \end{eqnarray*}

和の共分散

標本値、確率変数の和は、加える前の個々の共分散の和になる。すなわち、共分散においては分配法則が成り立つ。

(20)    \begin{equation*} {\rm Cov}(X + Z, Y) = {\rm Cov}(X, Y) + {\rm Cov}(Z, Y) \end{equation*}

証明

(21)    \begin{eqnarray*} {\rm Cov}(X + Z, Y) &=& E((X + Z)Y) - E(X + Z) E(Y) \\ &=& E(XY + ZY) - (E(X) + E(Z)) E(Y) \\ &=& E(XY) - E(X) E(Y) + E(ZY) - E(Z) E(Y) \\ &=& {\rm Cov}(X, Y) + {\rm Cov}(Z, Y) \end{eqnarray*}

独立事象の共分散

2つの確率変数の事象が独立な場合、共分散はゼロとなる。

証明:離散型確率変数

XYが独立ならば、その同時生起確率はそれぞれの確率の積となるので。

(22)    \begin{equation*} {\rm Pr}(X = x_i, Y = y_j) = {\rm Pr}(X = x_i) {\rm Pr}(Y = y_j) = {\rm Pr}(x_i) {\rm Pr}(y_j) \end{equation*}

これより

(23)    \begin{eqnarray*} E(XY) &=& \sum_{i=1}^{m} \sum_{j=1}^{n} x_i y_j  {\rm Pr}(x_i) {\rm Pr}(y_j) \\ &=& \sum_{i=1}^{m} \left(x_i {\rm Pr}(x_i) \sum_{j=1}^{n} y_j {\rm Pr}(y_j) \right) \\ &=& \sum_{i=1}^{m} x_i {\rm Pr}(x_i) E(Y) \\ &=& E(X) E(Y) \end{eqnarray*}

これを定義式に適用して{\rm Cov}(X, Y) = 0が確認できる。

証明:連続型確率変数

XYが独立なとき、その確率密度はそれぞれの確率密度の積となる。

(24)    \begin{equation*} f(x, y) = g(x)h(y) \end{equation*}

これより

(25)    \begin{eqnarray*} E(XY) &=& \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} x y g(x) h(y) dx dy \\ &=& \int_{- \infty}^{\infty} \left( x g(x) \int_{- \infty}^{\infty} y h(y) dy \right) dx \\ &=& \int_{- \infty}^{\infty} \left( x g(x) E(Y) \right) dx \\ &=& E(X) E(Y) \end{eqnarray*}

これを定義式に適用して{\rm Cov}(X, Y) = 0が確認できる。

線形関係の場合の共分散

XとYが完全な線形関係にある場合の共分散は、XまたはY(いずれでもよい)の分散の定数倍になる。

証明

(26)    \begin{align*} {\rn Cov}(X, Y) &= E(XY) - E(X) E(Y) \\ &= E(X (aX + b)) - E(X)\left( E(aX + b) \right) \\ &= E(aX^2 + bX) - E(X) \left(a E(X) + b \right) \\ &= aE(X^2) + b E(X) - aE(X)^2 - b E(X) \\ &= aV(X) = \frac{V(Y)}{a} \end{align*}

 

3件のコメント

  1. 大学院試を控えている学部生の者です。非常に参考にさせて頂きました。

    3変数の分散の計算のところにおいて、E[X]をExと表記するならば、Exx-Ex^2=Vxと書く方が表記に則っているように思えて、違和感がありました。

    駄文失礼致しました。

    1. ご指摘ありがとうございます。
      仰る通りだと思います。

      ちょっと前のものですが、共分散との並びで敢えてこう書きました。
      たくさんの変数が出てくるような場合には、そもそもの変数の意味だとか計算過程ができるだけ直感で分かるように、自分の理解用の書き方を考えたりしています。

      ここでは変数も少ないし他との並びからみてもきれいではないですね。

tau へ返信する コメントをキャンセル

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です