条件付き確率~ベイズの定理

基本

条件付き確率~ベイズの定理(Baye’s theorem)はとっつきにくいが、記号の使い方や図で理解することでわかりやすくなる。

事象Cが起こったときの事象Tの条件付き確率は、以下で計算される。

(1)    \begin{equation*} P(T|C) = \frac{P(T \cap C)}{P(C)} \end{equation*}

事象の記号ににABを使うのが一般的だが、私にはどちらが条件で、どちらを最終的に求めたいのかわかりにくいので、ここでT:Target、C:Conditionの記号を使った

P(C)は事前確率、P(T|C)は事後確率、P(T \cap C)は同時確率と呼ばれる。

ここでP(T \cap C) = P(T|C)P(C) = P(C|T)P(T)から、以下のようにも表現される。

(2)    \begin{equation*} P(T|C) = \frac{P(C|T)P(T)}{P(C)} \end{equation*}

一般表現

より一般的には、事象T_i (i=1,2,\ldots ,n)は互いに排反で、C \subset T_1 \cup T_2 \ldots \cup T_nとするとき、

(3)    \begin{equation*} P(T_k |C) = \frac{P(C|T_k)P(T_k)}{\displaystyle \sum_{i=1}^n P(C|T_i)P(T_i)} \end{equation*}

たとえばT_kが背反する2事象、すなわちT, \overline{T}の場合は以下のようになる。

(4)    \begin{equation*} P(T|C) = \frac{P(C|T)P(T)}{P(C|T)P(T) + P(C|\overline{T})P(\overline{T})} \end{equation*}

具体例として、癌などの難病の検査に関する問題が見られる。

また、ベイズの定理についてこちらでもう少し詳しい解釈をしている。

 

中心極限定理

概要

中心極限定理(central limit theorem: CLT)は、一言で言えば次のようになる。「母集団がどのような確率分布に従うとしても、標本の数を十分大きくしたときには、その合計値あるいは標本平均は、正規分布に従う」

具体的には、母集団の平均を\mu、標準偏差を\sigmaとし、nが十分に大きいとき、

  • 標本の合計S_n = \sum X_{i}は正規分布N(n \mu,n\sigma^2)に従う
  • 標本平均\overline{X}_n = \frac{1}{n} \sum X_{i}は正規分布N(\mu, \frac{\sigma^2}{n})に従う

 

表現

中心極限定理は、一般には以下のように表される。

(1)    \begin{equation*} \lim_{n \rightarrow \infty} \Pr \left( \frac{S_n - n \mu}{\sqrt{n} \sigma} \leq \alpha \right) = \int_{-\infty}^{\alpha} \frac{1}{\sqrt{2} \pi} e^{- \frac{x^2}{2}} dx \end{equation*}

これを少し変形すると、

(2)    \begin{equation*} \lim_{n \rightarrow \infty} \Pr \left( \frac{\overline{X}_n - \mu}{\sigma / \sqrt{n}} \leq \alpha \right) = \int_{-\infty}^{\alpha} \frac{1}{\sqrt{2} \pi} e^{- \frac{x^2}{2}} dx \end{equation*}

実用

たとえば、サイコロをn回振った目の合計を考える。全て1(合計がn)や全て6(合計が6n)というケースは稀なので、その間の値になりそうだと予想される。

中心極限定理を用いると、n個のサイコロの目の平均と分散より、n個のサイコロの目の合計は、N( \frac{7}{2} , \frac{35}{12n})に従うことになる。

これをRの下記コードで試してみた。一回の試行でサイコロを投げる回数をn.dicesに設定して、その平均を求める試行を1000回繰り返す。

n.dicesの回数を変化させた実行結果は以下の通りで、このケースの場合は、n=10程度でもかなり平均の周りに尖った分布となる。

CLT_dice_n=01CLT_dice_n=02n=5n=10

 

 

単純な事象の平均と分散

コイン

コイントスで表→1、裏→0としたときの平均、分散。分布は{表, 裏]の一様分布。

平均

(1)    \begin{equation*} E(X) = 0\times \frac{1}{2} + 1 \times \frac{1}{2} = \frac{1}{2} \end{equation*}

分散

(2)    \begin{equation*} V(X) = 0^2 \cdot \frac{1}{2} + 1^2 \cdot \frac{1}{2} - \left( \frac{1}{2} \right)^2 = \frac{1}{4} \end{equation*}

サイコロ

サイコロ1つを投げたときの目の数の平均、分散。分布は{1,2, 3, 4, 5, 6}の一様分布。

平均

(3)    \begin{equation*} E(X) = \sum_{k=1}^6 k \times \frac{1}{6} = \frac{1+2+3+4+5+6}{6} = \frac{21}{6} = \frac{7}{2} = 3.5 \end{equation*}

分散

(4)    \begin{eqnarray*} V(X) &=& \sum_{k=1}^6 k^2 \times \frac{1}{6} - \left( \frac{7}{2} \right)^2 = \frac{1 + 4 + 9 +16 + 25 + 36}{6} - \frac{49}{4} \\ &=& \frac{91}{6} - \frac{49}{4} = \frac{364-294}{24} = \frac{70}{24} \\ &=& \frac{35}{12} \simeq 2.92 \end{eqnarray*}

トランプ

トランプを一枚引いたときの数の平均、分散。ここでAは1とする。分布は{1, …, 13}の一様分布。

平均

(5)    \begin{equation*} E(X) = \sum_{k=1}^{13} k\times \frac{1}{13} = \frac{13 \times 14}{2} \cdot \frac{1}{13} = 7 \end{equation*}

分散

(6)    \begin{eqnarray*} V(X) &=& \sum_{k=1}^{13} k^2 \times \frac{1}{13} - 7^2 \\ &=& \frac{13 (13+1) (2 \cdot 13 +1)}{6} \frac{1}{13} -49 = \frac{14 \cdot 27}{6} -49 = 7 \cdot 9 - 49 \\ &=& 14 \end{eqnarray*}

 

大数の法則

概要

大数の法則を簡単に言うと、「標本の数を多くとるほど、標本平均の値は母平均に近づく」というもので、感覚的には当たり前と思われることだが、数学的に証明できる。

「それでは、どの位の数を取ったときに、どの程度の平均からのズレで収まるのか?」という問に対しては、大数の法則は答えていない。

大数の弱法則と強法則

大数の法則には弱法則と強法則の2つがあり、それぞれ次のように表される。

大数の弱法則

標本平均\overline{X}_n=\sum \frac{X_i}{n}の標本数を限りなく多くとれば、その\overline{X}が平均\muの近傍からはずれる確率をいくらでも小さくできる。

(1)    \begin{equation*} \lim_{n \rightarrow \infty} \Pr( |\overline{X}_n - \mu| > \varepsilon ) = 0 \end{equation*}

証明

チェビシェフの不等式\overline{X}_nを適用する。

(2)    \begin{equation*} \Pr ( |\overline{X}_n - E(\overline{X}_n)| \geq \varepsilon) \leq \frac{V(\overline{X}_n)}{\varepsilon^2} \end{equation*}

ここで標本平均の期待値と分散を適用して極限をとると

(3)    \begin{equation*} \lim_{n \rightarrow \infty} \Pr ( |\overline{X}_n -\mu)| \geq \varepsilon) \leq \lim_{n \rightarrow \infty} \frac{\sigma / n}{\varepsilon^2} = 0 \end{equation*}

大数の強法則

標本平均\overline{X}_n=\sum \frac{X_i}{n}の標本数を限りなく多くとれば、\overline{X}はほぼ確実に(確率1で)\muに収束する。

(4)    \begin{equation*} \Pr ( \lim_{n \rightarrow \infty} \overline{X}_n = \mu) = 1 \end{equation*}

対数の強法則は弱法則に比べて強い主張であり、その分証明は難しくなるとのこと。

 

標準正規分布

標準正規分布の使い方

平均\mu、分散\sigma^2の正規分布N(\mu, \sigma^2)の確率密度関数は以下の通り。

(1)    \begin{equation*} f(x) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( - \frac{(x - \mu)^2}{2 \sigma^2} \right) \end{equation*}

この場合、X \leq tとなる確率は以下のように表される。

(2)    \begin{equation*} \Pr(X \leq t) = \int_{-\infty}^{t} f(x) dx = \int_{-\infty}^{t} \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( - \frac{(x - \mu)^2}{2 \sigma^2} \right) dx \end{equation*}

ここで、確率変数を以下のように変換する。

(3)    \begin{equation*} Z = \frac{X - \mu}{\sigma} \quad , \quad u = \frac{t - \mu}{\sigma} \end{equation*}

これを式(2)に適用し、dx = \sigma dzに留意して、

(4)    \begin{equation*} \Pr(X \leq t) &=& Pr \left( \frac{X - \mu}{\sigma} \leq \frac{t - \mu}{\sigma} \right) = \int_{-\infty}^{\frac{t - \mu}{\sigma}} \frac{1}{\sqrt{2 \pi}} \exp \left( - \frac{z^2}{2} \right) dz\end{equation*}

標準正規分布の確率に対する確率変数uの値を覚えていれば、母集団の平均と標準偏差が与えられたとき、上記の変数変換を行って、確率値を得ることができる。

例題

厚生労働省による「平成29年国民健康・栄養調査報告」によると、26歳~29歳の日本人男性の身長は、平均が171.0cm、標準偏差が5.8cmとなっている。この年代層で身長が180cmを超える確率は、

(5)    \begin{equation*} Pr(X > 180) = Pr \left(Z > \frac{180 - 171.0}{5.8} \right) = Pr(Z > 1.5517) \end{equation*}

このuの典型的な値と確率のセットを覚えておけば、確率を知ることができる。この場合は1.5より少し大きいので、超過確率は6%程度とわかる(より正確には6.04%)。

uが0.5なら3割程度、1なら16%、1.5で6.7%になる。

逆に超過確率25%ならu=0.67、10%なら1.28、5%(両側90%以内)で1.64、2.5%(両側95%以内)なら1.96。

 

標準正規分布の確率

典型的な値

標準正規分布のZに対する確率\Pr(Z \leq u)uに対する確率は標準正規分布表で与えられているが、以下の値は覚えておくとよい。

z \Pr(Z > u) \Pr(-u \leq Z \leq u)
0.5 0.31 0.38
0.67449 (0.67) 0.25 0.5
0.84162 0.2 0.6
1 0.16 0.68
1.03643 0.15 0.7
1.15035 0.125 0.75
1.28155 (1.28) 0.1 0.8
1.5 0.067 0.87
1.64485 (1.64) 0.05 0.9
1.95996 (1.96) 0.025 0.95
2 0.023 0.95
2.32635 (2.32) 0.01 0.98
2.57584 (2.58) 0.005 0.99

標準正規分布表

std_norm_dist_table

チェビシェフの不等式

チェビシェフの不等式は何がありがたいかというと、「確率分布がどのようなものであっても、平均と分散の値さえわかっていれば、確率変数の値が平均からはずれる確率がいくら以下か計算できる」ということにある。

たとえばあるデータの平均が\mu、分散が\sigma^2とわかっているとき、データが\muから\pm aより外れる確率が少なくともどの程度以下か(あるいはその範囲に収まる確率が少なくともどの程度以上か)、というのを教えてくれる。

チェビシェフの不等式は、以下のようにいくつかの表し方がある

(1)    \begin{equation*} \Pr(|X - \mu| \geq k) \leq \frac{\sigma^2}{k^2} \end{equation*}

ここでk = a\sigmaとおけば、

(2)    \begin{equation*} \Pr (|X - \mu| \geq a \sigma ) \leq \frac{1}{a^2} \end{equation*}

これを余事象で表すと、

(3)    \begin{equation*} \Pr (|X - \mu| < a\sigma) \geq 1 - \frac{1}{a^2} \end{equation*}

ただし、これらの式においてk > 1

この不等式の意義は、確率変数がどのような確率分布に従っているとしても成り立つところにある。ただし、その過程で相当の”切り落とし”をしているので実用的な精度ではない。

たとえば母集団が標準正規分布に従う場合、Z=2,3に対して0.9545、0.9973であるのに対して、チェビシェフの不等式では|X - \mu| \leq a \sigmaとなる確率はa = 2, 3に対して、0, \frac{3}{4}=0.75, \frac{8}{9}=0.899...以上となる。

 

証明:離散確率

離散確率で、|X - \mu|の値に応じて確率変数を以下のように区分する。

(4)    \begin{equation*} \{X = x_i : |x_i - \mu| \geq k\} \ ,\  \{X = y_j : |y_j - \mu| < k\} \end{equation*}

また、以下の確率分布を定義する。

(5)    \begin{equation*} \Pr(|X - \mu| \geq k) = \sum P(X = x_i) \end{equation*}

このとき、以下が成り立つ。

(6)    \begin{eqnarray*} \sigma^2 &=& \sum (x_i - \mu)^2 P(X=x_i) + \sum (y_j - \mu) P(X=y_j) \\ &\geq& \sum (x_i - \mu)^2 P(X=x_i) \\ &\geq& \sum k^2 P(X=x_i) \ \leftarrow {\rm where} \ k > 1\\ &\geq& k^2 \sum \Pr(X=x_i) \\ &=& k^2 \Pr(|X - \mu| \geq k) \end{eqnarray*}

(7)    \begin{equation*} \therefore \ \Pr(|X - \mu| \geq k) \leq \frac{\sigma^2}{k^2} \end{equation*}

証明:連続確率

確率の定義から以下が成り立つ。

(8)    \begin{equation*} \Pr(|X-\mu| \geq k ) = \int_{-\infty}^{\mu - k} f(x) dx + \int_{\mu + k}^{\infty} f(x) dx \\ \end{equation*}

ここで、以下のように変数を変換する。

(9)    \begin{equation*} y = x - \mu \end{equation*}

これより、以下が成り立つ。

(10)    \begin{eqnarray*} \sigma^2 &=& \int_{-\infty}^{\infty} (x - \mu)^2 f(x) dx \\ &=& \int_{-\infty}^{-k} y^2 f(x) dy + \int_{-k}^{k} y^2 f(x) dy + \int_{k}^{\infty} y^2 f(x) dy \\ &\geq& \int_{-\infty}^{-k} y^2 f(x) dy + \int_{k}^{\infty} y^2 f(x) dy \\ &\geq& \int_{-\infty}^{-k} k^2 f(x) dy + \int_{k}^{\infty} k^2 f(x) dy \ \leftarrow {\rm where} \ k > 1 \\ &=& k^2 \left( \int_{-\infty}^{-k} f(x) dy + \int_{k}^{\infty} f(x) dy \right) \\ &=& k^2 \left( \int_{-\infty}^{\mu -k} f(x) dx + \int_{\mu + k}^{\infty} f(x) dx \right) \\ &=& k^2 \Pr(|X-\mu| \geq k ) \end{eqnarray*} \\

(11)    \begin{equation*} \therefore \ \Pr(|X - \mu| \geq k) \leq \frac{\sigma^2}{k^2} \end{equation*}

 

確率統計 – 不偏分散の導出

 

標本分散s^2は次式で求められる。このs^2と、母分散\sigma^2の関係を導いてゆく。

(1)    \begin{equation*} s^2 = \frac{1}{n} \sum_{i=1}^{n} ( x_i - \overline{x} )^2 \end{equation*}

以後、\sumのパラメータを省略する。まず\muを母平均として、\sum (x_i - \overline{x})^2を以下のように変形する。

(2)    \begin{eqnarray*} \sum (x_i - \overline{x})^2 &=& \sum \left( (x_i - \mu) - (\overline{x} - \mu) \right)^2 \\ &=& \sum (x_i - \mu)^2 - 2 \sum (x_i - \mu)(\overline{x} - \mu) + \sum (\overline{x} - \mu)^2 \\ &=& \sum(x_i - \mu)^2 - 2 (\overline{x} - \mu) \sum (x_i - \mu) + n (\overline{x} - \mu)^2 \\ &=& \sum(x_i - \mu)^2 - n (\overline{x} - \mu)^2 \end{eqnarray*}

これより、標本分散s^2の期待値は以下のようになる。

(3)    \begin{eqnarray*} E(s^2) &=& E \left( \frac{1}{n} \left( \sum(x_i - \mu)^2 - n (\overline{x} - \mu)^2 \right) \right) \\ &=& E \left( \frac{1}{n} \sum(x_i - \mu)^2 \right) - E \left( (\overline{x} - \mu)^2 \right) \end{eqnarray*}

1項目については、

(4)    \begin{equation*} E \left( \frac{1}{n} \sum(x_i - \mu)^2 \right) = \frac{1}{n} \sum E(x_i - \mu)^2 = \frac{1}{n} \sum \sigma^2 = \sigma^2 \end{equation*}

また第2項目は標本平均の分散より、

(5)    \begin{equation*} E \left( (\overline{x} - \mu)^2 \right) = \frac{\sigma^2}{n} \end{equation*}

 

これらより、標本分散の期待値は以下のようになる。

(6)    \begin{equation*} E(s^2) = \sigma^2 - \frac{\sigma^2}{n} = \frac{n-1}{n} \sigma^2 \end{equation*}

式(6)より、母分散を得るために以下のように変形。

(7)    \begin{equation*} E \left( \frac{n}{n-1} s^2 \right) = \sigma^2 \end{equation*}

これは、左辺の()の中が母分散\sigma^2の不偏推定量であることを示している。このことから、母分散に対する不偏分散u^2は次式で表される。

(8)    \begin{equation*} u^2 = \frac{n}{n-1} s^2 = \frac{1}{n-1} \sum_{i=1}^{n} ( x_i - \overline{x} )^2 \end{equation*}

不偏分散の分母がn-1となっているのは、母分散ならx_i - \muとなるところが、標本の計算ではx_i - \overline{x}であり、\overline{x}が他の標本から計算されることから、変数の数(自由度)が1少ないことを表している。自由度が少なければ、目指す値を計算するデータが一つ少なくなり、ばらつきはその分大きくなる。

 

 

標本平均の期待値と分散

不偏推定量

標本平均の期待値、分散について考える。イメージとして、母集団からn個の標本値を取り出して期待値\overline{x}を計算し、これを繰り返した場合の\overline{x}の平均と分散を求めることになる。

まず、\overline{x}の期待値については以下のように計算され、標本平均の期待値が母平均の不偏推定量であることがわかる。

(1)    \begin{equation*} E(\overline{x}) = E \left( \frac{1}{n} \sum_{i=1}^{n} x_i \right) = \frac{1}{n} \sum_{i=1}^{n} E(x_i) = \frac{1}{n} \sum_{i=1}^{n} \mu = \mu \end{equation*}

次に\overline{x}の分散は以下のように計算される。

(2)    \begin{equation*} V( \overline{x} )= V \left( \frac{1}{n} \sum_{i=1}^{n} x_i \right) = \frac{1}{n^2} \sum_{i=1}^{n} V(x_i) = \frac{1}{n^2} \cdot n \sigma^2 = \frac{\sigma^2}{n} \end{equation*}

ここで、xiはそれぞれ独立に選ばれることから、V(x1, …, xn)は線形に分解できる。

標本平均\overline{x}の分散がXの母分散をnで割った値となっているのは、標本平均を計算する項数が多いほど期待値に対する誤差が小さくなることを示唆している。

式(2)は、次のように偏差の自乗和の期待値でも表現できる。

(3)    \begin{equation*} V( \overline{x} ) = E\left( (\overline{x} - \mu )^2 \right) = \frac{\sigma^2}{n} \end{equation*}

確率分布

標本X1, …, Xnの母集団が正規分布N(μ, σ2)に従うとき、標本の和X1 + ··· + Xnは正規分布N(, 2)に従い標本平均\overline{X}はN(μ, σ2/n)に従うことが知られている。

また母集団の分布が正規分布でないとしても、中心極限定理により、標本の数(この場合は平均を取り出す回数)を多くすれば、その平均は正規分布に従う。

 

確率統計 – 分散と共分散

分散の定義

標本分散・母分散は、標本値や確率変数の平均からの偏差の自乗平均で定義される。

(1)    \begin{equation*} s^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \overline{x})^2 \end{equation*}

(2)    \begin{equation*} \sigma^2 = \sum_{i=1}^{n} (x_i - \mu) {\rm Pr}(X = x_i) \end{equation*}

(3)    \begin{equation*} \sigma^2 = \int_{-\infty}^{\infty} (x - \mu) f(x) dx \end{equation*}

分散の定義の一般形は以下の通りで、母集団の確率分布によらない。

(4)    \begin{equation*} V(X) = E((X - E(X))^2) = E(X^2) - (E(X))^2 \end{equation*}

証明

(5)    \begin{eqnarray*} E((X - E(X))^2) &=& E(X^2 - 2X E(X) + (E(X))^2) \\ &=& E(X^2) - 2(E(X))^2 + (E(X))^2 \\ &=& E(X^2) - (E(X))^2 \end{eqnarray*}

分散の性質

分散には以下の性質がある。

(6)    \begin{equation*} V(X + t) = V(X) \end{equation*}

(7)    \begin{equation*} V(aX) = a^2 V(X) \end{equation*}

(8)    \begin{equation*} V(X + Y) = V(X) + V(Y) + 2{\rm Cov}(X, Y) \end{equation*}

定数加算

標本値、確率変数に定数を加えても、分散の値は変わらない。これは、分散が各標本値・確率変数の平均からの偏差の平均であり、定数のバイアスはキャンセルアウトされることから明らかでもある。

     \begin{equation*} V(X + t) = V(X) \end{equation*}

証明

(9)    \begin{eqnarray*} V(X + t) &=& E((X + t)^2) - (E(x + t))^2 \\ &=& E(X^2 + 2Xt + t^2) - (E(X)) + t)^2 \\ &=& E(X^2) + 2t E(X) + t^2 - (E(X))^2 - 2t E(X) - t^2 \\ &=& E(X^2) - (E(X))^2 \\ &=& V(X) \end{eqnarray*}

定数倍

標本値、確率変数を定数倍した場合、分散の値は定数の自乗倍になる。これは、分散の定義の形からも明らか。

     \begin{equation*} V(aX) = a^2 V(X) \end{equation*}

証明

(10)    \begin{eqnarray*} V(aX) &=& E((aX)^2) - (E(ax))^2 \\ &=& a^2 (E(X^2) - (E(X))^2) \\ &=& a^2 V(X) \end{eqnarray*}

和の分散

2変数の場合

二つの標本値の組や確率変数を加えた場合の分散は、それぞれの分散の和に双方の共分散を加えた値になる。平均のような線形性がなく、2変数の和の2乗を展開した形と類似している。

     \begin{equation*} V(X + Y) = V(X) + V(Y) + 2{\rm Cov}(X, Y) \end{equation*}

証明

(11)    \begin{eqnarray*} V(X + Y) &=& E((X + Y)^2) - (E(X + Y))^2 \\ &=& E(X^2 + Y^2 + 2XY) - (E(X) + E(Y))^2 \\ &=& E_{XX} + E_{YY} + 2E_{XY} - {E_X}^2 - {E_Y}^2 - 2E_X E_Y \\ &=& E_{XX} - {E_X}^2 + E_{YY} - {E_Y}^2 +2(E_{XY} - E_X E_Y) \\ &=& V(X) + V(Y) + 2{\rm Cov}(X, Y) \end{eqnarray*}

上式でE(X) = E_X, E(X^2) = E_{XX}などと置き換えている。

3変数の場合

3つ確率変数の和の場合は以下の通りで、3つの変数の和の2乗を展開した形と類似している。

(12)    \begin{align*} V(X+Y+Z) = &V_{XX} + V_{YY} + V_{ZZ} \\ &+ 2\rm{Cov}(X, Y) + 2\rm{Cov}(Y, Z) + 2\rm{Cov}(Z, X) \end{align*}

証明

(13)    \begin{align*} &V(X+Y+Z) \\ &= E((X+Y+Z)^2) - E(X+Y+Z)^2 \\ &= E(X^2 + Y^2 + Z^2 + 2XY + 2YZ + 2ZX)\\ &\quad - ( E(X) + E(Y) + E(Z) )^2 \\ &= E_{XX} + E_{YY} + E_{ZZ} + 2E_{XY} + 2E_{YZ} + 2E_{ZX} \\ &\quad - {E_X}^2 + {E_Y}^2 + {E_Y}^2 - 2E_X E_Y - 2E_Y E_Z - 2E_Z E_X \\ &= V_{XX} + V_{YY} + V_{ZZ} + 2\rm{Cov}(X, Y) + 2\rm{Cov}(Y, Z) + 2\rm{Cov}(Z, X) \end{align*}

和の分散~独立な場合

確率変数XYが独立なとき、次項で示すように共分散がゼロとなり、以下が成り立つ。

(14)    \begin{equation*} V(X + Y) = V(X) + V(Y) \end{equation*}

共分散の定義

2つの標本値、確率変数の共分散は以下で定義される。

(15)    \begin{equation*} {\rm Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \overline{x})(y_i - \overline{y}) \end{equation*}

これは以下のようにも表現できる。

(16)    \begin{equation*} {\rm Cov}(X, Y) = E((X-E(X))(Y - E(Y)) = E(XY) - E(X) E(Y) \end{equation*}

証明

(17)    \begin{eqnarray*} E((X-E(X))(Y - E(Y)) &=& E(XY -X E_Y - Y E_X + E_X E_Y) \\ &=& E_{XY} - E_X E_Y - E_X E_Y + E_X E_Y \\ &=& E_{XY} - E_X E_Y \end{eqnarray*}

共分散は、2つの標本値、確率変数に正の相関が強い場合に生となり、負の相関が強い場合に負となる。また、相関が弱い場合にゼロに近くなる。

共分散の性質

定数加算

共分散の変数に定数を加えても、加える前の共分散と同じ値になる。定数をいずれの変数に加えても同じ。

(18)    \begin{eqnarray*} {\rm Cov}(X + t, Y) &=& E((X + t)Y) - E(X + t) E(Y) \\ &=& E(XY + tY) - E(X)E(Y) - tE(Y) \\ &=& E(XY) + tE(Y) - E(X) E(Y) - tE(Y) \\ &=& {\rm Cov}(X, Y) \end{eqnarray*}

定数倍

共分散の変数を定数倍すると、もとの共分散の定数倍になる。両方の変数を定数倍すると、もとの共分散に双方の定数の積を乗じた値になる。

(19)    \begin{eqnarray*} {\rm Cov}(aX, Y) &=& E(aXY) - E(aX) E(Y) \\ &=& a(E(XY) - E(X) E(Y)) \\ &=& a{\rm Cov}(X, Y) \end{eqnarray*}

和の共分散

標本値、確率変数の和は、加える前の個々の共分散の和になる。すなわち、共分散においては分配法則が成り立つ。

(20)    \begin{equation*} {\rm Cov}(X + Z, Y) = {\rm Cov}(X, Y) + {\rm Cov}(Z, Y) \end{equation*}

証明

(21)    \begin{eqnarray*} {\rm Cov}(X + Z, Y) &=& E((X + Z)Y) - E(X + Z) E(Y) \\ &=& E(XY + ZY) - (E(X) + E(Z)) E(Y) \\ &=& E(XY) - E(X) E(Y) + E(ZY) - E(Z) E(Y) \\ &=& {\rm Cov}(X, Y) + {\rm Cov}(Z, Y) \end{eqnarray*}

独立事象の共分散

2つの確率変数の事象が独立な場合、共分散はゼロとなる。

証明:離散型確率変数

XYが独立ならば、その同時生起確率はそれぞれの確率の積となるので。

(22)    \begin{equation*} {\rm Pr}(X = x_i, Y = y_j) = {\rm Pr}(X = x_i) {\rm Pr}(Y = y_j) = {\rm Pr}(x_i) {\rm Pr}(y_j) \end{equation*}

これより

(23)    \begin{eqnarray*} E(XY) &=& \sum_{i=1}^{m} \sum_{j=1}^{n} x_i y_j  {\rm Pr}(x_i) {\rm Pr}(y_j) \\ &=& \sum_{i=1}^{m} \left(x_i {\rm Pr}(x_i) \sum_{j=1}^{n} y_j {\rm Pr}(y_j) \right) \\ &=& \sum_{i=1}^{m} x_i {\rm Pr}(x_i) E(Y) \\ &=& E(X) E(Y) \end{eqnarray*}

これを定義式に適用して{\rm Cov}(X, Y) = 0が確認できる。

証明:連続型確率変数

XYが独立なとき、その確率密度はそれぞれの確率密度の積となる。

(24)    \begin{equation*} f(x, y) = g(x)h(y) \end{equation*}

これより

(25)    \begin{eqnarray*} E(XY) &=& \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} x y g(x) h(y) dx dy \\ &=& \int_{- \infty}^{\infty} \left( x g(x) \int_{- \infty}^{\infty} y h(y) dy \right) dx \\ &=& \int_{- \infty}^{\infty} \left( x g(x) E(Y) \right) dx \\ &=& E(X) E(Y) \end{eqnarray*}

これを定義式に適用して{\rm Cov}(X, Y) = 0が確認できる。

線形関係の場合の共分散

XとYが完全な線形関係にある場合の共分散は、XまたはY(いずれでもよい)の分散の定数倍になる。

証明

(26)    \begin{align*} {\rn Cov}(X, Y) &= E(XY) - E(X) E(Y) \\ &= E(X (aX + b)) - E(X)\left( E(aX + b) \right) \\ &= E(aX^2 + bX) - E(X) \left(a E(X) + b \right) \\ &= aE(X^2) + b E(X) - aE(X)^2 - b E(X) \\ &= aV(X) = \frac{V(Y)}{a} \end{align*}

 

確率統計 – 平均・期待値

定義

平均の定義には標本平均と確率変数の平均があって、それぞれ定義が異なるので、ここで整理する。

標本平均に対しては算術平均、幾何平均、調和平均などの定義があるが、ここでは算術平均を対象とする。

標本平均

標本平均は、標本データの値を足し合わせてその個数で割った値。

標本の値がX : \{x_1, x_2, \cdots , x_n\}のとき、標本平均\overline{x}は標本値の算術平均で定義される。

(1)    \begin{equation*} \overline{x} = E(X) = \frac{1}{n} \sum_{i=1}^{n} x_i \end{equation*}

確率変数の平均

確率変数の平均は、離散型の場合と連続型の場合それぞれで定義される。

離散型の確率変数X\{x_1, x_2, \cdots , x_n\}の値を取り、それぞれの値をとる確率を{\rm Pr}(X = x_i)と表すと、Xの母平均\muは確率変数とその確率変数の発生確率の積の総和で定義される。

(2)    \begin{equation*} \mu = E(X) = \sum_{i=1}^{n} x_i {\rm Pr}(X = x_i) \end{equation*}

連続型の確率変数の平均は、確率密度関数をf(x)とすると、Xの母平均\muは、確率変数とその値に対する確率密度の積の全定義域における積分で定義される。

(3)    \begin{equation*} \mu = E(X) = \int_{- \infty}^{\infty} x f(x) dx \end{equation*}

平均(期待値)の性質

平均(期待値)には以下の性質がある。これらは、母集団の確率分布に関係なく常に成り立つ。

(4)    \begin{equation*} E(X+t) =E(X)+t \end{equation*}

(5)    \begin{equation*} E(aX) =a E(X) \end{equation*}

(6)    \begin{equation*} E(X+Y) =E(X)+E(Y) \end{equation*}

定数加算

標本値、確率変数に定数を加えた場合の平均は、元の平均に定数を加えた値に等しい。

     \begin{equation*} E(X+t) =E(X)+t \end{equation*}

証明:標本平均

(7)    \begin{equation*} E(X+t) = \frac{1}{n} \sum_{i=1}^{n} (x_i + t) = \frac{1}{n} \sum_{i=1}^{n} x_i + \frac{1}{n} \sum_{i=1}^{n} t = E(X) + t \end{equation*}

証明:離散型確率変数

(8)    \begin{eqnarray*} E(X + t) &=& \sum_{i=1}^{n} (x_i + t){\rm Pr}(X = x_i) \\ &=& \sum_{i=1}^{n} x_i {\rm Pr}(X = x_i) + t  \sum_{i=1}^{n} {\rm Pr}(X = x_i) \\ &=& E(X) + t \end{eqnarray*}

証明:連続型確率変数

(9)    \begin{eqnarray*} E(X + t) &=& \int_{- \infty}^{\infty} (x + t) f(x) dx \\ &=& \int_{- \infty}^{\infty} x f(x) dx + t \int_{- \infty}^{\infty} f(x) dx \\ &=& E(X) + t \end{eqnarray*}

定数倍

標本値、確率変数を定数倍した場合の平均は、元の平均の定数倍に等しい。

     \begin{equation*} E(aX) =aE(X) \end{equation*}

証明:標本平均

(10)    \begin{equation*} E(aX) = \frac{1}{n} \sum_{i=1}^{n} ax_i = a \cdot \frac{1}{n} \sum_{i=1}^{n} x_i = a E(X) \end{equation*}

証明:離散型確率変数

(11)    \begin{equation*} E(aX) &=& \sum_{i=1}^{n} a x_i {\rm Pr}(X = x_i) = a  \sum_{i=1}^{n} x_i {\rm Pr}(X = x_i) = a E(X) \end{equation*}

証明:連続型確率変数

(12)    \begin{equation*} E(aX) &=& \int_{- \infty}^{\infty} ax f(x) dx = a \int_{- \infty}^{\infty} x f(x) dx = a E(X) \end{equation*}

和の平均

複数の標本値(データセット)、確率変数を加えた場合の平均は、それぞれの平均の和に等しい

     \begin{equation*} E(X + Y) = E(X) + E(Y) \end{equation*}

証明:標本平均

(13)    \begin{equation*} E(X+Y) = \frac{1}{n} \sum_{i=1}^{n} (x_i + y_i) = \frac{1}{n} \sum_{i=1}^{n} x_i +  \frac{1}{n} \sum_{i=1}^{n} y_i = E(X) + E(Y) \end{equation*}

証明:離散型確率変数

 

確率変数Xx_i (i=1~m)Yy_j (j=1~n)であり、XYはそれぞれの確率分布に従うとする。また、XYの同時生起確率を{\rm Pr}(x_i,y_j)と表す。

このとき、確率変数X+Yの平均は以下のように計算される。

(14)    \begin{eqnarray*} E(X+Y) &=& \sum_{i=1}^{m} \sum_{j=1}^{n} (x_i + y_j) {\rm Pr}(x_i,y_j) \\ &=& \sum_{i=1}^{m} \sum_{j=1}^{n} x_i {\rm Pr}(x_i,y_j) +  \sum_{i=1}^{m} \sum_{j=1}^{n} y_j {\rm Pr}(x_i,y_j) \end{eqnarray*}

上式の第1項についてみると、x_iの値に対してすべてのy_jのとりうる値を考慮していることから、x_iとそれに対する生起確率{\rm Pr}(X = x_i)=Pr(x_i)となり、第1項はXの平均となる。

(15)    \begin{equation*} \sum_{i=1}^{m} \sum_{j=1}^{n} x_i {\rm Pr}(x_i,y_j) = \sum_{i=1}^{m} x_i  {\rm Pr}(x_i) \end{equation*}

第2項も同様にYの平均なので、以下が成り立つ。

     \begin{equation*} E(X + Y) = E(X) + E(Y) \end{equation*}

証明:連続型確率変数

確率変数X:x , Y:yに対する同時生起確率密度をf(x, y)とすると、

(16)    \begin{eqnarray*} E(X,Y) &=& \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} (x + y) f(x, y) dy dx \\ &=& \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} x f(x, y) dydx + \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} y f(x, y) dxdy \end{eqnarray*}

離散型と同様の考え方により、上式の第1項、第2項はそれぞれX, Yの平均となり、次式が成り立つ。

     \begin{equation*} E(X + Y) = E(X) + E(Y) \end{equation*}