ブートストラップサンプリング

概要

母集団から得られたサンプルから標本をつくり、それに対して統計的な検討を加える方法。限られたサンプルデータから異なる再標本を大量に作り(resampling)、母集団パラメーターの推定、アンサンブル機械学習のデータなどに用いる。

以下は、1次元配列に対してnumpy.random.choice()で並べ替えた再標本を複数生成している例。

ブートストラップ(bootstrap)とはブーツの後ろについているつまみ/輪っかのことで、ここを持ったりフックをかけてブーツを引っ張り上げる。19世紀にはブートストラップを引っ張って自分自身を引っ張り上げる、という不可能なことの比喩に使われていたが、20世紀に入って自分自身で何とかすることや自己完結の仕組みなどの比喩に使われるようになったとのこと。コンピューターの起動を指すブートもbootstrapを略。

ブートストラップ法による信頼区間の推定

再標本を大量に生成することで、パラメーターの信頼区間などの統計量を直接得ることができる。

e-statの身長・体重に関する国民健康・栄養調査2017年のデータから、40歳代の日本国民の身長の平均171.2cm及び標準偏差6.0cmを母集団のパラメーターとして用いる(データ数は374人)。

このパラメーターから、正規分布に従う10個の乱数を発生させる。

次に、サンプルデータセットからブートストラップサンプリングで再標本を多数発生させ、それらの平均を一つのデータセットとする。

numpy.percentile()で95 %信頼区間(2.5%~97.5%)を計算。

比較のため、元のサンプルについてt分布による平均の信頼区間も計算。scipy.stats.tinterval()でも求められるが、ここでは愚直に元の計算式から計算した。

これらの結果、元の10個のサンプルの分布と1000個の再標本の平均の分布は以下のとおりで、釣り鐘状のきれいな分布となっている。

この時の各種データは以下の通り。

再標本の分散(不偏分散)は2.186と母集団やサンプルの分散より小さいが、これは多数の再標本の平均値の分散であり、母集団や元のサンプルの分散とは意味が違う。

また、10個のデータからt分布で推定した信頼区間よりも、ブートストラップで得られた信頼区間の方が狭くなっている。この傾向は乱数系列によって変わらず、一般的な傾向のようである。

以下は再標本数を1000から100にした場合だが、分布形状は整っていて信頼区間もt分布による推定より狭い。なお、再標本数を10万、100万と増やしても、これ以上分散は小さくならず、信頼区間も変化しない。

異常の計算・表示のコードは以下の通り。

 

numpy.percentile()~パーセンタイル

numpy.percentile()は、与えた配列から指定したパーセンタイル値を計算する。

percentile(a, q)
a:パーセンタイルを計算する元の配列。
q:パーセンタイル値、または配列。パーセンタイル値は0~100で、百分率表示であることに注意。1次元配列を指定すると、各要素のパーセンタイル値に相当する値が同じサイズの配列で返される。

以下は実行例。パーセンタイル値が要素の間になる場合は内挿される。

元の配列はソートされていなくてもよい。

 

パーセンタイル値を配列で指定した場合。

95%両側信頼区間の場合、以下のように計算できる。

 

t分布

概要

t分布は連続確率分布の1つで、以下のような場合に用いられる。

  • 正規分布する母集団の平均と分散が未知で標本サイズが小さい場合に平均を推定
  • 2つの平均値の差の統計的有意性に対するt検定

サンプルX1, …, Xnが平均μの正規分布に従うとし、標本平均\overline{X}と不偏分散s2が以下であるとする。

(1)    \begin{align*} \overline{X}_n &= \frac{1}{n} \sum_{i=1}^n X_i \\ {s^2}_n &= \frac{1}{n - 1} \sum_{i=1}^n \left( X_i - \overline{X} \right) \end{align*}

ここで以下の変数(t値)を考える。

(2)    \begin{equation*} t = \frac{\overline{X}_n - \mu}{\sqrt{{s^2}_n / n}} \end{equation*}

このとき、上記のt値は以下の確率分布でν = n − 1としたものに従うことが知られている。

(3)    \begin{equation*} f(t; \nu) = \dfrac{\Gamma \left( \dfrac{\nu + 1}{2}\right) }{\sqrt{\nu \pi} \Gamma \left( {\dfrac{\nu}{2}}\right)} \left( 1 + \dfrac{t^2}{\nu} \right)^{- \dfrac{\nu + 1}{2} \end{equation*}

この確率分布はstudentのt分布と呼ばれ、Γはガンマ関数。

自由度と確率分布の関係

t分布の自由度νを変化させて確率分布を描いてみる。

自由度20あたりでかなり標準積分布に近くなっていることがわかる。自由度1~20に対して片側確率が10%, 5%, 2.5%, 1%, 0.5%ととなるzの値を計算すると以下のようになる。

t分布表

以下に、自由度1 ~20に対して、いくつかの片側確率に対するt値の表を示す(Pr(t) > α)となるt値)。

自由度が20くらいになるとかなり標準正規分布に近い形になるが、zの値は有効数値2桁目で違ってくる。自由度が700くらいで何とか3桁目まで標準正規分布の値と同じになる。

ν 0.1 0.05 0.025 0.01 0.005
1 3.078 6.314 12.706 31.821 63.657
2 1.886 2.920 4.303 6.965 9.925
3 1.638 2.353 3.182 4.541 5.841
4 1.533 2.132 2.776 3.747 4.604
5 1.476 2.015 2.571 3.365 4.032
6 1.440 1.943 2.447 3.143 3.707
7 1.415 1.895 2.365 2.998 3.499
8 1.397 1.860 2.306 2.896 3.355
9 1.383 1.833 2.262 2.821 3.250
10 1.372 1.812 2.228 2.764 3.169
11 1.363 1.796 2.201 2.718 3.106
12 1.356 1.782 2.179 2.681 3.055
13 1.350 1.771 2.160 2.650 3.012
14 1.345 1.761 2.145 2.624 2.977
15 1.341 1.753 2.131 2.602 2.947
16 1.337 1.746 2.120 2.583 2.921
17 1.333 1.740 2.110 2.567 2.898
18 1.330 1.734 2.101 2.552 2.878
19 1.328 1.729 2.093 2.539 2.861
20 1.325 1.725 2.086 2.528 2.845
N(0, 1) 1.282 1.645 1.960 2.326 2.576

なお、これらの値はPythonのscipy.statsからt分布と正規分布の関数を呼び出して得られる。

 

母平均の信頼区間~母分散が既知の場合

概要

母集団の分散がわかっている場合の、母平均の信頼区間の推定について。

信頼区間の推定の考え方は以下の通り。

  1. サンプルを抽出し、標本平均\overline{x}を求める
  2. 既知の分散σ2から標本平均は正規分布N(μ, σ2/n)に従う
  3. 標本平均をμ, σ2/nで標準化し、標準正規分布の信頼確率αに対する信頼区間を設定
  4. 母平均μの信頼区間を計算

手順

まず、母集団からn個のサンプルx1, …, xnを抽出し、その平均を求める。

(1)    \begin{equation*} \overline{x} = \frac{1}{n}\sum_{i=1}^n x_i \end{equation*}

次に平均と分散で標準化した変数に対して、意図する確率値αに対する標準正規分布の確率変数値zを使って信頼区間を設定。両側の境界を持つ信頼区間の場合は以下のようになる。

(2)    \begin{equation*} z\left( p \le \frac{1 - \alpha}{2} \right) \le \frac{\overline{x} - \mu}{\sqrt{\sigma^2 / n}} \le z\left( p \le \frac{1+ \alpha}{2} \right) \end{equation*}

これを移項してμの信頼区間として表示。

(3)    \begin{align*} \overline{x} - z\left( p \le \frac{1 - \alpha}{2} \right) \sqrt{\frac{\sigma^2}{n}} \le \mu \le \overline{x} + z\left( p \le \frac{1+ \alpha}{2} \right) \sqrt{\frac{\sigma^2}{n}} \end{align*}

信頼確率αに対応する標準正規分布のzを設定してμの信頼区間を算出する。たとえば両側95%信頼区間なら、片側2.5%確率に対応する1.96など、標準正規分布のzの値はこちらを参照

(4)    \begin{align*} \overline{x} - 1.96 \sqrt{\frac{\sigma^2}{n}} \le \mu \le \overline{x} + 1.96 \sqrt{\frac{\sigma^2}{n}} \end{align*}

例題

e-statの身長・体重に関する国民健康・栄養調査2017年のデータから、40歳代の日本国民の身長の平均171.2cm及び標準偏差6.0cmを母集団のパラメーターとして用いる(データ数は374人)。

このパラメーターから、正規分布に従う10個の乱数を発生させた結果が以下の通り。

これらのデータの平均は170.6となり、これとσ= 36、サンプル数10、両側95%に対する1.96を用いて、信頼区間は以下のように計算される。

(5)    \begin{gather*} 170.6 - 1.96 \sqrt{\frac{36}{10}} \le \mu \le 170.6 + 1.96 \sqrt{\frac{36}{10}} \\ 168.7 \le \mu \le 172.5 \end{gather*}

【注】上記のデータはPythonでseed(1)として発生させた。

当初seed(0)で発生させた際には以下のようになり、95%信頼区間が母集団の平均を含まなくなった。

(6)    \begin{gather*} 175.6 - 1.96 \sqrt{\frac{36}{10}} \le \mu \le 175.6 + 1.96 \sqrt{\frac{36}{10}} \\ 171.9 \le \mu \le 179.3 \end{gather*}

seed(0)はよく使う系列だが、このようなこともあるので乱数系列を複数変えて試すのが望ましい。

サンプルサイズに対する信頼区間の傾向

サンプルサイズを大きくしていったときの平均身長の95%信頼区間は以下の通りで、かなりばらつきながら徐々に区間幅は小さくなるが、ある程度サンプルサイズを大きくしてもあまり顕著な区間幅の減少はみられない。

これは信頼区間に現れる1/\sqrt{n}のグラフを描いてみると分かるが、n=20程度まで急激に小さくなり、その後の減少スピードはかなり遅いことがわかる。したがって、信頼区間を狭めようとしても、効果があるのはせいぜいデータ数50程度までということになる。

【補足】

本記事にいただいたコメントの通り、これの考え方は適切ではない。正しくは、1.96 \sqrt{\sigma^2 / 2}などのグラフを描くべき。ご指摘に感謝します。

なお、1つ目のグラフの計算手順は以下の通り。

  1. 母集団の平均・標準偏差から、サンプルサイズを変えながら正規乱数を発生させる
  2. サンプルごとにサンプル平均を計算する
  3. サンプル平均と母分散から母平均推定の信頼区間の上限値と下限値を計算してリストに追加する
  4. 結果をグラフに表示する

 

二項分布の平均と分散

概要

二項分布B(n, p)の平均と分散は以下のようになる。

(1)    \begin{alignat*}{1} E(X) &= np \\ V(X) &= np(1-p) \end{alignat*}

これらを導くのに、有用なテクニックを使っているのでまとめておく。

直接定義式から導く方法

この方法は、平均、分散の定義式から直接導いていく過程で、意図的に二項展開の形に持ち込んでいく方法。

平均

平均の定義から、以下のように変形していく。

(2)    \begin{alignat*}{1} E(X) &= \sum_{k=0}^n k {}_n\mathrm{C}_k p^k (1-p)^{n-k} \\ &= \sum_{k=1}^n k \frac{n!}{(n-k)! k!} p^k (1-p)^{n-k} \\ &= \sum_{k=1}^n n \frac{(n-1)!}{\left( (n-1) - (k-1) \right)! (k-1)!} pp^{k-1} (1-p)^{(n-1)-(k-1)} \end{alignat*}

上式では、各項にkが乗じられていることから、以下の流れで変形している。

  • k=0のとき1番目の項はゼロとなるので、和の開始値をk=1とする
  • 分子にあるkを使って、{}_n C_kの分母においてk! \rightarrow (k-1)!とする
  • これに整合させるため、分母において(n-k)!((n-1) - (k-1))!と変形
  • さらに組み合わせの式に整合させるため分子をn (n-1)!と変形し、最終的に{}_{n-1} C_{k-1}を引き出している。
  • 後に二項定理を使うため、p, \; 1-pの指数も調整している

ここでk-1 = k'とおくと、カウンターの範囲はk=1 \sim nからk'=0 \sim n-1となることから、

(3)    \begin{alignat*}{1} E(X) &= np \sum_{k'=0}^{n-1} \frac{(n-1)!}{\left( (n-1) - k' \right)! k'!} p^{k'} (1-p)^{(n-1)-k'} \\ &= np (p + 1 - p)^{n-1} \\ &= np \end{alignat*}

上式では、変形した和の部分が二項展開の形になっていることを利用している。

分散

分散については、k^2が各項に乗じられるが、これをk(k-1) + kと変形して、階乗のランクを下げるところがミソ。

(4)    \begin{alignat*}{1} V(X) &= E(X^2) - [E(X)]^2 \\ &= \sum_{k=0}^n k^2 {}_n C_k p^k (1-p)^{n-k} - (np)^2 \\ &= \sum_{k=0}^n \left( k(k-1) + k \right) {}_n C_k p^k (1-p)^{n-k} - (np)^2 \\ &= \sum_{k=2}^n k(k-1) {}_n C_k p^k (1-p)^{n-k} + \sum_{k=1}^n k {}_n C_k p^k (1-p)^{n-k} - (np)^2 \\ \end{alignat*}

上式で、1項目はk(k-1)が乗じられているのでカウンターをk=2から、2項目は同じくk=1からとしている。

ここで1項目についてk'' = k - 2と置いて、平均の時と同じ考え方で以下のように変形。

(5)    \begin{alignat*}{1} &\sum_{k=2}^n k(k-1) {}_n C_k p^k (1-p)^{n-k} \\ &= \sum_{k=2}^n k(k-1) \frac{n!}{(n-k)! k!} p^k (1-p)^{n-k} \\ &= \sum_{k=2}^n n(n-1) \frac{(n-2)!}{((n-2) -(k-2))! (k-2)!} p^2 p^{k-2} (1-p)^{(n-2)-(k-2)} \\ &= n(n-1) p^2 \sum_{k'=0}^{n-2} \frac{(n-2)!}{((n-2) -k'')! k''!} p^{k''} (1-p)^{(n-2)-k''} \\ &= n(n-1) p^2 ( p + (1-p))^{n-2} \\ &= n(n-1) p^2 \end{alignat*}

2項目については、k' = k-1とおいて、

(6)    \begin{alignat*}{1} &\sum_{k=1}^n k {}_n C_k p^k (1-p)^{n-k} \\ &= \sum_{k=1}^n n \frac{(n-1)!}{\left( (n-1) - (k-1) \right) ! (k-1)!} p p^{k-1} (1-p)^{(n-1)-(k-1)} \\ &= np \sum_{k'=0}^{n-1} \frac{(n-1)!}{\left( (n-1) - k'\right) ! k'!} p p^{k'} (1-p)^{(n-1)-k'} \\ &= np \left( (p + (1-p) \right) ^{n-1} \\ &= np \end{alignat*}

以上を併せて、

(7)    \begin{alignat*}{1} V(X) &= n(n-1) p^2 + np - (np)^2 \\ &= np(1-p) \end{alignat*}

微分による方法

この方法は、kp^k, \; k^2 p^kの形に着目して、全事象の式を微分する方法。式展開が素直であり、平均の式を微分した結果がそのまま分散の式になってしまうところが美しい。

平均

二項分布の全確率の和は1となる。

(8)    \begin{equation*} \sum_{k=0}^n {}_n \mathrm{C}_k p^k (1-p)^{n-k} = (p + 1 - p)^n = 1 \end{equation*}

この式の両辺をpで微分する。

(9)    \begin{gather*} \sum_{k=0}^n {}_n \mathrm{C}_k \left( k p^{k-1} (1-p)^{n-k} - (n-k)p^k (1-p)^{n-k-1} \right) = 0 \\ \sum_{k=0}^n {}_n \mathrm{C}_k p^{k-1} (1-p)^{n-k-1} \left( k(1-p) - (n-k)p \right) = 0 \\ \sum_{k=0}^n {}_n \mathrm{C}_k p^{k-1} (1-p)^{n-k-1} (k - np) = 0 \\ \end{gather*}

両辺にp(1-p)をかける。

(10)    \begin{gather*} \sum_{k=0}^n {}_n \mathrm{C}_k p^k (1-p)^{n-k} (k - np) = 0 \\ \sum_{k=0}^n k {}_n \mathrm{C}_k p^k (1-p)^{n-k} = np \sum_{k=0}^n {}_n \mathrm{C}_k p^k (1-p)^{n-k}\\ \therefore E(X) = np \end{gather*}

分散

式(10)をもう一度pで微分する。

(11)    \begin{gather*} \sum_{k=0}^n k {}_n \mathrm{C}_k p^k (1-p)^{n-k} = np \\ \sum_{k=0}^n k {}_n \mathrm{C}_k \left( kp^{k-1} (1-p)^{n-k} -(n-k)p^k (1-p)^{n-k-1} \right) = n\\ \sum_{k=0}^n k {}_n \mathrm{C}_k p^{k-1} (1-p)^{n-k-1} \left( k (1-p) -(n-k)p \right) = n\\ \sum_{k=0}^n k {}_n \mathrm{C}_k p^{k-1} (1-p)^{n-k-1} (k  - np) = n\\ \end{gather*}

両辺にp(1-p)をかける。

(12)    \begin{gather*} \sum_{k=0}^n k {}_n \mathrm{C}_k p^k (1-p)^{n-k} (k  - np) = np(1-p) \\ \sum_{k=0}^n k^2 {}_n \mathrm{C}_k p^k (1-p)^{n-k} - np \sum_{k=0}^n k {}_n \mathrm{C}_k p^k (1-p)^{n-k}= np(1-p) \\ E(X^2) - (np)^2 = np(1-p) \\ \therefore V(X) = np(1-p) \end{gather*}

 

相関係数

相関係数の定義

相関係数は、多数のデータの組がどの程度線形に近い性質を持つかを表す値で、以下で定義される。

(1)    \begin{eqnarray*} r &=& \frac{{\rm Cov}(X, Y)}{\sqrt{V(X) \cdot V(Y)}} \\ &=& \frac{E(X - \overline{X})(Y - \overline{Y})} {\sqrt{ ( E\left[ (X - \overline{X})^2 \right] E\left[ (Y - \overline{Y})^2 \right] }} \\ &=& \frac{\displaystyle \sum_{i=1}^{n}(x_i - \overline{x})(y_i - \overline{y})} {\left[ \displaystyle \sum_{i=1}^{n} (x_i - \overline{x})^2 \displaystyle \sum_{i=1}^{n} (y_i - \overline{y})^2 \right]^{1/2}} \end{eqnarray*}

相関係数の線形変換

変数を線形変換した場合の相関係数は分散・共分散の性質から、以下のようになり、元のままか符号が反転する。

(2)    \begin{eqnarray*} r' &=& \frac{{\rm Cov}(aX+b, cY+d)}{\sqrt{V(aX+b) \cdot V(cY+d)}} \\ &=& \frac{ac{\rm Cov}(X, Y)}{\sqrt{a^2 V(X) \cdot c^2 V(Y)}} \\ &=& \frac{ac}{|ac|} \cdot r \end{eqnarray*}

完全線形関係の場合の相関係数

XとYが完全な線形関係にある場合、相関係数は1または-1になる。このとき、傾きの大きさや、平行移動は相関係数に影響しない。

(3)    \begin{eqnarray*} r &=& \frac{ {\rm Cov}(X, aX+b) } { \left[ V(X) \cdot V(aX+b) \right]^{1/2} } \\ &=& \frac{ a {\rm Cov}(X, X) } { \left[ V(X) \cdot a^2 V(X) \right]^{1/2} } \\ &=& \frac{a}{\sqrt{a^2}} \cdot \frac{ {\rm Cov}(X, X) } { \left[ V(X) \cdot V(X) \right]^{1/2} } \\ &=& \frac{a}{|a|} \cdot \frac{ V(X) } { V(X) } \\ &=& 1 \; {\rm or} \; -1 \end{eqnarray*}

いろいろな分布の相関係数

完全な線形関係

以下のコードで確認。

相関係数は傾きや平行移動に対して影響を受けず、増加関数なら1、減少関数なら-1になることがわかる。

線形性が強い関係

線形関数の値に対して、乱数でばらつきを与えた場合の相関係数の違いを示す。ばらつきが大きい方が相関係数は小さくなる。

負の線形性が強い場合は、相関係数がマイナスになる。

放物線(強い関係があるのに相関が低いケース)

以下のような放物線では、XとYにきちんとした数学的関係があるのに、相関係数がゼロに近くなる。

相関係数はXとYが単調増加/単調減少の度合いが強いほど、また線形関係に近いほど1に近くなるが、それ以外の関係が強い場合にはそれを補足できない場合がある。

反比例(負の線形性に見えてしまう場合)

以下は反比例関数の場合。

関数の形状や範囲に寄るが、この場合は相関係数の絶対値が0.8以上と1に近く、これだけ見ると負の線形性が強そうに見える。

対数関数(正の線形性に見えてしまう場合)

対数関数の場合。この場合は0.9以上とかなり強い線形性を示唆している。

相関係数に関する注意

本来の関係との乖離

先にみたように、線形関係ではないが数学的な関係を持つ場合に、相関係数からは全く関係がない、元の関係とは異なり線形関係を持つ、といった解釈になることがある。

相関係数が高い場合に、線形回帰式などで物事を予測する際には注意が必要。

変数間に解析的な関係が見いだせるならそれを重視すべきであり、よしんばそれがわからないにしても、定義域の範囲で「ある程度は当たる」程度に考えておくべきか。

因果関係

堂々と間違えられるケースが、「科学的な」記事やマスメディアなどでよくみられる。

相関係数は「変数間の単調な増加/減少傾向が強いかどうか」だけを示すもので、必ずしも因果関係を示唆しない。

気温が高いとビールはよく売れるがおでんは売れない。その二つに負の相関があるからといって、「ビール好きはおでんが嫌い」と言えないが、形を変えてこのような解釈がなされる恐れがある。

もともとのメカニズムで因果関係が示唆されていて、その上で相関係数の大きさを論じるなら意義もあるが、その場合でも、事象に対する寄与度などをよく考えておかないと「それだけが原因」と考えるような間違いを犯すことになる。

 

標準正規分布

標準正規分布の使い方

平均\mu、分散\sigma^2の正規分布N(\mu, \sigma^2)の確率密度関数は以下の通り。

(1)    \begin{equation*} f(x) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( - \frac{(x - \mu)^2}{2 \sigma^2} \right) \end{equation*}

この場合、X \leq tとなる確率は以下のように表される。

(2)    \begin{equation*} \Pr(X \leq t) = \int_{-\infty}^{t} f(x) dx = \int_{-\infty}^{t} \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( - \frac{(x - \mu)^2}{2 \sigma^2} \right) dx \end{equation*}

ここで、確率変数を以下のように変換する。

(3)    \begin{equation*} Z = \frac{X - \mu}{\sigma} \quad , \quad u = \frac{t - \mu}{\sigma} \end{equation*}

これを式(2)に適用し、dx = \sigma dzに留意して、

(4)    \begin{equation*} \Pr(X \leq t) &=& Pr \left( \frac{X - \mu}{\sigma} \leq \frac{t - \mu}{\sigma} \right) = \int_{-\infty}^{\frac{t - \mu}{\sigma}} \frac{1}{\sqrt{2 \pi}} \exp \left( - \frac{z^2}{2} \right) dz\end{equation*}

標準正規分布の確率に対する確率変数uの値を覚えていれば、母集団の平均と標準偏差が与えられたとき、上記の変数変換を行って、確率値を得ることができる。

例題

厚生労働省による「平成29年国民健康・栄養調査報告」によると、26歳~29歳の日本人男性の身長は、平均が171.0cm、標準偏差が5.8cmとなっている。この年代層で身長が180cmを超える確率は、

(5)    \begin{equation*} Pr(X > 180) = Pr \left(Z > \frac{180 - 171.0}{5.8} \right) = Pr(Z > 1.5517) \end{equation*}

このuの典型的な値と確率のセットを覚えておけば、確率を知ることができる。この場合は1.5より少し大きいので、超過確率は6%程度とわかる(より正確には6.04%)。

uが0.5なら3割程度、1なら16%、1.5で6.7%になる。

逆に超過確率25%ならu=0.67、10%なら1.28、5%(両側90%以内)で1.64、2.5%(両側95%以内)なら1.96。

 

標準正規分布の確率

典型的な値

標準正規分布のZに対する確率\Pr(Z \leq u)uに対する確率は標準正規分布表で与えられているが、以下の値は覚えておくとよい。

z \Pr(Z > u) \Pr(-u \leq Z \leq u)
0.5 0.31 0.38
0.67449 (0.67) 0.25 0.5
0.84162 0.2 0.6
1 0.16 0.68
1.03643 0.15 0.7
1.15035 0.125 0.75
1.28155 (1.28) 0.1 0.8
1.5 0.067 0.87
1.64485 (1.64) 0.05 0.9
1.95996 (1.96) 0.025 0.95
2 0.023 0.95
2.32635 (2.32) 0.01 0.98
2.57584 (2.58) 0.005 0.99

標準正規分布表

std_norm_dist_table

チェビシェフの不等式

チェビシェフの不等式は何がありがたいかというと、「確率分布がどのようなものであっても、平均と分散の値さえわかっていれば、確率変数の値が平均からはずれる確率がいくら以下か計算できる」ということにある。

たとえばあるデータの平均が\mu、分散が\sigma^2とわかっているとき、データが\muから\pm aより外れる確率が少なくともどの程度以下か(あるいはその範囲に収まる確率が少なくともどの程度以上か)、というのを教えてくれる。

チェビシェフの不等式は、以下のようにいくつかの表し方がある

(1)    \begin{equation*} \Pr(|X - \mu| \geq k) \leq \frac{\sigma^2}{k^2} \end{equation*}

ここでk = a\sigmaとおけば、

(2)    \begin{equation*} \Pr (|X - \mu| \geq a \sigma ) \leq \frac{1}{a^2} \end{equation*}

これを余事象で表すと、

(3)    \begin{equation*} \Pr (|X - \mu| < a\sigma) \geq 1 - \frac{1}{a^2} \end{equation*}

ただし、これらの式においてk > 1

この不等式の意義は、確率変数がどのような確率分布に従っているとしても成り立つところにある。ただし、その過程で相当の”切り落とし”をしているので実用的な精度ではない。

たとえば母集団が標準正規分布に従う場合、Z=2,3に対して0.9545、0.9973であるのに対して、チェビシェフの不等式では|X - \mu| \leq a \sigmaとなる確率はa = 2, 3に対して、0, \frac{3}{4}=0.75, \frac{8}{9}=0.899...以上となる。

 

証明:離散確率

離散確率で、|X - \mu|の値に応じて確率変数を以下のように区分する。

(4)    \begin{equation*} \{X = x_i : |x_i - \mu| \geq k\} \ ,\  \{X = y_j : |y_j - \mu| < k\} \end{equation*}

また、以下の確率分布を定義する。

(5)    \begin{equation*} \Pr(|X - \mu| \geq k) = \sum P(X = x_i) \end{equation*}

このとき、以下が成り立つ。

(6)    \begin{eqnarray*} \sigma^2 &=& \sum (x_i - \mu)^2 P(X=x_i) + \sum (y_j - \mu) P(X=y_j) \\ &\geq& \sum (x_i - \mu)^2 P(X=x_i) \\ &\geq& \sum k^2 P(X=x_i) \ \leftarrow {\rm where} \ k > 1\\ &\geq& k^2 \sum \Pr(X=x_i) \\ &=& k^2 \Pr(|X - \mu| \geq k) \end{eqnarray*}

(7)    \begin{equation*} \therefore \ \Pr(|X - \mu| \geq k) \leq \frac{\sigma^2}{k^2} \end{equation*}

証明:連続確率

確率の定義から以下が成り立つ。

(8)    \begin{equation*} \Pr(|X-\mu| \geq k ) = \int_{-\infty}^{\mu - k} f(x) dx + \int_{\mu + k}^{\infty} f(x) dx \\ \end{equation*}

ここで、以下のように変数を変換する。

(9)    \begin{equation*} y = x - \mu \end{equation*}

これより、以下が成り立つ。

(10)    \begin{eqnarray*} \sigma^2 &=& \int_{-\infty}^{\infty} (x - \mu)^2 f(x) dx \\ &=& \int_{-\infty}^{-k} y^2 f(x) dy + \int_{-k}^{k} y^2 f(x) dy + \int_{k}^{\infty} y^2 f(x) dy \\ &\geq& \int_{-\infty}^{-k} y^2 f(x) dy + \int_{k}^{\infty} y^2 f(x) dy \\ &\geq& \int_{-\infty}^{-k} k^2 f(x) dy + \int_{k}^{\infty} k^2 f(x) dy \ \leftarrow {\rm where} \ k > 1 \\ &=& k^2 \left( \int_{-\infty}^{-k} f(x) dy + \int_{k}^{\infty} f(x) dy \right) \\ &=& k^2 \left( \int_{-\infty}^{\mu -k} f(x) dx + \int_{\mu + k}^{\infty} f(x) dx \right) \\ &=& k^2 \Pr(|X-\mu| \geq k ) \end{eqnarray*} \\

(11)    \begin{equation*} \therefore \ \Pr(|X - \mu| \geq k) \leq \frac{\sigma^2}{k^2} \end{equation*}

 

確率統計 – 不偏分散の導出

 

標本分散s^2は次式で求められる。このs^2と、母分散\sigma^2の関係を導いてゆく。

(1)    \begin{equation*} s^2 = \frac{1}{n} \sum_{i=1}^{n} ( x_i - \overline{x} )^2 \end{equation*}

以後、\sumのパラメータを省略する。まず\muを母平均として、\sum (x_i - \overline{x})^2を以下のように変形する。

(2)    \begin{eqnarray*} \sum (x_i - \overline{x})^2 &=& \sum \left( (x_i - \mu) - (\overline{x} - \mu) \right)^2 \\ &=& \sum (x_i - \mu)^2 - 2 \sum (x_i - \mu)(\overline{x} - \mu) + \sum (\overline{x} - \mu)^2 \\ &=& \sum(x_i - \mu)^2 - 2 (\overline{x} - \mu) \sum (x_i - \mu) + n (\overline{x} - \mu)^2 \\ &=& \sum(x_i - \mu)^2 - n (\overline{x} - \mu)^2 \end{eqnarray*}

これより、標本分散s^2の期待値は以下のようになる。

(3)    \begin{eqnarray*} E(s^2) &=& E \left( \frac{1}{n} \left( \sum(x_i - \mu)^2 - n (\overline{x} - \mu)^2 \right) \right) \\ &=& E \left( \frac{1}{n} \sum(x_i - \mu)^2 \right) - E \left( (\overline{x} - \mu)^2 \right) \end{eqnarray*}

1項目については、

(4)    \begin{equation*} E \left( \frac{1}{n} \sum(x_i - \mu)^2 \right) = \frac{1}{n} \sum E(x_i - \mu)^2 = \frac{1}{n} \sum \sigma^2 = \sigma^2 \end{equation*}

また第2項目は標本平均の分散より、

(5)    \begin{equation*} E \left( (\overline{x} - \mu)^2 \right) = \frac{\sigma^2}{n} \end{equation*}

 

これらより、標本分散の期待値は以下のようになる。

(6)    \begin{equation*} E(s^2) = \sigma^2 - \frac{\sigma^2}{n} = \frac{n-1}{n} \sigma^2 \end{equation*}

式(6)より、母分散を得るために以下のように変形。

(7)    \begin{equation*} E \left( \frac{n}{n-1} s^2 \right) = \sigma^2 \end{equation*}

これは、左辺の()の中が母分散\sigma^2の不偏推定量であることを示している。このことから、母分散に対する不偏分散u^2は次式で表される。

(8)    \begin{equation*} u^2 = \frac{n}{n-1} s^2 = \frac{1}{n-1} \sum_{i=1}^{n} ( x_i - \overline{x} ) \end{equation*}

不偏分散の分母がn-1となっているのは、母分散ならx_i - \muとなるところが、標本の計算ではx_i - \overline{x}であり、\overline{x}が他の標本から計算されることから、変数の数(自由度)が1少ないことを表している。自由度が少なければ、目指す値を計算するデータが一つ少なくなり、ばらつきはその分大きくなる。

 

 

標本平均の期待値と分散

不偏推定量

標本平均の期待値、分散について考える。イメージとして、母集団からn個の標本値を取り出して期待値\overline{x}を計算し、これを繰り返した場合の\overline{x}の平均と分散を求めることになる。

まず、\overline{x}の期待値については以下のように計算され、標本平均の期待値が母平均の不偏推定量であることがわかる。

(1)    \begin{equation*} E(\overline{x}) = E \left( \frac{1}{n} \sum_{i=1}^{n} x_i \right) = \frac{1}{n} \sum_{i=1}^{n} E(x_i) = \frac{1}{n} \sum_{i=1}^{n} \mu = \mu \end{equation*}

次に\overline{x}の分散は以下のように計算される。

(2)    \begin{equation*} V( \overline{x} )= V \left( \frac{1}{n} \sum_{i=1}^{n} x_i \right) = \frac{1}{n^2} \sum_{i=1}^{n} V(x_i) = \frac{1}{n^2} \cdot n \sigma^2 = \frac{\sigma^2}{n} \end{equation*}

ここで、xiはそれぞれ独立に選ばれることから、V(x1, …, xn)は線形に分解できる。

標本平均\overline{x}の分散がXの母分散をnで割った値となっているのは、標本平均を計算する項数が多いほど期待値に対する誤差が小さくなることを示唆している。

式(2)は、次のように偏差の自乗和の期待値でも表現できる。

(3)    \begin{equation*} V( \overline{x} ) = E\left( (\overline{x} - \mu )^2 \right) = \frac{\sigma^2}{n} \end{equation*}

確率分布

標本X1, …, Xnの母集団正規分布N(μ, σ2)に従うとき、標本の和X1 + ··· + Xnは正規分布N(, 2)に従い標本平均\overline{X}はN(μ, 2/n)に従うことが知られている。

また母集団の分布が正規分布でないとしても、中心極限定理により、標本の数(この場合は平均を取り出す回数)を多くすれば、その平均は正規分布に従う。