チェビシェフの不等式

チェビシェフの不等式は何がありがたいかというと、「確率分布がどのようなものであっても、平均と分散の値さえわかっていれば、確率変数の値が平均からはずれる確率がいくら以下か計算できる」ということにある。

たとえばあるデータの平均が\mu、分散が\sigma^2とわかっているとき、データが\muから\pm aより外れる確率が少なくともどの程度以下か(あるいはその範囲に収まる確率が少なくともどの程度以上か)、というのを教えてくれる。

チェビシェフの不等式は、以下のようにいくつかの表し方がある

(1)    \begin{equation*} \Pr(|X - \mu| \geq k) \leq \frac{\sigma^2}{k^2} \end{equation*}

ここでk = a\sigmaとおけば、

(2)    \begin{equation*} \Pr (|X - \mu| \geq a \sigma ) \leq \frac{1}{a^2} \end{equation*}

これを余事象で表すと、

(3)    \begin{equation*} \Pr (|X - \mu| < a\sigma) \geq 1 - \frac{1}{a^2} \end{equation*}

ただし、これらの式においてk > 1

この不等式の意義は、確率変数がどのような確率分布に従っているとしても成り立つところにある。ただし、その過程で相当の”切り落とし”をしているので実用的な精度ではない。

たとえば母集団が標準正規分布に従う場合、Z=2,3に対して0.9545、0.9973であるのに対して、チェビシェフの不等式では|X - \mu| \leq a \sigmaとなる確率はa = 2, 3に対して、0, \frac{3}{4}=0.75, \frac{8}{9}=0.899...以上となる。

 

証明:離散確率

離散確率で、|X - \mu|の値に応じて確率変数を以下のように区分する。

(4)    \begin{equation*} \{X = x_i : |x_i - \mu| \geq k\} \ ,\  \{X = y_j : |y_j - \mu| < k\} \end{equation*}

また、以下の確率分布を定義する。

(5)    \begin{equation*} \Pr(|X - \mu| \geq k) = \sum P(X = x_i) \end{equation*}

このとき、以下が成り立つ。

(6)    \begin{eqnarray*} \sigma^2 &=& \sum (x_i - \mu)^2 P(X=x_i) + \sum (y_j - \mu) P(X=y_j) \\ &\geq& \sum (x_i - \mu)^2 P(X=x_i) \\ &\geq& \sum k^2 P(X=x_i) \ \leftarrow {\rm where} \ k > 1\\ &\geq& k^2 \sum \Pr(X=x_i) \\ &=& k^2 \Pr(|X - \mu| \geq k) \end{eqnarray*}

(7)    \begin{equation*} \therefore \ \Pr(|X - \mu| \geq k) \leq \frac{\sigma^2}{k^2} \end{equation*}

証明:連続確率

確率の定義から以下が成り立つ。

(8)    \begin{equation*} \Pr(|X-\mu| \geq k ) = \int_{-\infty}^{\mu - k} f(x) dx + \int_{\mu + k}^{\infty} f(x) dx \\ \end{equation*}

ここで、以下のように変数を変換する。

(9)    \begin{equation*} y = x - \mu \end{equation*}

これより、以下が成り立つ。

(10)    \begin{eqnarray*} \sigma^2 &=& \int_{-\infty}^{\infty} (x - \mu)^2 f(x) dx \\ &=& \int_{-\infty}^{-k} y^2 f(x) dy + \int_{-k}^{k} y^2 f(x) dy + \int_{k}^{\infty} y^2 f(x) dy \\ &\geq& \int_{-\infty}^{-k} y^2 f(x) dy + \int_{k}^{\infty} y^2 f(x) dy \\ &\geq& \int_{-\infty}^{-k} k^2 f(x) dy + \int_{k}^{\infty} k^2 f(x) dy \ \leftarrow {\rm where} \ k > 1 \\ &=& k^2 \left( \int_{-\infty}^{-k} f(x) dy + \int_{k}^{\infty} f(x) dy \right) \\ &=& k^2 \left( \int_{-\infty}^{\mu -k} f(x) dx + \int_{\mu + k}^{\infty} f(x) dx \right) \\ &=& k^2 \Pr(|X-\mu| \geq k ) \end{eqnarray*} \\

(11)    \begin{equation*} \therefore \ \Pr(|X - \mu| \geq k) \leq \frac{\sigma^2}{k^2} \end{equation*}

 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です