微分の定義
初等的な微分の定義は以下の通り。
(1)
関数の積・商の微分
関数の積の微分
(2)
(3)
ここで
(4)
したがって、
(5)
これより以下を得る。
(6)
関数の商の微分
(8)
(9)
これより(7)を得る。
合成関数の微分
(10)
とおくと、
(11)
逆関数の微分
(12)
(13)
とおいて、合成関数の微分より、
(14)
媒介変数表示
(15)
、とおいて、
(16)
初等的な微分の定義は以下の通り。
(1)
(2)
(3)
ここで
(4)
したがって、
(5)
これより以下を得る。
(6)
(8)
(9)
これより(7)を得る。
(10)
とおくと、
(11)
(12)
(13)
とおいて、合成関数の微分より、
(14)
(15)
、とおいて、
(16)
中心極限定理(central limit theorem: CLT)は、一言で言えば次のようになる。「母集団がどのような確率分布に従うとしても、標本の数を十分大きくしたときには、その合計値あるいは標本平均は、正規分布に従う」
具体的には、母集団の平均を、標準偏差をとし、が十分に大きいとき、
中心極限定理は、一般には以下のように表される。
(1)
これを少し変形すると、
(2)
たとえば、サイコロを回振った目の合計を考える。全て1(合計が)や全て6(合計が6)というケースは稀なので、その間の値になりそうだと予想される。
中心極限定理を用いると、個のサイコロの目の平均と分散より、個のサイコロの目の合計は、に従うことになる。
これをRの下記コードで試してみた。一回の試行でサイコロを投げる回数をn.dicesに設定して、その平均を求める試行を1000回繰り返す。
1 2 3 4 5 6 7 8 9 10 11 12 |
n.dices <- 5 n.data <- 1000 num.data <- lambda * t.obs data <- c() for (i in 1:n.data) { data <- c(data, mean(as.integer(runif(n.dices, min=1, max=7)))) } ranks <- seq(0, 6, 0.5) hist(data, breaks=ranks, prob=T, main=paste("n =", n.dices)) curve(dnorm(x, 7/2, 35/12/n.dices), add=TRUE) |
n.dicesの回数を変化させた実行結果は以下の通りで、このケースの場合は、=10程度でもかなり平均の周りに尖った分布となる。
コイントスで表→1、裏→0としたときの平均、分散。分布は{表, 裏]の一様分布。
(1)
(2)
サイコロ1つを投げたときの目の数の平均、分散。分布は{1,2, 3, 4, 5, 6}の一様分布。
(3)
(4)
トランプを一枚引いたときの数の平均、分散。ここでAは1とする。分布は{1, …, 13}の一様分布。
(5)
(6)
大数の法則を簡単に言うと、「標本の数を多くとるほど、標本平均の値は母平均に近づく」というもので、感覚的には当たり前と思われることだが、数学的に証明できる。
「それでは、どの位の数を取ったときに、どの程度の平均からのズレで収まるのか?」という問に対しては、大数の法則は答えていない。
大数の法則には弱法則と強法則の2つがあり、それぞれ次のように表される。
標本平均の標本数を限りなく多くとれば、そのが平均の近傍からはずれる確率をいくらでも小さくできる。
(1)
チェビシェフの不等式にを適用する。
(2)
ここで標本平均の期待値と分散を適用して極限をとると
(3)
標本平均の標本数を限りなく多くとれば、はほぼ確実に(確率1で)に収束する。
(4)
対数の強法則は弱法則に比べて強い主張であり、その分証明は難しくなるとのこと。
平均、分散の正規分布の確率密度関数は以下の通り。
(1)
この場合、となる確率は以下のように表される。
(2)
ここで、確率変数を以下のように変換する。
(3)
これを式(2)に適用し、に留意して、
(4)
標準正規分布の確率に対する確率変数の値を覚えていれば、母集団の平均と標準偏差が与えられたとき、上記の変数変換を行って、確率値を得ることができる。
厚生労働省による「平成29年国民健康・栄養調査報告」によると、26歳~29歳の日本人男性の身長は、平均が171.0cm、標準偏差が5.8cmとなっている。この年代層で身長が180cmを超える確率は、
(5)
このuの典型的な値と確率のセットを覚えておけば、確率を知ることができる。この場合は1.5より少し大きいので、超過確率は6%程度とわかる(より正確には6.04%)。
が0.5なら3割程度、1なら16%、1.5で6.7%になる。
逆に超過確率25%なら=0.67、10%なら1.28、5%(両側90%以内)で1.64、2.5%(両側95%以内)なら1.96。
標準正規分布のに対する確率のに対する確率は標準正規分布表で与えられているが、以下の値は覚えておくとよい。
z | ||
0.5 | 0.31 | 0.38 |
0.67449 (0.67) | 0.25 | 0.5 |
0.84162 | 0.2 | 0.6 |
1 | 0.16 | 0.68 |
1.03643 | 0.15 | 0.7 |
1.15035 | 0.125 | 0.75 |
1.28155 (1.28) | 0.1 | 0.8 |
1.5 | 0.067 | 0.87 |
1.64485 (1.64) | 0.05 | 0.9 |
1.95996 (1.96) | 0.025 | 0.95 |
2 | 0.023 | 0.95 |
2.32635 (2.32) | 0.01 | 0.98 |
2.57584 (2.58) | 0.005 | 0.99 |
チェビシェフの不等式は何がありがたいかというと、「確率分布がどのようなものであっても、平均と分散の値さえわかっていれば、確率変数の値が平均からはずれる確率がいくら以下か計算できる」ということにある。
たとえばあるデータの平均が、分散がとわかっているとき、データがからより外れる確率が少なくともどの程度以下か(あるいはその範囲に収まる確率が少なくともどの程度以上か)、というのを教えてくれる。
チェビシェフの不等式は、以下のようにいくつかの表し方がある
(1)
ここでとおけば、
(2)
これを余事象で表すと、
(3)
ただし、これらの式において。
この不等式の意義は、確率変数がどのような確率分布に従っているとしても成り立つところにある。ただし、その過程で相当の”切り落とし”をしているので実用的な精度ではない。
たとえば母集団が標準正規分布に従う場合、に対して0.9545、0.9973であるのに対して、チェビシェフの不等式ではとなる確率はに対して、以上となる。
離散確率で、の値に応じて確率変数を以下のように区分する。
(4)
また、以下の確率分布を定義する。
(5)
このとき、以下が成り立つ。
(6)
(7)
確率の定義から以下が成り立つ。
(8)
ここで、以下のように変数を変換する。
(9)
これより、以下が成り立つ。
(10)
(11)
標本分散は次式で求められる。このと、母分散の関係を導いてゆく。
(1)
以後、のパラメータを省略する。まずを母平均として、を以下のように変形する。
(2)
これより、標本分散の期待値は以下のようになる。
(3)
1項目については、
(4)
また第2項目は標本平均の分散より、
(5)
これらより、標本分散の期待値は以下のようになる。
(6)
式(6)より、母分散を得るために以下のように変形。
(7)
これは、左辺の()の中が母分散の不偏推定量であることを示している。このことから、母分散に対する不偏分散は次式で表される。
(8)
不偏分散の分母がとなっているのは、母分散ならとなるところが、標本の計算ではであり、が他の標本から計算されることから、変数の数(自由度)が1少ないことを表している。自由度が少なければ、目指す値を計算するデータが一つ少なくなり、ばらつきはその分大きくなる。
標本平均の期待値、分散について考える。イメージとして、母集団からn個の標本値を取り出して期待値を計算し、これを繰り返した場合のの平均と分散を求めることになる。
まず、の期待値については以下のように計算され、標本平均の期待値が母平均の不偏推定量であることがわかる。
(1)
次にの分散は以下のように計算される。
(2)
ここで、xiはそれぞれ独立に選ばれることから、V(x1, …, xn)は線形に分解できる。
標本平均の分散がXの母分散をnで割った値となっているのは、標本平均を計算する項数が多いほど期待値に対する誤差が小さくなることを示唆している。
式(2)は、次のように偏差の自乗和の期待値でも表現できる。
(3)
標本X1, …, Xnの母集団が正規分布N(μ, σ2)に従うとき、標本の和X1 + ··· + Xnは正規分布N(nμ, nσ2)に従い標本平均はN(μ, σ2/n)に従うことが知られている。
また母集団の分布が正規分布でないとしても、中心極限定理により、標本の数(この場合は平均を取り出す回数)を多くすれば、その平均は正規分布に従う。
標本分散・母分散は、標本値や確率変数の平均からの偏差の自乗平均で定義される。
(1)
(2)
(3)
分散の定義の一般形は以下の通りで、母集団の確率分布によらない。
(4)
(5)
分散には以下の性質がある。
(6)
(7)
(8)
標本値、確率変数に定数を加えても、分散の値は変わらない。これは、分散が各標本値・確率変数の平均からの偏差の平均であり、定数のバイアスはキャンセルアウトされることから明らかでもある。
(9)
標本値、確率変数を定数倍した場合、分散の値は定数の自乗倍になる。これは、分散の定義の形からも明らか。
(10)
二つの標本値の組や確率変数を加えた場合の分散は、それぞれの分散の和に双方の共分散を加えた値になる。平均のような線形性がなく、2変数の和の2乗を展開した形と類似している。
(11)
上式でなどと置き換えている。
3つ確率変数の和の場合は以下の通りで、3つの変数の和の2乗を展開した形と類似している。
(12)
(13)
確率変数とが独立なとき、次項で示すように共分散がゼロとなり、以下が成り立つ。
(14)
2つの標本値、確率変数の共分散は以下で定義される。
(15)
これは以下のようにも表現できる。
(16)
(17)
共分散は、2つの標本値、確率変数に正の相関が強い場合に生となり、負の相関が強い場合に負となる。また、相関が弱い場合にゼロに近くなる。
共分散の変数に定数を加えても、加える前の共分散と同じ値になる。定数をいずれの変数に加えても同じ。
(18)
共分散の変数を定数倍すると、もとの共分散の定数倍になる。両方の変数を定数倍すると、もとの共分散に双方の定数の積を乗じた値になる。
(19)
標本値、確率変数の和は、加える前の個々の共分散の和になる。すなわち、共分散においては分配法則が成り立つ。
(20)
(21)
2つの確率変数の事象が独立な場合、共分散はゼロとなる。
とが独立ならば、その同時生起確率はそれぞれの確率の積となるので。
(22)
これより
(23)
これを定義式に適用してが確認できる。
とが独立なとき、その確率密度はそれぞれの確率密度の積となる。
(24)
これより
(25)
これを定義式に適用してが確認できる。
XとYが完全な線形関係にある場合の共分散は、XまたはY(いずれでもよい)の分散の定数倍になる。
(26)
平均の定義には標本平均と確率変数の平均があって、それぞれ定義が異なるので、ここで整理する。
標本平均に対しては算術平均、幾何平均、調和平均などの定義があるが、ここでは算術平均を対象とする。
標本平均は、標本データの値を足し合わせてその個数で割った値。
標本の値がのとき、標本平均は標本値の算術平均で定義される。
(1)
確率変数の平均は、離散型の場合と連続型の場合それぞれで定義される。
離散型の確率変数がの値を取り、それぞれの値をとる確率をと表すと、の母平均は確率変数とその確率変数の発生確率の積の総和で定義される。
(2)
連続型の確率変数の平均は、確率密度関数をとすると、の母平均は、確率変数とその値に対する確率密度の積の全定義域における積分で定義される。
(3)
平均(期待値)には以下の性質がある。これらは、母集団の確率分布に関係なく常に成り立つ。
(4)
(5)
(6)
標本値、確率変数に定数を加えた場合の平均は、元の平均に定数を加えた値に等しい。
(7)
(8)
(9)
標本値、確率変数を定数倍した場合の平均は、元の平均の定数倍に等しい。
(10)
(11)
(12)
複数の標本値(データセット)、確率変数を加えた場合の平均は、それぞれの平均の和に等しい
(13)
確率変数が、がであり、、はそれぞれの確率分布に従うとする。また、との同時生起確率をと表す。
このとき、確率変数の平均は以下のように計算される。
(14)
上式の第1項についてみると、の値に対してすべてののとりうる値を考慮していることから、とそれに対する生起確率となり、第1項はの平均となる。
(15)
第2項も同様にの平均なので、以下が成り立つ。
確率変数に対する同時生起確率密度をとすると、
(16)
離散型と同様の考え方により、上式の第1項、第2項はそれぞれの平均となり、次式が成り立つ。