102 A 代表的な確率分布
こで実際に正規近似で計算してみると,nθ= 200, nθ(1−θ) = 100 なので P(180≤X ≤220)≈Φ
(220−200
√100 )
−Φ
(180−200
√100 )
= Φ(2)−Φ(−2)≈0.954 となり,二項分布で計算した結果0.9598とほぼ一致する.
二項分布は再生性を持つので,その極限でもある正規分布が再生性を持っても不思議はない.
定理 A.23 (正規分布の再生性). X, Y が独立で X ∼ N(µ1, σ21), Y ∼ N(µ2, σ22) のとき,
X+Y ∼N(µ1+µ2, σ1+σ2)が成り立つ.(証明略)
これから,正規母集団からの標本平均について次のことが成り立つ.
系 A.24. i.i.d. Xk ∼N(µ, σ2)の標本平均はXn ∼N(µ, σ2/n).
次の性質は,他の箇所で使うのでここで証明しておく.一般に確率変数 X に対してE[Xn]をn 次 モーメントといい,以下はN(0,1)のモーメントを求めていることになる.
命題A.25. Z∼N(0,1) に対して
E[Zn] = {
0 nが奇数のとき (n−1)!! nが偶数のとき
ただし(n−1)!! = (n−1)(n−3)× · · · ×3×1. 特に,E[Z2] = 1, E[Z4] = 3である.
証明. p(x)をN(0,1) の密度関数,つまりp(x) = 1
√2πe−x
2
2 とすれば,p(x)は偶関数で d dxp(x) =
−xp(x)である.
nが奇数のとき,E[Zn] =
∫ ∞
−∞
xnp(x)dxは奇関数の原点対称区間における積分なのでE[Zn] = 0.
nが偶数のとき,部分積分により E[Zn] =
∫ ∞
−∞
xn−1·xp(x)dx
=[
xn−1·(−p(x))]∞
−∞+ (n−1)
∫ ∞
−∞
xn−2p(x)dx
= (n−1)E[Zn−2] = (n−1)(n−3)E[Zn−4]
=· · ·= (n−1)(n−3)× · · · ×3×1×E[Z0] = (n−1)!!
\(^o^)/
A.4 Poisson(ポアソン)分布 103
い, X ∼Poi(λ)と書くことにする.パラメータλのことを強度 (intensity) ということもあ
る.X の値域は全ての非負整数{0,1,2, . . .} であり上限はない.
補足A.27 (Poissonの読みとカタカナ表記). Poissonはフランスの数学者の名前なのでフランス
語読みすればいいのだが,それをカタカナ表記する際,人によってポアソン,ポワソン,ポワッ ソンなどの表記揺れが発生するので,探し物をするときはその点も留意しておくといいかもしれ ない.
細かい計算の前にこの分布の使い道に簡単に触れておくと,典型的には単位時間あたり平均で λ 回 発生するランダムな現象が,実際にある単位時間内で発生する回数X はPoi(λ)に従うと考えられる.
2単位時間内での発生回数ならPoi(2λ)である.例えば
一日の交通事故件数,あるコンビニ店舗の一日の来客数,駅の一日の利用客数 であるとか,実際には単位「時間」である必要はないので
単位面積あたりの雨粒の数,文章1ページ毎のタイプミスの数
などはPoisson分布に従うと仮定されることがある.何故そう考えられるのかは少数の法則の所で軽く
解説するが,一つ注意しておかなければならないのは,実際に観測されたデータが特定の分布(例えば 正規分布やPoisson分布)に従っているかどうかは何かしらの方法で検定すべき問題であり,「テスト の点数だから正規分布」とか「事故の件数だからPoisson分布」というように盲信する話ではないこ とである.
命題A.28 (Poisson分布の期待値と分散). (A.6)は確かに確率質量関数であり,X ∼Poi(λ)の 期待値と分散はE[X] =V[X] =λ.
注A.29. (1) Poisson分布のパラメータ λ は期待値そのものである.そうなるようにパラ メータ設定している.
(2) E[X] =V[X] はPoisson分布の大きな特徴の一つである.
証明. まず,テイラー展開(マクローリン展開)eλ=
∑∞ k=0
λk
k! の両辺をeλで割れば1 =
∑∞ k=0
e−λλk k! =
∑∞ k=0
p(k)なので,確かに質量関数である.
期待値は定義通りに計算すると
E[X] =
∑∞ k=0
ke−λλk k!
(∗)
=
∑∞ k=1
e−λ λk (k−1)! =λ
∑∞ k=1
e−λ λk−1 (k−1)!
(∗∗)
= λ
∑∞ ℓ=0
e−λλℓ ℓ! =λ
上の計算で,(∗)の部分では k= 0 の項は消えるのでk= 1 からにして約分,(∗∗) の部分では単に
104 A 代表的な確率分布
ℓ=k−1 と置いて書き換えている.同様の計算により E[X2] =
∑∞ k=0
k2e−λλk k! =λ
∑∞ k=1
ke−λ λk−1
(k−1)! (上の(∗)と同様)
=λ
∑∞ ℓ=0
(ℓ+ 1)e−λλℓ
ℓ! ((∗∗)同様ℓ=k−1と置換)
=λ
∑∞ ℓ=0
ℓe−λλℓ ℓ! +λ
∑∞ ℓ=0
e−λλℓ
ℓ! =λ·λ+λ
なので,V[X] =E[X2]−(E[X])2=λ2+λ−(λ)2=λ. \(^o^)/
別証明. 次のやり方も有名.(というかこの方が楽なのだが,べき級数の性質を理解していなくても解っ た気になったりするので,それはそれで問題かと思っている.)テイラー展開eλ=
∑∞ k=0
λk
k! の両辺を λ で微分すると左辺は(eλ)′ =eλ だが,右辺は項別微分可能(ここで微積の知識が問われる)なので
eλ= d dλ
(∞
∑
k=0
λk k!
)
=
∑∞ k=1
kλk−1 k! . 両辺にλe−λをかけると左辺は λ, 右辺は∑
kp(k) =E[X]になるのでE[X] =λ. 上式に λをかけた λeλ=∑
kλk/k!に同様の計算を行えば E[X2]からV[X]を求められる. \(^o^)/
Poisson分布の意味を考えるには次の定理(少数の法則と呼ばれる)が基本になる.
定理 A.30 (Poissonの少数の法則). λ >0 は定数とする. nθ=λという条件の下で n→ ∞ という極限(このとき自動的に θ→0)を考えると,X ∼B(n, θ)の分布はPoi(λ)に収束する.
すなわち
lim
nθ=λ;
n→∞
nCkθk(1−θ)n−k=e−λλk k!.
こ の 定 理 を ,一 回 一 回 の 試 行 で は あ ま り 発 生 し な い (θ ≈ 0) 現 象 で も 試 行 回 数 が 多 い た め (n ≈ ∞) 全体としてそれなりに発生する (λ = nθ) ような現象の発生回数は Poisson 分布に 従 うと 解 釈 す れ ば ,事 故 の 件 数 な ど は Poisson 分 布 に 従 う だ ろ う と 考 え ら れ る .な お ,た ま に
「大量に試行されるが稀にしか起こらない現象の回数」のような解説を見かけるが,この表現は適切で はない. λが大きければ大量に発生する(御茶ノ水駅の利用客数を考えてみよ)がPoisson分布には 違いないので,誤解しないように.(とはいえλが大きい場合は正規分布で近似できてしまうため,実
際にPoisson分布が必要になるのは稀な現象を相手にするときが多いだろう.)
少数の法則は以前は二項分布の計算をPoisson分布で近似計算するのにも使われた*49が,正規近 似と同じく近年では近似計算の必要性は高くないだろう.関数電卓程度しか手元にないなら近似計算 も止むを得ずだが,コンピュータが使えるなら二項分布のまま計算しよう.(ただし,素人が安易に
nCkθk(1−θ)n−k を計算するプログラムを書くと破綻したものを書きかねないので,「まともな」ソフ トウェアに任せること.)
*49目安としてはn >50, np≤5くらいの基準を挙げる本が多い.
A.4 Poisson(ポアソン)分布 105
少数の法則の証明. 二項分布の質量関数にθ=λ/nを代入して変形すると
nCkθk(1−θ)n−k = n!
k!(n−k)!
(λ n
)k( 1−λ
n )n−k
=λk k!
n!
nk(n−k)!
( 1−λ
n )n−k
=λk k!
n(n−1). . .(n−k+ 1) nk
( 1−λ
n )−k
. (
1−λ n
)n :::::::::
となる.ここで,三つの下線部はn→ ∞のときそれぞれ n(n−1). . .(n−k+ 1)
nk = 1·
( 1−1
n ) (
1−2 n
) . . .
(
1−k−1 n
)
−→1×1× · · · ×1 = 1 (kは固定なので) (
1−λ n
)−k
−→1−k = 1 (
1−λ n
)n :::::::::
−→eλ ∵ lim
n→∞
( 1 + x
n )n
=ex
となるので結論が従う. \(^o^)/
少数の法則と(A.21)から次のこともわかる.
命題A.31. λが十分大きいとき(連続性補正をすれば λ= 10くらいでも悪くない近似になる),
X ∼Poi(λ)は近似的にN(λ,√
λ)に従う.
少数の法則を介して二項分布の再生性(命題A.8)が伝染すると思えばPoisson分布も再生性をもつこ とは驚くことではないだろう.
命題A.32. X∼Poi(λ)とY ∼Poi(µ)が独立であればX+Y ∼Poi(λ+µ).
解説. これは証明ではなく直感的な解釈である*50.少数の法則から Poi(λ) = lim
nθ=λ;
n→∞
B(n, θ), Poi(µ) = lim
mθ=µ;
m→∞
B(m, θ)なので
Poi(λ) +Poi(µ) = lim
nθ=λ;
n→∞
B(n, θ) + lim
mθ=µ;
m→∞
B(m, θ)
= lim
(m+n)θ=λ+µ;
(m+n)→∞
(B(n, θ) +B(m, θ))
(二項分布の再生性より)= lim
(m+n)θ=λ+µ;
(m+n)→∞
B(m+n, θ) =Poi(λ+µ)
\(^o^)/
例A.33. 問題A.11の(1)を再掲すると,α型の人の人数XはX ∼B (
400, 1 200
)
と考えられる のでP(X ≥2) = 1−P(X ≤1) = 1−(p(0)−p(1)) = 1−
(199 200
)400
−400 ( 1
200 )1(
199 200
)399
≈
0.5947であったが,最後の≈の計算はPCか関数電卓が無いと大変である.それに,厳密値を
(199 200
)399
× 599
200 と求めたところで,これが大体何 %くらいなのかわからないと役には立た
*50きちんと証明するには質量関数の合成積を計算するか,特性関数を用いるなどの方法が知られている.
106 A 代表的な確率分布
ないだろう.この場合 n = 400 は大きく θ = 1
200 は小さいのでPoissonの少数の法則を根 拠に λ = nθ = 2 のPoisson分布で計算してみると, Y ∼ Poi(2) に対して P(Y ≤ 1) = e−220
0! +e−221 1! = 3
e2 ≈0.4060なので1−P(X≤1)≈1−P(Y ≤1)≈1−0.4060 = 0.594 で 確かにほぼ一致しており,P(Y ≤1)の計算はかなり楽になっている.
問題A.34. ある工場で生産している製品の不良品率は1/1000であり,100個ずつを箱詰めして 出荷している.一つの箱に(1) 不良品が一つも含まれない確率と (2)二つ以上不良品が含まれる 確率を求めよ.
【解説】 不良品数 X は X ∼ B(100,0.001) と考えられるが,n = 100 と nθ = 0.1 ≤ 5 で Poisson近似の目安は満たすのでY ∼Poi(0.1)で計算すると
P(Y = 0) =e−0.1= 0.9048374,
P(Y ≥2) = 1−(P(Y ≤1)) = 1−(e−0.1+ 0.1e−0.1) = 1−0.99532112 = 0.00467884 PCを使えば二項分布のままで計算するのも簡単なので並記しておくと
P(X = 0) =e−0.1= 0.9047921,
P(X ≥2) = 1−(P(X ≤1)) = 0.004638068
となり,確かに非常によく近似できている. \(^o^)/
問題 A.35([6]から引用). とある駅の売店では,平均すると月に2冊しか売れないマニアックな 月刊誌を毎月3冊仕入れている.(1) (売り切れで)客の需要を満たせなくなる確率はいくらか.
(2)そんなことになる確率を5%未満にするには最低何冊仕入れる必要があるか.
【解説】 購入希望客数をXとするとX ∼Poi(2)と考えられる.
(1)X ≥4のとき需要を満たせない.(X = 3のときは売り切れるだけで足りなくはならない.)
P(X ≥4) = 1−p(0)−p(1)−p(2)−p(3)
= 1−e−2−2e−2−2e−2−4 3e−2
= 1−19
3 e−2≈0.14
(2)求める冊数をnとして,P(X > n)<0.05つまりP(X ≤n)≥0.95としたい.
∑n k=0
p(k) =
∑n k=0
e−22k k! ≥0.95
∑n k=0
2k
k! ≥0.95/e−2≈7.01
ここで左辺を具体的に計算するとn= 3,4,5のときそれぞれ6.3,7,7.2となるのでn= 5ならよ
い. \(^o^)/
例 A.36. ある300日間の救急車の出動回数について次のデータが得られたとする.
回数 0 1 2 3 4 5 6 計 日数 38 75 89 54 20 19 5 300
A.5 幾何分布(geometric distribution) 107