定理 A.45 (指数分布とPoisson 分布の関係). 発生回数が Poi(λ) に従う現象の発生間隔は Exp(λ)に従う.
解説. 1単位時間あたりλ 回発生するランダム現象がt 時間の間に発生する回数 X は Poi(λt)に従 うのでP[X =k] = (λt)k
k! e−λt. 最初の発生までの時間をT とすると,T > t となるのはX = 0 の ときなので,P[T > t] =P[X = 0] =e−λt. ゆえにP[T ≤t] = 1−e−λtだがこれは指数分布であ
る. \(^o^)/
指数分布と幾何分布,Poisson分布と二項分布には密接な関係があるのでここで整理しておこう.
まず,パラメータθ のベルヌーイ過程において,一定期間n の間に 1 が何回発生するかが二項分布 B(n, θ)に従い,最初に1 になるまでの時間がGe(θ)に従うというのは,定理A.45と全く同じ構造を していることに注意しよう.言うなれば,Poisson分布に従う事象の発生間隔は指数分布に従い,二項 分布に従う事象の発生間隔は幾何分布に従うということである.この類似性の理由は次のように理解で きる.少数の法則(定理A.30)では,Xn ∼B(n, θ)の密度関数がX ∼Poi(λ)の密度関数に
lim
nθ=λ;
n→∞
pXn =pX
という形で収束するのだったが,同じ極限でTn ∼Ge(θ) =Ge(λ/n)の分布関数は T ∼Exp(λ)の分 布関数に
FTn(n) = 1−(1−θ)n = 1− (
1−λ n
)n
→1−eλ=FT(1) (n→ ∞) という意味で収束する.全体の関係は次のように図式化できる.
連続時間 離散時間
Poisson 分布 二項分布
指数分布 幾何分布
発生回数 発生間隔
連続極限
(少数の法則)
A.7 超幾何分布 (hypergeometric distribution)
非復元抽出と直接関係するのでこれも重要な分布である.
定義 A.46. N 個中r個が当たりのくじを非復元抽出でn 回引くときに,当たりを引く回数X
が従う分布を超幾何分布 (hypergeometric distribution) という.
命題A.47. 超幾何分布の質量関数はmax(0, n+r−N)≤k≤min(n, r)の範囲で p(k) =P[X =k] = rCk×N−rCn−k
NCn
であり,それ以外の範囲ではp(k) = 0である.
証明. まずkの範囲について,n > N−rのときはくじを引く回数が外れの数を越えるので越えた分 は必ず当たる一方,rやnを越えて当たることはないので,意味がある範囲は max(0, n+r−N)≤ k≤min(n, r)である.
112 A 代表的な確率分布
k回当たる場合の数は,r個の当たりからk個を選ぶ組合せの数rCk とN−r個の外れからn−k 個を選ぶ組合せの数N−rCn−k の積である.n回のくじ引きの結果の組合せ総数はNCn だから結論を
える. \(^o^)/
命題A.48. E[X] = nr
N,V[X] = n(N−n)r(N−r) (N−1)N2 .
証明. 質量関数から直接計算することもできるが,ここでは別の方針で示す.
1≤i≤n回目に引くくじの結果をXi =
1 (当たり)
0 (外れ)
とすると X =X1+· · ·+Xn である.各 回に当たりを引く確率はi に依らず一定でP[Xi= 1] = r
N なので,期待値と分散も iに依らず一定 でE[Xi] = r
N, V[Xi] = r N
( 1− r
N )
= r(N−r)
N2 である.X1, . . . , Xn はベルヌーイ過程に似てい るが,非復元抽出なので独立ではないことに注意する(例2.9,例2.15参照).
期待値の線型性は独立でなくとも成り立つので,E[X] =E[X1+· · ·+Xn] =E[X1] +· · ·+E[Xn] = nr
N である.
独立ではないので分散の線型性は成り立たず V[X] =V[∑
i
Xi] =∑
i
V[Xi] +∑
i
∑
j̸=i
Cov(Xi, Xj)
=nr(N−r) N2 +∑
i
∑
j̸=i
Cov(Xi, Xj).
ここで共分散は
Cov(Xi, Xj) =E[XiXj]−E[Xi]E[Xj]
= r(r−1) N(N−1) −(r
N )2
=−(N−1)N2 r(N−r)
でi, j に依らない.ただし E[XiXj] は次のようにして求める: XiXj は Xi = 1, Xj = 1 のときの み 1 でそれ以外では 0. P(Xi = 1, Xj = 1) = i, j回目に引かれる当たりの組合せ総数
i, j 回目に引かれるくじの組合せ総数 = rC2 NC2
= r(r−1)
N(N−1). 以上より
V[X] =nr(N−r)
N2 +n(n−1)× (
−(N−1)N2 r(N−r)
)
= n(N−n)r(N−r) (N−1)N2
\(^o^)/
さて,定義に立ち返って,もし復元抽出だったならば X の従う分布は二項分布でX ∼B(n, r/N) である.他方, 例2.15や6.1節での議論のように,N が非常に大きい状況では復元抽出と非復元抽 出の違いはなくなる.従って,次の命題が成り立つのは自然である.(証明は割愛する.)
命題 A.49. 超幾何分布は θ =r/N を一定に保ちながら N → ∞ とするとき B(n, θ)に収束 する.
113
B 標本分布( χ
2分布・ t 分布・ F 分布)
正規母集団に関しては歴史的に,標本平均や不偏分散などの統計量が従う確率分布について詳細な解 析が行なわれており,その中でχ2 分布,t 分布,F 分布などの重要な確率分布が開発されてきた*52. 正規母集団でなくとも,中心極限定理の影響で近似的に正規分布が生じればそこからさらにχ2 分布な どが近似分布として派生することもあるので,どこで出会ってもおかしくない分布たちと言えるし,標 準的な数理統計の教程では重要な位置付けをされることが多い.従って基本的な性質を押さえることも もちろん大事だが,より重要なのは
• どんな量を調べるために開発された分布なのか
• そこから導かれる自然な性質は何か
• 従ってどのような場面・目的で使用される・できる可能性があるのか
ということを理解し自分なりのイメージを形成することである.それができれば,一般的な学生が密度 関数の式まで正確に覚える必要はない*53.そういう意図もあって,以下の説明では密度関数を使った積 分計算を全くしていない.積分計算をしなくても意味が分かっていれば導かれる性質に重点をおき,そ れで意味が理解できれば成功だが果たして.
B.1 カイ二乗 (χ
2) 分布
次の形で定義するのが簡便でよい.
定義 B.1(カイ二乗(χ2)分布). Z1, Z2,· · ·, Zn がN(0,1) に従うi.i.d. であるとき,
∑n k=1
Zk2=Z12+Z22+· · ·+Zn2 (B.1)
の従う分布を自由度 nのχ2分布 (chi-squared distribution) というa.確率変数X がこの 分布に従うことをX ∼χ2n と書くことにする.
aχ2は「かいじじょう」か「かいにじょう」と読む.
自由度というのはとりあえずは,式(B.1)でn個の独立な確率変数が足し合わされているので,その個 数のことだと思っておけばいい.
標準正規分布N(0,1)というのは典型的には誤差なので,式(B.1) は二乗誤差の和である.従っ て,何らかの誤差・ずれを問題にする場合に χ2 を使える可能性があり,適合度検定と独立性検定 はまさにその例である.
χ2分布というと正規母集団の母分散に対する推定・検定でも用いられ(定理 B.5参照),そちらを先に 学習することが多いので,そのイメージでいると適合度検定でも出てきて驚くのだが,実は上記の方が 本質的ではないかと思っている.
導出は省略するが,密度関数は厳密に求めることができて
p(x) =
1
2n/2Γ(n/2)xn−22 e−x2 (0< x)
0 (x≤0)
(B.2)
*52発見されたというより開発されたという感じである.
*53資格試験などでは式の概形まで問われることもある.
114 B 標本分布(χ2 分布・T 分布・F 分布)
である*54.密度関数のグラフは図16のようになり, n= 1,2 は例外だが,基本的には0 以上の領域 で定義され原点側に少し歪んだ山型である.検定などで必要になる数値は,正規分布と同様で手計算す るのは難しく,以前は数表(p.122参照)を,今ならPCなどを用いて求めることになる.
注 B.2(定義について). 定義 B.1 を採用すると自由度nは自然数に限定される.しかし密度関
数(B.2)を見るとnは整数である必要はない(Γ(s)はs >0で定義される)ので,非整数自由度
のχ2分布も考えることができる.自由度を変数の数だと思うと納得できないかもしれないが,最 初は自然数に対してのみ定義されていたものが分数や実数へと拡張されていくのは数学ではよく あることだし,それにより後述のt 分布やF 分布も非整数自由度のものを考えることができて,
実際に検定などで使用されているので,良しとしておこう.
そう考えると理論構成としては式(B.2)を定義にする方がすっきりするのだが,ここではイメー ジのしやすさを優先して 定義B.1を採用している.
0 2 4 6 8 10
0 0.2 0.4 0.6 0.8 1
x p(x)
n= 1 n= 2 n= 3 n= 5 n= 10
図16: χ2 分布の密度関数のグラフ.自由度n= 1,2の場合は特殊だが, n≥3では山型の分布であ り,nを大きくすると期待値と分散が増加するのでなだらかになっていく.
定義を見れば ∑
Zk2 が負の値をとるわけがないので X ∼χ2n の値域が [0,∞) であることや,自由 度 n を大きすれば加算される非負の項が増えるのだから期待値や分散も増加することは明らか.密度 関数を覚える必要はないが,こういう基本的性質は定義から類推できるようになるべきであろう.例え ば次の二つの命題は密度関数の詳細を知らなくても導出できる.
命題B.3. X ∼χ2n の期待値と分散はE[X] =n, V[X] = 2nである.
説明. 命題A.25より,期待値はE[∑
Zk2] =∑
E[Zk2] =∑
1 =nで,分散はV[∑
Zk2] =∑
V[Zk2] =
∑ {E[Zk4]−(E[Zk2])2}
=∑
{3−1}= 2n. \(^o^)/
命題B.4 (再生性). X ∼χ2mとY ∼χ2n が独立ならばX+Y ∼χ2m+n.
説明. X はm個の独立なN(0,1)の二乗和でY はX とは独立なn個の和だから,X+Y は全部で m+n個の独立なN(0,1)の和であり,それは定義からχ2m+n 分布に従う. \(^o^)/
*54Γ(s)はΓ(s) =
∫ ∞
0
ts−1e−tdtで定義される関数でガンマ関数(Gamma function)と呼ばれ,数学や物理では非 常に重要な関数なのだが,ここで詳細に触れている余裕はない.
B.2 t分布 115
推定・検定での代表的用途の一つでは,次の形で使う.(証明の概要は補足として B.4 節で与 える.)
定理 B.5. 正規母集団N(µ, σ2)からの大きさnの標本に対して (n−1)u2n
σ2 = ns2n σ2 =
∑n k=1
(Xk−Xn σ
)2
(B.3)
はχ2n−1 に従う.
上式でσ以外は全て標本から計算できる,つまり上式が含む未知数は母分散 σ2 のみなので,その推 定・検定に使える.その際,サンプルサイズnに対してχ2分布の自由度はn−1であることに注意 する.
この定理を感覚的に理解するために,次のように解説されることがよくある.分散と結び付きそうな 統計量を考えたとき,Xk ∼N(µ, σ2) なら Xk−µ
σ ∼N(0,1) なので
∑n k=1
(Xk−µ σ
)2
は定義から χ2n に従うが,このままでは二つの未知母数µ, σ2を含むので好ましくない.母平均µの推定・検定に はt分布が使えるので,こちらは σ2 用にと考えるとµを標本平均Xn で置き換えたものが使えない かとなる.計算により分布はχ2 分布のままだと解るのだが,Xn= 1
n
∑Xk という関係式が1つ加 わった影響*55で変数の自由度は1つ減ってn−1 になる.
もう一つの代表的用途である適合度や独立性の検定については 8.5節で触れる. 定理8.20の一般の 場合の証明はかなり骨が折れるが,勉強することで得られるものも少なくないので,気になる学生向け にB.4 節で補足をしている.
B.2 t 分布
次の形で定義するのが簡便でよい.
定義 B.6. X∼N(0,1)とY ∼χ2n が独立であるとき T = X
√Y /n
の従う分布を自由度 nのt 分布 (t-distribution) といい,tn と書くことにする.
t分布のことをStudentの t分布(Student’s t-distribution)ということもある*56.密度関数は,
これも導出は省略するが
p(x) = 1
√nB(1/2, n/2) (
1 + x2 n
)−n+12
(−∞< x <∞) (B.4)
となる*57*58.一見複雑に見えるが,変数xに依存するのは
( 1 + x2
n )
の部分だけなので,グラフの 概形を把握するのは式の見た目ほど難しくない.密度関数のグラフは図17のように x= 0で対称な山 型である.n→ ∞のときN(0,1) に収束するが,実際に図ではn= 20ともなれば相当近いことがわ かる.正規分布に似てはいるが, |x| → ∞ のときの減衰が正規分布より緩やかなことが特徴である.
*55X1−Xn, X2−Xn, . . . , Xn−Xnは∑
(Xk−Xn) = 0を満たすので独立ではない.
*56Studentはt分布を開発したイギリスの統計学者Gossetが論文を発表するときに訳あって使ったペンネームである.
*57B(a, b) =
∫1 0
ta−1(1−t)b−1dtはベータ関数(Beta function)と呼ばれ,これも有名な関数だが詳細は割愛する.
*58 Γ((n+ 1)/2)
√nπΓ(n/2) (
1 +x2 n
)−n+12
と書いてある本もあるが,B(a, b) = Γ(a)Γ(b)
Γ(a+b) なので一致する.