10 統計学の基礎 70
10 統計学の基礎 71 をするときも、全て食べずにひと口舐めれば問題ありません。これらは全て、標本は母集団の性質を反映しているとい う前提に立っています。
10.2.3 平均値と分散と標準偏差
標本を特徴付ける指標として、もっともよく現れるのが平均値(mean)*6*7です。標本の平均値x¯は
¯ x= 1
n
∑n
i=1
xi=x1+x2+· · ·+xn
n (10.2)
と表されます。ここでnは標本の大きさ、xiは何らかの測定値です。これはあくまで標本の平均であり、母集団の平 均値(母平均)µとは異なります。
平均値はその標本が典型的にどのような値を持っているかを示す一つの指標です。例えばガンマ線やX線がシンチ レータに入射した時に得られる光子数や、1光子を検出した時に得られる光電子増倍管の出力電荷には確率的なばらつ きがあります。662 keVのガンマ線が繰り返しシンチレータに入射したとしても、得られる出力電荷は入射のたびに変 化します。しかし平均値を計算することで、平均的にはどのような応答が得られるのかを示すことができます。
測定値xiのばらつきは、統計学では分散(variance)という散らばりの尺度で表されます。母集団の持つ分散(母 分散)をσ2で表し、標本の持つ分散(標本分散)をs2と表します。ここで標本分散には2種類あり、母平均µが既知 の場合は
s2= 1 n
∑n
i=1
(xi−µ)2 (10.3)
であり、母平均を知らず標本平均のみを知っている場合は s2= 1
n−1
∑n
i=1
(xi−x)¯ 2 (10.4)
と表すことができます。通常は母平均µを知りませんので、n−1で割った式(10.4)を使うことになります。nではな くn−1で割る理由は、n−1で割ることで標本分散の期待値E(s2)が母分散σ2に等しくなるからです。
値のばらつきの尺度として、例えば半値全幅(はんちぜんはば、full width at half maximum、FWHM)や最大値と最 小値の差を使うなど、いくつかの考え方はありますが、標準偏差を用いるのはそれが数学的に取り扱いしやすく、また 後で述べるように色々な場所で姿を表すからです。
分散はそのままでは測定値と次元が違うため、多くの場合その平方根である標準偏差(standard deviation)σもし くはsを用います。ROOTのヒストグラムでは標本の標準偏差をTH1::GetStdDevで取り出すことができますが、
n−1ではなくnで割った分散の平方根を返すので注意が必要です。特にnが小さいとき、その値は母集団の標準偏差 より小さくなる傾向が出ます。
母平均µを知らないとき、その値を推定するには標本平均¯xを使うしかありません。しかし標本平均はあくまで母 平均の近似値であり、真の値からは必ずずれています。このずれは標本平均の分散V(¯x)を求めることで得られます。
独立な試行(それぞれの測定が互いに影響を及ぼさないもの)の和の分散は、それぞれの試行の分散の和で表されるこ とが知られています。例えば2回の測定X1とX2があったとき
V(X1+X2) =V(X1) +V(X2) (10.5)
となります。また係数aに対して
V(aX) =a2V(X) (10.6)
*6より意味を明確にするため(相乗平均と区別するため)、算術平均(arithmetic mean)、相加平均とも呼ばれます。
*7平均の英訳としてaverageも存在しますが、これは算術平均以外にも中央値(median)や最頻値(mode)など、分布を特徴付ける広い意味で の「平均的な」値も指す言葉であり、「代表値」とする方が適切です。
10 統計学の基礎 72 が成り立ちます。したがって、標本平均の分散は
V(¯x) =V (
1 n
∑n
i=1
xi )
(10.7)
= 1 n2V
( n
∑
i=1
xi )
(10.8)
= 1
n2 ·nσ2 (10.9)
= σ2
n (10.10)
となります。このことから、測定回数(標本の大きさ)nを増やすと標本平均の分散はnに反比例して小さくなること が分かります。また標本平均の誤差はこの平方根を取りσ/√
nで与えられます。ただしσは標本分散から推定するの が通常のため、母平均の推定値として
µ= ¯x± s
√n (10.11)
が得られます。
nが大きいとき、xiがどのような確率分布にしたがって発生しようとも、x¯の値は後述する中心極限定理によって近 似的に正規分布に従います。したがって、x¯の誤差として√sn を与えた場合、これは68%の確率でこの範囲に真の母 平均が存在するということを意味します。
10.2.4 大数の法則
繰り返し行うことが可能で、かつ各試行が互いに影響を及ぼさない測定があるとき、その測定を多数回繰り返した際 に得られる測定値の平均は、その測定の期待値に近づきます。これを大数の法則(law of large numbers)と言いま す。例えばサイコロの出る目の期待値は常に 72 であるので、サイコロを繰り返し投げたときに出る目の平均はこの値 に近づくという、直感的に分かりやすい現象を数学的に証明したものです。
実際にROOTを使ってこの法則を確かめてみます。dice.Cを実行すると、図10.1のように、サイコロの目の標本 平均が試行回数を増やすにつれて 72 に近づいていくのが分かります。
10.2.5 中心極限定理
図10.1では100通りの標本平均の変化を示しましたが、そのばらつきは試行回数を増やすにつれて小さくなってい くのが分かります。またこのばらつきは試行回数nが大きくなると、正規分布に近づきます。このように、試行回数n が大きいときに標本平均が正規分布で近似できることを中心極限定理(central limit of theorem)と言います。中心 極限定理は測定値の分布がどのような確率分布であっても成り立つことが知られています*8。
図10.2も同じくdice.Cで行ったシミュレーションです。試行回数が1回、10回、· · ·105回の場合の標本平均の 分布がどのようになるかを、10000通り試してその分布を示しています。試行回数が1回のときは当然離散的ですが、
nを大きくするにつれて分布が滑らかになり、正規分布へと近づきます。
式10.11では標本平均が母平均の周辺に√σ
n の標準偏差を持つ正規分布になることを説明しました。実際、図10.2 を見るとn= 105 のときに標準偏差s = 0.005416となっており、これはサイコロの目の標準偏差σ = 1.70783を
√100000で割ったものと近くなっています。
*8ただし、もとの確率分布で分散が定義できない場合、正規分布にならない場合があります。
10 統計学の基礎 73
Number of Throws (Sample Size)
1 10 102 103 104 105
Sample Mean
0 1 2 3 4 5 6 7
図10.1 サイコロを振るシミュレーションによる大数の法則の実証例。105回の試行を繰り返した場合の標本平均 の変化を、100通り表示したもの。
h0 Entries 10000 Mean 3.504 Std Dev 1.699
Sample Mean
0 1 2 3 4 5 6
Entries
0 200 400 600 800 1000 1200 1400 1600 1800
h0 Entries 10000 Mean 3.504 Std Dev 1.699 = 1
n Entries 10000h1
Mean 3.492 Std Dev 0.5465
Sample Mean
1.5 2 2.5 3 3.5 4 4.5 5
Entries
0 100 200 300 400 500 600 700 800
h1 Entries 10000 Mean 3.492 Std Dev 0.5465 = 10
n Entries 10000h2
Mean 3.5 Std Dev 0.1699
Sample Mean
2.8 3 3.2 3.4 3.6 3.8 4 4.2
Entries
0 100 200 300 400 500
h2 Entries 10000 Mean 3.5 Std Dev 0.1699 = 100
n
h3 Entries 10000 Mean 3.5 Std Dev 0.05414
Sample Mean 3.3 3.35 3.4 3.45 3.5 3.55 3.6 3.65
Entries
0 50 100 150 200 250 300 350 400
h3 Entries 10000 Mean 3.5 Std Dev 0.05414
= 1000
n Entries h4 10000
Mean 3.5 Std Dev 0.01692
Sample Mean 3.42 3.44 3.46 3.48 3.5 3.52 3.54 3.56
Entries
0 100 200 300 400 500
h4 Entries 10000 Mean 3.5 Std Dev 0.01692
= 10000
n Entries h5 10000
Mean 3.5 Std Dev 0.005416
Sample Mean 3.48 3.485 3.49 3.495 3.5 3.505 3.51 3.515
Entries
0 50 100 150 200 250 300 350 400
h5 Entries 10000 Mean 3.5 Std Dev 0.005416
= 100000 n
図10.2 サイコロを振るシミュレーションによる中心極限定理の実証。試行回数nを大きくするにつれて、標本平 均の分布が正規分布に近づく。
10 統計学の基礎 74
k
0 10 20 30 40 50
Probability
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4
= 1) λ
Poisson ( Gaussian (µ = 1, s = 1) = 3)
λ
Poisson ( Gaussian (µ = 3, s = 3) = 10)
λ
Poisson ( Gaussian (µ = 10, s = 10) = 20)
λ
Poisson ( Gaussian (µ = 20, s = 20) = 30)
λ
Poisson ( Gaussian (µ = 30, s = 30)
図10.3 様々な平均値を持つポアソン分布と正規分布の比較