第 3 章 統計的推測 - 推定と検定
3.3 母平均の区間推定と(両側)検定
すると、X¯−µはN(0, σ2/n)に従う。σ2は既知としているから表計算などの 関数でこの分布に関し、
P( ¯X−µ > z(α/2)) =α/2 なるz(α/2)>0を計算できる。正規分布の左右対称性から
P( ¯X−µ <−z(α/2)) =α/2 でもあるから、
P(−z(α/2)≤X¯ −µ≤z(α/2)) = 1−α すなわち、
P( ¯X−z(α/2)≤µ≤X¯ −z(α/2)) = 1−α (∗)
よって、[ ¯X−z(α/2),X¯+z(α/2)]が求める100(1−α)%信頼区間である。z(α/2) は正規分布N(0, σ2/n)の両側α点(両側100α%点)という。
z(α/2) α/2 -z(α/2)
α/2
(注)標準正規分布と呼ばれるN(0,1)での近似もできる。これができると、N(0,1) に対してのみz(α)の値を計算した表(標準正規分布表)が用意してあればよい。
計算機がまだあまり発達していなかった頃は、標準正規分布表に頼らざるを得な かった。しかし今日では任意のN(µ, σ2)に対してz(α)が計算できる。
正規分布を使う母平均の区間推定・(両側)検定の手順
1. (前提)母集団が正規分布にしたがうか、あるいは標本の個数nが十分大 きいかを確かめる(どちらかが満たされていないとこの方法は使えない)。
2. (前提)母分散σ2が既知かを確かめる(これが満たされていないとこの 方法は使えない)。
3. あらかじめ与えられた(決めた)信頼係数をβとしてα= 1−βを求めて おく。
4. 標本平均X¯ を計算する。
5. 既知のσ2と標本の数nを使って、正規分布N(0, σ2/n)の両側α点z(α/2) を求める(表計算などで)。
6. [ ¯X−z(α/2), X¯+z(α/2)]が求める推定区間である。
7. 母平均と比較する数をµ0とし、µ0が1−α信頼区間[ ¯X−z(α/2), X¯ + z(α/2)]に入らないなら、危険率αでµ̸=µ0と結論する。ここで危険率と いうのは、信頼区間に母平均が入らない確率が危険率の分あり、その場合 µ̸=µ0の結論は出てこないからである。
正規分布を使う母平均の区間推定・検定は、ともに数学的に厳密に正しい確率 の式(∗)をそれぞれに解釈したに過ぎない。信頼係数や危険率などの解釈はいた ずらに解釈の屋を重ねるのではなく、単に(∗)にたち帰って理解されるべきもの である。
t分布を使う方法(正規母集団で母分散未知の場合)
母集団が正規分布N(µ, σ2)に従う(正規母集団)について、大きさnの標本 X1, . . . , Xnの標本平均をX¯ とし、不偏分散の平方根をUとする。すると、
t= X¯ −µ
√Un
は自由度n−1のt分布とよばれる分布に従うことが知られている(前述のt分 布に関する定理を参照)。
表計算などの関数で
P(|t|> tn−1(α/2)) =α (∗∗)
なるtn−1(α)を計算できるので、信頼係数100(1−α)%のµの信頼区間が X¯ −tn−1(α/2)U
√n ≤µ≤X¯ +tn−1(α/2)U
√n
と定まる。
t分布を使う母平均の区間推定・(両側)検定の手順
1. (前提)母集団が正規分布にしたがうかどうかを確かめる(従わないとこ の方法は使えない)。
2. あらかじめ与えられた(決めた)信頼係数をβとしてα= 1−βを求めて おく。
3. 標本平均X¯ を計算する。
4. 既知のσ2と標本の数nを使って、自由度n−1のt分布両側α点tn−1(α/2) を求める(表計算などで)。
5. [ ¯X−tn−1(α/2)
√
U2
n , X¯+tn−1(α/2)
√
U2
n ]が求める推定区間である。
6. 母平均と比較する数をµ0とし、µ0が1−α信頼区間[ ¯X−tn−1(α/2)
√
U2 n , X¯+ tn−1(α/2)
√
U2
n ]に入るなら、危険率αでµ̸=µ0と結論する。
正規分布を使う母平均の区間推定・検定でと同様の注意を述べる。t分布によ る母平均の区間推定と検定は、ともに数学的に厳密に正しい確率の式(∗∗)をそ れぞれに解釈したに過ぎない。信頼係数や危険率などの解釈はいらずらに解釈に 屋を重ねるのではなく、単に(∗∗)にたち帰って理解されるべきものである。
F =t2が自由度(1, n−1)のF 分布に従うことを使うこともできる。
例 3.3.1. 正規分布による区間推定とt分布による区間推定
正規母集団とみなせる母集団から、20個のランダムサンプルを抽出して、標 本平均125.8を得た。
1. 母分散が既知で、その平方根がσ= 4.57であるとき、
2. 母分散が未知で、標本不偏分散の平方根がσ= 4.57であるとき、
母平均の95%および99%の信頼区間を求めよ。エクセルファイル
推定区間による検定の仮説検定による解釈
この節は、上で述べた推定区間を使った検定を、後に述べる仮説検定の言葉で 解釈したものである。よって、後ほど述べる仮説検定を読んだ後戻って読むべき
内容である。
【正規分布による方法】母平均の検定においてµ ̸= µ0 と結論できるのは、
µ0 が推定区間外にあるときすなわちµ0 < X¯ −z(α/2)かX¯ +z(α/2) < µ0
のときである。これは(両側)仮説検定における棄却域X¯ −µ0 <−z(α/2)と z(α/2)<X¯ −µ0による方法と同じ判定基準になっている。
【t分布による方法】母平均の検定においてµ̸=µ0と結論できるのは、µ0が推定 区間外にあるときだから、µ0<X¯−tn−1(α/2)
√
U2
n かX¯+tn−1(α/2)
√
U2 n < µ0
のときで、これは(両側)仮説検定における棄却域による判定基準と同じである。
3.3.2 母比率の区間推定
正規分布を使う方法(大標本の場合)
ここで推定すべき母数は、母集団の中である条件を満たすものの占める割合 (比率)であるので母比率と呼ぶ。
比率は、母集団が無限の場合は、母集団の個体がある条件を満たす確率と解さ れる。この解釈は母集団が有限の場合の割合としての比率にも適用可能である。
よって比率をある条件を満たす確率pで表そう。ここで、確率変数Xを
X =
1 条件Aが満たされるとき 0 そうでないとき
と定義すると、E(X) =p·1 + (1−p)·0 =pである。よって、比率は平均値で あると解釈される。母比率は平均値とみなすことができるので平均値の区間推定 法を適用することもできる。しかし、標本比率は分散が大きくなる傾向があるこ と、よって一般の平均値には成立しない比率のみの特性を生かしたより効率的な 方法を使う意味があるのでここで別に取り上げる。
母比率をp、信頼係数を1−αとする。いま標本中の条件を満たすものの比率
(標本比率)をZ、標本の大きさをnとする。
nZは2項分布に従うことが分かっているが、パラメータpは未知である。推 定においては従って2項分布をそのまま使うわけにはいかず、正規分布での近似 やF分布での表現を使う。しかし後述の検定においてはpを仮定するので2項 分布が直接使える場合もある。
標本比率Z = X1+· · ·+Xn
n はXiの平均と分散がそれぞれp、p(1−p) = p(1−p)2+ (1−p)(0−p)2であるから、中心極限定理2.2.5により近似的に正規 分布N
(
p,p(1−p) n
)
に従うとしてよい。よって、Z−pの漸近分布は正規分布 N
(
0,p(1−p) n
)
であるが、この分布に関し、
P(Z−p <−z(α/2)) =P(z(α/2)< Z−p) = α 2 なるz(α/2)(これを両側100α%点と呼ぶ)を計算できれば、
−z(α/2)< Z−p < z(α/2)すなわち、Z−z(α/2)< p < Z+z(α/2) となる確率は100(1−α)%であることになる。つまり、[Z−z(α/2), Z+z(α/2)]
が100(1−α)%信頼区間である。
ところが、ここで正規分布N (
0,p(1−p) n
)
の分散は推定すべきpを含んで
いるのでz(α/2)は計算できない。そこで、以下に示す理由でpの代わりにZを
使ってこの区間推定を行う。
(証明)σ=
√p(1−p)
n とおく。Z−p
σ の漸近分布である標準正規分布N(0,1)に よるpの信頼区間は、Z−z0(α)σ < p < Z+z0(α)σ、ここでz0(α)はP(Z−p <
−z0(α)) = α2 なる数である。この不等式はpの範囲を示してはいるがσは未知 であるのでこのままでは役にたたない。そこで次のようにして近似的な信頼区間 の導出を行う。Z−z0(α)σ < p < Z+z0(α)σをpについて整理すると、pの2 次不等式(n+zo(α)2)p2−(z0(α)2+ 2npZ)p+nZ2<0が得られ、これを解くと
z2+ 2nZ−√
(z0(α)2+ 2nZ)2−4(n+z0(α)2)nZ2 2(n+z0(α)2)
< p <
z2+ 2nZ+√
(z0(α)2+ 2nZ)2−4(n+z0(α)2)nZ2 2(n+z0(α)2)
となるが、nが大きいことから、上の2次不等式の左辺を
(n+zo(α)2)p2−(z0(α)2+ 2npZ)p+nZ2 = n(p2−2pZ+Z2) +z0(α)2p(1−p)
≈ n(p2−2pZ+Z2) +z0(α)2Z(1−Z) と見て解けば、
Z−z0(α)
√Z(1−Z)
n < p < Z+z0(α)
√Z(1−Z) n
となる。z0(α)
√Z(1−Z)
n は、N
(
0,Z(1−Z) n
)
の両側α点z(α/2)と等しい から、求める近似的な信頼区間は、
Z−z(α/2)< p < Z+z(α/2) である。これは、Z−pの分布の本来の正規近似であるN
(
0,p(1−p) n
) の代わ りにN
(
0,Z(1−Z) n
)
を使って信頼区間を出せばよいことを示している。
(注1)次節で述べるように一般にXの平均値の推定では、Xの母分散が未知の 場合はt分布を使う方法を使うが、母比率(母平均の一種)では母平均pと母分散 p(1−p)の関係が分かっているので上記のような便法が使えるのである。(注2)
Z = 0の場合の信頼区間は、[0,1−α1/n]、Z= 1の場合の信頼区間は、[α1/n,1]
とする。
F分布を使う方法(小標本の場合)
nZは2項分布B(n, p)に従うことから、xをnZの標本値とすると、
P(nZ ≥x) =P(F > f)
が成立することが知られている。ここに、Fは自由度(2(n−x+ 1),2x)のF分 布をする確率変数で、f = x(1−p)
(n−x+ 1)pである。
そこで、表計算の関数などで、この自由度のF分布について、P(F > f1) =α/2 なるf1を求め、f1= x(1−p)
(n−x+ 1)pをpについて解いた値をp1とする。
p1= x
(n−x+ 1)f1+x
すると、nZがB(n, p1)に従うならP(nZ≥x) =α/2である。
同様に、
P(nZ≤x) =P(F > f′)
が成立することが知られている。ここに、Fは自由度(2(x+ 1),2(n−x))のF 分布をする確率変数で、f′= (n−x)p
(x+ 1)(1−p) である。
そこで、表計算の関数などで、P(F > f2) = α/2なる f2 を求め、f2 = (n−x)p
(x+ 1)(1−p)をpについて解いた値をp2とする。
p2= (x+ 1)f2
(x+ 1)f2+ (n−x)
すると、nZがB(n, p2)に従うならP(nZ≤x) =α/2である。
これらより、pの信頼係数100(1−α)%での信頼区間は、[p1, p2]である。
例 3.3.2. 比率の区間推定
喫煙率をランダムに選んだ20人の中で求めて0.35を得た。母比率の95%信 頼区間を求めよ。エクセルファイル
3.3.3 母分散の区間推定
正規母集団から採った標本に対して、標本分散をS2とおけば、χ2=nS2 σ2 が 自由度n−1のカイ自乗分布に従うことを利用する。
100(1−α)%信頼区間は以下のようになる。
nS2 χ2n−1(α
2
) < σ2< nS2 χ2n−1(
1−α2)