応用統計 第 10 回
信頼区間の推定 (2)
応用情報工学科
准教授 松野 裕
http://matsulab.org
2016 年 7 月 7 日
1 母集団の比率の信頼区間の推定
内閣支持率の調査のように、母集団が十分に大きく、母集団がp : 1 − pでA, B二つのグループに分かれて いる場合に、それから大きさnの標本を無作為に抽出するとき、Aに属するもの(たとえば内閣を支持する人 数)の数の確率変数をXとすれば、Xは2項分布に従う。
P (X = x) =nCx px(1 − p)n−x
E(X) = npであり、q = 1 − pとするとV (X) = npqである。標本の大きさが大きい場合、中心極限定理よ り、正規分布N (np, npq)に従うと見なせる。標本比率X/nは、
E(X n) =
1
nE(X) = p
V (X n) =
1
n2V (X) = pq
n
を満たし、正規分布N (p,
pq
n)に従う。これを正規化した
Z =
X n −p
√pq n
から母比率pを推定する。例えば信頼係数95%の場合、
P (−1.96 ≤ Z ≤ 1.96) = 0.95
から、
−1.96 ≤
X n −p
√pq n
≤1.96 (∗)
を変形して、q = 1 − pから、
(X n −p)
2≤(1.96)2p(1 − p) n
1
となり、下記のpに関する2次不等式の解の範囲が信頼区間になる。
(n + 3.84)p2−(2X + 3.84)p +X
2
n ≤0 (∗∗)
左辺= 0の解をp1, p2(p1≤p2)とすると、pの95%の信頼区間は [p1, p2]
となる。下記のように近似的に解いてもよい。(∗)を書きなおして
P (X n −1.96
√ pq n ≤p ≤
X n + 1.96
√ pq
n) = 0.95
左辺、右辺でpの代わりに推定値X/n、qの代わりに1 − (X/n)を用いると
P (X n −1.96
√
X n(1 −
X n)
n ≤p ≤
X n + 1.96
√
X n(1 −
X n)
n ) = 0.95
例題 有権者400人をランダムに選んで、ある政策を支持する人の数を調べたところ、95人であった。有 権者全体の中でその政策を支持する人の割合pを、信頼係数95%で区間推定せよ。
上の式に当てはめる。
P ( 95
400−1.96
√ 95
400(1 −40095) 400 ≤p ≤
95
400+ 1.96
√ 95
400(1 −40095)
400 ) = 0.95
これから
[0.196, 0.279]
の信頼区間を得る。(∗∗)を用いると
[0.198, 0.282]
を得る。
2項分布を正規分布で近似可能な条件は経験則として以下の3通りが挙げられる*1。ここで、p∗= X
n, (標
本比率)、q∗= 1 − p∗である。
• np∗ とnq∗の小さいほうが10(もしくは5)より大きい。
• 0.1 ≤ p∗≤0.9で、かつ5 < np∗q∗。
• 25 < np∗q∗
2 二つの正規母集団の母平均の差の信頼区間の推定
身長の分布を考えた場合、ある学校の男女の身長ではその母集団分布に大きな差があるかもしれない。そ のような場合、一つの正規母集団から標本を抽出したと仮定して分析することは適当ではない。男女の身長 差など明らかに異なる2種の標本による2母集団の比較を扱う問題を2標本問題two-sample problemと いう 。2 標 本 問 題 で は 、二 つ の 母 集 団 か ら 別 々 に 標 本 を 抽 出 し た と 考 え る 。こ こ で は 大 き さmの 第 一 の 標
*1http://www.naro.affrc.go.jp/org/nfri/yakudachi/sampling/pdf/logical-sample-number.pdf
2
本X1, . . . , Xmを母集団分布N (µ1, σ12)の正規母集団から、大きさnの第二の標本Y1, . . . , Ynを母集団分布
N (µ2, σ22)の正規母集団から、それぞれ独立に抽出した場合の標本分布を考える。
2標本問題では、二つの母平均の差µ1−µ2を分析することがしばしば重要になる。例えば、男女別の賃金
を比較する問題で、もし、同一業種、同一職種、同一学歴、同一勤続年数で、賃金水準に性別による格差がな ければ平均の差は0となるはずであるし、男女格差があれば0とはならないだろう。母平均の差µ1−µ2を
分析するには、2種類の標本から個別に計算した標本平均
X = 1
m(X1+ · · · + Xm), Y = 1
n(Y1+ · · · + Yn)
の差X − Y の大小をみればよい。ここで、σ
2
1, σ22によって3つに場合分けする。
• σ21, σ22が既知の時
X, Y はそれぞれ正規分布
N (µ1,σ
2 1
m), N (µ2, σ22
n)
に従う。XとY は独立だから、正規分布の性質からX − Y は正規分布
N (µ1−µ2, (σ
2 1
m) + ( σ22
n))
に従う。平均はµ1−µ2と差になっているが、分散は和である。標準化して
Z = (X − Y ) − (µ1−µ2)
√(σ21/m) + (σ22/n)
は標準正規分布N (0, 1)に従う。これを用いて推定や次回扱う仮説検定が行われる。たとえば、µ1−µ2
の95%信頼区間は
P (−1.96 ≤ Z ≤ 1.96) = 0.95
から、
−1.96 ≤ (X − Y ) − (µ1−µ2)
√(σ21/m) + (σ22/n) ≤1.96
を経て、
(X − Y ) − 1.96 ·
√
(σ21/m) + (σ22/n) ≤ (µ1−µ2) ≤ (X − Y ) + 1.96 ·
√
(σ12/m) + (σ22/n)
,
[(X − Y ) − 1.96 ·
√
(σ12/m) + (σ22/n), (X − Y ) + 1.96 ·
√
(σ21/m) + (σ22/n)]
,となる。
• σ21= σ22= σ2で、σ2が未知の時 このとき、未知のσ
2
の代わりに下記の合併した分散 pooled varianceで推定する。
s2=
∑m
i=1(Xi−X)
2+∑nj=1(Yj−Y )2 m + n − 2
= (m − 1)s
2
1+ (n − 1)s22
m + n − 2
3
s21, s22は各々の標本の標本不偏分散である。このように標本分散を定義すると、
t = (X − Y ) − (µ1−µ2) s√(m1 +n1)
は自由度m + n − 2のt分布t(m + n − 2)に従う。この式を用いて、1標本の平均の推定(母分散未 知のとき)と同様に区間推定が行える。
P ((−tα(m + n − 2) ≤ (X − Y ) − (µ1−µ2) s ·√m1 +n1
) ≤ tα(m + n − 2)) = 1 − α
信頼係数1 − αの信頼区間はµ1−µ2で整理して、
[ X − Y − tα(m + n − 2)s ·√ 1 m+
1
n , X − Y + tα(m + n − 2)s ·√ 1 m+
1 n ]
となる。
例題 2種類のマニラ麻について、破断強度(kg)を調べた所、次の用なデータを得た。 – 種類1:254,218,244,259,241
– 種類2:240,249,223,237,202,226,256
この時、母平均の差を90%の信頼係数で推定せよ。但し種類1、2の強度は正規分布に従うとし、分 散は等しいとする。
種類1,2の標本平均をそれぞれX1, X2とすると、X1 = 243.2, X2= 233.26である。それぞれの標本 数をm, nとすると、m + n − 2 = 5 + 7 − 2 = 10であるから、自由度は10。それぞれの標本不偏分散 を求めるとs
2
1= 251.7, s22= 326.6。t0.1(10) = 1.812だから、
243.2 − 233.6 ± 1.812
√ (1
5 + 1 7) ·
4 · 251.7 + 6 · 326.6 4 + 6
を計算すればよい。結果として
[9.7312, 10.0968]
が得られる。
• 母分散が未知であり、等しいとは限らない時 この場合、どのように工夫してもσ
2
1, σ22によらない統計量を作ることはできない。このような場合に、 近似的に分布を求めるウエルチの近似法が知られている。
4