Classes Yutaka Matsuno's Homepage 20160707

(1)

応用統計第 ₁₀ 回

信頼区間の推定 ₍₂₎

応用情報工学科

准教授松野裕

http://matsulab.org

2016 年 7 月 7 日

1 母集団の比率の信頼区間の推定

内閣支持率の調査のように、母集団が十分に大きく、母集団が_{p : 1 − p}で_{A, B}二つのグループに分かれている場合に、それから大きさ_nの標本を無作為に抽出するとき、_Aに属するもの（たとえば内閣を支持する人数）の数の確率変数を_Xとすれば、_Xは₂項分布に従う。

P (X = x) =nCx p^x(1 − p)^n−x

E(X) = np^であり、q = 1 − p^とするとV (X) = npqである。標本の大きさが大きい場合、中心極限定理より、正規分布N (np, npq)に従うと見なせる。標本比率_X/nは、

E(^X n^{) =}

1

n^{E(X) = p}

V (^X n^{) =}

1

n²^{V (X) =} pq

n

を満たし、正規分布_{N (p,}

pq

n⁾に従う。これを正規化した

Z =

X n ⁻^p

√pq n

から母比率_pを推定する。例えば信頼係数_95%の場合、

P (−1.96 ≤ Z ≤ 1.96) = 0.95

から、

−_{1.96 ≤}

X n ⁻^p

√pq n

≤_{1.96 (∗)}

を変形して、_{q = 1 − p}から、

(^X n ⁻^p)

2≤_(1.96)²^{p(1 − p)} n

1

(2)

となり、下記の_pに関する₂次不等式の解の範囲が信頼区間になる。

(n + 3.84)p²−(2X + 3.84)p +^X

2

n ^≤^{0 (∗∗)}

左辺_{= 0}の解を_p1_{, p}2_(p1≤_p2₎とすると、_pの_95%の信頼区間は [p1, p2]

となる。下記のように近似的に解いてもよい。_(∗)を書きなおして

P (^X n ⁻^1.96

√ pq n ^≤^{p ≤}

X n ^{+ 1.96}

√ pq

n^{) = 0.95}

左辺、右辺で_pの代わりに推定値_X/n、_qの代わりに_{1 − (X/n)}を用いると

P (^X n ⁻^1.96

√

X n^{(1 −}

X n⁾

n ^≤^{p ≤}

X n ^{+ 1.96}

√

X n^{(1 −}

X n⁾

n ^{) = 0.95}

例題有権者₄₀₀人をランダムに選んで、ある政策を支持する人の数を調べたところ、₉₅人であった。有権者全体の中でその政策を支持する人の割合_pを、信頼係数_95%で区間推定せよ。

上の式に当てはめる。

P ( ⁹⁵

400⁻^1.96

√ 95

400(1 −400⁹⁵) 400 ^≤^{p ≤}

95

400^{+ 1.96}

√ 95

400(1 −400⁹⁵)

400 ^{) = 0.95}

これから

[0.196, 0.279]

の信頼区間を得る。_(∗∗)を用いると

[0.198, 0.282]

を得る。

2項分布を正規分布で近似可能な条件は経験則として以下の₃通りが挙げられる^*1。ここで、_p^∗₌ ^X

n^{, (}^標

本比率₎、_q^∗_{= 1 − p}^∗である。

• _np^∗ と_nq^∗の小さいほうが₁₀₍もしくは₅₎より大きい。

• 0.1 ≤ p^∗≤0.9^で、かつ5 < np^∗q^∗^。

• 25 < np^∗q^∗

2 二つの正規母集団の母平均の差の信頼区間の推定

身長の分布を考えた場合、ある学校の男女の身長ではその母集団分布に大きな差があるかもしれない。そのような場合、一つの正規母集団から標本を抽出したと仮定して分析することは適当ではない。男女の身長差など明らかに異なる２種の標本による２母集団の比較を扱う問題を２標本問題two-sample problemという。２標本問題では、二つの母集団から別々に標本を抽出したと考える。ここでは大きさ_mの第一の標

*1http://www.naro.affrc.go.jp/org/nfri/yakudachi/sampling/pdf/logical-sample-number.pdf

2

(3)

本_X1, . . . , Xm^{を母集団分布}N (µ1, σ1²)の正規母集団から、大きさ_nの第二の標本_Y1, . . . , Yn^{を母集団分布}

N (µ2, σ2²)の正規母集団から、それぞれ独立に抽出した場合の標本分布を考える。

2標本問題では、二つの母平均の差_µ1−_µ2を分析することがしばしば重要になる。例えば、男女別の賃金

を比較する問題で、もし、同一業種、同一職種、同一学歴、同一勤続年数で、賃金水準に性別による格差がなければ平均の差は₀となるはずであるし、男女格差があれば₀とはならないだろう。母平均の差_µ₁−_µ2^を

分析するには、２種類の標本から個別に計算した標本平均

X = ¹

m^(X¹+ · · · + Xm), Y = ¹

n^(Y¹+ · · · + Yn)

の差_{X − Y} の大小をみればよい。ここで、_σ

2

1, σ2²^によって3^{つに場合分けする。}

• _σ²₁_{, σ}₂²が既知の時

X, Y ^{はそれぞれ正規分布}

N (µ1,^σ

2 1

m^{), N (µ}²^, σ²2

n⁾

に従う。_Xと_Y は独立だから、正規分布の性質から_{X − Y} は正規分布

N (µ1−_µ2, (^σ

2 1

m^{) + (} σ2²

n⁾⁾

に従う。平均は_µ1−µ2と差になっているが、分散は和である。標準化して

Z = (X − Y ) − (µ1−µ2)

√(σ²1/m) + (σ²2/n)

は標準正規分布_{N (0, 1)}に従う。これを用いて推定や次回扱う仮説検定が行われる。たとえば、_µ1−_µ2

の_95%信頼区間は

P (−1.96 ≤ Z ≤ 1.96) = 0.95

から、

−_{1.96 ≤} (X − Y ) − (µ1−µ2)

√(σ²1/m) + (σ2²/n) ^≤^1.96

を経て、

(X − Y ) − 1.96 ·

√

(σ²1/m) + (σ2²/n) ≤ (µ¹⁻µ²) ≤ (X − Y ) + 1.96 ·

√

(σ1²/m) + (σ2²/n)

,

[(X − Y ) − 1.96 ·

√

(σ1²/m) + (σ2²/n), (X − Y ) + 1.96 ·

√

(σ²1/m) + (σ2²/n)]

,^となる。

• σ²1= σ²2= σ²^で、σ²^{が未知の時} このとき、未知の_σ

2

の代わりに下記の合併した分散 pooled varianceで推定する。

s²=

∑m

i=1^(Xⁱ⁻^X)

2+^∑ⁿ_j=1(Yj⁻Y )² m + n − 2

= ^{(m − 1)s}

2

1+ (n − 1)s²2

m + n − 2

3

(4)

s²1, s²2は各々の標本の標本不偏分散である。このように標本分散を定義すると、

t = (X − Y ) − (µ1−_µ2) s^√(_m¹ +_n¹)

は自由度_{m + n − 2}の_t分布t(m + n − 2)に従う。この式を用いて、１標本の平均の推定（母分散未知のとき）と同様に区間推定が行える。

P ((−tα(m + n − 2) ≤ (X − Y ) − (µ¹⁻µ²) s ·^√_m¹ +_n¹

) ≤ tα(m + n − 2)) = 1 − α

信頼係数_{1 − α}の信頼区間は_µ1−_µ2で整理して、

[ X − Y − tα(m + n − 2)s ·^{√ 1} m⁺

1

n , X − Y + tα(m + n − 2)s ·^{√ 1} m⁺

1 n ^]

となる。

例題２種類のマニラ麻について、破断強度_(kg)を調べた所、次の用なデータを得た。 – 種類１：254,218,244,259,241

– 種類２：240,249,223,237,202,226,256

この時、母平均の差を_90%の信頼係数で推定せよ。但し種類１、２の強度は正規分布に従うとし、分散は等しいとする。

種類_1,2の標本平均をそれぞれ_X1, X2とすると、_X1 = 243.2, X2= 233.26である。それぞれの標本数を_{m, n}とすると、m + n − 2 = 5 + 7 − 2 = 10^{であるから、自由度は}10。それぞれの標本不偏分散を求めると_s

2

1= 251.7, s²2= 326.6^。t0.1(10) = 1.812^だから、

243.2 − 233.6 ± 1.812

√ (¹

5 ⁺ 1 7^{) ·}

4 · 251.7 + 6 · 326.6 4 + 6

を計算すればよい。結果として

[9.7312, 10.0968]

が得られる。

• 母分散が未知であり、等しいとは限らない時この場合、どのように工夫しても_σ

2

1, σ2²によらない統計量を作ることはできない。このような場合に、近似的に分布を求めるウエルチの近似法が知られている。

4