統計学 第 12 回– 1 / 37
統計学 第
12
回:平均の差・分散に関する検定
担当者: 高木 真吾
講義資料等は,
http://sites.google.com/site/hustat2017/
質問等は,
[email protected]
までお願いします.
統計学 第 12 回– 2 / 37
帰無仮説と対立仮説
帰無仮説:調べたい内容,等号で指定する
対立仮説:帰無仮説を棄てた後,成立するもっともらしい状態
棄却域,
t分布表の
α
,
2
α
,片側検定と両側検定
対立仮説が
6
=
なら両側,不等号なら片側.
表をはみ出す自由度
t分布の場合,正規分布で十分
カイ二乗,
F分布の場合,
EXCELで計算可能(下から
95%点の場合)
=CHISQ.INV(0.95,
自由度
),
=F.INV(0.95,自由度1
,自由度2
)平均の差,比率の差,分散,分散の比
統計学 第 12 回– 3 / 37
二つのグループからの標本が以下のようにあらわされるとする
グループ1: {X1, X2, . . . , Xn}
グループ2: {Y1, Y2, . . . , Ym}
すなわち,グループ1は大きさ n の標本であり,グループ2は大きさ m の標本で ある.
それぞれのグループでの標本平均・標本分散を以下のように表す
¯
X = 1
n n
X
i=1
Xi, SX2 =
1 n − 1
n
X
i=1
(Xi − X¯)2
¯
Y = 1
m m
X
j=1
Yj, SY2 = 1 m − 1
m
X
j=1
平均の差,比率の差,分散,分散の比
統計学 第 12 回– 4 / 37
このとき,グループ1の母集団平均を µX,グループ2の母集団平均を µY とする
と,中心極限定理により,近似的に以下の関係が成り立つ.
Z = ( ¯Xp− µX) − ( ¯Y − µY ) SX2 /n + SY2 /m =
¯
X − Y¯ − (µX − µY )
p
SX2 /n + SY2 /m ∼ N(0,1) (1)
比率を問う問題の場合も,グループ1の母集団比率が pX,グループ2の母集団比率
が pY ならば,近似的に以下の関係が成り立つ.
Z = p ( ¯X − pX) − ( ¯Y − pY ) ¯
X · (1 − X¯)/n + ¯Y · (1 − Y¯)/m =
¯
X − Y¯ − (pX − pY )
p ¯
平均の差,比率の差,分散,分散の比
統計学 第 12 回– 5 / 37
双方の母集団分布が正規分布であると考えられ,かつ双方の母集団分散が等しい
(σ2 = σX2 = σY2 ) と考えらえるとき,
T = ( ¯X −pµX) − ( ¯Y − µY )
S2/(n + m) ∼ t(n + m − 2)
= {( ¯X − Y¯) − (µX − µY )}/{σ
2/(n + m)}
p
{(n + m − 2) · S2/σ2}/(n + m − 2) =
N(0,1)
p
χ2(n + m − 2)/(n + m − 2) ∼ t
where
S2 = 1
n + m − 2
n
X
i=1
(Xi − X¯)2 + m
X
j=1
(Yj − Y¯)2
平均の差,比率の差,分散,分散の比
統計学 第 12 回– 6 / 37
分散と分散比に関して,
(n − 1) · SX2
σX2 =
n
X
i=1
Xi − X¯ σX
2
∼ χ2(n − 1) (4)
SX2 /σX2
SY2 /σY2 =
SX2 SY2 ·
σY2 σX2 =
{(n − 1) · SX2 /σX2 }/(n − 1)
{(m − 1) · SY2 /σY2 }/(m − 1) ∼ F(n − 1, m −(5)1)
平均,比率の差に関する検定
平均の差,比率の差, 分散,分散の比
平均,比率の差に関 する検定
平均の差:例1の 問題
平均の差:例1の問 題:図解
平均の差:例1の 問題
比率の差:例2の 問題
比率の差:例2の問 題:図解
比率の差:例2の 問題
補足 1:グループ間
での等分散を仮定し た平均差の検定 補足 2:比率の差
補足:平均の差・分 散の比に関する信頼 区間
母集団分散に関する 検定
演習問題
統計学 第 12 回– 7 / 37
平均の差:例1の問題
統計学 第 12 回– 8 / 37
子供のいるワーキングマザーを無作為に 150 人調査し,一日あたりの食費平均値が
2431 円,分散値が 1600 円であった.また,同年代の子供のいる専業主婦を無作為
に 150 人調査したところ,一日あたりの食費平均値が 2807 円,分散値が 2000 円で
あった.ワーキングマザー世帯と専業主婦世帯とで統計的にも有意な食費の差はあ るか?有意水準5%で検定してください.
1 帰無仮説(H0 : 両方の世帯の食費平均が等しい µX = µY ),対立仮説(H1 : 食
費平均が等しくない µX 6= µY )
2 有意水準5%
3 検定統計量は(1)式を用いて,Z = √ X¯−Y¯
S2
X/n+SY2 /m
とする.
帰無仮説が正しいとき,Z は(1)式から標準正規分布に従う.
対立仮説が正しいとき,Z は0よりも大きい値か,小さい値のどちらかをと
平均の差:例1の問題:図解
統計学 第 12 回– 9 / 37
-6 -4 -2 0 2 4 6
0.0 0.1 0.2 0.3 0.4 0.5 0.6 x
H0:µ = µ0 が正しい
z = 1.96 z = -1.96
-6 -4 -2 0 2 4 6
0.0 0.1 0.2 0.3 0.4 0.5
0.6 H1が正しい:µ < µ0 H1が正しい:µ << µ0
H1が正しい:µ > µ0 H1が正しい:µ >> µ0
-6 -4 -2 0 2 4 6
平均の差:例1の問題
統計学 第 12 回 – 10 / 37
子供のいるワーキングマザーを無作為に 150 人調査し,一日あたりの食費平均値が
2431 円,分散値が 1600 円であった.また,同年代の子供のいる専業主婦を無作為
に 150 人調査したところ,一日あたりの食費平均値が 2807 円,分散値が 2000 円で
あった.ワーキングマザー世帯と専業主婦世帯とで統計的にも有意な食費の差はあ るか?有意水準5%で検定してください.
4 棄却域は,図より [−∞,−1.96] あるいは [1.96, ∞] となる.
5 検定統計量の値は -76.75 なので棄却域に含まれる.
z = p x¯ − y¯
s2X/n + s2Y /m =
2431 − 2807
p
1600/150 + 2000/150 = −76.75
比率の差:例2の問題
統計学 第 12 回 – 11 / 37
年末に放映される紅白歌合戦の 2006 年度における視聴率は 39.8 %となった.これ
は 2005 年度の 42.9 %と比べ見かけ上減少しているが統計的にも有意な差はあるか?
有意水準5%で検定してください(視聴率は 600 人で調査 されているものとする).
1 帰無仮説(H0 : 両方の年度で視聴率が等しい pX = pY ),対立仮説(H1 :2005
年の方が高い pX > pY )
2 有意水準5%
3 検定統計量は(2)式を用いて,Z = √ X¯−Y¯
¯
X·(1−X¯)/n+ ¯Y·(1−Y¯)/m とする.ただし,
¯
X を 2005 年度,Y¯ を 2006 年度の標本平均とする.
帰無仮説が正しいとき,Z は(2)式から標準正規分布に従う.
比率の差:例2の問題:図解
統計学 第 12 回 – 12 / 37
-4 -2 0 2 4 6 8
0.0
0.1
0.2
0.3
0.4
x
H0:µ = µ0 が正しい
z = 1.64
-4 -2 0 2 4 6 8
0.0
0.1
0.2
0.3
0.4 H1が正しい:µ > µ0 H1が正しい:µ >> µ0 H1が正しい:µ >>> µ0
-4 -2 0 2 4 6 8
0.0
0.1
0.2
0.3
比率の差:例2の問題
統計学 第 12 回 – 13 / 37
年末に放映される紅白歌合戦の 2006 年度における視聴率は 39.8 %となった.これ
は 2005 年度の 42.9 %と比べ見かけ上減少しているが統計的にも有意な差はあるか?
有意水準5%で検定してください(視聴率は 600 人で調査 されているものとする).
4 棄却域は,図より [1.64,∞] となる.
5 検定統計量の値は 1.091 なので棄却域に含まれない.
z = p x¯ − y¯
¯
x · (1 − x¯)/n + ¯y · (1 − y¯)/m
= p 0.429 − 0.398
0.429 · 0.571/600 + 0.398 · 0.602/600 = 1.091
補足
1
:グループ間での等分散を仮定した平均差の検定
統計学 第 12 回 – 14 / 37
平均の差の問題:両方のグループで分散が等しいという状態を最初から取り込んで
S2 = 1
n + m − 2
n
X
i=1
(Xi − X¯)2 +
m
X
j=1
(Yj − Y¯)2
= n − 1
n + m − 2S
2 Y +
m − 1 n + m − 2S
2 Y
統計量の分母の SX2 と SY2 を 上の S2 で置き換えて,
¯
X − Y¯ − (µX − µY )
p
S2/n + S2/m ∼ t(n + m − 2)
補足
2
:比率の差
統計学 第 12 回 – 15 / 37
比率の差の問題:両方のグループで比率が等しいという状態を最初から取り込んで
ˆ
P = 1
n + m
n X i=1
Xi +
m X j=1 Yj
= nX¯ + mY¯ n + m
をもちいて
Z = q X¯ − Y¯ ˆ
P(1 − Pˆ)/n + ˆP(1 − Pˆ)/m
∼ N(0, 1)
としている.
補足:平均の差・分散の比に関する信頼区間
統計学 第 12 回 – 16 / 37
母集団平均(µ)に関する信頼区間の構成
母集団分散に関する検定
平均の差,比率の差, 分散,分散の比
平均,比率の差に関 する検定
母集団分散に関する 検定
母集団分散に関する 検定
練習問題1
エクセルによる統計 表の代用
練習問題1 演習問題
母集団分散に関する検定
統計学 第 12 回 – 18 / 37
正規母集団(母集団平均 µX, 母集団分散 σX2 )からの無作為標本(大きさ n)
{X1, X2, . . . , Xn}, Xi ∼ N(µ, σ2)
別の正規母集団(母集団平均 µY , 母集団分散 σY2 )からの無作為標本(大きさ m)
母集団分散に関する検定
統計学 第 12 回 – 19 / 37
標本分散 SX2 , SY2
SX2 = 1 n − 1
n
X
i=1
(Xi − X¯)2, SY2 =
1 m − 1
m
X
j=1
(Yj − Y¯)2
標本分散 SX2 , SY2 の分布特性
(n − 1) · SX2 σX2 =
n
X
i=1
(Xi − X¯)2
σX2 ∼ χ 2(n
− 1)
つまり,自由度 n − 1 のカイ二乗分布に従う.同様に (m−1)·SY2
σ2
Y ∼
χ2(m − 1)
標本分散の比に関する分布特性
{(n − 1) · SX2 /σX2 }/(n − 1)
{(m − 1) · SY2 /σY2 }/(m − 1) =
SX2 SY2
σY2
σX2 ∼ F(n − 1, m − 1)
母集団分散に関する検定
統計学 第 12 回 – 20 / 37
母集団分散に関する検定
帰無仮説 H0 : σX2 = s, H1 : σX2 6= s
検定統計量として
X(s) = (n − 1) · S
2 X s
= (n − 1) · S
2 X σX2 ×
σX2 s
この統計量は,
帰無仮説が正しい(σX2 = s)とき,X(s) ∼ χ2(n − 1)
対立仮説が正しい(σX2 6= s)とき,X(s) は 自由度 n − 1 のカイ二乗分布に
従う確率変数よりも大きい値,あるいは小さい値が出やすい分布に従う (σX2
母集団分散に関する検定
統計学 第 12 回 – 21 / 37
二つの母集団分散の比に関する検定
帰無仮説 H0 : σX2 = σY2 , H1 : σX2 > σY2
検定統計量として
F(1) = S
2 X
SY2 · 1 =
SX2 SY2
σY2 σX2
F(n−1,m−1)
×σ
2 X σY2
この統計量は,
帰無仮説が正しい(σX2 = σY2 )とき,F(1) ∼ F(n − 1, m − 1)
対立仮説が正しい(σX2 > σY2 )とき,F(1) は 自由度 n− 1 のカイ二乗分布に
従う確率変数よりも大きい値が出やすい分布に従う(σ2
X/σY2 > 1 なので).
練習問題1
統計学 第 12 回 – 22 / 37
実験動物 15 匹を二群に分け,8匹には飼料 A,残り7匹には飼料 B を与えて生育し
た.一定期間後に体重を計測したところ,以下のような結果を得た.
平均値 分散値 飼料 A 46.9 46.2 47.1 45.0 48.7 46.8 47.6 48.6 47.1 1.30
エクセルによる統計表の代用
統計学 第 12 回 – 23 / 37
○ 通常の教科書等についているt分布表,カイ二乗分布表,F 分布表は限られた範囲
でしか利用できないが,エクセルで詳細な情報が入手可能
100 × p パーセント点 点 z 以下となる確率
標準正規分布 =NORM.S.INV( p ) =NORM.S.DIST( z , TRUE)
自由度 m のt分布 =T.INV( p, m ) =T.DIST( z, m, TRUE )
自由度 m の χ2 分布 =CHISQ.INV( p, m ) =CHISQ.DIST( z, m, TRUE )
練習問題1
統計学 第 12 回 – 24 / 37
平均的な体重という観点から二つの飼料に差があるといえますか
H0;µA = µB, H1;µA 6= µB
有意水準1%
検定統計量
T = p X¯A − X¯B
SA2 /8 + SB2 /7
中心極限定理が適用できると知れば,仮説 H0 の下で検定統計量 T は標準正規 分布に従い,仮説 H1 の下では0から離れた,負値あるいは正値が出やすい傾向 にある
棄却域:(−∞,−2.57] ∪ [2.57,∞)
検定統計量の値:
t = p 47.1 − 49.3
練習問題1
統計学 第 12 回 – 25 / 37
資料 A を与えた時の体重の散らばり(分散)が1以上であるといえますか
H0 : σA2 = 1.00, H1 : σA2 > 1.00 (対立仮説を 6= とした場合については練習
問題)
有意水準5%
検定統計量
X = (8 − 1) · S
2 A
1.00
母集団分布が正規分布に従うとき,仮説 H0 の下で検定統計量 X は自由度7の カイ二乗分布に従い,仮説 H1 の下ではより大きい値が出やすい傾向にある.
棄却域1:[14.0671,∞)(対立仮説が σA2 6= 1.00 のとき, [0,1.68987] ∪ [16.0128,∞))
検定統計量の値:
x = (8 − 1) · 1.30
1.00 = 9.1
1以下の臨界点のうち,数表で利用できないものは,
MS EXCEL を用いて,「=CHISQ.INV(0.95,7)」,
練習問題1
統計学 第 12 回 – 26 / 37
散らばりという観点から二つの飼料に差があるといえますか
H0 : σA2 = σB2 , H1 : σA2 6= σB2 (対立仮説を > とした場合については練習問題)
有意水準5%
検定統計量
F = (8 − 1) · S
2 A
(7 − 1) · SB2
母集団分布が正規分布に従うとき,仮説 H0 の下で検定統計量 F は自由度 (7,6)
の F 分布に従い,仮説 H1 の下では,自由度 (7,6) の F 分布に従う確率変数に比
べ,0に近い値か,より大きい値が出やすい傾向にある.
棄却域2:[0,0.19537] ∪ [5.695,∞)(対立仮説が σA2 > σB2 のとき,大きい値が出 やすいので [4.207,∞))
検定統計量の値:
x = 1.30
1.12 = 1.160714
2以下の臨界点のうち,数表で利用できないものは, を用いて,「 」,
演習問題
平均の差,比率の差, 分散,分散の比
平均,比率の差に関 する検定
母集団分散に関する 検定
演習問題
演習問題(解答例) 練習問題2
演習問題(解答例)
統計学 第 12 回 – 28 / 37
科目 受験者数 平均点 標準偏差
H24 英語 519,867 62.07 21.02 H23 英語 519,538 61.39 20.62 H24 中国語 389 77.04 18.99 H23 中国語 392 67.07 19.05
演習問題(解答例)
統計学 第 12 回 – 29 / 37
上の表を用いて,H23 中国語と H23 英語の平均点に差があると言えるか?有意水準
5%で検定してください.
1. 帰無仮説(H0 : µE23 = µC23 ),対立仮説(H1 : µE23 6= µC23 (µE23 < µC23) )
2. 有意水準5%
3. 検定統計量は(1)式を用いて,Z = √ X¯−Y¯
S2
X/n+SY2 /m
とする(ただし n =
519538 ,m = 392 ):標本 X が H23 の英語,標本 Y が H23 の中国語と
なっている.
帰無仮説が正しいとき,Z は 近似的に標準正規分布に従う に従う.
対立仮説が正しいとき,Z は
演習問題(解答例)
統計学 第 12 回 – 30 / 37 4. 棄却域は, (−∞,−1.95] ∪ [1.95, ∞) ((−∞,−1.65]) となる.
5. 検定統計量の値は以下で求めるように -5.9 なので棄却
に入るため帰無仮説は棄却される .
z = p x¯ − y¯
s2X/n + s2Y /m
= r 61.39-67.07
20.622/519538 + 19.052/392
演習問題(解答例)
統計学 第 12 回 – 31 / 37
H23 の全受験者数は 558,984 人でそのうち全科目欠席者は 31,191 人
(31191/558984 ≈ 0.0558)いた.H24 の全受験者数は 555,537 人であり全科目欠席
者は 29,226 人 (29226/555537 ≈ 0.05261) であった.全受験者数に占める全科目欠席
者数を未受験率と呼ぶとすれば,H23 と H24 で未受験率は変化したと言えるか?有
意水準1%で検定してください.
1. 帰無仮説(H0 : 両方の年度で未受験率が等しい),対立仮説(H1 : 等しくない)
2. 有意水準1%
3. 検定統計量は,Z = √ X¯−Y¯
¯
X·(1−X¯)/n+ ¯Y·(1−Y¯)/m とする.ただし,
¯
X を H23,Y¯ を
H24 の標本平均(標本未受験率)とする.
帰無仮説が正しいとき,Z は 近似的に標準正規分布 に従う.
対立仮説が正しいとき,Z は
演習問題(解答例)
統計学 第 12 回 – 32 / 37 4. 棄却域は, (−∞,−2.57] ∪ [2.57, ∞) となる.
5. 検定統計量の値は 7.4 なので棄却域に 含まれる .
z = p x¯ − y¯
¯
x · (1 − x¯)/n + ¯y · (1 − y¯)/m
= q 0.0558-0.0526
0.0558 · (1 − 0.0558)/558984 − 0.0526 · (1 − 0.0526)/555537
= 7.4394
練習問題2
統計学 第 12 回 – 33 / 37
科目 受験者数 平均点 標準偏差
H24 英語 519,867 62.07 21.02 H23 英語 519,538 61.39 20.62 H24 中国語 389 77.04 18.99 H23 中国語 392 67.07 19.05
練習問題2
統計学 第 12 回 – 34 / 37
H24 英語(中国語)と H23 英語(中国語)の平均点に差があると言えるか
帰無仮説と対立仮説 H0,E : µE24 = µE23, H1 : µE24 6= µE23, H0,C : µC24 = µC23, H1 : µC24 > µC23
有意水準:5%
検定統計量:どちらも帰無仮説の下では標準正規分布
TE =
¯
XE24 − X¯E23
p
SE224/519867 + SE223/519538, TC =
¯
XC24 − X¯C23
p
SC224/389 + SC223/392
棄却域 RE = (−∞, −1.96] ∪ [1.96, ∞), RC = [1.65, ∞)
検定統計量の値
tE =
62.07 − 61.39
p
21.022/519867 + 20.622/519538 = 16.64838, tC =
77.04 − 67.07
p
練習問題2
統計学 第 12 回 – 35 / 37
H24 中国語と H24 英語の平均点に差があると言えるか
帰無仮説と対立仮説 H0 : µE24 = µC24, H1 : µE24 < µC24
有意水準: 5%
検定統計量
TEC =
¯
XE24 − X¯C24
p
SE224/519867 + SC223/389
棄却域 REC = (−∞, −1.65]
検定統計量の値
tEC =
62.07 − 77.04
p
演習問題2
統計学 第 12 回 – 36 / 37
H24 英語(中国語)の分散が 400(標準偏差が 20)と言えるか
帰無仮説と対立仮説
H0 : σE224 = 400, H1 : σE2 24 6= 400, H0 : σC2 24 = 400, H1 : σC2 24 < 400
有意水準:5%
検定統計量: 帰無仮説の下でカイ二乗分布,
XE =
(519867 − 1) · SE224
400 , XC =
(389 − 1) · SC224 400
棄却域3RE = [0, 517869.4] ∪ [521866.4,∞), RC = [0, 343.3446]
検定統計量の値
xE =
(519867 − 1) · 20.122
400 = 526123.1, xC =
(389 − 1) · 18.992
400 = 349.8015
3
MS EXCEL で「=CHISQ.INV(0.025, 519866)」,「=CHISQ.INV(0.975, 519866)」,「=CHISQ.INV(0.05,
演習問題2
統計学 第 12 回 – 37 / 37
H24 英語と H24 中国語の分散に差があると言えるか
帰無仮説と対立仮説 H0 : σE224 = σC224, H1 : σE2 24 > σC2 24
有意水準:5%
検定統計量
F = S
2 E24 SC224
棄却域4RE = [1.1301065, ∞)
検定統計量の値
f = 20.12
2
18.992 = 1.122551
4