統計学 第 12 回– 1 / 28
統計学 第
12
回:平均の差・分散に関する検定
担当者: 高木 真吾
講義資料等は,
http://sites.google.com/site/hustat2017/
質問等は,
[email protected]
までお願いします.
統計学 第 12 回– 2 / 28
帰無仮説と対立仮説
帰無仮説:調べたい内容,等号で指定する
対立仮説:帰無仮説を棄てた後,成立するもっともらしい状態
棄却域,
t分布表の
α
,
2
α
,片側検定と両側検定
対立仮説が
6
=
なら両側,不等号なら片側.
表をはみ出す自由度
t分布の場合,正規分布で十分
カイ二乗,
F分布の場合,
EXCELで計算可能(下から
95%点の場合)
=CHISQ.INV(0.95,
自由度
),
=F.INV(0.95,自由度1
,自由度2
)平均の差,比率の差,分散,分散の比
統計学 第 12 回– 3 / 28
二つのグループからの標本が以下のようにあらわされるとする
グループ1: {X1, X2, . . . , Xn}
グループ2: {Y1, Y2, . . . , Ym}
すなわち,グループ1は大きさ n の標本であり,グループ2は大きさ m の標本で ある.
それぞれのグループでの標本平均・標本分散を以下のように表す
¯
X = 1
n n
X
i=1
Xi, SX2 =
1
n − 1
n
X
i=1
(Xi − X¯)2
¯
Y = 1
m m
X
j=1
Yj, SY2 = 1
m − 1
m
X
j=1
平均の差,比率の差,分散,分散の比
統計学 第 12 回– 4 / 28
このとき,グループ1の母集団平均を µX,グループ2の母集団平均を µY とする と,中心極限定理により,近似的に以下の関係が成り立つ.
Z = ( ¯Xp− µX) − ( ¯Y − µY )
SX2 /n + SY2 /m =
¯
X − Y¯ − (µX − µY ) p
SX2 /n + SY2 /m ∼ N(0,1) (1)
比率を問う問題の場合も,グループ1の母集団比率が pX,グループ2の母集団比率 が pY ならば,近似的に以下の関係が成り立つ.
Z = p ( ¯X − pX) − ( ¯Y − pY ) ¯
X · (1 − X¯)/n + ¯Y · (1 − Y¯)/m =
¯
X − Y¯ − (pX − pY )
p ¯
X · (1 − X¯)/n + ¯Y · (1 − Y¯)/m ∼ N(0,1)
平均の差,比率の差,分散,分散の比
統計学 第 12 回– 5 / 28
双方の母集団分布が正規分布であると考えられ,かつ双方の母集団分散が等しい
(σ2 = σX2 = σY2 ) と考えらえるとき,
T = ( ¯X −pµX) − ( ¯Y − µY )
S2/(n + m) ∼ t(n + m − 2)
= {( ¯X − Y¯) − (µX − µY )}/{σ
2/(n + m)}
p
{(n + m − 2) · S2/σ2}/(n + m − 2) =
N(0,1) p
χ2(n + m − 2)/(n + m − 2) ∼ t
where
S2 = 1
n + m − 2
n
X
i=1
(Xi − X¯)2 + m
X
j=1
(Yj − Y¯)2
平均の差,比率の差,分散,分散の比
統計学 第 12 回– 6 / 28
分散と分散比に関して,
(n − 1) · SX2
σX2 =
n
X
i=1
Xi − X¯ σX
2
∼ χ2(n − 1) (4)
SX2 /σX2
SY2 /σY2 =
SX2 SY2 ·
σY2 σX2 =
{(n − 1) · SX2 /σX2 }/(n − 1)
{(m − 1) · SY2 /σY2 }/(m − 1) ∼ F(n − 1, m −(5)1)
平均,比率の差に関する検定
平均の差,比率の差, 分散,分散の比
平均,比率の差に関 する検定
平均の差:例1の 問題
平均の差:例1の問 題:図解
平均の差:例1の 問題
比率の差:例2の 問題
比率の差:例2の問 題:図解
比率の差:例2の 問題
補足 1:グループ間 での等分散を仮定し た平均差の検定
補足 2:比率の差
補足:平均の差・分 散の比に関する信頼 区間
母集団分散に関する 検定
演習問題
統計学 第 12 回– 7 / 28
平均の差:例1の問題
統計学 第 12 回– 8 / 28
子供のいるワーキングマザーを無作為に 150 人調査し,一日あたりの食費平均値が
2431 円,分散値が 1600 円であった.また,同年代の子供のいる専業主婦を無作為
に 150 人調査したところ,一日あたりの食費平均値が 2807 円,分散値が 2000 円で
あった.ワーキングマザー世帯と専業主婦世帯とで統計的にも有意な食費の差はあ
るか?有意水準5%で検定してください.
1 帰無仮説(H0 : 両方の世帯の食費平均が等しい µX = µY ),対立仮説(H1 : 食 費平均が等しくない µX 6= µY )
2 有意水準5%
3 検定統計量は(1)式を用いて,Z =
¯
X−Y¯
√ S2
X/n+SY2 /m
とする.
帰無仮説が正しいとき,Z は(1)式から標準正規分布に従う.
対立仮説が正しいとき,Z は0よりも大きい値か,小さい値のどちらかをと
平均の差:例1の問題:図解
統計学 第 12 回– 9 / 28
-6 -4 -2 0 2 4 6
0.0 0.1 0.2 0.3 0.4 0.5 0.6 x H
0:µ = µ0
が正しい
z = 1.96 z = -1.96
-6 -4 -2 0 2 4 6
0.0 0.1 0.2 0.3 0.4 0.5 0.6 H 1
が正しい:µ < µ 0 H
1
が正しい:µ << µ 0
H 1
が正しい:µ > µ 0 H
1
が正しい:µ >> µ 0
-6 -4 -2 0 2 4 6
平均の差:例1の問題
統計学 第 12 回 – 10 / 28
子供のいるワーキングマザーを無作為に 150 人調査し,一日あたりの食費平均値が
2431 円,分散値が 1600 円であった.また,同年代の子供のいる専業主婦を無作為
に 150 人調査したところ,一日あたりの食費平均値が 2807 円,分散値が 2000 円で
あった.ワーキングマザー世帯と専業主婦世帯とで統計的にも有意な食費の差はあ
るか?有意水準5%で検定してください.
4 棄却域は,図より [−∞,−1.96] あるいは [1.96, ∞] となる.
5 検定統計量の値は -76.75 なので棄却域に含まれる.
z = p x¯ − y¯
s2X/n + s2Y /m =
2431 − 2807 p
1600/150 + 2000/150 = −76.75
比率の差:例2の問題
統計学 第 12 回 – 11 / 28
年末に放映される紅白歌合戦の 2006 年度における視聴率は 39.8 %となった.これ
は 2005 年度の 42.9 %と比べ見かけ上減少しているが統計的にも有意な差はあるか?
有意水準5%で検定してください(視聴率は 600 人で調査 されているものとする).
1 帰無仮説(H0 : 両方の年度で視聴率が等しい pX = pY ),対立仮説(H1 :2005 年の方が高い pX > pY )
2 有意水準5%
3 検定統計量は(2)式を用いて,Z =
¯
X−Y¯
√ ¯
X·(1−X¯)/n+ ¯Y·(1−Y¯)/m
とする.ただし,
¯
X を 2005 年度,Y¯ を 2006 年度の標本平均とする.
帰無仮説が正しいとき,Z は(2)式から標準正規分布に従う.
比率の差:例2の問題:図解
統計学 第 12 回 – 12 / 28
-4 -2 0 2 4 6 8
0.0 0.1 0.2 0.3 0.4 x H
0:µ = µ0
が正しい
z = 1.64
-4 -2 0 2 4 6 8
0.0 0.1 0.2 0.3 0.4 H 1
が正しい:µ > µ 0 H
1
が正しい:µ >> µ 0 H
1
が正しい:µ >>> µ 0
-4 -2 0 2 4 6 8
0.0
0.1
0.2
0.3
比率の差:例2の問題
統計学 第 12 回 – 13 / 28
年末に放映される紅白歌合戦の 2006 年度における視聴率は 39.8 %となった.これ
は 2005 年度の 42.9 %と比べ見かけ上減少しているが統計的にも有意な差はあるか?
有意水準5%で検定してください(視聴率は 600 人で調査 されているものとする).
4 棄却域は,図より [1.64,∞] となる.
5 検定統計量の値は 1.091 なので棄却域に含まれない.
z = p x¯ − y¯ ¯
x · (1 − x¯)/n + ¯y · (1 − y¯)/m
= p 0.429 − 0.398
0.429 · 0.571/600 + 0.398 · 0.602/600 = 1.091
補足
1
:グループ間での等分散を仮定した平均差の検定
統計学 第 12 回 – 14 / 28
平均の差の問題:両方のグループで分散が等しいという状態を最初から取り込んで
S2 = 1
n + m − 2
n
X
i=1
(Xi − X¯)2 +
m
X
j=1
(Yj − Y¯)2
= n − 1
n + m − 2S
2
Y +
m − 1
n + m − 2S
2
Y
統計量の分母の S2
X と S2
Y を 上の S2 で置き換えて,
¯
X − Y¯ − (µX − µY ) p
S2/n + S2/m ∼ t(n + m − 2)
とすると,母集団分布が正規分布で,上述の通り,グループ間で母分散が等しいと
補足
2
:比率の差
統計学 第 12 回 – 15 / 28
比率の差の問題:両方のグループで比率が等しいという状態を最初から取り込んで
ˆ
P = 1
n + m
n
X
i=1
Xi +
m
X
j=1
Yj
= nX¯ + mY¯
n + m
をもちいて
Z = q X¯ − Y¯ ˆ
P(1 − Pˆ)/n + ˆP(1 − Pˆ)/m
∼ N(0, 1)
としている.
補足:平均の差・分散の比に関する信頼区間
統計学 第 12 回 – 16 / 28
母集団平均(µ)に関する信頼区間の構成
母集団分散に関する検定
平均の差,比率の差, 分散,分散の比
平均,比率の差に関 する検定
母集団分散に関する 検定
母集団分散に関する 検定
練習問題1
エクセルによる統計 表の代用
練習問題1
演習問題
母集団分散に関する検定
統計学 第 12 回 – 18 / 28
正規母集団(母集団平均 µX, 母集団分散 σ2
X)からの無作為標本(大きさ n) {X1, X2, . . . , Xn}, Xi ∼ N(µ, σ2)
別の正規母集団(母集団平均 µY , 母集団分散 σ2
母集団分散に関する検定
統計学 第 12 回 – 19 / 28
標本分散 S2
X, SY2
SX2 = 1
n − 1
n
X
i=1
(Xi − X¯)2, SY2 =
1
m − 1
m
X
j=1
(Yj − Y¯)2
標本分散 S2
X, SY2 の分布特性
(n − 1) · SX2 σX2 =
n
X
i=1
(Xi − X¯)2
σX2 ∼ χ
2(n
− 1)
つまり,自由度 n − 1 のカイ二乗分布に従う.同様に
(m−1)·SY2
σ2
Y ∼
χ2(m − 1)
標本分散の比に関する分布特性
{(n − 1) · SX2 /σX2 }/(n − 1)
{(m − 1) · SY2 /σY2 }/(m − 1) =
SX2 SY2
σY2
σX2 ∼ F(n − 1, m − 1)
母集団分散に関する検定
統計学 第 12 回 – 20 / 28
母集団分散に関する検定
帰無仮説 H0 : σ2
X = s, H1 : σX2 6= s 検定統計量として
X(s) = (n − 1) · S
2
X s
= (n − 1) · S
2
X σX2 ×
σX2 s
この統計量は,
帰無仮説が正しい(σ2
X = s)とき,X(s) ∼ χ2(n − 1)
対立仮説が正しい(σ2
X 6= s)とき,X(s) は 自由度 n − 1 のカイ二乗分布に 従う確率変数よりも大きい値,あるいは小さい値が出やすい分布に従う
(
σX2
母集団分散に関する検定
統計学 第 12 回 – 21 / 28
二つの母集団分散の比に関する検定
帰無仮説 H0 : σ2
X = σY2 , H1 : σX2 > σY2 検定統計量として
F(1) = S
2
X
SY2 · 1 =
SX2 SY2
σY2 σX2
F(n−1,m−1)
×σ 2
X σY2
この統計量は,
帰無仮説が正しい(σ2
X = σY2 )とき,F(1) ∼ F(n − 1, m − 1)
対立仮説が正しい(σ2
X > σY2 )とき,F(1) は 自由度 n− 1 のカイ二乗分布に 従う確率変数よりも大きい値が出やすい分布に従う(σ2
X/σY2 > 1 なので).
H1 : σX2 < σY2 なら F(1) は F 分布に従う変数より小さく0に近い値
練習問題1
統計学 第 12 回 – 22 / 28
実験動物 15 匹を二群に分け,8匹には飼料 A,残り7匹には飼料 B を与えて生育し
た.一定期間後に体重を計測したところ,以下のような結果を得た.
平均値 分散値
飼料 A 46.9 46.2 47.1 45.0 48.7 46.8 47.6 48.6 47.1 1.30
エクセルによる統計表の代用
統計学 第 12 回 – 23 / 28
○ 通常の教科書等についているt分布表,カイ二乗分布表,F 分布表は限られた範囲
でしか利用できないが,エクセルで詳細な情報が入手可能
100 × p パーセント点 点 z 以下となる確率
標準正規分布 =NORM.S.INV( p ) =NORM.S.DIST( z , TRUE)
自由度 m のt分布 =T.INV( p, m ) =T.DIST( z, m, TRUE )
練習問題1
統計学 第 12 回 – 24 / 28
平均的な体重という観点から二つの飼料に差があるといえますか
H0;µA = µB, H1;µA 6= µB 有意水準1%
検定統計量
T = p X¯A − X¯B
SA2 /8 + SB2 /7
中心極限定理が適用できると知れば,仮説 H0 の下で検定統計量 T は標準正規 分布に従い,仮説 H1 の下では0から離れた,負値あるいは正値が出やすい傾向 にある
棄却域:(−∞,−2.57] ∪ [2.57,∞)
検定統計量の値:
t = p 47.1 − 49.3
練習問題1
統計学 第 12 回 – 25 / 28
資料 A を与えた時の体重の散らばり(分散)が1以上であるといえますか
H0 : σA2 = 1.00, H1 : σA2 > 1.00 (対立仮説を 6= とした場合については練習 問題)
有意水準5%
検定統計量
X = (8 − 1) · S
2
A
1.00
母集団分布が正規分布に従うとき,仮説 H0 の下で検定統計量 X は自由度7の カイ二乗分布に従い,仮説 H1 の下ではより大きい値が出やすい傾向にある.
棄却域
1
:[14.0671,∞)(対立仮説が σ2
A 6= 1.00 のとき,
[0,1.68987] ∪ [16.0128,∞))
検定統計量の値:
x = (8 − 1) · 1.30
1.00 = 9.1
1
以下の臨界点のうち,数表で利用できないものは,MS EXCEL を用いて,「=CHISQ.INV(0.95,7)」,
練習問題1
統計学 第 12 回 – 26 / 28
散らばりという観点から二つの飼料に差があるといえますか
H0 : σA2 = σB2 , H1 : σA2 6= σB2 (対立仮説を > とした場合については練習問題)
有意水準5%
検定統計量
F = (8 − 1) · S
2
A
(7 − 1) · SB2
母集団分布が正規分布に従うとき,仮説 H0 の下で検定統計量 F は自由度 (7,6) の F 分布に従い,仮説 H1 の下では,自由度 (7,6) の F 分布に従う確率変数に比 べ,0に近い値か,より大きい値が出やすい傾向にある.
棄却域
2
:[0,0.19537] ∪ [5.695,∞)(対立仮説が σ2
A > σB2 のとき,大きい値が出 やすいので [4.207,∞))
検定統計量の値:
x = 1.30
1.12 = 1.160714
2
以下の臨界点のうち,数表で利用できないものは, を用いて,「 」,
演習問題
平均の差,比率の差, 分散,分散の比
平均,比率の差に関 する検定
母集団分散に関する 検定
演習問題
演習問題(解答例)
演習問題(解答例)
統計学 第 12 回 – 28 / 28
科目 受験者数 平均点 標準偏差
H24 英語 519,867 62.07 21.02
H23 英語 519,538 61.39 20.62
H24 中国語 389 77.04 18.99
H23 中国語 392 67.07 19.05
以下の問題で,標本サイズが大きければ,小さい差ですら統計的に有意に出やすいこと