• 検索結果がありません。

資料置き場 hustat2017 20171222

N/A
N/A
Protected

Academic year: 2018

シェア "資料置き場 hustat2017 20171222"

Copied!
37
0
0

読み込み中.... (全文を見る)

全文

(1)

統計学 第 12 回– 1 / 37

統計学 第

12

回:平均の差・分散に関する検定

担当者: 高木 真吾

講義資料等は,

http://sites.google.com/site/hustat2017/

質問等は,

[email protected]

までお願いします.

(2)

統計学 第 12 回– 2 / 37

帰無仮説と対立仮説

帰無仮説:調べたい内容,等号で指定する

対立仮説:帰無仮説を棄てた後,成立するもっともらしい状態

棄却域,

t

分布表の

α

2

α

,片側検定と両側検定

対立仮説が

6

=

なら両側,不等号なら片側.

表をはみ出す自由度

t分布の場合,正規分布で十分

カイ二乗,

F

分布の場合,

EXCEL

で計算可能(下から

95

%点の場合)

=CHISQ.INV(0.95,

自由度

)

,  

=F.INV(0.95,

自由度1

,

自由度2

)

(3)

平均の差,比率の差,分散,分散の比

統計学 第 12 回– 3 / 37

二つのグループからの標本が以下のようにあらわされるとする

グループ1: {X1, X2, . . . , Xn}

グループ2: {Y1, Y2, . . . , Ym}

すなわち,グループ1は大きさ n の標本であり,グループ2は大きさ m の標本で ある.

それぞれのグループでの標本平均・標本分散を以下のように表す

¯

X = 1

n n

X

i=1

Xi, SX2 =

1 n 1

n

X

i=1

(Xi − X¯)2

¯

Y = 1

m m

X

j=1

Yj, SY2 = 1 m 1

m

X

j=1

(4)

平均の差,比率の差,分散,分散の比

統計学 第 12 回– 4 / 37

このとき,グループ1の母集団平均を µX,グループ2の母集団平均を µY とする

と,中心極限定理により,近似的に以下の関係が成り立つ.

Z = ( ¯Xp− µX) − ( ¯Y − µY ) SX2 /n + SY2 /m =

¯

X X µY )

p

SX2 /n + SY2 /m ∼ N(0,1) (1)

比率を問う問題の場合も,グループ1の母集団比率が pX,グループ2の母集団比率

pY ならば,近似的に以下の関係が成り立つ.

Z = p ( ¯X − pX) − ( ¯Y − pY ) ¯

X · (1 X¯)/n + ¯Y · (1 Y¯)/m =

¯

X (pX − pY )

p ¯

(5)

平均の差,比率の差,分散,分散の比

統計学 第 12 回– 5 / 37

双方の母集団分布が正規分布であると考えられ,かつ双方の母集団分散が等しい

(σ2 = σX2 = σY2 ) と考えらえるとき,

T = ( ¯X −pµX) − ( ¯Y − µY )

S2/(n + m) ∼ t(n + m − 2)

= {( ¯X − Y¯) − (µX − µY )}/{σ

2/(n + m)}

p

{(n + m 2) · S22}/(n + m 2) =

N(0,1)

p

χ2(n + m 2)/(n + m 2) ∼ t

where

S2 = 1

n + m 2

n

X

i=1

(Xi − X¯)2 + m

X

j=1

(Yj − Y¯)2

(6)

平均の差,比率の差,分散,分散の比

統計学 第 12 回– 6 / 37

分散と分散比に関して,

(n 1) · SX2

σX2 =

n

X

i=1

Xi − X¯ σX

2

∼ χ2(n 1) (4)

SX2 /σX2

SY2 /σY2 =

SX2 SY2 ·

σY2 σX2 =

{(n 1) · SX2 /σX2 }/(n 1)

{(m 1) · SY2 /σY2 }/(m 1) ∼ F(n − 1, m −(5)1)

(7)

平均,比率の差に関する検定

平均の差,比率の差, 分散,分散の比

平均,比率の差に関 する検定

平均の差:例1の 問題

平均の差:例1の問 題:図解

平均の差:例1の 問題

比率の差:例2の 問題

比率の差:例2の問 題:図解

比率の差:例2の 問題

補足 1:グループ間

での等分散を仮定し た平均差の検定 補足 2:比率の差

補足:平均の差・分 散の比に関する信頼 区間

母集団分散に関する 検定

演習問題

統計学 第 12 回– 7 / 37

(8)

平均の差:例1の問題

統計学 第 12 回– 8 / 37

子供のいるワーキングマザーを無作為に 150 人調査し,一日あたりの食費平均値が

2431 円,分散値が 1600 円であった.また,同年代の子供のいる専業主婦を無作為

に 150 人調査したところ,一日あたりの食費平均値が 2807 円,分散値が 2000 円で

あった.ワーキングマザー世帯と専業主婦世帯とで統計的にも有意な食費の差はあ るか?有意水準5%で検定してください.

1 帰無仮説(H0 : 両方の世帯の食費平均が等しい µX = µY ),対立仮説(H1 : 食

費平均が等しくない µX 6= µY

2 有意水準5%

3 検定統計量は(1)式を用いて,Z = √ X¯−Y¯

S2

X/n+SY2 /m

とする.

帰無仮説が正しいとき,Z は(1)式から標準正規分布に従う.

対立仮説が正しいとき,Z は0よりも大きい値か,小さい値のどちらかをと

(9)

平均の差:例1の問題:図解

統計学 第 12 回– 9 / 37

-6 -4 -2 0 2 4 6

0.0 0.1 0.2 0.3 0.4 0.5 0.6 x

H0:µ = µ0 が正しい

z = 1.96 z = -1.96

-6 -4 -2 0 2 4 6

0.0 0.1 0.2 0.3 0.4 0.5

0.6 H1が正しい:µ < µ0 H1が正しい:µ << µ0

H1が正しい:µ > µ0 H1が正しい:µ >> µ0

-6 -4 -2 0 2 4 6

(10)

平均の差:例1の問題

統計学 第 12 回 – 10 / 37

子供のいるワーキングマザーを無作為に 150 人調査し,一日あたりの食費平均値が

2431 円,分散値が 1600 円であった.また,同年代の子供のいる専業主婦を無作為

に 150 人調査したところ,一日あたりの食費平均値が 2807 円,分散値が 2000 円で

あった.ワーキングマザー世帯と専業主婦世帯とで統計的にも有意な食費の差はあ るか?有意水準5%で検定してください.

4 棄却域は,図より [−∞,−1.96] あるいは [1.96, ∞] となる.

5 検定統計量の値は -76.75 なので棄却域に含まれる.

z = p x¯ − y¯

s2X/n + s2Y /m =

2431 2807

p

1600/150 + 2000/150 = −76.75

(11)

比率の差:例2の問題

統計学 第 12 回 – 11 / 37

年末に放映される紅白歌合戦の 2006 年度における視聴率は 39.8 %となった.これ

は 2005 年度の 42.9 %と比べ見かけ上減少しているが統計的にも有意な差はあるか?

有意水準5%で検定してください(視聴率は 600 人で調査 されているものとする).

1 帰無仮説(H0 : 両方の年度で視聴率が等しい pX = pY ),対立仮説(H1 :2005

年の方が高い pX > pY

2 有意水準5%

3 検定統計量は(2)式を用いて,Z = √ X¯−Y¯

¯

X·(1X¯)/n+ ¯Y·(1Y¯)/m とする.ただし,

¯

X を 2005 年度,Y¯ を 2006 年度の標本平均とする.

帰無仮説が正しいとき,Z は(2)式から標準正規分布に従う.

(12)

比率の差:例2の問題:図解

統計学 第 12 回 – 12 / 37

-4 -2 0 2 4 6 8

0.0

0.1

0.2

0.3

0.4

x

H0:µ = µ0 が正しい

z = 1.64

-4 -2 0 2 4 6 8

0.0

0.1

0.2

0.3

0.4 H1が正しい:µ > µ0 H1が正しい:µ >> µ0 H1が正しい:µ >>> µ0

-4 -2 0 2 4 6 8

0.0

0.1

0.2

0.3

(13)

比率の差:例2の問題

統計学 第 12 回 – 13 / 37

年末に放映される紅白歌合戦の 2006 年度における視聴率は 39.8 %となった.これ

は 2005 年度の 42.9 %と比べ見かけ上減少しているが統計的にも有意な差はあるか?

有意水準5%で検定してください(視聴率は 600 人で調査 されているものとする).

4 棄却域は,図より [1.64,∞] となる.

5 検定統計量の値は 1.091 なので棄却域に含まれない.

z = p x¯ − y¯

¯

x · (1 x¯)/n + ¯y · (1 y¯)/m

= p 0.429 − 0.398

0.429 · 0.571/600 + 0.398 · 0.602/600 = 1.091

(14)

補足

1

:グループ間での等分散を仮定した平均差の検定

統計学 第 12 回 – 14 / 37

平均の差の問題:両方のグループで分散が等しいという状態を最初から取り込んで

S2 = 1

n + m 2

n

X

i=1

(Xi X¯)2 +

m

X

j=1

(Yj Y¯)2

= n − 1

n + m 2S

2 Y +

m 1 n + m 2S

2 Y

統計量の分母の SX2 と SY2 を 上の S2 で置き換えて,

¯

X X µY )

p

S2/n + S2/m ∼ t(n + m − 2)

(15)

補足

2

:比率の差

統計学 第 12 回 – 15 / 37

比率の差の問題:両方のグループで比率が等しいという状態を最初から取り込んで

ˆ

P = 1

n + m

   n X i=1

Xi +

m X j=1 Yj   

= nX¯ + mY¯ n + m

をもちいて

Z = q X¯ − Y¯ ˆ

P(1 Pˆ)/n + ˆP(1 Pˆ)/m

∼ N(0, 1)

としている.

(16)

補足:平均の差・分散の比に関する信頼区間

統計学 第 12 回 – 16 / 37

母集団平均(µ)に関する信頼区間の構成

(17)

母集団分散に関する検定

平均の差,比率の差, 分散,分散の比

平均,比率の差に関 する検定

母集団分散に関する 検定

母集団分散に関する 検定

練習問題1

エクセルによる統計 表の代用

練習問題1 演習問題

(18)

母集団分散に関する検定

統計学 第 12 回 – 18 / 37

正規母集団(母集団平均 µX, 母集団分散 σX2 )からの無作為標本(大きさ n)

{X1, X2, . . . , Xn}, Xi ∼ N(µ, σ2)

別の正規母集団(母集団平均 µY , 母集団分散 σY2 )からの無作為標本(大きさ m)

(19)

母集団分散に関する検定

統計学 第 12 回 – 19 / 37

標本分散 SX2 , SY2

SX2 = 1 n 1

n

X

i=1

(Xi − X¯)2, SY2 =

1 m 1

m

X

j=1

(Yj − Y¯)2

標本分散 SX2 , SY2 の分布特性

(n 1) · SX2 σX2 =

n

X

i=1

(Xi − X¯)2

σX2 ∼ χ 2(n

− 1)

つまり,自由度 n 1 のカイ二乗分布に従う.同様に (m−1)·SY2

σ2

Y ∼

χ2(m 1)

標本分散の比に関する分布特性

{(n 1) · SX2 /σX2 }/(n 1)

{(m 1) · SY2 /σY2 }/(m 1) =

SX2 SY2

σY2

σX2 ∼ F(n − 1, m − 1)

(20)

母集団分散に関する検定

統計学 第 12 回 – 20 / 37

母集団分散に関する検定

帰無仮説 H0 : σX2 = s, H1 : σX2 6= s

検定統計量として

X(s) = (n − 1) · S

2 X s

= (n − 1) · S

2 X σX2 ×

σX2 s

この統計量は,

帰無仮説が正しい(σX2 = s)とき,X(s) ∼ χ2(n − 1)

対立仮説が正しい(σX2 6= s)とき,X(s) は 自由度 n − 1 のカイ二乗分布に

従う確率変数よりも大きい値,あるいは小さい値が出やすい分布に従う (σX2

(21)

母集団分散に関する検定

統計学 第 12 回 – 21 / 37

二つの母集団分散の比に関する検定

帰無仮説 H0 : σX2 = σY2 , H1 : σX2 > σY2

検定統計量として

F(1) = S

2 X

SY2 · 1 =

SX2 SY2

σY2 σX2

F(n−1,m−1)

×σ

2 X σY2

この統計量は,

帰無仮説が正しい(σX2 = σY2 )とき,F(1) ∼ F(n − 1, m − 1)

対立仮説が正しい(σX2 > σY2 )とき,F(1) は 自由度 n− 1 のカイ二乗分布に

従う確率変数よりも大きい値が出やすい分布に従う(σ2

X/σY2 > 1 なので).

(22)

練習問題1

統計学 第 12 回 – 22 / 37

実験動物 15 匹を二群に分け,8匹には飼料 A,残り7匹には飼料 B を与えて生育し

た.一定期間後に体重を計測したところ,以下のような結果を得た.

平均値 分散値 飼料 A 46.9 46.2 47.1 45.0 48.7 46.8 47.6 48.6 47.1 1.30

(23)

エクセルによる統計表の代用

統計学 第 12 回 – 23 / 37

○ 通常の教科書等についているt分布表,カイ二乗分布表,F 分布表は限られた範囲

でしか利用できないが,エクセルで詳細な情報が入手可能

100 × p パーセント点 点 z 以下となる確率

標準正規分布 =NORM.S.INV( p ) =NORM.S.DIST( z , TRUE)

自由度 m のt分布 =T.INV( p, m ) =T.DIST( z, m, TRUE )

自由度 m の χ2 分布 =CHISQ.INV( p, m ) =CHISQ.DIST( z, m, TRUE )

(24)

練習問題1

統計学 第 12 回 – 24 / 37

平均的な体重という観点から二つの飼料に差があるといえますか

H0;µA = µB, H1;µA 6= µB

有意水準1%

検定統計量

T = p X¯A − X¯B

SA2 /8 + SB2 /7

中心極限定理が適用できると知れば,仮説 H0 の下で検定統計量 T は標準正規 分布に従い,仮説 H1 の下では0から離れた,負値あるいは正値が出やすい傾向 にある

棄却域:(−∞,−2.57] ∪ [2.57,∞)

検定統計量の値:

t = p 47.1 − 49.3

(25)

練習問題1

統計学 第 12 回 – 25 / 37

資料 A を与えた時の体重の散らばり(分散)が1以上であるといえますか

H0 : σA2 = 1.00, H1 : σA2 > 1.00 (対立仮説を 6= とした場合については練習

問題)

有意水準5%

検定統計量

X = (8 − 1) · S

2 A

1.00

母集団分布が正規分布に従うとき,仮説 H0 の下で検定統計量 X は自由度7の カイ二乗分布に従い,仮説 H1 の下ではより大きい値が出やすい傾向にある.

棄却域1:[14.0671,∞)(対立仮説が σA2 6= 1.00 のとき, [0,1.68987] [16.0128,))

検定統計量の値:

x = (8 − 1) · 1.30

1.00 = 9.1

1以下の臨界点のうち,数表で利用できないものは,

MS EXCEL を用いて,「=CHISQ.INV(0.95,7)」,

(26)

練習問題1

統計学 第 12 回 – 26 / 37

散らばりという観点から二つの飼料に差があるといえますか

H0 : σA2 = σB2 , H1 : σA2 6= σB2 (対立仮説を > とした場合については練習問題)

有意水準5%

検定統計量

F = (8 − 1) · S

2 A

(7 1) · SB2

母集団分布が正規分布に従うとき,仮説 H0 の下で検定統計量 F は自由度 (7,6)

の F 分布に従い,仮説 H1 の下では,自由度 (7,6) の F 分布に従う確率変数に比

べ,0に近い値か,より大きい値が出やすい傾向にある.

棄却域2:[0,0.19537] ∪ [5.695,∞)(対立仮説が σA2 > σB2 のとき,大きい値が出 やすいので [4.207,)

検定統計量の値:

x = 1.30

1.12 = 1.160714

2以下の臨界点のうち,数表で利用できないものは, を用いて, 」,

(27)

演習問題

平均の差,比率の差, 分散,分散の比

平均,比率の差に関 する検定

母集団分散に関する 検定

演習問題

演習問題(解答例) 練習問題2

(28)

演習問題(解答例)

統計学 第 12 回 – 28 / 37

科目 受験者数 平均点 標準偏差

H24 英語 519,867 62.07 21.02 H23 英語 519,538 61.39 20.62 H24 中国語 389 77.04 18.99 H23 中国語 392 67.07 19.05

(29)

演習問題(解答例)

統計学 第 12 回 – 29 / 37

上の表を用いて,H23 中国語と H23 英語の平均点に差があると言えるか?有意水準

5%で検定してください.

1. 帰無仮説(H0 :   µE23 = µC23  ),対立仮説(H1 :   µE23 6= µC23    (µE23 < µC23)  )

2. 有意水準5%

3. 検定統計量は(1)式を用いて,Z = √ X¯−Y¯

S2

X/n+SY2 /m

とする(ただし n =

519538  ,m =   392  ):標本 X が H23 の英語,標本 Y が H23 の中国語と

なっている.

帰無仮説が正しいとき,Z は  近似的に標準正規分布に従う  に従う.

対立仮説が正しいとき,Z は

(30)

演習問題(解答例)

統計学 第 12 回 – 30 / 37 4. 棄却域は,   (−∞,−1.95] ∪ [1.95, ∞)  ((−∞,−1.65])   となる.

5. 検定統計量の値は以下で求めるように    -5.9     なので棄却

 に入るため帰無仮説は棄却される   .

z = p x¯ − y¯

s2X/n + s2Y /m

= r   61.39-67.07  

20.622/519538 + 19.052/392

(31)

演習問題(解答例)

統計学 第 12 回 – 31 / 37

H23 の全受験者数は 558,984 人でそのうち全科目欠席者は 31,191 人

31191/558984 0.0558)いた.H24 の全受験者数は 555,537 人であり全科目欠席

者は 29,226 人 (29226/555537 ≈ 0.05261) であった.全受験者数に占める全科目欠席

者数を未受験率と呼ぶとすれば,H23 と H24 で未受験率は変化したと言えるか?有

意水準1%で検定してください.

1. 帰無仮説(H0 : 両方の年度で未受験率が等しい),対立仮説(H1 : 等しくない)

2. 有意水準1%

3. 検定統計量は,Z = √ X¯−Y¯

¯

X·(1X¯)/n+ ¯Y·(1Y¯)/m とする.ただし,

¯

X を H23,Y¯ を

H24 の標本平均(標本未受験率)とする.

帰無仮説が正しいとき,Z は  近似的に標準正規分布   に従う.

対立仮説が正しいとき,Z は

(32)

演習問題(解答例)

統計学 第 12 回 – 32 / 37 4. 棄却域は,   (−∞,−2.57] ∪ [2.57, ∞)   となる.

5. 検定統計量の値は    7.4     なので棄却域に   含まれる   .

z = p x¯ − y¯

¯

x · (1 x¯)/n + ¯y · (1 y¯)/m

= q   0.0558-0.0526  

0.0558 · (1 0.0558)/558984 0.0526 · (1 0.0526)/555537

=   7.4394  

(33)

練習問題2

統計学 第 12 回 – 33 / 37

科目 受験者数 平均点 標準偏差

H24 英語 519,867 62.07 21.02 H23 英語 519,538 61.39 20.62 H24 中国語 389 77.04 18.99 H23 中国語 392 67.07 19.05

(34)

練習問題2

統計学 第 12 回 – 34 / 37

H24 英語(中国語)と H23 英語(中国語)の平均点に差があると言えるか

帰無仮説と対立仮説 H0,E : µE24 = µE23, H1 : µE24 6= µE23, H0,C : µC24 = µC23, H1 : µC24 > µC23

有意水準:5%

検定統計量:どちらも帰無仮説の下では標準正規分布

TE =

¯

XE24 − X¯E23

p

SE224/519867 + SE223/519538, TC =

¯

XC24 − X¯C23

p

SC224/389 + SC223/392

棄却域 RE = (−∞, −1.96] ∪ [1.96, ∞), RC = [1.65, ∞)

検定統計量の値

tE =

62.07 61.39

p

21.022/519867 + 20.622/519538 = 16.64838, tC =

77.04 67.07

p

(35)

練習問題2

統計学 第 12 回 – 35 / 37

H24 中国語と H24 英語の平均点に差があると言えるか

帰無仮説と対立仮説 H0 : µE24 = µC24, H1 : µE24 < µC24

有意水準: 5%

検定統計量

TEC =

¯

XE24 − X¯C24

p

SE224/519867 + SC223/389

棄却域 REC = (−∞, −1.65]

検定統計量の値

tEC =

62.07 77.04

p

(36)

演習問題2

統計学 第 12 回 – 36 / 37

H24 英語(中国語)の分散が 400(標準偏差が 20)と言えるか

帰無仮説と対立仮説

H0 : σE224 = 400, H1 : σE2 24 6= 400, H0 : σC2 24 = 400, H1 : σC2 24 < 400

有意水準:5%

検定統計量: 帰無仮説の下でカイ二乗分布,

XE =

(519867 1) · SE224

400 , XC =

(389 1) · SC224 400

棄却域3RE = [0, 517869.4] ∪ [521866.4,∞), RC = [0, 343.3446]

検定統計量の値

xE =

(519867 1) · 20.122

400 = 526123.1, xC =

(389 1) · 18.992

400 = 349.8015

3

MS EXCEL で「=CHISQ.INV(0.025, 519866)」,「=CHISQ.INV(0.975, 519866)」,「=CHISQ.INV(0.05,

(37)

演習問題2

統計学 第 12 回 – 37 / 37

H24 英語と H24 中国語の分散に差があると言えるか

帰無仮説と対立仮説 H0 : σE224 = σC224, H1 : σE2 24 > σC2 24

有意水準:5%

検定統計量

F = S

2 E24 SC224

棄却域4RE = [1.1301065, ∞)

検定統計量の値

f = 20.12

2

18.992 = 1.122551

4

参照

関連したドキュメント

うのも、それは現物を直接に示すことによってしか説明できないタイプの概念である上に、その現物というのが、

Bでは両者はだいたい似ているが、Aではだいぶ違っているのが分かるだろう。写真の度数分布と考え

 そして,我が国の通説は,租税回避を上記 のとおり定義した上で,租税回避がなされた

右の実方説では︑相互拘束と共同認識がカルテルの実態上の問題として区別されているのであるが︑相互拘束によ

以上の基準を仮に想定し得るが︑おそらくこの基準によっても︑小売市場事件は合憲と考えることができよう︒

〇齋藤会長代理 ありがとうございました。.

自然言語というのは、生得 な文法 があるということです。 生まれつき に、人 に わっている 力を って乳幼児が獲得できる言語だという え です。 語の それ自 も、 から

下山にはいり、ABさんの名案でロープでつ ながれた子供たちには笑ってしまいました。つ