1
情報科学 第11回 仮説検定
はじめに
結果
アンケートの結果、
平均 52 となりました。
全国平均は50なので、
高い結果となりました。
それって、
たまたまなんじゃ?
どうやったら、説得力ある形 で説明できるでしょうか?
やりたいこと
例:
あるコインでコイン投げを100回行ったところ、56回表 が出ました。
このコインで、平等な勝負ができるでしょうか?
"100 回中 56 回表が出る " が、
「たまたま」なのか「必然」なのかを知りたい。
仮説検定
1 つの母集団に対する検定
仮説検定でやりたいこと
母集団A
集団から標本を とました。
標本
この平均は、想定していた平均と、
差があるのでしょうか?
平均を求めました。
154
直感的なアイディア
前提:
標準正規文武なら、平均値や割合から、収まるべき範 囲がわかる。
外れていたら、これは "たまたま" じゃないだろう。
想定値
コイン投げなら 割合0.5
0 1
標本平均
95%の区間推定
仮説検定の流れ
1. 帰無仮説 H
0を立てる。
この結果はサンプリングの偏りにより偶然発生し、
本当は集団に差はない。
2. 仮説のようなことは、めったに発生しないことを示す
(仮説を棄却する)。
3. 結果として、仮説は間違っているので、その反対
この結果はサンプリングの偏りにより偶然発生す るようなものではなく、本当に集団に差がある。
注:仮説が棄却できなかった場合は、確定的なことは 何も言えない。
比率の仮説検定のアイディア
与えられる物:
1つの母集団から得た十分に大きい標本
母集団は正規分布している。
アイディア
検定統計量を計算し、それが大きいかどうかを見る。
が1.96より大きいかを見よう。
p n p
n p m
z 1
1
00 0
平均の仮説検定の手順
1. 検定統計量 を計算。
n : 標本の個数
m :標本中の該当する個数
p
0:比較したい母集団の比率
2. 標準正規分布表で確率 0.95 の外側にでる場合、
つまり z の値が 1.96 以上ならば、仮説を棄却する。
p n p
n p m
z 1
1
00 0
母平均の計算( Excel 編) 1
問題:
あるコインでコイン投げを100回行ったところ、60回表 が出ました。
このコインで、平等な勝負ができるでしょうか?
このコインの表が出る確率を仮説検定しましょう。
母平均の計算( Excel 編) 2
計算したい式:
1. 標本を入力しましょう。
2. 平均値を求めましょう。
3. z を求めましょう。
4. z の値が1.96以上か否かを 確認しましょう。
p n p
n p m
z 1
1
00 0
練習問題 0
問題:
あるコインでコイン投げを200回行ったところ、118回表 が出ました。
このコインで、平等な勝負ができるでしょうか?
このコインの表が出る確率を仮説検定しましょう。
2 つの母集団に対する検定
(母平均)
2 つの母集団のときの検定
母集団 A
2 つの集団から 標本をとました。
標本
推測された2つの集団には、
差があるのでしょうか ?
母集団B 標本
平均を求めました。
154
160
直感的なアイデア
母集団全体のデータを取ることは困難なため、標本か ら平均値を求ることにします。
2つの集団から標本を取り、2つの平均値を求めました。
ただし、幅がある形で求められます。
平均値の差は「たまたま」なのでしょうか?
それとも「常にこうなる」のでしょうか?
やること
与えられる物:
2つの母集団から得た標本データ
アイディア
2つの母集団の平均に差が無いなら、標本データに も差が無いはず!
を計算して、その結果
が起きにくいかどうかを検討しよう!
2 2
1 1
2
A B
A A B B
A B A B
x x
t n s n s
n n n n
平均の仮説検定の手順
1. 検定統計量 を計算。
, :それぞれの標本の個数
:標本平均
:標本分散
2. t 分布表の確率0.05、自由度n
A+n
B-2 の値と比較し て大きかった場合、仮説は正しくないと判断する。
2 2
1 1
2
A B
A A B B
A B A B
x x
t n s n s
n n n n
n
Ax s
2n
B母平均の計算( Excel 編) 1
問題:
ある2つの集団A,Bからからサンプリングして身長を教 えて貰ったところ、
標本A: 160, 172, 165, 168, 150, 165 標本B: 172, 175, 168, 179, 182, 166 だった。
この集団(母集団)の身長の平均値を仮説検定しま
しょう。
母平均の計算( Excel 編) 2
計算したい式:
方針:
1. それぞれの平均値 x
A, x
Bを計算する。
2. それぞれの分散 , を計算する。
3. t を計算する。
4. 確率0.05、自由度 n
A+n
B-2 のときの t 値を求め、
比較する。
2
s
A
B A B A
B B A A
B A
n n n n
s n s n
x t x
1 1 2
2 2
2
s
B母平均の計算( Excel 編) 3
仮説『集団Aと集団Bの身長の平均値に差は無い』
1. 標本を入力しましょう。
2. それぞれの平均値を求めましょう。
3. それぞれの標本分散を求めましょう。
不偏分散と 間違えないように
母平均の計算( Excel 編) 4
4. を求めましょう。
5.
を求めましょう。
"共通の分散" と
2 言います
2 2
B A
B B A A
n n
s n s n
B A B A
B B A A
B A
n n n n
s n s n
x t x
1 1 2
2 2
絶対値は abs という
関数で計算できます
母平均の計算( Excel 編) 5
4. 確率0.05、自由度10の t分布の値を求めます。
5. tの値とt分布の値を比較し、
仮説を棄却できるか 判断します。
今回は、仮説は棄却 されました。
先週やったtinvを使う
練習問題 1 :
問題:
ある2つの集団A,Bからからテストの結果をサンプリング したところ、
標本A: 80, 88, 82, 90, 74, 78, 81 標本B: 77, 65, 85, 88, 80, 72 だった。
この集団(母集団)のテストの結果の平均値を仮説 検定しましょう。
2 つの母集団に対する検定
(母比率)
母比率の仮説検定のアイディア
与えられる物:
2つの母集団から得た比率データ
アイディア
母平均の仮説検定と同じようなことをする。
を計算して、
その結果が起きにくいかどうかを検討しよう!
標本数が大きいので、標準正規分布を利用する。
B A B A
B A B A
B A
B B A A
n n n n
m m n n
m m
n m n m
t 1 1 1
母比率の仮説検定の手順
1. 検定統計量 を計算。
n
A, n
B:それぞれの標本の個数
m
A, m
B:それぞれの標本に含まれている個数 2. 標準正規分布の確率0.95の値 1.96 と比較し、大き
かった場合、仮説は正しくないと判断する。
B A B A
B A B A
B A
B B A A
n n n n
m m n n
m m
n m n m
t 1 1 1
母比率の計算( Excel 編) 1
問題:
集団Aから100人を選んでアンケートを採ったところ、68 人がコーラ好きであると答えた。
集団Bから100人を選んでアンケートを採ったところ、51 人がコーラ好きであると答えた。
この集団(母集団)のコーラ好きの割合を仮説検定し ましょう。
母比率の計算( Excel 編) 2
計算したい式:
方針:
1. を計算する。
2. t を計算する。
3. 1.96と比較する。
B A B A
B A B A
B A
B B A A
n n n n
m m n n
m m
n m n m
t 1 1 1
B A
B A
n n
m m
母平均の計算( Excel 編) 3
仮説
『集団Aと集団Bのコーラ好きの割合に差は無い』
1. 標本を入力しましょう。
2. それぞれのコーラ好きの比率を求めましょう。
母平均の計算( Excel 編) 4
3. を計算しましょう。
4. t の値を求めましょう。
5. 1.96と比較します。
今回はtの値の 方が大きいため、
仮説は棄却されました。
B A
B A