帰無仮説検定の問題点(まとめ)
・研究仮説を対立仮説として立てることの不自然さ
−「同じである」ことを証明できない
信頼区間
・ある定められた確率で⺟数を含む区間(南風原, 2002)
−記述統計(⼿元のデータが⺟集団)の場合、⺟数を得られる
−推測統計(手元のデータは標本)の場合、⺟数を推定する 例)日本人中学2年生200名を対象としたテストの平均値が5.5点
−記述統計:協⼒者200人の平均値は5.5点
−推測統計:⽇本⼈中学2年生の平均値は5.5点±誤差
信頼区間
・推測統計における⺟数の区間推定
−区間推定=⺟数の点推定値±誤差範囲
2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 8.5
誤差範囲?
標本分布
信頼区間
・信頼区間=⺟数の点推定値±誤差範囲
−誤差範囲は信頼区間を求めたい指標によって異なる
・平均値の信頼区間=推定平均値±標準誤差×t値 (critical)*
t値 (critical)*=t分布における信頼水準(定めた確率)のt値 例)自由度100で95%の場合: t値= 1.98
自由度100で99%の場合: t値= 2.63
信頼区間
例)自由度100,平均値5.5 ,標準誤差0.52.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 8.5
95%信頼区間 5.5 ± 0.5 × 1.98
[4.5, 6.5]
99%信頼区間 5.5 ± 0.5 × 2.63
[4.2, 6.8]
標本分布
信頼区間
・信頼区間は二値的に解釈する (川端・荘島, 2014)
〇様々な標本から得られた信頼区間が⺟数を含む確率が95%
☓ある標本から得られた信頼区間が⺟数を含む確率が95%
2.5 4.5 6.5 8.5
⺟集団分布
2.5 4.5 6.5 8.5 標本分布
100の標本から信 頼区間を出すと、
5回は⺟数が 含まれない
ある標本の信頼区 間には5%の確率で
⺟数が含まれない
信頼区間
・信頼水準を上げると信頼区間は広くなる 例)ダーツを100回投げる
100回中95回当たる範囲 vs. 100回中99回当たる範囲
信頼区間
・信頼区間はサンプルサイズが大きくなると狭くなる
−標準誤差=標準偏差 /
√
サンプル数→サンプル数が大きくなるほど標準誤差が小さくなる
例)平均値の信頼区間=推定平均値±標準誤差× t値(critical)
→標準誤差が小さくなるほど信頼区間が狭くなる
信頼区間
・対応なしの2群の平均値差の信頼区間
信頼区間=2群の平均値差 ± t値 ×差の標準誤差
例)A群(平均32・標準偏差16)vs. B群(平均46・標準偏差34)
平均値差:14 自由度:198 t値:95%水準 差の標準誤差:3.8
−平均値差の95%信頼区間:[6.98, 21.92]
→A群とB群の平均値にどのくらい差があったかの目安
※5%の確率で⺟数は信頼区間内にない(≒帰無仮説検定)
効果量
・効果量は効果の大きさを示す
検定統計量=効果の大きさ
☓
サンプルサイズ(南風原, 2002)→効果の大きさはサンプルサイズに左右されない(されにくい)
例)t検定(平均値差の検定):効果の大きさ=平均値の差 相関分析:効果の大きさ=関連の大きさ
効果量
・算出される効果量は標本効果量である
―算出される標本効果量=⺟集団効果量の点推定値
―⺟集団効果量=標本効果量±推定誤差
例)日本人EFL大学生100名の英語読解テストと英語聴解テスト の得点について相関分析を行ったところ r = . 50 であった
〇日本人EFL大学生全体においてr = . 50 と推定される
☓
日本人EFL大学生全体においてr = . 50 である効果量
・(いわゆる)効果量=標本効果量=⺟集団効果量の点推定値 標本効果量→ある標本における効果量(標本間で変動する)
⺟集団効果量→⺟集団における効果量 (変動しない)
⺟集団効果量
(測定不可)
効果量標本 推定
効果量
・標本効果量から⺟集団効果量の信頼区間を算出できる
−推定値である⺟集団効果量は信頼区間の算出が勧められる 例) Cohenのd* =.25, 95%信頼区間 [.15, .35]
→⺟集団においても「効果量は正」という結論は妥当 Cohenのd* =.25, 95%信頼区間 [-.05, .55]
→⺟集団においても「効果量は正」という結論は妥当?
効果量
・標本効果量にはサンプルサイズのバイアスを受けるものもある
―⺟集団効果量=バイアス×標本効果量±推定誤差 例) Hedgesのgにおけるバイアス補正
バイアスのないHedgesのg = Hedgesのg
☓
補正係数 例) CohenのdとHedgesのgの使い分け標本の標準偏差に基づくCohenのdはバイアスがかかりやすい
効果量
・効果量はd族とr族に大別される
−d族の効果量= 群間の平均値差 / 標準偏差
→ 標準偏差に基づく群間の平均値差の大きさ
−r族の効果量= 群間の関係性 / 全体分散
→ 全体分散に占める群間の関係性の大きさ
(水本・竹内, 2008; 南風原, 2014)
効果量の解釈
・効果量の解釈に際して「一応の」目安がある
−あくまでも慣習的に定められている目安 例) Cohenのd
効果量大:.80 効果量中:.50 効果量小:.20 例)相関分析のr
効果量大:.50 効果量中:.30 効果量小:.10
※効果量の大きさの視覚的なイメージについては 大久保・岡田 (2012) や南風原 (2014) などを参照
効果量の解釈
・効果量を目安だけで解釈してはいけない
−目安に基づく二分法の解釈は避ける(≒帰無仮説検定)
例)ある研究においてd = .75 の値が得られた
Cohenのd 効果量大:.80 効果量中:.50 効果量小:.20
効果量大の.80 より小さいから
「効果量は中程度であった」
効果量中の.50よりは効果量大 の.80に近いから
「効果量は大きかった」
効果量の解釈
・効果量を解釈する際は先行研究と比較することが望ましい 例)ある研究において相関係数 r = .40 の値が得られた ケース1:先行研究において関連がないとされていた相関 ケース2:標準化テストの1回目と2回目のスコアの相関 相関分析のr 効果量大:.50 効果量中:.30 効果量小:.10
効果量の解釈
・効果量を解釈する際は先行研究と比較することが望ましい 例)EFL大学生を対象として学習者要因Aと学習者要因Bについ
て相関分析を行ったところ、相関係数r = .60 が得られた 先行研究1:EFL中学生においては相関係数 r = .20
先行研究2:EFL高校生においては相関係数 r = .40
→先行研究に比べて相関係数(効果量)が比較的大きい
主要な効果量一覧(大久保・岡田, 2012)
対応なしt検定における効果量
Cohenのd
−平均値差 / 標本の標準偏差で算出 Hedgesのg
−平均値差 / 推測される⺟集団の標準偏差で算出 GlassのΔ
−実験群 vs. 統制群の実験デザインにおいて、
平均値差 / 推測される統制群の⺟集団の標準偏差で算出 相関のr
−t値の2乗値 / (t値の2乗値 + 自由度) で算出
対応ありt検定における効果量
・対応なしt検定における効果量
―Cohenのd・Hedgesのg・相関のrを用いる
・対応ある2群間の差と標準偏差に基づくdD
―2群間の差の平均値 / 2群間の差の標準偏差 で算出
―2群間の差の平均値が小さくても、2群間の差の標準偏差が小で あれば、dDは大きくなる
t検定における効果量の選択
・t検定においてどの効果量を算出すべき?
―rからdを算出することができるので、rの算出が勧められる
※群間でサンプルサイズが大きく異なる場合は、rにバイアスが かるため、dの算出が勧められる(Field, 2009)
―群間の平均値差(効果の大きさ)に焦点がある場合はcohenの d*
個々のサンプルにおける平均値差への影響(効果の一般性)に 焦点がある場合はdDの算出が勧められる(南風原, 2014)
一元配置分散分析における効果量
・η2
―ある要因の分散 / 全分散で算出
・ε2
― ある要因の分散(調整済み)/ 全分散で算出
・ω2
― ある要因の分散(調整済み)/ 全分散で算出(調整済み)
多元配置分散分析における効果量
・ηp2とωp2
―ある要因の分散 / ある要因の分散+誤差分散で算出
・η2と ω2
―ある要因の分散 / 全分散で算出
・ηG2とωG2
―ある要因の分散 / ある要因の分散+他の操作した要因の分散
※操作した要因の分散+個人差の分散=全分散
相関・回帰分析における効果量
・ r
―相関分析における統計量と同じ
・ r2(R2)
―回帰分析における統計量と同じ
※ r2 = η2 (慣習的に表記が異なるだけ)
カイ二乗検定における効果量
・CramerのV
χ
2 / (行数 or 列数の⼩さい⽅−1) ×サンプルサイズ・φ(2×2のカイ二乗検定でのみ使用)
χ
2 / サンプルサイズ→Cramer’sV の特別な形が φ と捉えることもできる
マンホイットニーの検定における効果量
・相関のr
− r = 検定統計量のZ / サンプルサイズの平方根
※検定統計量のZ=検定統計量 U の標準得点
・優越確率ps
−ps= 検定統計量U
・Cliffのds
−ds = A群>B群である標本割合 – B群>A群である標本割合
ウィルコクスンの検定における効果量
・相関のr
− r = 検定統計量のZ / サンプルサイズの平方根
※検定統計量のZ= 検定統計量W の標準得点
・優越確率ps dep
−ps dep = A群 > B群である個体数 / サンプルサイズ
検定力
・サンプルサイズ・効果量・有意水準・検定力が検定の4大要素
−4⼤要素は部分的に連動する関係にある
→4大要素のうち3つがわかれば残り1つもわかる
水本・竹内(2010)
有意水準
検定力 効果量 サンプル・
サイズ
検定力
・検定力は「帰無仮説を正しく棄却できる確率」を示す
⇔有意水準「帰無仮説を正しく採択できる確率」を示す 有意水準(危険率):帰無仮説が正しい場合
−正しいはずの帰無仮説を「棄却」する判断が誤っている確率 検定力:帰無仮説が誤っている場合
−誤っているはずの帰無仮説を「棄却」する判断が正しい確率
検定力
・検定力は「帰無仮説を正しく棄却できる確率」を示す
⇔有意水準「帰無仮説を正しく採択できる確率」を示す
南風原(2002)
事実 検定による判断
帰無仮説を採択 帰無仮説を棄却 帰無仮説が真 正しい判断
(1−α) 第一種の誤り
(α)
帰無仮説が偽 第二種の誤り
(β) 正しい判断
(1−β)
検定力
・検定力は「帰無仮説を正しく棄却できる確率」を示す
⇔有意水準「帰無仮説を正しく採択できる確率」を示す
南風原(2002)
事実 検定による判断
帰無仮説を採択 帰無仮説を棄却 帰無仮説が真 正しい判断
(1−α) 第一種の誤り
(α)
帰無仮説が偽 第二種の誤り
(β) 正しい判断
(1−β)
有意水準 検定力