−「差がない」or「差がある」しか証明できない - JLTA2016WS1 02 最近の更新履歴 JLTAWS2016

帰無仮説検定の問題点（まとめ）

・研究仮説を対立仮説として立てることの不自然さ

−「同じである」ことを証明できない

信頼区間

・ある定められた確率で⺟数を含む区間（南風原, 2002）

−記述統計（⼿元のデータが⺟集団）の場合、⺟数を得られる

−推測統計（手元のデータは標本）の場合、⺟数を推定する例）日本人中学2年生200名を対象としたテストの平均値が5.5点

−記述統計：協⼒者200人の平均値は5.5点

−推測統計：⽇本⼈中学2年生の平均値は5.5点±誤差

信頼区間

・推測統計における⺟数の区間推定

−区間推定＝⺟数の点推定値±誤差範囲

2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 8.5

誤差範囲？

標本分布

信頼区間

・信頼区間＝⺟数の点推定値±誤差範囲

−誤差範囲は信頼区間を求めたい指標によって異なる

・平均値の信頼区間＝推定平均値±標準誤差×t値 (critical)*

t値 (critical)*＝t分布における信頼水準（定めた確率）のt値例）自由度100で95%の場合： t値＝ 1.98

自由度100で99%の場合： t値＝ 2.63

信頼区間

例）自由度100，平均値5.5 ，標準誤差0.5

2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 8.5

95%信頼区間 5.5 ± 0.5 × 1.98

[4.5, 6.5]

99%信頼区間 5.5 ± 0.5 × 2.63

[4.2, 6.8]

標本分布

信頼区間

・信頼区間は二値的に解釈する（川端・荘島, 2014）

〇様々な標本から得られた信頼区間が⺟数を含む確率が95%

☓ある標本から得られた信頼区間が⺟数を含む確率が95%

2.5 4.5 6.5 8.5

⺟集団分布

2.5 4.5 6.5 8.5 標本分布

100の標本から信頼区間を出すと、

5回は⺟数が含まれない

ある標本の信頼区間には5%の確率で

⺟数が含まれない

信頼区間

・信頼水準を上げると信頼区間は広くなる例）ダーツを100回投げる

100回中95回当たる範囲 vs. 100回中99回当たる範囲

信頼区間

・信頼区間はサンプルサイズが大きくなると狭くなる

−標準誤差＝標準偏差 /

√

サンプル数

→サンプル数が大きくなるほど標準誤差が小さくなる

例）平均値の信頼区間＝推定平均値±標準誤差× t値(critical)

→標準誤差が小さくなるほど信頼区間が狭くなる

信頼区間

・対応なしの２群の平均値差の信頼区間

信頼区間＝２群の平均値差 ± t値 ×差の標準誤差

例）Ａ群（平均32・標準偏差16）vs. Ｂ群（平均46・標準偏差34）

平均値差：14 自由度：198 t値：95%水準差の標準誤差：3.8

−平均値差の95%信頼区間：[6.98, 21.92]

→Ａ群とＢ群の平均値にどのくらい差があったかの目安

※5%の確率で⺟数は信頼区間内にない（≒帰無仮説検定）

効果量

・効果量は効果の大きさを示す

検定統計量＝効果の大きさ

☓

サンプルサイズ（南風原, 2002）

→効果の大きさはサンプルサイズに左右されない^{（されにくい）}

例）t検定（平均値差の検定）：効果の大きさ＝平均値の差相関分析：効果の大きさ＝関連の大きさ

効果量

・算出される効果量は標本効果量である

―算出される標本効果量＝⺟集団効果量の点推定値

―⺟集団効果量＝標本効果量±推定誤差

例）日本人EFL大学生100名の英語読解テストと英語聴解テストの得点について相関分析を行ったところ r = . 50 であった

〇日本人EFL大学生全体においてr = . 50 と推定される

☓

日本人EFL大学生全体においてr = . 50 である

効果量

・（いわゆる）効果量＝標本効果量＝⺟集団効果量の点推定値標本効果量→ある標本における効果量（標本間で変動する）

⺟集団効果量→⺟集団における効果量（変動しない）

⺟集団効果量

（測定不可）

効果量標本 推定

効果量

・標本効果量から⺟集団効果量の信頼区間を算出できる

−推定値である⺟集団効果量は信頼区間の算出が勧められる例） Cohenのd* ＝.25, 95%信頼区間 [.15, .35]

→⺟集団においても「効果量は正」という結論は妥当 Cohenのd* ＝.25, 95%信頼区間 [-.05, .55]

→⺟集団においても「効果量は正」という結論は妥当？

効果量

・標本効果量にはサンプルサイズのバイアスを受けるものもある

―⺟集団効果量＝バイアス×標本効果量±推定誤差例） Hedgesのgにおけるバイアス補正

バイアスのないHedgesのg ＝ Hedgesのg

☓

補正係数例） CohenのdとHedgesのgの使い分け

標本の標準偏差に基づくCohenのdはバイアスがかかりやすい

効果量

・効果量はd族とr族に大別される

−d族の効果量＝群間の平均値差 / 標準偏差

→ 標準偏差に基づく群間の平均値差の大きさ

−r族の効果量＝群間の関係性 / 全体分散

→ 全体分散に占める群間の関係性の大きさ

（水本・竹内, 2008; 南風原, 2014）

効果量の解釈

・効果量の解釈に際して「一応の」目安がある

−あくまでも慣習的に定められている目安例） Cohenのd

効果量大：.80 効果量中：.50 効果量小：.20 例）相関分析のr

効果量大：.50 効果量中：.30 効果量小：.10

※効果量の大きさの視覚的なイメージについては大久保・岡田 (2012) や南風原 (2014) などを参照

効果量の解釈

・効果量を目安だけで解釈してはいけない

−目安に基づく二分法の解釈は避ける（≒帰無仮説検定）

例）ある研究においてd = .75 の値が得られた

Cohenのd 効果量大：.80 効果量中：.50 効果量小：.20

効果量大の.80 より小さいから

「効果量は中程度であった」

効果量中の.50よりは効果量大 の.80に近いから

「効果量は大きかった」

効果量の解釈

・効果量を解釈する際は先行研究と比較することが望ましい例）ある研究において相関係数 r = .40 の値が得られたケース１：先行研究において関連がないとされていた相関ケース２：標準化テストの１回目と２回目のスコアの相関相関分析のr 効果量大：.50 効果量中：.30 効果量小：.10

効果量の解釈

・効果量を解釈する際は先行研究と比較することが望ましい例）EFL大学生を対象として学習者要因Ａと学習者要因Ｂについ

て相関分析を行ったところ、相関係数r = .60 が得られた先行研究１：EFL中学生においては相関係数 r = .20

先行研究２：EFL高校生においては相関係数 r = .40

→先行研究に比べて相関係数（効果量）が比較的大きい

主要な効果量一覧（大久保・岡田, 2012）

対応なしt検定における効果量

Cohenのd

−平均値差 / 標本の標準偏差で算出 Hedgesのg

−平均値差 / 推測される⺟集団の標準偏差で算出 GlassのΔ

−実験群 vs. 統制群の実験デザインにおいて、

平均値差 / 推測される統制群の⺟集団の標準偏差で算出相関のr

−t値の2乗値 / (t値の2乗値 + 自由度) で算出

対応ありt検定における効果量

・対応なしt検定における効果量

―Cohenのd・Hedgesのg・相関のrを用いる

・対応ある2群間の差と標準偏差に基づくd_D

―2群間の差の平均値 / 2群間の差の標準偏差で算出

―2群間の差の平均値が小さくても、2群間の差の標準偏差が小であれば、d_Dは大きくなる

t検定における効果量の選択

・t検定においてどの効果量を算出すべき？

―rからdを算出することができるので、rの算出が勧められる

※群間でサンプルサイズが大きく異なる場合は、rにバイアスがかるため、dの算出が勧められる（Field, 2009）

―群間の平均値差（効果の大きさ）に焦点がある場合はcohenの d*

個々のサンプルにおける平均値差への影響（効果の一般性）に焦点がある場合はd_Dの算出が勧められる（南風原, 2014）

一元配置分散分析における効果量

・η²

―ある要因の分散 / 全分散で算出

・ε²

― ある要因の分散（調整済み）/ 全分散で算出

・ω²

― ある要因の分散（調整済み）/ 全分散で算出（調整済み）

多元配置分散分析における効果量

・η_p²とω_p²

―ある要因の分散 / ある要因の分散+誤差分散で算出

・η²と ω²

―ある要因の分散 / 全分散で算出

・η_G²とω_G²

―ある要因の分散 / ある要因の分散+他の操作した要因の分散

※操作した要因の分散＋個人差の分散＝全分散

相関・回帰分析における効果量

・ r

―相関分析における統計量と同じ

・ r²（R²）

―回帰分析における統計量と同じ

※ r² = η² （慣習的に表記が異なるだけ）

カイ二乗検定における効果量

・CramerのV

χ

² / (行数 or 列数の⼩さい⽅−1) ×サンプルサイズ

・φ（2×2のカイ二乗検定でのみ使用）

χ

² / サンプルサイズ

→Cramer’sV の特別な形が φ と捉えることもできる

マンホイットニーの検定における効果量

・相関のr

− r = 検定統計量のＺ / サンプルサイズの平方根

※検定統計量のＺ=検定統計量 U の標準得点

・優越確率p_s

−p_s= 検定統計量U

・Cliffのd_s

−d_s = A群＞B群である標本割合 – B群＞A群である標本割合

ウィルコクスンの検定における効果量

・相関のr

− r = 検定統計量のＺ / サンプルサイズの平方根

※検定統計量のＺ= 検定統計量W の標準得点

・優越確率p_{s dep}

−p_{s dep} = A群 > B群である個体数 / サンプルサイズ

検定力

・サンプルサイズ・効果量・有意水準・検定力が検定の４大要素

−４⼤要素は部分的に連動する関係にある

→４大要素のうち３つがわかれば残り１つもわかる

水本・竹内（2010）

有意水準

検定力効果量サンプル・

サイズ

検定力

・検定力は「帰無仮説を正しく棄却できる確率」を示す

⇔有意水準「帰無仮説を正しく採択できる確率」を示す有意水準（危険率）：帰無仮説が正しい場合

−正しいはずの帰無仮説を「棄却」する判断が誤っている確率検定力：帰無仮説が誤っている場合

−誤っているはずの帰無仮説を「棄却」する判断が正しい確率

検定力

・検定力は「帰無仮説を正しく棄却できる確率」を示す

⇔有意水準「帰無仮説を正しく採択できる確率」を示す

南風原（2002）

事実検定による判断

帰無仮説を採択帰無仮説を棄却帰無仮説が真正しい判断

（１−α）第一種の誤り

（α）

帰無仮説が偽第二種の誤り

（β）正しい判断

（１−β）

検定力

・検定力は「帰無仮説を正しく棄却できる確率」を示す

⇔有意水準「帰無仮説を正しく採択できる確率」を示す

南風原（2002）

事実検定による判断

帰無仮説を採択帰無仮説を棄却帰無仮説が真正しい判断

（１−α）第一種の誤り

（α）

帰無仮説が偽第二種の誤り

（β）正しい判断

（１−β）

有意水準検定力

ドキュメント内 JLTA2016WS1 02 最近の更新履歴 JLTAWS2016 (ページ 36-78)