• 検索結果がありません。

−「差がない」or「差がある」しか証明できない

ドキュメント内 JLTA2016WS1 02 最近の更新履歴 JLTAWS2016 (ページ 36-78)

帰無仮説検定の問題点(まとめ)

・研究仮説を対立仮説として立てることの不自然さ

−「同じである」ことを証明できない

信頼区間

・ある定められた確率で⺟数を含む区間(南風原, 2002)

−記述統計(⼿元のデータが⺟集団)の場合、⺟数を得られる

−推測統計(手元のデータは標本)の場合、⺟数を推定する 例)日本人中学2年生200名を対象としたテストの平均値が5.5点

−記述統計:協⼒者200人の平均値は5.5点

−推測統計:⽇本⼈中学2年生の平均値は5.5点±誤差

信頼区間

・推測統計における⺟数の区間推定

−区間推定=⺟数の点推定値±誤差範囲

2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 8.5

誤差範囲?

標本分布

信頼区間

・信頼区間=⺟数の点推定値±誤差範囲

−誤差範囲は信頼区間を求めたい指標によって異なる

・平均値の信頼区間=推定平均値±標準誤差×t値 (critical)*

t値 (critical)*=t分布における信頼水準(定めた確率)のt値 例)自由度100で95%の場合: t値= 1.98

自由度100で99%の場合: t値= 2.63

信頼区間

例)自由度100,平均値5.5 ,標準誤差0.5

2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 8.5

95%信頼区間 5.5 ± 0.5 × 1.98

[4.5, 6.5]

99%信頼区間 5.5 ± 0.5 × 2.63

[4.2, 6.8]

標本分布

信頼区間

・信頼区間は二値的に解釈する (川端・荘島, 2014)

〇様々な標本から得られた信頼区間が⺟数を含む確率が95%

ある標本から得られた信頼区間が⺟数を含む確率が95%

2.5 4.5 6.5 8.5

⺟集団分布

2.5 4.5 6.5 8.5 標本分布

100の標本から信 頼区間を出すと、

5回は⺟数が 含まれない

ある標本の信頼区 間には5%の確率で

⺟数が含まれない

信頼区間

・信頼水準を上げると信頼区間は広くなる 例)ダーツを100回投げる

100回中95回当たる範囲 vs. 100回中99回当たる範囲

信頼区間

・信頼区間はサンプルサイズが大きくなると狭くなる

−標準誤差=標準偏差 /

サンプル数

→サンプル数が大きくなるほど標準誤差が小さくなる

例)平均値の信頼区間=推定平均値±標準誤差× t値(critical)

→標準誤差が小さくなるほど信頼区間が狭くなる

信頼区間

・対応なしの2群の平均値差の信頼区間

信頼区間=2群の平均値差 ± t値 ×差の標準誤差

例)A群(平均32・標準偏差16)vs. B群(平均46・標準偏差34)

平均値差:14 自由度:198 t値:95%水準 差の標準誤差:3.8

−平均値差の95%信頼区間:[6.98, 21.92]

→A群とB群の平均値にどのくらい差があったかの目安

※5%の確率で⺟数は信頼区間内にない(≒帰無仮説検定)

効果量

・効果量は効果の大きさを示す

検定統計量=効果の大きさ

サンプルサイズ(南風原, 2002)

→効果の大きさはサンプルサイズに左右されない(されにくい)

例)t検定(平均値差の検定):効果の大きさ=平均値の差 相関分析:効果の大きさ=関連の大きさ

効果量

・算出される効果量は標本効果量である

―算出される標本効果量=⺟集団効果量の点推定値

―⺟集団効果量=標本効果量±推定誤差

例)日本人EFL大学生100名の英語読解テストと英語聴解テスト の得点について相関分析を行ったところ r = . 50 であった

〇日本人EFL大学生全体においてr = . 50 と推定される

日本人EFL大学生全体においてr = . 50 である

効果量

・(いわゆる)効果量=標本効果量=⺟集団効果量の点推定値 標本効果量→ある標本における効果量(標本間で変動する)

⺟集団効果量→⺟集団における効果量 (変動しない)

⺟集団効果量

(測定不可)

効果量標本 推定

効果量

・標本効果量から⺟集団効果量の信頼区間を算出できる

−推定値である⺟集団効果量は信頼区間の算出が勧められる 例) Cohenのd* =.25, 95%信頼区間 [.15, .35]

→⺟集団においても「効果量は正」という結論は妥当 Cohenのd* =.25, 95%信頼区間 [-.05, .55]

→⺟集団においても「効果量は正」という結論は妥当?

効果量

・標本効果量にはサンプルサイズのバイアスを受けるものもある

―⺟集団効果量=バイアス×標本効果量±推定誤差 例) Hedgesのgにおけるバイアス補正

バイアスのないHedgesのg = Hedgesのg

補正係数 例) CohenのdとHedgesのgの使い分け

標本の標準偏差に基づくCohenのdはバイアスがかかりやすい

効果量

・効果量はd族とr族に大別される

−d族の効果量= 群間の平均値差 / 標準偏差

→ 標準偏差に基づく群間の平均値差の大きさ

−r族の効果量= 群間の関係性 / 全体分散

→ 全体分散に占める群間の関係性の大きさ

(水本・竹内, 2008; 南風原, 2014)

効果量の解釈

・効果量の解釈に際して「一応の」目安がある

−あくまでも慣習的に定められている目安 例) Cohenのd

効果量大:.80 効果量中:.50 効果量小:.20 例)相関分析のr

効果量大:.50 効果量中:.30 効果量小:.10

※効果量の大きさの視覚的なイメージについては 大久保・岡田 (2012) や南風原 (2014) などを参照

効果量の解釈

・効果量を目安だけで解釈してはいけない

−目安に基づく二分法の解釈は避ける(≒帰無仮説検定)

例)ある研究においてd = .75 の値が得られた

Cohenのd 効果量大:.80 効果量中:.50 効果量小:.20

効果量大の.80 より小さいから

「効果量は中程度であった」

効果量中の.50よりは効果量大 の.80に近いから

「効果量は大きかった」

効果量の解釈

・効果量を解釈する際は先行研究と比較することが望ましい 例)ある研究において相関係数 r = .40 の値が得られた ケース1:先行研究において関連がないとされていた相関 ケース2:標準化テストの1回目と2回目のスコアの相関 相関分析のr 効果量大:.50 効果量中:.30 効果量小:.10

効果量の解釈

・効果量を解釈する際は先行研究と比較することが望ましい 例)EFL大学生を対象として学習者要因Aと学習者要因Bについ

て相関分析を行ったところ、相関係数r = .60 が得られた 先行研究1:EFL中学生においては相関係数 r = .20

先行研究2:EFL高校生においては相関係数 r = .40

→先行研究に比べて相関係数(効果量)が比較的大きい

主要な効果量一覧(大久保・岡田, 2012)

対応なしt検定における効果量

Cohenのd

−平均値差 / 標本の標準偏差で算出 Hedgesのg

−平均値差 / 推測される⺟集団の標準偏差で算出 GlassのΔ

−実験群 vs. 統制群の実験デザインにおいて、

平均値差 / 推測される統制群の⺟集団の標準偏差で算出 相関のr

−t値の2乗値 / (t値の2乗値 + 自由度) で算出

対応ありt検定における効果量

・対応なしt検定における効果量

―Cohenのd・Hedgesのg・相関のrを用いる

・対応ある2群間の差と標準偏差に基づくdD

―2群間の差の平均値 / 2群間の差の標準偏差 で算出

―2群間の差の平均値が小さくても、2群間の差の標準偏差が小で あれば、dDは大きくなる

t検定における効果量の選択

・t検定においてどの効果量を算出すべき?

―rからdを算出することができるので、rの算出が勧められる

※群間でサンプルサイズが大きく異なる場合は、rにバイアスが かるため、dの算出が勧められる(Field, 2009)

―群間の平均値差(効果の大きさ)に焦点がある場合はcohenの d*

個々のサンプルにおける平均値差への影響(効果の一般性)に 焦点がある場合はdDの算出が勧められる(南風原, 2014)

一元配置分散分析における効果量

・η2

―ある要因の分散 / 全分散で算出

・ε2

― ある要因の分散(調整済み)/ 全分散で算出

・ω2

― ある要因の分散(調整済み)/ 全分散で算出(調整済み)

多元配置分散分析における効果量

・ηp2とωp2

―ある要因の分散 / ある要因の分散+誤差分散で算出

・η2と ω2

―ある要因の分散 / 全分散で算出

・ηG2とωG2

―ある要因の分散 / ある要因の分散+他の操作した要因の分散

※操作した要因の分散+個人差の分散=全分散

相関・回帰分析における効果量

・ r

―相関分析における統計量と同じ

・ r2(R2

―回帰分析における統計量と同じ

※ r2 = η2 (慣習的に表記が異なるだけ)

カイ二乗検定における効果量

・CramerのV

χ

2 / (行数 or 列数の⼩さい⽅−1) ×サンプルサイズ

・φ(2×2のカイ二乗検定でのみ使用)

χ

2 / サンプルサイズ

→Cramer’sV の特別な形が φ と捉えることもできる

マンホイットニーの検定における効果量

・相関のr

− r = 検定統計量のZ / サンプルサイズの平方根

※検定統計量のZ=検定統計量 U の標準得点

・優越確率ps

−ps= 検定統計量U

・Cliffのds

−ds = A群>B群である標本割合 – B群>A群である標本割合

ウィルコクスンの検定における効果量

・相関のr

− r = 検定統計量のZ / サンプルサイズの平方根

※検定統計量のZ= 検定統計量W の標準得点

・優越確率ps dep

−ps dep = A群 > B群である個体数 / サンプルサイズ

検定力

・サンプルサイズ・効果量・有意水準・検定力が検定の4大要素

−4⼤要素は部分的に連動する関係にある

→4大要素のうち3つがわかれば残り1つもわかる

水本・竹内(2010)

有意水準

検定力 効果量 サンプル・

サイズ

検定力

・検定力は「帰無仮説を正しく棄却できる確率」を示す

⇔有意水準「帰無仮説を正しく採択できる確率」を示す 有意水準(危険率):帰無仮説が正しい場合

−正しいはずの帰無仮説を「棄却」する判断が誤っている確率 検定力:帰無仮説が誤っている場合

−誤っているはずの帰無仮説を「棄却」する判断が正しい確率

検定力

・検定力は「帰無仮説を正しく棄却できる確率」を示す

⇔有意水準「帰無仮説を正しく採択できる確率」を示す

南風原(2002)

事実 検定による判断

帰無仮説を採択 帰無仮説を棄却 帰無仮説が真 正しい判断

(1−α) 第一種の誤り

(α)

帰無仮説が偽 第二種の誤り

(β) 正しい判断

(1−β)

検定力

・検定力は「帰無仮説を正しく棄却できる確率」を示す

⇔有意水準「帰無仮説を正しく採択できる確率」を示す

南風原(2002)

事実 検定による判断

帰無仮説を採択 帰無仮説を棄却 帰無仮説が真 正しい判断

(1−α) 第一種の誤り

(α)

帰無仮説が偽 第二種の誤り

(β) 正しい判断

(1−β)

有意水準 検定力

ドキュメント内 JLTA2016WS1 02 最近の更新履歴 JLTAWS2016 (ページ 36-78)

関連したドキュメント