JLTA 2016
Workshop 1
⻑⾕川佑介(上越教育⼤学) 髙木修一(福島大学)
はじめて学ぶ効果量
〜基礎概念から実践まで〜
資料置場への行き方
「JLTAWS2016」と検索 またはhttp://goo.gl/fi8pIWと入力
はじめに
自己紹介
• ⻑⾕川佑介(上越教育⼤学)
• 髙木修一(福島大学)
※画像:「かわいいフリー素材集いらすとや」http://www.irasutoya.com/
• 様々な方々の参加を歓迎いたします
• かんたんに自己紹介をお願いします
今日の流れ
• 入門編 (⻑⾕川 [40分])
• 理論編 (髙木 [55分])
• 休憩 (15分)
• 実践編 (髙木 [30分] + ⻑⾕川 [45分])
• 質疑応答 (15分)
入門編
入門編の位置づけ
• 統計の背景知識は不要
• 入門編・・・全体像をおさえる
• 理論編・・・詳しい枝分かれ
※画像:フリー素材集「ぱくたそ」https://www.pakutaso.com/
入門編の位置づけ
• お詫び:統計分析のプロではありません
• 「難しい話を分かりやすく話すこと」を目指します
• どんなに初歩的な質問でも大歓迎です
• フロアからの補足説明も大歓迎です
• 一緒に考えましょう
入門編の位置づけ
<入門編の目次>
• 効果量とは
• 統計的検定とp 値
• 効果量の報告
• 差が有意になる条件
• 色々な効果量
• 「大・中・小」の感覚
• 論文のあれこれ
※画像:フリー素材集「ぱくたそ」https://www.pakutaso.com/
効果量とは
• 最近よく耳にする「効果量」
• どんな場面で「効果量」という言葉を見ましたか?
• 「効果量って何?」と同僚に聞かれたらどう説明しますか?
※画像:日本郵便フリーイラスト集 https://www.post.japanpost.jp/life/amusement/downloads/
効果量とは
• 「一つの変数が他の変数に対して、あるいは二つ以上の変数間 の関係に対して持つ効果の強さの尺度」
• 英語教育の論文では・・・
統計的検定 効果量の報告
※出典:リチャーズ, J. C., シュミット, R. (編). (2013).『ロングマン言語教育・応用言語学用語辞典』東京: 南雲堂.
効果量とは
• 例:大学のリーディング授業で音読を取り入れてみた
• 数週間の音読指導を行ったところ,読みの速度があがった
※画像:フリー素材集「ぱくたそ」https://www.pakutaso.com/
まぐれじゃないの?
統計的検定 効果量の報告 ドングリの背比べ
じゃないの?
統計的検定と p 値
• 「有意」という言葉はあちこちで見かける
• 有意などと言わなくても,平均値だけ分かればいいのでは?
「平均値に有意差がみられた(p = .049)」とか
統計的検定と p 値
• たとえば・・・
• 音読指導の前は、86.58 wpmでした!
• 音読指導の後は、113.01 wpmになりました!
• 1分間あたり26.43語も多く読めるようになりました!
※参考:Hasegawa, Y. (2016). Does reading aloud contribute to EFL reading fluency among learners with higher/lower phonological awareness?Bulletin of Joetsu University of Education, 36 (1), 165–172.
統計的検定と p 値
• だまされてはいけません
まぐれじゃないの?
※画像:フリー素材集「ぱくたそ」https://www.pakutaso.com/
統計的検定と p 値
• 実験協力者が1名の場合(Aくん)
• Aくんは、まぐれで速く読めただけかも
86.58 wpm 113.01 wpm
※画像:日本郵便フリーイラスト集 https://www.post.japanpost.jp/life/amusement/downloads/
統計的検定と p 値
• 実験協力者が2名の場合(Aくん・Bさん)
• 2人とも、まぐれで速く読めただけかも
平均86.58 wpm 平均113.01 wpm
※画像:日本郵便フリーイラスト集 https://www.post.japanpost.jp/life/amusement/downloads/
統計的検定と p 値
• 実験協力者がたくさんの場合
• だんだん「単なる偶然」とは考えにくくなってくる
平均86.58 wpm 平均113.01 wpm
※画像:日本郵便フリーイラスト集 https://www.post.japanpost.jp/life/amusement/downloads/
統計的検定と p 値
まぐれじゃないの?
統計的検定
※画像:フリー素材集「ぱくたそ」https://www.pakutaso.com/
統計的検定と p 値
• 詳しくは理論編で
について紹介します 帰無仮説検定
と信頼区間
効果量の報告
• 統計の力を借りて「偶然かどうか」を見極めることが大切!
• 統計的検定の結果が有意なら効果を主張できるんだ!
• それなら効果量なんて報告しなくてもよいのでは?
※画像:日本郵便フリーイラスト集 https://www.post.japanpost.jp/life/amusement/downloads/
効果量の報告
• たとえば・・・
• 音読の指導前と指導後で、学生のwpmを比べました!
• t 検定の結果、その差は5%水準で有意でした!
• 「とにかく有意だったなら、大きな差があったのだろう」
効果量の報告
• 「結果は有意でした」といっても効果の大きさは分からない!
効果量の報告
• だまされてはいけません
ドングリの背比べ じゃないの?
※画像:フリー素材集「ぱくたそ」https://www.pakutaso.com/
効果量の報告
効果量の報告
• 詳しくは理論編で
について紹介します 効果量
差が有意になる条件
• 「偶然の誤差ではない」 = 有意
①たくさんの人数がいる場合
②指導前と指導後の差が大きい場合
「データのばらつき具合」その他、
「調べたい要因の数」など
差が有意になる条件
• 対応なしのt 検定の場合
• 論文では、効果量をt 値や人数とともに報告する
• 3つの要素には相互関係がある
= × 1 2
1+ 2
• じつは、t 値は「効果量と人数のかけ算」で決まる!(とも言える?)
※出典:南風原朝和. (2014).『続・心理統計学の基礎:統合的理解を広げる』東京: 有斐閣アルマ.
差が有意になる条件
• (検定統計量)=(標本における効果量)×(標本の大きさ)
※出典:南風原朝和. (2014).『続・心理統計学の基礎:統合的理解を広げる』東京: 有斐閣アルマ.
t 値 効果量 計算した値人数から
例: d = 0.2 10人 vs. 10人 例: d = 0.5 50人 vs. 52人 例: d = 0.8 99人 vs. 102人
一般化すると・・・
差が有意になる条件
• 詳しくは理論編で
について紹介します 検定力
色々な効果量
• 音読の効果を調べたい! どうすれば良いか?
• 指導前後を比べる?
Before After
色々な効果量
• あるクラスと別のクラスを比べる?
音読クラス 要約クラス
色々な効果量
• 指導の効果があらわれた人数を調べる?
効果あり50名 効果なし30名
色々な効果量
• そもそも読みの速さは,もともとの英語力と関係している?
読む速度
もともとの英語力
色々な効果量
• 分析の種類に応じて,効果量の計算方法も異なる
※出典:水本篤・竹内理. (2008).「研究論文における効果量の報告のために:基礎的概念と注意点」『英語教育研究』31, 57–66.
色々な効果量
• ①「平均の差」をみる効果量
• 対応あり/なしのt 検定・・・ いわゆるCohenのd
※画像:「かわいいフリー素材集いらすとや」http://www.irasutoya.com/
Hedgesのgや GlassのΔとの違いは? どう計算するの?
差がどれくらい大きいか
色々な効果量
• ②「関係の強さ」をみる効果量
• 相関分析・・・ r
• 重回帰分析・・・ R2
• χ2検定・・・ φ
• 分散分析・・・ η2
※画像:「かわいいフリー素材集いらすとや」http://www.irasutoya.com/
データの何%を説明できるか
「効果量が大きい」何%だと と言えるの?
「大・中・小」の感覚
• Schmitt(2010, pp. 166–167) によると・・・
• 語彙習得の研究では,色々なタイプの比較を行う
• 現在では,p 値とは別に効果量を記載するのが主流である
• small effect・・・ r = .10(分散全体の約1%を説明)
• medium effect・・・ r = .30(分散全体の約9%を説明)
• large effect・・・ r = .50(分散全体の約25%を説明)
※出典:Schmitt, N. (2010).Researching vocabulary: A vocabulary research manual. New York, NY: Palgrave Macmillan.
「大・中・小」の感覚
• 分散の1%とはどれくらい?
これくらいの円だと… これが1%
「大・中・小」の感覚
• 分散の9%とはどれくらい?
これくらいの円だと… これが9%
「大・中・小」の感覚
• 分散の25%とはどれくらい?
これくらいの円だと…
これが25%
「大・中・小」の感覚
• 参考:GeoGebra(ジオジェブラ)
• 図やグラフが自在に描けるオンラインツール
※画像:GeoGebraウェブサイト https://www.geogebra.org/
論文のあれこれ
• 語彙習得研究の例(Chen & Truscott, 2010)
• 台湾の大学1年生(中級)
• 7つの短い物語文(300語以内)
• 10語の低頻度語が身につくか
• 3つの条件を比較
※出典:Chen, C., & Truscott, J. (2010). The effects of repetition and L1 lexicalization on incidental vocabulary acquisition. Applied Linguistics, 31, 693–713.
論文のあれこれ
• E1条件
(24名)
• E3条件
(24名)
• E7条件
(24名)
※画像:「かわいいフリー素材集いらすとや」http://www.irasutoya.com/
論文のあれこれ
• E1条件
• E3条件
• E7条件
発音を聞いて書くテスト 英単語を訳すテスト
平均1.08点(SD= 0.72) 平均0.13点(SD= 0.45)
平均2.12点(SD= 1.12) 平均0.58点(SD= 0.53)
平均2.71点(SD= 1.60) 平均1.50点(SD= 1.35)
有意? 効果量?
有意? 効果量?
※出典:Chen, C., & Truscott, J. (2010). The effects of repetition and L1 lexicalization on incidental vocabulary acquisition. Applied Linguistics, 31, 693–713.
有意? 効果量?
有意? 効果量?
論文のあれこれ
• E1条件
• E3条件
• E7条件
発音を聞いて書くテスト
平均1.08点(SD= 0.72)
平均2.12点(SD= 1.12)
平均2.71点(SD= 1.60)
有意! d = 1.130
NS d = 0.434
※出典:Chen, C., & Truscott, J. (2010). The effects of repetition and L1 lexicalization on incidental vocabulary acquisition. Applied Linguistics, 31, 693–713.
Kruskal-Wallis検定 LSD法の多重比較↓
(いずれも5%水準)
Cohenのd(広義)
「ある群と別の群の 平均値がSDいくつぶん
離れているかを示す」
大:0.80以上
中:0.50以上…とした 小:0.20以上
論文のあれこれ
• E1条件
• E3条件
• E7条件
発音を聞いて書くテスト 英単語を訳すテスト
平均1.08点(SD= 0.72) 平均0.13点(SD= 0.45)
平均2.12点(SD= 1.12) 平均0.58点(SD= 0.53)
平均2.71点(SD= 1.60) 平均1.50点(SD= 1.35)
※出典:Chen, C., & Truscott, J. (2010). The effects of repetition and L1 lexicalization on incidental vocabulary acquisition. Applied Linguistics, 31, 693–713.
NS d = 0.652
有意! d = 0.807
論文のあれこれ
• 「大・中・小」の感覚
※画像:日本郵便フリーイラスト集 https://www.post.japanpost.jp/life/amusement/downloads/
1年間、牛乳を 飲み続けた結果…
d = 1.0
論文のあれこれ
• 「大・中・小」の感覚
※画像:日本郵便フリーイラスト集 https://www.post.japanpost.jp/life/amusement/downloads/
1年間、牛乳を 飲み続けた結果…
d = 0.5
入門編のまとめ
<入門編の目次>
• 効果量とは …確率論に依らず効果の大きさを示す数値
• 統計的検定とp 値 …「まぐれじゃない」と証明したい
• 効果量の報告 …「ドングリの背比べじゃない」と証明したい
• 差が有意になる条件 …有意になるかどうかは人数が左右する
• 色々な効果量 …平均の差をみる「d 族」と関係をみる「r 族」
• 「大・中・小」の感覚…確かに「効果量大」には威力を感じる
• 論文のあれこれ …効果量で地に足のついた結果報告を
※画像:フリー素材集「ぱくたそ」https://www.pakutaso.com/
理論編
帰無仮説検定の流れ
以下のような実験を行うとき、どのような手順で分析しますか? 目的:新しい「語彙指導A」は従来の「語彙指導B」に比べ、
指導直後の語彙知識の習得に効果的か調べること
対象:語彙指導A群(50名)と語彙指導B群(50名)の計100名 材料:語彙指導後に行う10語(1問1点)の語彙テスト
帰無仮説検定の流れ
・帰無仮説検定のプロセス(ネイマン・ピアソンの枠組み) 1. 対立仮説と帰無仮説を立てる
2. 検定統計量と分布を決める 3. 有意水準αを決定する
4. データを収集し検定統計量を算出 5. 仮説の棄却と採択
(大久保・岡田, 2012)
帰無仮説検定の流れ
1. 対立仮説と帰無仮説を立てる
対立仮説―研究者が確認したい仮説 帰無仮説―対立仮説と相反する仮説
例)対立仮説―語彙指導A群>語彙指導B群 帰無仮説―語彙指導A群=語彙指導B群
帰無仮説検定の流れ
2. 検定統計量と分布を決める
研究目的と収集するデータにとって妥当なものを選択する 例)語彙テスト得点は正規分布すると想定し、t分布を選択した
※t分布は正規分布に従う平均値の分布
帰無仮説検定の流れ
3. 有意水準αを決定する
有意水準=帰無仮説を棄却する水準
−「棄却する or 棄却しない」の二値的判断
例)英語教育学研究の慣例に従い、有意水準を5%とした
※医学系研究では有意水準を1%とすることも
帰無仮説検定の流れ
4. データを収集し検定統計量を算出
データの収集と2.で決めた検定統計量を算出する
※データが想定通りの分布であるか確認し、 必要に応じて使用する分布を再検討することも
例)語彙指導A群(50名)と語彙指導B群(50名)の語彙得点 の平均をt検定にて比較した。結果は以下の通り。
t (98) = 1.995, p = .049, d = .35
帰無仮説検定の流れ
5. 仮説の棄却と採択
帰無仮説を棄却するor 棄却しないを決める 例)t (98) = 1.995, p = .049, d = .35
p値が5%未満なので、帰無仮説を棄却して対立仮説を採択する
→語彙指導A群と語彙指導B群の語彙得点の平均値には差がある
帰無仮説検定の問題点
「帰無仮説検定の流れ」で気になることはありませんか?
帰無仮説検定の問題点
1. 対立仮説と帰無仮説を立てる 2. 検定統計量と分布を決める 3. 有意水準αを決定する
4. データを収集し検定統計量を算出 5. 仮説の棄却と採択
帰無仮説検定の問題点
1. 対立仮説と帰無仮説を立てる 2. 検定統計量と分布を決める 3. 有意水準αを決定する
4. データを収集し検定統計量を算出 5. 仮説の棄却と採択
帰無仮説検定の問題点
・研究仮説を対立仮説として立てる不自然さ 例)対立仮説―語彙指導A群>語彙指導B群 帰無仮説―語彙指導A群=語彙指導B群
−検定で得られるp値
「帰無仮説が正しい仮定の下で、検定結果が得られる確率」
帰無仮説検定の問題点
「帰無仮説が正しい仮定で、検定結果が得られる確率」
−語彙指導A群=語彙指導B群が正しいと仮定した時に、 語彙指導A群と語彙指導B群の平均値差が生じる確率
p = .900 帰無仮説が正しい 仮定の下で、生じ
る可能性が高い 帰無仮説が正しいp = .049
仮定の下で、生じ る可能性が低い 帰無仮説を棄却
判断を保留
-4 -2 0 2 4
帰無仮説検定の問題点
・「同じである」ことを証明できない
−検定で得られるp値
〇「帰無仮説が正しい仮定の下で、検定結果が得られる確率」
☓「帰無仮説が正しい確率」
−仮説検定のロジック
「もし帰無仮説が正しいならば、p値は有意水準より大きい」
帰無仮説検定の問題点
「もし帰無仮説が正しいならば、p値は有意水準より大きい」
<p値が有意水準より大きい> 帰無仮説の正誤はわからない
→「判断を保留する」
< p値が有意水準より小さい> 帰無仮説は誤っている
→「帰無仮説を棄却する」
p値が有意水準 より大きい 帰無仮説が
正しい
帰無仮説検定の問題点
・「差がない」or「差がある」しか証明できない
p値が有意⽔準以上−帰無仮説の採択(=判断の保留) p値が有意⽔準未満−帰無仮説の棄却(=対立仮説の採択)
→p値に基づく判断は極端な二分法
帰無仮説を「採択する」or 「棄却する」という判断のみ cf)「5%水準で有意ではないが、10%水準で有意傾向であ る?」
帰無仮説検定の問題点
・有意差が「意味のある差」とは限らない
例)語彙指導Aが語彙指導Bより平均点が有意に高かった 語彙指導A:準備に要する時間が30時間で平均点5.5点 語彙指導B:準備に要する時間が2時間で平均点5.2点
→「準備に要する時間」を考慮すると、この平均点差の意味は?
帰無仮説検定の問題点
1. 対立仮説と帰無仮説を立てる 2. 検定統計量と分布を決める 3. 有意水準αを決定する
4. データを収集し検定統計量を算出 5. 仮説の棄却と採択
帰無仮説検定の問題点
・有意水準の恣意性
慣習的に用いられている5%に確かな根拠はない 有意水準=帰無仮説を棄却する際の基準
=誤って帰無仮説を棄却する確率
→誤って帰無仮説を棄却する確率が5%で良いとは断言できない
帰無仮説検定の問題点
1. 対立仮説と帰無仮説を立てる 2. 検定統計量と分布を決める 3. 有意水準αを決定する
4. データを収集し検定統計量を算出 5. 仮説の棄却と採択
帰無仮説検定の問題点
・p値はサンプルサイズに影響される
検定統計量=効果の大きさ☓サンプルサイズ(南風原, 2002)
−効果が大きくなるにつれて検定統計量は大きくなる
−サンプルが大きくなるにつれて検定統計量は大きくなる
→効果 or サンプルが大きくなればp値は小さくなる
帰無仮説検定の問題点
・p値はサンプルサイズに影響される 例)対応なしのt検定におけるt値の算出
A群(平均32・標準偏差16)vs. B群(平均46・標準偏差34) サンプル数20人:t (18) = 1.72, p = .102, d = 0.53
サンプル数100人:t (98) = 4.69, p < .001 , d = 0.53
有意差なし 有意差あり
帰無仮説検定の問題点(まとめ)
・研究仮説を対立仮説として立てることの不自然さ
−「同じである」ことを証明できない
−「差がない」or「差がある」しか証明できない
− 有意差が「意味のある差」とは限らない
・有意水準の恣意性
・p値はサンプルサイズに影響される
帰無仮説検定の問題点(まとめ)
・研究仮説を対立仮説として立てることの不自然さ
−「同じである」ことを証明できない
−「差がない」or「差がある」しか証明できない
− 有意差が「意味のある差」とは限らない
・有意水準の恣意性
・p値はサンプルサイズに影響される
信頼区間
効果量
検定力
信頼区間
・ある定められた確率で⺟数を含む区間(南風原, 2002)
−記述統計(⼿元のデータが⺟集団)の場合、⺟数を得られる
−推測統計(手元のデータは標本)の場合、⺟数を推定する 例)日本人中学2年生200名を対象としたテストの平均値が5.5点
−記述統計:協⼒者200人の平均値は5.5点
−推測統計:⽇本⼈中学2年生の平均値は5.5点±誤差
信頼区間
・推測統計における⺟数の区間推定
−区間推定=⺟数の点推定値±誤差範囲
2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 8.5
誤差範囲?
標本分布
信頼区間
・信頼区間=⺟数の点推定値±誤差範囲
−誤差範囲は信頼区間を求めたい指標によって異なる
・平均値の信頼区間=推定平均値±標準誤差×t値 (critical)* t値 (critical)*=t分布における信頼水準(定めた確率)のt値 例)自由度100で95%の場合: t値= 1.98
自由度100で99%の場合: t値= 2.63
信頼区間
例)自由度100,平均値5.5 ,標準誤差0.52.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 8.5
95%信頼区間 5.5 ± 0.5 × 1.98
[4.5, 6.5]
99%信頼区間 5.5 ± 0.5 × 2.63
[4.2, 6.8]
標本分布
信頼区間
・信頼区間は二値的に解釈する (川端・荘島, 2014)
〇様々な標本から得られた信頼区間が⺟数を含む確率が95%
☓ある標本から得られた信頼区間が⺟数を含む確率が95%
2.5 4.5 6.5 8.5
⺟集団分布
2.5 4.5 6.5 8.5 標本分布
100の標本から信 頼区間を出すと、
5回は⺟数が 含まれない
ある標本の信頼区 間には5%の確率で
⺟数が含まれない
信頼区間
・信頼水準を上げると信頼区間は広くなる 例)ダーツを100回投げる
100回中95回当たる範囲 vs. 100回中99回当たる範囲
信頼区間
・信頼区間はサンプルサイズが大きくなると狭くなる
−標準誤差=標準偏差 / √サンプル数
→サンプル数が大きくなるほど標準誤差が小さくなる
例)平均値の信頼区間=推定平均値±標準誤差× t値(critical)
→標準誤差が小さくなるほど信頼区間が狭くなる
信頼区間
・対応なしの2群の平均値差の信頼区間
信頼区間=2群の平均値差 ± t値 ×差の標準誤差
例)A群(平均32・標準偏差16)vs. B群(平均46・標準偏差34) 平均値差:14 自由度:198 t値:95%水準 差の標準誤差:3.8
−平均値差の95%信頼区間:[6.98, 21.92]
→A群とB群の平均値にどのくらい差があったかの目安
※5%の確率で⺟数は信頼区間内にない(≒帰無仮説検定)
効果量
・効果量は効果の大きさを示す
検定統計量=効果の大きさ☓サンプルサイズ(南風原, 2002)
→効果の大きさはサンプルサイズに左右されない(されにくい) 例)t検定(平均値差の検定):効果の大きさ=平均値の差
相関分析:効果の大きさ=関連の大きさ
効果量
・算出される効果量は標本効果量である
―算出される標本効果量=⺟集団効果量の点推定値
―⺟集団効果量=標本効果量±推定誤差
例)日本人EFL大学生100名の英語読解テストと英語聴解テスト の得点について相関分析を行ったところ r = . 50 であった
〇日本人EFL大学生全体においてr = . 50 と推定される
☓日本人EFL大学生全体においてr = . 50 である
効果量
・(いわゆる)効果量=標本効果量=⺟集団効果量の点推定値 標本効果量→ある標本における効果量(標本間で変動する)
⺟集団効果量→⺟集団における効果量 (変動しない)
⺟集団効果量
(測定不可) 効果量標本 推定
効果量
・標本効果量から⺟集団効果量の信頼区間を算出できる
−推定値である⺟集団効果量は信頼区間の算出が勧められる 例) Cohenのd* =.25, 95%信頼区間 [.15, .35]
→⺟集団においても「効果量は正」という結論は妥当 Cohenのd* =.25, 95%信頼区間 [-.05, .55]
→⺟集団においても「効果量は正」という結論は妥当?
効果量
・標本効果量にはサンプルサイズのバイアスを受けるものもある
―⺟集団効果量=バイアス×標本効果量±推定誤差 例) Hedgesのgにおけるバイアス補正
バイアスのないHedgesのg = Hedgesのg ☓ 補正係数 例) CohenのdとHedgesのgの使い分け
標本の標準偏差に基づくCohenのdはバイアスがかかりやすい
効果量
・効果量はd族とr族に大別される
−d族の効果量= 群間の平均値差 / 標準偏差
→ 標準偏差に基づく群間の平均値差の大きさ
−r族の効果量= 群間の関係性 / 全体分散
→ 全体分散に占める群間の関係性の大きさ
(水本・竹内, 2008; 南風原, 2014)
効果量の解釈
・効果量の解釈に際して「一応の」目安がある
−あくまでも慣習的に定められている目安 例) Cohenのd
効果量大:.80 効果量中:.50 効果量小:.20 例)相関分析のr
効果量大:.50 効果量中:.30 効果量小:.10
※効果量の大きさの視覚的なイメージについては 大久保・岡田 (2012) や南風原 (2014) などを参照
効果量の解釈
・効果量を目安だけで解釈してはいけない
−目安に基づく二分法の解釈は避ける(≒帰無仮説検定) 例)ある研究においてd = .75 の値が得られた
Cohenのd 効果量大:.80 効果量中:.50 効果量小:.20
効果量大の.80 より小さいから
「効果量は中程度であった」
効果量中の.50よりは効果量大 の.80に近いから
「効果量は大きかった」
効果量の解釈
・効果量を解釈する際は先行研究と比較することが望ましい 例)ある研究において相関係数 r = .40 の値が得られた ケース1:先行研究において関連がないとされていた相関 ケース2:標準化テストの1回目と2回目のスコアの相関 相関分析のr 効果量大:.50 効果量中:.30 効果量小:.10
効果量の解釈
・効果量を解釈する際は先行研究と比較することが望ましい 例)EFL大学生を対象として学習者要因Aと学習者要因Bについ
て相関分析を行ったところ、相関係数r = .60 が得られた 先行研究1:EFL中学生においては相関係数 r = .20
先行研究2:EFL高校生においては相関係数 r = .40
→先行研究に比べて相関係数(効果量)が比較的大きい
主要な効果量一覧(大久保・岡田, 2012)
対応なしt検定における効果量
Cohenのd
−平均値差 / 標本の標準偏差で算出 Hedgesのg
−平均値差 / 推測される⺟集団の標準偏差で算出 GlassのΔ
−実験群 vs. 統制群の実験デザインにおいて、
平均値差 / 推測される統制群の⺟集団の標準偏差で算出 相関のr
−t値の2乗値 / (t値の2乗値 + 自由度) で算出
対応ありt検定における効果量
・対応なしt検定における効果量
―Cohenのd・Hedgesのg・相関のrを用いる
・対応ある2群間の差と標準偏差に基づくdD
―2群間の差の平均値 / 2群間の差の標準偏差 で算出
―2群間の差の平均値が小さくても、2群間の差の標準偏差が小で あれば、dDは大きくなる
t検定における効果量の選択
・t検定においてどの効果量を算出すべき?
―rからdを算出することができるので、rの算出が勧められる
※群間でサンプルサイズが大きく異なる場合は、rにバイアスが かるため、dの算出が勧められる(Field, 2009)
―群間の平均値差(効果の大きさ)に焦点がある場合はcohenの d*
個々のサンプルにおける平均値差への影響(効果の一般性)に 焦点がある場合はdDの算出が勧められる(南風原, 2014)
一元配置分散分析における効果量
・η2
―ある要因の分散 / 全分散で算出
・ε2
― ある要因の分散(調整済み)/ 全分散で算出
・ω2
― ある要因の分散(調整済み)/ 全分散で算出(調整済み)
多元配置分散分析における効果量
・ηp2とωp2
―ある要因の分散 / ある要因の分散+誤差分散で算出
・η2と ω2
―ある要因の分散 / 全分散で算出
・ηG2とωG2
―ある要因の分散 / ある要因の分散+他の操作した要因の分散
※操作した要因の分散+個人差の分散=全分散
相関・回帰分析における効果量
・ r
―相関分析における統計量と同じ
・ r2(R2)
―回帰分析における統計量と同じ
※ r2 = η2 (慣習的に表記が異なるだけ)
カイ二乗検定における効果量
・CramerのV
χ2 / (行数 or 列数の⼩さい⽅−1) ×サンプルサイズ
・φ(2×2のカイ二乗検定でのみ使用) χ2 / サンプルサイズ
→Cramer’sV の特別な形が φ と捉えることもできる
マンホイットニーの検定における効果量
・相関のr
− r = 検定統計量のZ / サンプルサイズの平方根
※検定統計量のZ=検定統計量 U の標準得点
・優越確率ps
−ps= 検定統計量U
・Cliffのds
−ds = A群>B群である標本割合 – B群>A群である標本割合
ウィルコクスンの検定における効果量
・相関のr
− r = 検定統計量のZ / サンプルサイズの平方根
※検定統計量のZ= 検定統計量W の標準得点
・優越確率ps dep
−ps dep = A群 > B群である個体数 / サンプルサイズ
検定力
・サンプルサイズ・効果量・有意水準・検定力が検定の4大要素
−4⼤要素は部分的に連動する関係にある
→4大要素のうち3つがわかれば残り1つもわかる
水本・竹内(2010)
有意水準
検定力 効果量 サンプル・ サイズ
検定力
・検定力は「帰無仮説を正しく棄却できる確率」を示す
⇔有意水準「帰無仮説を正しく採択できる確率」を示す 有意水準(危険率):帰無仮説が正しい場合
−正しいはずの帰無仮説を「棄却」する判断が誤っている確率 検定力:帰無仮説が誤っている場合
−誤っているはずの帰無仮説を「棄却」する判断が正しい確率
検定力
・検定力は「帰無仮説を正しく棄却できる確率」を示す
⇔有意水準「帰無仮説を正しく採択できる確率」を示す
南風原(2002)
事実 検定による判断
帰無仮説を採択 帰無仮説を棄却 帰無仮説が真 正しい判断(1−α) 第一種の誤り(α) 帰無仮説が偽 第二種の誤り(β) 正しい判断(1−β)
検定力
・検定力は「帰無仮説を正しく棄却できる確率」を示す
⇔有意水準「帰無仮説を正しく採択できる確率」を示す
南風原(2002)
事実 検定による判断
帰無仮説を採択 帰無仮説を棄却 帰無仮説が真 正しい判断(1−α) 第一種の誤り(α) 帰無仮説が偽 第二種の誤り(β) 正しい判断(1−β)
有意水準 検定力
検定力
・検定力と有意水準は直接相補的な関係にはない
−検定力と有意水準は前提条件が異なる
☓有意水準を.01にすれば、検定力が.99になる
有意水準:正しい帰無仮説を「棄却」する判断が誤っている確率 検定力:誤りの帰無仮説を「棄却」する判断が正しい確率
→どちらも適切にコントロールする必要がある
検定力
有意水準:正しい帰無仮説を「棄却」する判断が誤っている確率 検定力:誤りの帰無仮説を「棄却」する判断が正しい確率
南風原(2002)
事実 検定による判断
帰無仮説を採択 帰無仮説を棄却 帰無仮説が真 正しい判断(1−α) 第一種の誤り(α) 帰無仮説が偽 第二種の誤り(β) 正しい判断(1−β)
検定力
有意水準:正しい帰無仮説を「棄却」する判断が誤っている確率 検定力:誤りの帰無仮説を「棄却」する判断が正しい確率
南風原(2002)
事実 検定による判断
帰無仮説を採択 帰無仮説を棄却 帰無仮説が真 正しい判断(1−α) 第一種の誤り(α) 帰無仮説が偽 第二種の誤り(β) 正しい判断(1−β)
有意水準 検定力
検定力
・検定力と有意水準は連動する部分もある
−有意⽔準を⼩さくすると検定⼒も⼩さくなる
⇔サンプルサイズを大きくすると検定力のみ大きくなる
※検定力は大きすぎても好ましくない
→適切なサンプルサイズを検討する必要がある
検定力
・検定力の大きさに絶対的な基準はない
−目安としては.80が慣習的に用いられている
→第二種の誤りは.20(第一種の誤りの4倍まで)に抑える
−第⼀種の誤りの⽅が第⼆種の誤りより深刻という仮定 第一種の誤り=「差がない」のに「差がある」とする確率 第二種の誤り=「差がある」のに「差がない」とする確率
→研究によって柔軟に運用する必要がある
検定力
・検定力は高すぎても良くない
−実質的な差がなくても有意になってしまう 例)サンプルサイズ10000で対応なしのt検定
A群:平均値99.97 vs. B群:平均値99.90 t (9998) = 1.97, p = .049
→2群の平均値差は有意であった
検定力
・サンプルサイズ・効果量・有意水準・検定力が検定の4大要素
−4⼤要素は部分的に連動する関係にある
→4大要素のうち3つがわかれば残り1つもわかる
水本・竹内(2010)
有意水準
検定力 効果量 サンプル・ サイズ
検定力
・研究者がコントロールしやすいのはサンプルサイズである
−効果量・有意水準・検定力から適切なサンプルサイズを検討 効果量:収集したデータによって定まる
有意水準:研究の枠組みによって定まる 検定力:研究の枠組みによって定まる
検定力
・検定力分析には事前分析と事後分析がある
−事前の推定効果量と事後の効果量に基づく
<事前分析>
効果量:先行研究に基づく推定効果量を採用 有意水準:慣習的な.05(もしくは.01)を採用
検定力:慣習的な.80(もしくは.05)を採用
→実験時に収集するサンプルサイズを検討する
検定力
・検定力分析には事前分析と事後分析がある
−事前の推定効果量と事後の効果量に基づく
<事後分析>
効果量:実験で得られた効果量を採用 有意水準:実験で用いた有意水準を採用
サンプルサイズ:実験で収集したサンプルサイズを採用
→実験における検定力を確認する
※事後検定力から得られる情報は少ない
理論編のまとめ
・帰無仮説検定には様々な問題がある
−「差がない」or「差がある」しか証明できない
− 有意差が「意味のある差」とは限らない
−有意⽔準の恣意性
−p値はサンプルサイズに影響される
⇔「⼆分法の明快さ」という⻑所もある 例)効果の有無に関する研究
理論編のまとめ
・帰無仮説検定の問題を解決するために
−信頼区間
→標本から⺟集団の範囲を推定する
−効果量
→サンプルサイズの影響が少ない「効果の大きさ」を算出する
−検定⼒
→正しい検定に必要なサンプルサイズを検討する
理論編の引用文献および参考文献
大久保街亜・岡田謙介.(2012). 『伝えるための心理統計―効果量・信頼区間・検定力』.勁草書房. 岡田謙介. (2015, 3月). 『心理学における効果量をめぐる最近の話題』. 日本発達心理学会第26回大会
チュートリアルセミナー. 於: 東京大学.
http://www3.psy.senshu-u.ac.jp/~ken/DevPsy2015_okada.pdfよりダウンロード.
岡田謙介. (2014, 3月). 『仮説検定における再現性の問題と新たな方法論』. 日本社会心理学会春の方法論 セミナー. 於: 上智大学四谷キャンパス.
http://www.socialpsychology.jp/sympo/seminar_140317/jssp_ss2014_Okada.pdfよりダウンロード. 川端一光・荘島宏二郎. (2014).『⼼理統計学のための統計学⼊⾨−ココロのデータ分析−』. 誠信書房. 南風原朝和.(2002).『⼼理統計学の基礎−統合的理解のために』. 有斐閣アルマ.
南風原朝和.(2014).『続・心理統計学の基礎―統合的理解を広げ深める』. 有斐閣アルマ.
水本篤・竹内理. (2008).「研究論文における効果量の報告のために―基礎概念と注意点―」.『英語教育研 究』, 31, 57–66.
水本篤・竹内理. (2010).「効果量と検定⼒分析⼊⾨−統計的検定を正しく使うために−」.『外国語教育メ ディア学会関⻄⽀部メソドロジー研究部会2010年度報告論集』, 47–73.
Field, A. (2009).Discovering statistics using SPSS (3rd ed.). London: Sage Publications.
実践編
⺟集団と信頼区間
・“ESCI chapters 1-4 Jul 4 2011.xlmx” を開く
・シートから”CI Jumping”を選択する
⺟集団と信頼区間
⺟集団と信頼区間
⺟集団の平均値を捉えら れていない信頼区間
各標本から算出される 信頼区間
⺟集団(実際は不明)
⺟集団と信頼区間
<やってみよう!>
・信頼水準を上げると信頼区間はどうなりますか
・サンプルサイズを大きくすると信頼区間はどうなりますか
⺟集団と信頼区間
<やってみよう!>
・信頼水準を上げると信頼区間はどうなりますか
→信頼区間は広くなる
・サンプルサイズを大きくすると信頼区間はどうなりますか
→信頼区間は狭くなる
p 値のダンスー信頼区間と p 値
・“ESCI chapters 5-6 Jul 4 2011.xlmx” を開く
・シートから”Dance p”を選択する
p 値のダンスー信頼区間と p 値
Speedを5に下げる
p 値のダンスー信頼区間と p 値
⺟集団各標本から算出 される群ごとの
信頼区間 各標本から算出
されるp値
p 値のダンスー信頼区間と p 値
⺟集団の平均値差
(今回は10) 各標本における平 均値差の信頼区間
p 値のダンスー信頼区間と p 値
<やってみよう!>
・検定力を大きくするためにはどうすればよいですか?
・検定力が大きくなるとp値の出現傾向はどう変わりますか?
p 値のダンスー信頼区間と p 値
<やってみよう!>
・検定力を大きくするためにはどうすればよいですか?
−サンプルサイズを増やす
−⺟集団の群間差を⼤きくする(効果量を⼤きくする)
→⺟集団の平均値差を⼤きくする or 標準偏差を小さくする
・検定力が大きくなるとp値の出現傾向はどう変わりますか?
−検定力に反比例してp値が小さくなる
G*powerによるサンプルサイズの決定
・G*powerとは?
−検定⼒を分析することができるフリーソフト
−ハインリッヒ・ハイネ大学内のwebサイトからダウンロード可 http://www.gpower.hhu.de/
−基本的な実験デザインに対応しており、使いやすい
G*powerの起動
対応なし t 検定における
事前サンプルサイズの算出
<条件設定>
・対応なしの2群間(等人数)に平均値差があるかを調べたい
・先行研究のレビューから効果量はd = .60 程度と考えられる
・有意水準は慣習的な.05を採用する
・検定力は慣習的な.80を採用する
対応なし t 検定における
事前サンプルサイズの算出
・Test family
−「ttests」を選択
・Statistical test
−「Means: Differences between two independent...」を 選択
・Type of power analysis
−「A priori: Compute required sample size – given α...」 を選択
対応なし t 検定における
事前サンプルサイズの算出
・Tail(s)
−「two」を選択
・Effect size d
−「0.6」を入力
・α err prob
−「0.05」を入力
・power (1-β err prob) ー「0.80」を入力
・Allocation ration ー「1」を入力
対応なし t 検定における
事前サンプルサイズの算出
必要なサンプルサイズは各群45名の計90名
対応なし t 検定における
事後検定力の算出
<条件設定>
・事前分析の結果に従って各群45名(計90名)データを収集
→ただし、技術的な問題から実際のデータは40名 vs. 45名
・対応なしt検定の結果は以下の通りであった
― t (83) = 4.02, p < .001, d = .41
対応なし t 検定における
事後検定力の算出
・Test family
−「ttests」を選択
・Statistical test
−「Means: Differences between two independent...」を 選択
・Type of power analysis
−「Post hoc: Compute achieved power – given α...」を選 択
対応なし t 検定における
事後検定力の算出
・Tail(s)
−「two」を選択
・Effect size d
−「0.41」を入力
・α err prob
−「0.05」を入力
・Sample size group 1 ー「45」を入力
・Sample size group 2 ー「40」を入力
対応なし t 検定における
事後検定力の算出
今回の結果における検定力は β = .46
ANOVA (対応あり×対応なし) における
事前サンプルサイズの算出
<条件設定>
・熟達度(対応なし;3水準)× 回数(対応あり;2水準)の 2元配置分散分析における主効果と交互作用を検討したい
・効果量はとりあえず不明なため、目安の.25を採用する
・有意水準は慣習的な.05を採用する
・検定力は慣習的な.80を採用する
対応なし要因の主効果の検定力に基づく
事前サンプルサイズの算出
対応なし要因の主効果の検定力に基づく
事前サンプルサイズの算出
必要なサンプルサイズは各群40名の計120名
対応あり要因の主効果の検定力に基づく
事前サンプルサイズの算出
対応あり要因の主効果の検定力に基づく
事前サンプルサイズの算出
必要なサンプルサイズは各群12名の計36名
交互作用の検定力に基づく
事前サンプルサイズの算出
交互作用の検定力に基づく
事前サンプルサイズの算出
必要なサンプルサイズは各群14名の計42名
ANOVA (対応あり×対応なし) における
事後検定力の算出
<条件設定>
・事前分析の結果に従って各群40名(計120名)データを収集
→各群40名ずつデータを収集できた
・二元配置ANOVAの結果は以下の通りであった
対応なし要因主効果:F (2, 117) = 35.49, p < .001, η2 = 38 対応あり要因主効果:F (1, 117) = 4.18, p = .043, η2 = 03
交互作用:F (2, 117) = 1.01, p = .367, η2 = 02
※対応あり要因間の相関係数:r = .31
対応なし要因の事後検定力の算出
対応なし要因の事後検定力の算出
今回の結果における検定力は β = .99
対応あり要因の事後検定力の算出
対応あり要因の事後検定力の算出
今回の結果における検定力は β = .09
交互作用の検定力事後検定力の算出
交互作用の検定力事後検定力の算出
今回の結果における検定力は β = .06
エクセルでの効果量計算
• 実際の計算を体験してみましょう
• エクセルファイルの置き場所
• スペースなしで「JLTAWS2016」と検索
• またはhttp://goo.gl/fi8pIWと入力
※画像:フリー素材集「ぱくたそ」https://www.pakutaso.com/
効果量計算のまとめ
• t 検定 平均値の差が「基準となるSD」 いくつ分かを示す
• 分散分析 主効果や交互作用の「平方和」 が全体に占める割合を示す
※多重比較での効果量:「基準となるSD」方式を繰り返してもよい
→例:入門編で紹介したChen and Truscott (2010)
• 相関分析 ピアソンの積率相関係数r が そのまま使える
なら中程度
(例)η2 が .06〜 .14 なら中程度
※出典:Chen, C., & Truscott, J. (2010). The effects of repetition and L1 lexicalization on incidental vocabulary acquisition. Applied Linguistics, 31, 693–713.
(例)r が .30〜 .50 なら中程度
お疲れさまでした!
• 入門編
• 理論編
• 休憩
• 実践編
• 質疑応答