JLTA2016WS1 02 最近の更新履歴 JLTAWS2016

(1)

JLTA 2016

Workshop 1

⻑⾕川佑介（上越教育⼤学）髙木修一（福島大学）

はじめて学ぶ効果量

〜基礎概念から実践まで〜

資料置場への行き方

「JLTAWS2016」と検索またはhttp://goo.gl/fi8pIWと入力

はじめに

(2)

自己紹介

• ⻑⾕川佑介（上越教育⼤学）

• _{髙木修一（福島大学）}

※画像：「かわいいフリー素材集いらすとや」http://www.irasutoya.com/

• 様々な方々の参加を歓迎いたします

• かんたんに自己紹介をお願いします

今日の流れ

• _入門編 （⻑⾕川 [40分]）

• _理論編 _{（髙木 [55分]）}

• _休憩 _（15分）

• _実践編 （髙木 [30分] + ⻑⾕川 [45分]）

• _{質疑応答（15分）}

(3)

入門編

入門編の位置づけ

• _{統計の背景知識は不要}

• 入門編・・・全体像をおさえる

• 理論編・・・詳しい枝分かれ

※画像：フリー素材集「ぱくたそ」https://www.pakutaso.com/

(4)

入門編の位置づけ

• お詫び：統計分析のプロではありません

• 「難しい話を分かりやすく話すこと」を目指します

• どんなに初歩的な質問でも大歓迎です

• フロアからの補足説明も大歓迎です

• _{一緒に考えましょう}

入門編の位置づけ

＜入門編の目次＞

• _{効果量とは}

• _{統計的検定とp 値}

• _{効果量の報告}

• _{差が有意になる条件}

• _{色々な効果量}

• _{「大・中・小」の感覚}

• _{論文のあれこれ}

(5)

効果量とは

• 最近よく耳にする「効果量」

• どんな場面で「効果量」という言葉を見ましたか？

• 「効果量って何？」と同僚に聞かれたらどう説明しますか？

※画像：日本郵便フリーイラスト集 https://www.post.japanpost.jp/life/amusement/downloads/

効果量とは

• 「一つの変数が他の変数に対して、あるいは二つ以上の変数間の関係に対して持つ効果の強さの尺度」

• 英語教育の論文では・・・

統計的検定 ^効果量の報告

※出典：リチャーズ, J. C., シュミット, R. (編). (2013).『ロングマン言語教育・応用言語学用語辞典』東京: 南雲堂.

(6)

効果量とは

• 例：大学のリーディング授業で音読を取り入れてみた

• 数週間の音読指導を行ったところ，読みの速度があがった

まぐれじゃないの？

統計的検定 ^効果量の報告ドングリの背比べ

じゃないの？

統計的検定と p 値

• 「有意」という言葉はあちこちで見かける

• 有意などと言わなくても，平均値だけ分かればいいのでは？

「平均値に有意差がみられた（p = .049）」とか

(7)

統計的検定と p 値

• _{たとえば・・・}

• 音読指導の前は、86.58 wpmでした！

• 音読指導の後は、113.01 wpmになりました！

• １分間あたり26.43語も多く読めるようになりました！

※参考：Hasegawa, Y. (2016). Does reading aloud contribute to EFL reading fluency among learners with higher/lower phonological awareness?Bulletin of Joetsu University of Education, 36 (1), 165–172.

統計的検定と p 値

• だまされてはいけません

(8)

統計的検定と p 値

• 実験協力者が１名の場合（Aくん）

• Aくんは、まぐれで速く読めただけかも

86.58 wpm 113.01 wpm

統計的検定と p 値

• 実験協力者が２名の場合（Aくん・Bさん）

• ２人とも、まぐれで速く読めただけかも

平均86.58 wpm 平均113.01 wpm

(9)

統計的検定と p 値

• 実験協力者がたくさんの場合

• だんだん「単なる偶然」とは考えにくくなってくる

平均86.58 wpm 平均113.01 wpm

統計的検定と p 値

統計的検定

(10)

統計的検定と p 値

• _{詳しくは理論編で}

について紹介します 帰無仮説検定

と信頼区間

効果量の報告

• 統計の力を借りて「偶然かどうか」を見極めることが大切！

• 統計的検定の結果が有意なら効果を主張できるんだ！

• それなら効果量なんて報告しなくてもよいのでは？

(11)

効果量の報告

• _{たとえば・・・}

• 音読の指導前と指導後で、学生のwpmを比べました！

• t 検定の結果、その差は5%水準で有意でした！

• 「とにかく有意だったなら、大きな差があったのだろう」

効果量の報告

• 「結果は有意でした」といっても効果の大きさは分からない！

(12)

効果量の報告

• だまされてはいけません

ドングリの背比べじゃないの？

効果量の報告

について紹介します 効果量

(13)

差が有意になる条件

• 「偶然の誤差ではない」＝有意

①たくさんの人数がいる場合

②指導前と指導後の差が大きい場合

「データのばらつき具合」その他、

「調べたい要因の数」など

差が有意になる条件

• 対応なしのt 検定の場合

• 論文では、効果量をt 値や人数とともに報告する

• ３つの要素には相互関係がある

= × ¹ ²

1⁺ 2

• じつは、t 値は「効果量と人数のかけ算」で決まる！^{（とも言える？）}

※出典：南風原朝和. (2014).『続・心理統計学の基礎：統合的理解を広げる』東京: 有斐閣アルマ.

(14)

差が有意になる条件

• （検定統計量）＝（標本における効果量）×（標本の大きさ）

※出典：南風原朝和. (2014).『続・心理統計学の基礎：統合的理解を広げる』東京: 有斐閣アルマ.

t 値効果量 _{計算した値}^人数から

例： d = 0.2 10人 vs. 10人例： d = 0.5 50人 vs. 52人例： d = 0.8 99人 vs. 102人

一般化すると・・・

差が有意になる条件

について紹介します 検定力

(15)

色々な効果量

• 音読の効果を調べたい！どうすれば良いか？

• _{指導前後を比べる？}

Before After

色々な効果量

• あるクラスと別のクラスを比べる？

音読クラス要約クラス

(16)

色々な効果量

• 指導の効果があらわれた人数を調べる？

効果あり50名 ^効果なし30名

色々な効果量

• そもそも読みの速さは，もともとの英語力と関係している？

読む速度

もともとの英語力

(17)

色々な効果量

• 分析の種類に応じて，効果量の計算方法も異なる

※出典：水本篤・竹内理. (2008).「研究論文における効果量の報告のために：基礎的概念と注意点」『英語教育研究』31, 57–66.

色々な効果量

• ①「平均の差」をみる効果量

• 対応あり／なしのt 検定・・・いわゆるCohenのd

Hedgesのgや GlassのΔとの違いは？ どう計算するの？

差がどれくらい大きいか

(18)

色々な効果量

• ②「関係の強さ」をみる効果量

• 相関分析・・・ r

• 重回帰分析・・・ R²

• χ²検定・・・ φ

• 分散分析・・・ η²

データの何％を説明できるか

「効果量が大きい」何％だとと言えるの？

「大・中・小」の感覚

• _Schmitt(2010, pp. 166–167) _{によると・・・}

• 語彙習得の研究では，色々なタイプの比較を行う

• 現在では，p 値とは別に効果量を記載するのが主流である

• small effect・・・ r = .10（分散全体の約1％を説明）

• medium effect・・・ r = .30（分散全体の約9％を説明）

• large effect・・・ r = .50（分散全体の約25％を説明）

※出典：Schmitt, N. (2010).Researching vocabulary: A vocabulary research manual. New York, NY: Palgrave Macmillan.

(19)

「大・中・小」の感覚

• 分散の1%とはどれくらい？

これくらいの円だと… ^これが1%

「大・中・小」の感覚

これくらいの円だと… これが9%

(20)

「大・中・小」の感覚

これくらいの円だと…

これが25%

「大・中・小」の感覚

• 参考：GeoGebra（ジオジェブラ）

• 図やグラフが自在に描けるオンラインツール

※画像：GeoGebraウェブサイト https://www.geogebra.org/

(21)

論文のあれこれ

• _{語彙習得研究の例}（Chen & Truscott, 2010）

• _{台湾の大学1年生}（中級）

• _{7つの短い物語文}（300語以内）

• 10語の低頻度語が身につくか

• _{3つの条件を比較}

※出典：Chen, C., & Truscott, J. (2010). The effects of repetition and L1 lexicalization on incidental vocabulary acquisition. Applied Linguistics, 31, 693–713.

論文のあれこれ

• _E1条件

（24名）

• _E3条件

（24名）

• _E7条件

（24名）

(22)

論文のあれこれ

• _E1条件

• _E3条件

• _E7条件

発音を聞いて書くテスト英単語を訳すテスト

平均_1.08点（SD= 0.72）平均_0.13点（SD= 0.45）

平均2.12点（SD= 1.12）平均0.58点（SD= 0.53）

平均_2.71点（SD= 1.60）平均_1.50点（SD= 1.35）

有意？効果量？

論文のあれこれ

• _E1条件

• _E3条件

• _E7条件

発音を聞いて書くテスト

平均_1.08点（SD= 0.72）

平均2.12点（SD= 1.12）

平均_2.71点（SD= 1.60）

有意！ d = 1.130

NS d = 0.434

Kruskal-Wallis検定 LSD法の多重比較↓

（いずれも5%水準）

Cohenのd（広義）

「ある群と別の群の平均値がSDいくつぶん

離れているかを示す」

大：0.80以上

中：0.50以上^…とした小：0.20以上

(23)

論文のあれこれ

• _E1条件

• _E3条件

• _E7条件

発音を聞いて書くテスト英単語を訳すテスト

平均_1.08点（SD= 0.72）平均_0.13点（SD= 0.45）

平均2.12点（SD= 1.12）平均0.58点（SD= 0.53）

平均_2.71点（SD= 1.60）平均_1.50点（SD= 1.35）

NS d = 0.652

有意！ d = 0.807

論文のあれこれ

１年間、牛乳を飲み続けた結果…

d = 1.0

(24)

論文のあれこれ

１年間、牛乳を飲み続けた結果…

d = 0.5

入門編のまとめ

＜入門編の目次＞

• _{効果量とは} _…確率論に依らず効果の大きさを示す数値

• _{統計的検定とp 値} _…「まぐれじゃない」と証明したい

• _{効果量の報告} _…「ドングリの背比べじゃない」と証明したい

• 差が有意になる条件 …有意になるかどうかは人数が左右する

• _{色々な効果量} _…平均の差をみる「d 族」と関係をみる「r 族」

• 「大・中・小」の感覚…確かに「効果量大」には威力を感じる

• _{論文のあれこれ} _…効果量で地に足のついた結果報告を

(25)

理論編

帰無仮説検定の流れ

以下のような実験を行うとき、どのような手順で分析しますか？目的：新しい「語彙指導Ａ」は従来の「語彙指導Ｂ」に比べ、

指導直後の語彙知識の習得に効果的か調べること

対象：語彙指導Ａ群（50名）と語彙指導Ｂ群（50名）の計100名材料：語彙指導後に行う10語（1問1点）の語彙テスト

(26)

帰無仮説検定の流れ

・帰無仮説検定のプロセス（ネイマン・ピアソンの枠組み） 1. 対立仮説と帰無仮説を立てる

2. 検定統計量と分布を決める 3. 有意水準αを決定する

4. データを収集し検定統計量を算出 5. 仮説の棄却と採択

（大久保・岡田, 2012）

帰無仮説検定の流れ

1. 対立仮説と帰無仮説を立てる

対立仮説―研究者が確認したい仮説帰無仮説―対立仮説と相反する仮説

例）対立仮説―語彙指導Ａ群＞語彙指導Ｂ群帰無仮説―語彙指導Ａ群＝語彙指導Ｂ群

(27)

帰無仮説検定の流れ

2. 検定統計量と分布を決める

研究目的と収集するデータにとって妥当なものを選択する例）語彙テスト得点は正規分布すると想定し、t分布を選択した

※t分布は正規分布に従う平均値の分布

帰無仮説検定の流れ

3. 有意水準αを決定する

有意水準＝帰無仮説を棄却する水準

−「棄却する or 棄却しない」の二値的判断

例）英語教育学研究の慣例に従い、有意水準を5%とした

※医学系研究では有意水準を1%とすることも

(28)

帰無仮説検定の流れ

4. データを収集し検定統計量を算出

データの収集と2.で決めた検定統計量を算出する

※データが想定通りの分布であるか確認し、必要に応じて使用する分布を再検討することも

例）語彙指導Ａ群（50名）と語彙指導Ｂ群（50名）の語彙得点の平均をt検定にて比較した。結果は以下の通り。

t (98) = 1.995, p = .049, d = .35

帰無仮説検定の流れ

5. 仮説の棄却と採択

帰無仮説を棄却するor 棄却しないを決める例）t (98) = 1.995, p = .049, d = .35

p値が5%未満なので、帰無仮説を棄却して対立仮説を採択する

→語彙指導Ａ群と語彙指導Ｂ群の語彙得点の平均値には差がある

(29)

帰無仮説検定の問題点

「帰無仮説検定の流れ」で気になることはありませんか？

帰無仮説検定の問題点

1. 対立仮説と帰無仮説を立てる 2. 検定統計量と分布を決める 3. 有意水準αを決定する

(30)

帰無仮説検定の問題点

1. 対立仮説と帰無仮説を立てる 2. 検定統計量と分布を決める 3. 有意水準αを決定する

帰無仮説検定の問題点

・研究仮説を対立仮説として立てる不自然さ例）対立仮説―語彙指導Ａ群＞語彙指導Ｂ群帰無仮説―語彙指導Ａ群＝語彙指導Ｂ群

−検定で得られるp値

「帰無仮説が正しい仮定の下で、検定結果が得られる確率」

(31)

帰無仮説検定の問題点

「帰無仮説が正しい仮定で、検定結果が得られる確率」

−語彙指導Ａ群＝語彙指導Ｂ群が正しいと仮定した時に、語彙指導Ａ群と語彙指導Ｂ群の平均値差が生じる確率

p = .900 帰無仮説が正しい仮定の下で、生じ

る可能性が高い ^{帰無仮説が正しい}^{p = .049}

仮定の下で、生じる可能性が低い 帰無仮説を棄却

判断を保留

-4 -2 0 2 4

帰無仮説検定の問題点

・「同じである」ことを証明できない

−検定で得られるp値

〇「帰無仮説が正しい仮定の下で、検定結果が得られる確率」

☓「帰無仮説が正しい確率」

−仮説検定のロジック

「もし帰無仮説が正しいならば、p値は有意水準より大きい」

(32)

帰無仮説検定の問題点

「もし帰無仮説が正しいならば、p値は有意水準より大きい」

＜p値が有意水準より大きい＞帰無仮説の正誤はわからない

→「判断を保留する」

＜ p値が有意水準より小さい＞帰無仮説は誤っている

→「帰無仮説を棄却する」

p値が有意水準より大きい帰無仮説が

正しい

帰無仮説検定の問題点

・「差がない」or「差がある」しか証明できない

p値が有意⽔準以上−帰無仮説の採択（＝判断の保留） p値が有意⽔準未満−帰無仮説の棄却（＝対立仮説の採択）

→p値に基づく判断は極端な二分法

帰無仮説を「採択する」or 「棄却する」という判断のみ cf）「5%水準で有意ではないが、10%水準で有意傾向である？」

(33)

帰無仮説検定の問題点

・有意差が「意味のある差」とは限らない

例）語彙指導Ａが語彙指導Ｂより平均点が有意に高かった語彙指導Ａ：準備に要する時間が３０時間で平均点5.5点語彙指導Ｂ：準備に要する時間が２時間で平均点5.2点

→「準備に要する時間」を考慮すると、この平均点差の意味は？

帰無仮説検定の問題点

1. 対立仮説と帰無仮説を立てる 2. 検定統計量と分布を決める 3. 有意水準αを決定する

(34)

帰無仮説検定の問題点

・有意水準の恣意性

慣習的に用いられている5%に確かな根拠はない有意水準＝帰無仮説を棄却する際の基準

＝誤って帰無仮説を棄却する確率

→誤って帰無仮説を棄却する確率が5%で良いとは断言できない

帰無仮説検定の問題点

1. 対立仮説と帰無仮説を立てる 2. 検定統計量と分布を決める 3. 有意水準αを決定する

4. データを収集し検定統計量を算出 5. 仮説の棄却と採択

(35)

帰無仮説検定の問題点

・p値はサンプルサイズに影響される

検定統計量＝効果の大きさ☓サンプルサイズ（南風原, 2002）

−効果が大きくなるにつれて検定統計量は大きくなる

−サンプルが大きくなるにつれて検定統計量は大きくなる

→効果 or サンプルが大きくなればp値は小さくなる

帰無仮説検定の問題点

・p値はサンプルサイズに影響される例）対応なしのt検定におけるt値の算出

Ａ群（平均32・標準偏差16）vs. Ｂ群（平均46・標準偏差34）サンプル数２０人：t (18) = 1.72, p = .102, d = 0.53

サンプル数１００人：t (98) = 4.69, p < .001 , d = 0.53

有意差なし 有意差あり

(36)

帰無仮説検定の問題点（まとめ）

・研究仮説を対立仮説として立てることの不自然さ

−「同じである」ことを証明できない

−「差がない」or「差がある」しか証明できない

− 有意差が「意味のある差」とは限らない

・有意水準の恣意性

・p値はサンプルサイズに影響される

帰無仮説検定の問題点（まとめ）

・研究仮説を対立仮説として立てることの不自然さ

−「同じである」ことを証明できない

−「差がない」or「差がある」しか証明できない

− 有意差が「意味のある差」とは限らない

・有意水準の恣意性

・p値はサンプルサイズに影響される

信頼区間

効果量

検定力

(37)

信頼区間

・ある定められた確率で⺟数を含む区間（南風原, 2002）

−記述統計（⼿元のデータが⺟集団）の場合、⺟数を得られる

−推測統計（手元のデータは標本）の場合、⺟数を推定する例）日本人中学2年生200名を対象としたテストの平均値が5.5点

−記述統計：協⼒者200人の平均値は5.5点

−推測統計：⽇本⼈中学2年生の平均値は5.5点±誤差

信頼区間

・推測統計における⺟数の区間推定

−区間推定＝⺟数の点推定値±誤差範囲

2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 8.5

誤差範囲？

標本分布

(38)

信頼区間

・信頼区間＝⺟数の点推定値±誤差範囲

−誤差範囲は信頼区間を求めたい指標によって異なる

・平均値の信頼区間＝推定平均値±標準誤差×t値 (critical)* t値 (critical)*＝t分布における信頼水準（定めた確率）のt値例）自由度100で95%の場合： t値＝ 1.98

自由度100で99%の場合： t値＝ 2.63

信頼区間

例）自由度100，平均値5.5 ，標準誤差0.5

2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 8.5

95%信頼区間 5.5 ± 0.5 × 1.98

[4.5, 6.5]

99%信頼区間 5.5 ± 0.5 × 2.63

[4.2, 6.8]

標本分布

(39)

信頼区間

・信頼区間は二値的に解釈する（川端・荘島, 2014）

〇様々な標本から得られた信頼区間が⺟数を含む確率が95%

☓ある標本から得られた信頼区間が⺟数を含む確率が95%

2.5 4.5 6.5 8.5

⺟集団分布

2.5 4.5 6.5 8.5 標本分布

100の標本から信頼区間を出すと、

5回は⺟数が含まれない

ある標本の信頼区間には5%の確率で

⺟数が含まれない

信頼区間

・信頼水準を上げると信頼区間は広くなる例）ダーツを100回投げる

100回中95回当たる範囲 vs. 100回中99回当たる範囲

(40)

信頼区間

・信頼区間はサンプルサイズが大きくなると狭くなる

−標準誤差＝標準偏差 / √サンプル数

→サンプル数が大きくなるほど標準誤差が小さくなる

例）平均値の信頼区間＝推定平均値±標準誤差× t値(critical)

→標準誤差が小さくなるほど信頼区間が狭くなる

信頼区間

・対応なしの２群の平均値差の信頼区間

信頼区間＝２群の平均値差 ± t値 ×差の標準誤差

例）Ａ群（平均32・標準偏差16）vs. Ｂ群（平均46・標準偏差34）平均値差：14 自由度：198 t値：95%水準差の標準誤差：3.8

−平均値差の95%信頼区間：[6.98, 21.92]

→Ａ群とＢ群の平均値にどのくらい差があったかの目安

※5%の確率で⺟数は信頼区間内にない（≒帰無仮説検定）

(41)

効果量

・効果量は効果の大きさを示す

検定統計量＝効果の大きさ☓サンプルサイズ（南風原, 2002）

→効果の大きさはサンプルサイズに左右されない^{（されにくい）} 例）t検定（平均値差の検定）：効果の大きさ＝平均値の差

相関分析：効果の大きさ＝関連の大きさ

効果量

・算出される効果量は標本効果量である

―算出される標本効果量＝⺟集団効果量の点推定値

―⺟集団効果量＝標本効果量±推定誤差

例）日本人EFL大学生100名の英語読解テストと英語聴解テストの得点について相関分析を行ったところ r = . 50 であった

〇日本人EFL大学生全体においてr = . 50 と推定される

☓日本人EFL大学生全体においてr = . 50 である

(42)

効果量

・（いわゆる）効果量＝標本効果量＝⺟集団効果量の点推定値標本効果量→ある標本における効果量（標本間で変動する）

⺟集団効果量→⺟集団における効果量（変動しない）

⺟集団効果量

（測定不可） 効果量標本 ^推定

効果量

・標本効果量から⺟集団効果量の信頼区間を算出できる

−推定値である⺟集団効果量は信頼区間の算出が勧められる例） Cohenのd* ＝.25, 95%信頼区間 [.15, .35]

→⺟集団においても「効果量は正」という結論は妥当 Cohenのd* ＝.25, 95%信頼区間 [-.05, .55]

→⺟集団においても「効果量は正」という結論は妥当？

(43)

効果量

・標本効果量にはサンプルサイズのバイアスを受けるものもある

―⺟集団効果量＝バイアス×標本効果量±推定誤差例） Hedgesのgにおけるバイアス補正

バイアスのないHedgesのg ＝ Hedgesのg ☓ 補正係数例） CohenのdとHedgesのgの使い分け

標本の標準偏差に基づくCohenのdはバイアスがかかりやすい

効果量

・効果量はd族とr族に大別される

−d族の効果量＝群間の平均値差 / 標準偏差

→ 標準偏差に基づく群間の平均値差の大きさ

−r族の効果量＝群間の関係性 / 全体分散

→ 全体分散に占める群間の関係性の大きさ

（水本・竹内, 2008; 南風原, 2014）

(44)

効果量の解釈

・効果量の解釈に際して「一応の」目安がある

−あくまでも慣習的に定められている目安例） Cohenのd

効果量大：.80 効果量中：.50 効果量小：.20 例）相関分析のr

効果量大：.50 効果量中：.30 効果量小：.10

※効果量の大きさの視覚的なイメージについては大久保・岡田 (2012) や南風原 (2014) などを参照

効果量の解釈

・効果量を目安だけで解釈してはいけない

−目安に基づく二分法の解釈は避ける（≒帰無仮説検定）例）ある研究においてd = .75 の値が得られた

Cohenのd 効果量大：.80 効果量中：.50 効果量小：.20

効果量大の.80 より小さいから

「効果量は中程度であった」

効果量中の.50よりは効果量大 の.80に近いから

「効果量は大きかった」

(45)

効果量の解釈

・効果量を解釈する際は先行研究と比較することが望ましい例）ある研究において相関係数 r = .40 の値が得られたケース１：先行研究において関連がないとされていた相関ケース２：標準化テストの１回目と２回目のスコアの相関相関分析のr 効果量大：.50 効果量中：.30 効果量小：.10

効果量の解釈

・効果量を解釈する際は先行研究と比較することが望ましい例）EFL大学生を対象として学習者要因Ａと学習者要因Ｂについ

て相関分析を行ったところ、相関係数r = .60 が得られた先行研究１：EFL中学生においては相関係数 r = .20

先行研究２：EFL高校生においては相関係数 r = .40

→先行研究に比べて相関係数（効果量）が比較的大きい

(46)

主要な効果量一覧（大久保・岡田, 2012）

対応なしt検定における効果量

Cohenのd

−平均値差 / 標本の標準偏差で算出 Hedgesのg

−平均値差 / 推測される⺟集団の標準偏差で算出 GlassのΔ

−実験群 vs. 統制群の実験デザインにおいて、

平均値差 / 推測される統制群の⺟集団の標準偏差で算出相関のr

−t値の2乗値 / (t値の2乗値 + 自由度) で算出

(47)

対応ありt検定における効果量

・対応なしt検定における効果量

―Cohenのd・Hedgesのg・相関のrを用いる

・対応ある2群間の差と標準偏差に基づくd_D

―2群間の差の平均値 / 2群間の差の標準偏差で算出

―2群間の差の平均値が小さくても、2群間の差の標準偏差が小であれば、d_Dは大きくなる

t検定における効果量の選択

・t検定においてどの効果量を算出すべき？

―rからdを算出することができるので、rの算出が勧められる

※群間でサンプルサイズが大きく異なる場合は、rにバイアスがかるため、dの算出が勧められる（Field, 2009）

―群間の平均値差（効果の大きさ）に焦点がある場合はcohenの d*

個々のサンプルにおける平均値差への影響（効果の一般性）に焦点がある場合はd_Dの算出が勧められる（南風原, 2014）

(48)

一元配置分散分析における効果量

・η²

―ある要因の分散 / 全分散で算出

・ε²

― ある要因の分散（調整済み）/ 全分散で算出

・ω²

― ある要因の分散（調整済み）/ 全分散で算出（調整済み）

多元配置分散分析における効果量

・η_p²とω_p²

―ある要因の分散 / ある要因の分散+誤差分散で算出

・η²と ω²

―ある要因の分散 / 全分散で算出

・η_G²とω_G²

―ある要因の分散 / ある要因の分散+他の操作した要因の分散

※操作した要因の分散＋個人差の分散＝全分散

(49)

相関・回帰分析における効果量

・ r

―相関分析における統計量と同じ

・ r²（R²）

―回帰分析における統計量と同じ

※ r² = η² （慣習的に表記が異なるだけ）

カイ二乗検定における効果量

・CramerのV

χ² / (行数 or 列数の⼩さい⽅−1) ×サンプルサイズ

・φ（2×2のカイ二乗検定でのみ使用） χ² ^{/ サンプルサイズ}

→Cramer’sV の特別な形が φ と捉えることもできる

(50)

マンホイットニーの検定における効果量

・相関のr

− r = 検定統計量のＺ / サンプルサイズの平方根

※検定統計量のＺ=検定統計量 U の標準得点

・優越確率p_s

−p_s= 検定統計量U

・Cliffのd_s

−d_s = A群＞B群である標本割合 – B群＞A群である標本割合

ウィルコクスンの検定における効果量

・相関のr

− r = 検定統計量のＺ / サンプルサイズの平方根

※検定統計量のＺ= 検定統計量W の標準得点

・優越確率p_{s dep}

−p_{s dep} = A群 > B群である個体数 / サンプルサイズ

(51)

検定力

・サンプルサイズ・効果量・有意水準・検定力が検定の４大要素

−４⼤要素は部分的に連動する関係にある

→４大要素のうち３つがわかれば残り１つもわかる

水本・竹内（2010）

有意水準

検定力効果量サンプル・サイズ

検定力

・検定力は「帰無仮説を正しく棄却できる確率」を示す

⇔有意水準「帰無仮説を正しく採択できる確率」を示す有意水準（危険率）：帰無仮説が正しい場合

−正しいはずの帰無仮説を「棄却」する判断が誤っている確率検定力：帰無仮説が誤っている場合

−誤っているはずの帰無仮説を「棄却」する判断が正しい確率

(52)

検定力

⇔有意水準「帰無仮説を正しく採択できる確率」を示す

南風原（2002）

事実 ^{検定による判断}

帰無仮説を採択帰無仮説を棄却帰無仮説が真 ^{正しい判断}_{（１−α）} ^{第一種の誤り}_（α）帰無仮説が偽 ^{第二種の誤り}_（β） ^{正しい判断}_{（１−β）}

検定力

⇔有意水準「帰無仮説を正しく採択できる確率」を示す

南風原（2002）

有意水準検定力

(53)

検定力

・検定力と有意水準は直接相補的な関係にはない

−検定力と有意水準は前提条件が異なる

☓有意水準を.01にすれば、検定力が.99になる

有意水準：正しい帰無仮説を「棄却」する判断が誤っている確率検定力：誤りの帰無仮説を「棄却」する判断が正しい確率

→どちらも適切にコントロールする必要がある

検定力

南風原（2002）

(54)

検定力

南風原（2002）

有意水準検定力

検定力

・検定力と有意水準は連動する部分もある

−有意⽔準を⼩さくすると検定⼒も⼩さくなる

⇔サンプルサイズを大きくすると検定力のみ大きくなる

※検定力は大きすぎても好ましくない

→適切なサンプルサイズを検討する必要がある

(55)

検定力

・検定力の大きさに絶対的な基準はない

−目安としては.80が慣習的に用いられている

→第二種の誤りは.20（第一種の誤りの４倍まで）に抑える

−第⼀種の誤りの⽅が第⼆種の誤りより深刻という仮定第一種の誤り＝「差がない」のに「差がある」とする確率第二種の誤り＝「差がある」のに「差がない」とする確率

→研究によって柔軟に運用する必要がある

検定力

・検定力は高すぎても良くない

−実質的な差がなくても有意になってしまう例）サンプルサイズ10000で対応なしのt検定

Ａ群：平均値99.97 vs. Ｂ群：平均値99.90 t (9998) = 1.97, p = .049

→２群の平均値差は有意であった

(56)

検定力

・サンプルサイズ・効果量・有意水準・検定力が検定の４大要素

−４⼤要素は部分的に連動する関係にある

→４大要素のうち３つがわかれば残り１つもわかる

水本・竹内（2010）

有意水準

検定力効果量サンプル・サイズ

検定力

・研究者がコントロールしやすいのはサンプルサイズである

−効果量・有意水準・検定力から適切なサンプルサイズを検討効果量：収集したデータによって定まる

有意水準：研究の枠組みによって定まる検定力：研究の枠組みによって定まる

(57)

検定力

・検定力分析には事前分析と事後分析がある

−事前の推定効果量と事後の効果量に基づく

＜事前分析＞

効果量：先行研究に基づく推定効果量を採用有意水準：慣習的な.05（もしくは.01）を採用

検定力：慣習的な.80（もしくは.05）を採用

→実験時に収集するサンプルサイズを検討する

検定力

・検定力分析には事前分析と事後分析がある

−事前の推定効果量と事後の効果量に基づく

＜事後分析＞

効果量：実験で得られた効果量を採用有意水準：実験で用いた有意水準を採用

サンプルサイズ：実験で収集したサンプルサイズを採用

→実験における検定力を確認する

※事後検定力から得られる情報は少ない

(58)

理論編のまとめ

・帰無仮説検定には様々な問題がある

−「差がない」or「差がある」しか証明できない

− 有意差が「意味のある差」とは限らない

−有意⽔準の恣意性

−p値はサンプルサイズに影響される

⇔「⼆分法の明快さ」という⻑所もある例）効果の有無に関する研究

理論編のまとめ

・帰無仮説検定の問題を解決するために

−信頼区間

→標本から⺟集団の範囲を推定する

−効果量

→サンプルサイズの影響が少ない「効果の大きさ」を算出する

−検定⼒

→正しい検定に必要なサンプルサイズを検討する

(59)

理論編の引用文献および参考文献

大久保街亜・岡田謙介.（2012）. 『伝えるための心理統計―効果量・信頼区間・検定力』.勁草書房. 岡田謙介. （2015, 3月）. 『心理学における効果量をめぐる最近の話題』. 日本発達心理学会第26回大会

チュートリアルセミナー. 於: 東京大学.

http://www3.psy.senshu-u.ac.jp/~ken/DevPsy2015_okada.pdfよりダウンロード.

岡田謙介. （2014, 3月）. 『仮説検定における再現性の問題と新たな方法論』. 日本社会心理学会春の方法論セミナー. 於: 上智大学四谷キャンパス.

http://www.socialpsychology.jp/sympo/seminar_140317/jssp_ss2014_Okada.pdfよりダウンロード. 川端一光・荘島宏二郎. （2014）.『⼼理統計学のための統計学⼊⾨−ココロのデータ分析−』. 誠信書房. 南風原朝和.（2002）.『⼼理統計学の基礎−統合的理解のために』. 有斐閣アルマ.

南風原朝和.（2014）.『続・心理統計学の基礎―統合的理解を広げ深める』. 有斐閣アルマ.

水本篤・竹内理. （2008）.「研究論文における効果量の報告のために―基礎概念と注意点―」.『英語教育研究』, 31, 57–66.

水本篤・竹内理. （2010）.「効果量と検定⼒分析⼊⾨−統計的検定を正しく使うために−」.『外国語教育メディア学会関⻄⽀部メソドロジー研究部会2010年度報告論集』, 47–73.

Field, A. (2009).Discovering statistics using SPSS (3rd ed.). London: Sage Publications.

実践編

(60)

⺟集団と信頼区間

・“ESCI chapters 1-4 Jul 4 2011.xlmx” を開く

・シートから”CI Jumping”を選択する

⺟集団と信頼区間

(61)

⺟集団と信頼区間

⺟集団の平均値を捉えられていない信頼区間

各標本から算出される信頼区間

⺟集団（実際は不明）

⺟集団と信頼区間

＜やってみよう！＞

・信頼水準を上げると信頼区間はどうなりますか

・サンプルサイズを大きくすると信頼区間はどうなりますか

(62)

⺟集団と信頼区間

・信頼水準を上げると信頼区間はどうなりますか

→信頼区間は広くなる

・サンプルサイズを大きくすると信頼区間はどうなりますか

→信頼区間は狭くなる

p 値のダンスー信頼区間と p 値

・“ESCI chapters 5-6 Jul 4 2011.xlmx” を開く

・シートから”Dance p”を選択する

(63)

p 値のダンスー信頼区間と p 値

Speedを５に下げる

p 値のダンスー信頼区間と p 値

^⺟集団

各標本から算出される群ごとの

信頼区間各標本から算出

されるp値

(64)

p 値のダンスー信頼区間と p 値

⺟集団の平均値差

（今回は10）各標本における平均値差の信頼区間

p 値のダンスー信頼区間と p 値

・検定力を大きくするためにはどうすればよいですか？

・検定力が大きくなるとp値の出現傾向はどう変わりますか？

(65)

p 値のダンスー信頼区間と p 値

・検定力を大きくするためにはどうすればよいですか？

−サンプルサイズを増やす

−⺟集団の群間差を⼤きくする（効果量を⼤きくする）

→⺟集団の平均値差を⼤きくする or 標準偏差を小さくする

・検定力が大きくなるとp値の出現傾向はどう変わりますか？

−検定力に反比例してp値が小さくなる

G*powerによるサンプルサイズの決定

・G*powerとは？

−検定⼒を分析することができるフリーソフト

−ハインリッヒ・ハイネ大学内のwebサイトからダウンロード可 http://www.gpower.hhu.de/

−基本的な実験デザインに対応しており、使いやすい

(66)

G*powerの起動

対応なし t 検定における

事前サンプルサイズの算出

＜条件設定＞

・対応なしの２群間（等人数）に平均値差があるかを調べたい

・先行研究のレビューから効果量はd = .60 程度と考えられる

・有意水準は慣習的な.05を採用する

・検定力は慣習的な.80を採用する

(67)

対応なし t 検定における

事前サンプルサイズの算出

・Test family

−「ttests」を選択

・Statistical test

−「Means: Differences between two independent...」を選択

・Type of power analysis

−「A priori: Compute required sample size – given α...」を選択

対応なし t 検定における

事前サンプルサイズの算出

・Tail(s)

−「two」を選択

・Effect size d

−「0.6」を入力

・α err prob

−「0.05」を入力

・power (1-β err prob) ー「0.80」を入力

・Allocation ration ー「1」を入力

(68)

対応なし t 検定における

事前サンプルサイズの算出

必要なサンプルサイズは各群45名の計90名

対応なし t 検定における

事後検定力の算出

＜条件設定＞

・事前分析の結果に従って各群45名（計90名）データを収集

→ただし、技術的な問題から実際のデータは40名 vs. 45名

・対応なしt検定の結果は以下の通りであった

― t (83) = 4.02, p < .001, d = .41

(69)

対応なし t 検定における

事後検定力の算出

・Test family

−「ttests」を選択

・Statistical test

−「Means: Differences between two independent...」を選択

・Type of power analysis

−「Post hoc: Compute achieved power – given α...」を選択

対応なし t 検定における

事後検定力の算出

・Tail(s)

−「two」を選択

・Effect size d

−「0.41」を入力

・α err prob

−「0.05」を入力

・Sample size group 1 ー「45」を入力

・Sample size group 2 ー「40」を入力

(70)

対応なし t 検定における

事後検定力の算出

今回の結果における検定力は β = .46

ANOVA (対応あり×対応なし) における

事前サンプルサイズの算出

＜条件設定＞

・熟達度（対応なし；３水準）× 回数（対応あり；２水準）の２元配置分散分析における主効果と交互作用を検討したい

・効果量はとりあえず不明なため、目安の.25を採用する

・有意水準は慣習的な.05を採用する

・検定力は慣習的な.80を採用する

(71)

対応なし要因の主効果の検定力に基づく

事前サンプルサイズの算出

対応なし要因の主効果の検定力に基づく

事前サンプルサイズの算出

(72)

対応あり要因の主効果の検定力に基づく

事前サンプルサイズの算出

対応あり要因の主効果の検定力に基づく

事前サンプルサイズの算出

(73)

交互作用の検定力に基づく

事前サンプルサイズの算出

交互作用の検定力に基づく

事前サンプルサイズの算出

(74)

ANOVA (対応あり×対応なし) における

事後検定力の算出

＜条件設定＞

・事前分析の結果に従って各群40名（計120名）データを収集

→各群40名ずつデータを収集できた

・二元配置ANOVAの結果は以下の通りであった

対応なし要因主効果：F (2, 117) = 35.49, p < .001, η² = 38 対応あり要因主効果：F (1, 117) = 4.18, p = .043, η² = 03

交互作用：F (2, 117) = 1.01, p = .367, η² = 02

※対応あり要因間の相関係数：r = .31

対応なし要因の事後検定力の算出

(75)

対応なし要因の事後検定力の算出

対応あり要因の事後検定力の算出

(76)

対応あり要因の事後検定力の算出

交互作用の検定力事後検定力の算出

(77)

交互作用の検定力事後検定力の算出

エクセルでの効果量計算

• 実際の計算を体験してみましょう

• エクセルファイルの置き場所

• スペースなしで「JLTAWS2016」と検索

• またはhttp://goo.gl/fi8pIWと入力

(78)

効果量計算のまとめ

• _{t 検定} 平均値の差が「基準となるSD」いくつ分かを示す

• 分散分析主効果や交互作用の「平方和」が全体に占める割合を示す

※多重比較での効果量：「基準となるSD」方式を繰り返してもよい

→例：入門編で紹介したChen and Truscott (2010)

• 相関分析ピアソンの積率相関係数r がそのまま使える

なら中程度

（例）η² が .06〜 .14 なら中程度

（例）r が .30〜 .50 なら中程度

お疲れさまでした！

• _入門編

• _理論編

• _休憩

• _実践編

• _質疑応答